Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
o,SP
Anai
s
Or
gani
zador
es
LucianoSi
l
va
Mar i
aAmeli
aEl
i
seo
Nizam Omar
SãoPaul
o,2017
© Sociedade Brasileira de Computação, 2017 - Todos os direitos reservados
DESIGN GRÁFICO [DIAGRAMAÇÃO]: Gustavo Rorato Gentil;
REVISÃO DE TEXTO: dos autores;
Organização dos Anais: Luciano Silva, Maria Amelia Eliseo e Nizam Omar.
S678 Sociedade Brasileira de Computação. Congresso. (37. : 2017 : São Paulo, SP)
Anais do XXXVII congresso da sociedade brasileira de computação :
#ComputaçãoParaTudoeParaTod*s [recurso eletrônico] / organizadores: Luciano
Silva, Maria Amelia Eliseo, Nizam Omar. – Dados eletrônicos. – São Paulo :
Sociedade Brasileira de Computação, 2017.
Modo de acesso: http://www.sbc.org.br/csbc2017/
ISSN: 2175-2761
1. Informática – Congressos. I. Silva, Luciano. II. Eliseo, Maria Amelia. III.
Omar, Nizam.
CDD 24. ed. 004.06081
Diretoria da Sociedade Brasileira de Computação (SBC)
Presidente
Lisandro Zambenedetti Granville (UFRGS)
Vice-Presidente
Thais Vasconcelos Batista (UFRN)
Diretora Administrativa
Renata de Matos Galante (UFRGS)
Diretor de Finanças
Carlos André Guimarães Ferraz (UFPE)
Diretor de Educação
Avelino Francisco Zorzo (PUCRS)
Diretor de Publicações
José Viterbo Filho (UFF)
Equipe Organizadora
Beatriz de Almeida Pacheco (Mackenzie), Calebe de Paula Biachini (Mackenzie), Fábio
Silva Lopes (Mackenzie), Ilana de Almeida Concílio (Mackenzie), Ismar Frango
Silveira (Mackenzie), Leandro Augusto da Silva (Mackenzie), Leandro Nunes de Castro
(Mackenzie), Maria Amelia Eliseo (Mackenzie), Pedro Henrique Cacique Braga
(Mackenzie), Pollyana Notargiacomo (Mackenzie), Takato Kurihara (Mackenzie),
Valeria Farinazzo (Mackenzie), Vivaldo José Breternitz (Mackenzie)
Coordenação dos Eventos
(UNIRIO) - Local: Leandro Augusto da
2º Cloudscape - Cloudscape Brazil:
Geral: Priscila Solis (UNB) - Local: Silva (Mackenzie)
Calebe de Paula Biachini (Mackenzie) 6º DesafIE! - Workshop de Desafios
2º ETC - Encontro de Teoria da da Computação Aplicada à
Computação: Geral: Cláudia Linhares Educação: Geral: Edson Pinheiro
Sales (UFC), Rosiane de Freitas Pimentel (UFABC), Thiago Barcelos
(UFAM) - Local: Pedro P. B. de (Instituto Federal de São Paulo) - Local:
Oliveira (Universidade Presbiteriana Beatriz de Almeida Pacheco
Mackenzie) (Mackenzie)
Apresentação ................................................................................................................ 10
6º BraSNAM - Brazilian Workshop on Social Network Analysis and Mining .... 468
Apresentação
With the Communication on the data-driven economy (COM(2014)442 final), the
European Council (EC) aims to accelerate the transition towards a single digital market,
where cloud computing, big data, cyber security, 5G and Internet of Things are considered
key building block technologies. In Brazil, the National Strategy for Science, Technology
and Innovation (ENCTI) promotes Science, Technology and Innovation as a supporting
axis for the economic and social growth of the country. Its Strategic Program for Software
and Services in IT, known as project “TI Maior (Major/Bigger IT)”, recognises Cloud
Computing and Big Data as two major driving forces for the Brazilian economy, thus
aligned with the EC vision. That’s why this year's Cloudscape Brazil is showcasing
“Trustworthy cloud & big data services from research to market”, to demonstrate how
powerful this market is in the two regions and how productive transatlantic collaboration
is key to accelerating innovation.
A dialogue with Europe. A primary goal of this year's Cloudscape Brazil is to
ensure a productive exchange with research institutes and businesses that are active in
shaping an economy enabled by Big Data and Cloud Computing research in Europe.
Representatives from European research projects, funded by the European Commission,
will be attending to showcase cutting-edge results and Open Source Software available
in the CloudWATCH2 Service Offer catalogue, and which can serve as a reference to
build the brand-new EUBrasilCloudFORUM marketplace. The Clusters of European
Projects on Cloud will have a unique opportunity to share trends in European markets,
how they are meeting demand for the next wave of cloud computing, and also create new
collaboration synergies.
The floor to SMEs. European SMEs, will be invited to explain how they ended up
in delivering services that are emerging from top-class European research projects. Their
lessons learnt will be useful for all those Brazilian start-ups hosted at CATI-certified (the
Brazilian Information Technology Committee) accelerators that, since 2016, can apply
for funding H2020 and MCTI collaborative and which are also part of this agenda.
11
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral
Priscila Solis (UNB)
Coordenação Local
Calebe de Paula Biachini (Mackenzie)
12
2º ETC - Encontro de Teoria da Computação
Apresentação
Este ETC é a segunda edição de um evento voltado para a grande área de Teoria da
Computação, proposto e organizado por membros da Comissão Especial em Algoritmos,
Combinatória e Otimização (CE-ACO), cujo propósito maior é integrar e aproximar mais
efetivamente os pesquisadores da área e a área à Sociedade Brasileira de Computação
(SBC), bem como promover a sua divulgação entre a comunidade de pesquisadores,
profissionais e estudantes que participam dos congressos da SBC. Para esta edição foram
submetidos 44 trabalhos, de qualidade inegável, tal como o foram aqueles submetidos ao
I ETC. Isso nos levou novamente a realizar o evento em dois dias, desta feita com sessões
paralelas. Foram aceitos 39 trabalhos, dos quais 33 serão apresentados ao longo dos dias
03 e 04 de julho de 2017, intercalados por palestras de pesquisadores renomados da área.
Os demais trabalhos serão apresentados como pôsteres. Todos os trabalhos submetidos
tiveram entre 2 e 3 pareceres emitidos por especialistas, mobilizando 74 pesquisadores
que emitiram 134 pareceres. Os autores dos trabalhos aceitos estão em 28 instituições
distintas, no Brasil e no exterior.
Adicionalmente, o II ETC agrega também o II Desafio de Algoritmos,
Combinatória e Otimização (II DACO), com o fito de despertar talentos e entusiasmo
entre estudantes de mestrado e graduação em computação para essas áreas.
Gostaríamos de expressar nossos agradecimentos ao Prof. Jayme Szwarcfiter, que
generosamente nos tem apoiado, aceitando fazer a abertura do evento, aos palestrantes
Prof. Geraldo Robson Mateus, Profa. Sulamita Klein, Profa. Yoshiko Wakabayashi e
Prof. Carlile Lavor, que aceitaram prontamente o nosso convite de abrilhantar o evento.
Somos imensamente gratas à organização do CSBC, aos membros do Comitê Científico,
aos membros do Comitê do DACO e aos pareceristas externos pelo seus
comprometimentos e excelente trabalho.
13
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral
Cláudia Linhares Sales (UFC), Rosiane de Freitas (UFAM)
Coordenação Local
Pedro P. B. de Oliveira (Universidade Presbiteriana Mackenzie)
Comitê Científico
Ana Teresa Martins (DC, UFC), Calebe Bianchini (Univ. P. Mackenzie), Carlos
Eduardo Ferreira (USP), Celina M. H de Figueiredo (UFRJ), Cláudia Linhares Sales
(UFC), Claudson Bornstein (DCC - IM, UFRJ), Cristina Fernandes (USP), Edson
Cáceres (FACOM, UFMS), Erika Coelho (UFGO), Fábio Protti (IC, UFF), Flavio Keidi
Miyazawa (IC, UNICAMP), Jayme Szwarcfiter (COPPE, IM e NCE, UFRJ), Luciana
Buriol (INF, UFRGS), Luerbio Faria (UERJ), Luiz Satoru Ochi (IC, UFF), Manoel
Campelo (UFC), Mario Benevides (IM, UFRJ), Rosiane de Freitas (IComp, UFAM),
Vinicius Santos (DCC, UFMG)
Comitê do DACO
Calebe Bianchini (Univ. P. Mackenzie), Claudson Bornstein (DCC - IM, UFRJ),
Rosiane de Freitas (IComp, UFAM), Vinicius Santos (DCC, UFMG)
Revisores Ad-hoc
Alexandre Freire, Alexsander Melo, Ana da Silva, Ana Karolinna Maia de Oliveira,
Anand Subramanian, André Guedes, André Renato Villela da Silva, Angelo Brayner,
Aritanan Gruber, Atílio Luiz, Bruno Lopes, Calebe Bianchini, Carlos Fisch de Brito,
Carlos Hoppen, Claudia Linhares Sales, Claudson Bornstein, Cristiane Sato, Cristiano
Arbex, Cristina Fernandes, Daniel Posner, Daniela Cunha, Diana Sasaki, Diane
Castonguay, Diego Nicodemos, Edson Cáceres, Eduardo Laber, Emerson Monte
Carmelo, Fabio Dias, Fabio Protti, Fabricio Benevides, Fabricio Murai, Fernanda
Couto, Fernando Carvalho, Flavia Bernardini, Flavio Miyazawa, Francicleber Ferreira,
Gilberto Sousa, Glauber Cintra, Guilherme de Castro Mendes Gomes, Guilherme
Oliveira Mota, Gustavo Semaan, Hebert da Silva, Hugo do Nascimento, Igor Machado
Coelho, João Paulo Pordeus, Julio Araujo, Les Foulds, Luciana Buriol, Luciano Silva,
Luerbio Faria, Luiz Satoru Ochi, Luziane F. de Mendonça, Manoel Campelo, Marcelino
Pequeno, Marina Groshaus, Mauricio Collares, Márcia Cappelle, Mário Benevides,
Rafael Castro de Andrade, Raquel Bravo, Roberto Araujo, Rodrigo Hausen, Rosiane de
Freitas, Rubens Sucupira, Rudini Sampaio, Santiago Ravelo, Sheila Almeida, Taísa
Martins, Tiberius Bonates, Victor Campos, Vinicius dos Santos, Vitor Coelho,
Wanderley Alencar, Wellington Previero
14
2º ETC - Encontro de Teoria da Computação
Palestras
Teoria x Prática: Será que vamos conseguir vencer?
Geraldo Robson Mateus (Universidade Federal de Minas Gerais)
A Teoria na prática tem tido uma forte demanda acadêmica, social e econômica. O
objetivo desta palestra é mostrar como problemas clássicos podem ser integrados e
explorados para gerar resultados na prática. Como motivação serão usados modelos,
formulações e algoritmos para problemas de otimização de fluxos e alocação que fazem
parte da literatura desde as origens da computação e podem atender a diversas aplicações.
Estas surgem pela integração de problemas clássicos de fluxos em redes, planejamento
da produção, sequenciamento, roteamento, localização de facilidades, recobrimento,
coloração de grafos, conjuntos independentes e o próprio problema de alocação. Atendem
a diversos critérios de otimização como custos, tempo, qualidade, e restrições
relacionadas a atributos de capacidade, tempo, sequenciamento, disjunção. Com as
alternativas recentes de formulações tem permitido gerar algoritmos eficientes e capazes
de atender aos desafios das aplicações reais.
15
XXXVII Congresso da Sociedade Brasileira de Computação
Grafos-(k, l) bem-cobertos
Sulamita Klein (Universidade Federal do Rio de Janeiro)
Esse trabalho foi feito em colaboração com Luerbio Faria e Sancrey Rodrigues Alves.
16
2º ETC - Encontro de Teoria da Computação
This is joint work with C.G. Fernandes (USP), C.E. Ferreira (USP) and F.K. Miyazawa
(UNICAMP).
17
XXXVII Congresso da Sociedade Brasileira de Computação
18
2º ETC - Encontro de Teoria da Computação
Trabalhos aceitos
Análise dos Tempos de Setup Dependentes da Sequência em uma Empresa do Polo
Industrial de Manaus através da Regra de Liberação e do Algoritmo Genético
Luiz Eduardo Fernandes Bentes, Wesley da Silva Rocha, Renata da Encarnação Onety
19
XXXVII Congresso da Sociedade Brasileira de Computação
20
2º ETC - Encontro de Teoria da Computação
21
XXXVII Congresso da Sociedade Brasileira de Computação
Pôsteres
Algoritmo Branch-and-Bound para o Problema do Caixeiro Alugador
Vítor de Godeiro Marques
22
2º ETC - Encontro de Teoria da Computação
1. Introdução
A Zona Franca de Manaus, modelo de desenvolvimento econômico implantado pelo go-
verno brasileiro para o desenvolvimento da região, engloba majoritariamente o setor in-
dustrial. Atualmente, existem mais de 600 indústrias com atuações principais nos segmen-
tos de eletroeletrônicos, duas rodas e quı́mico, sendo, portanto, responsável pela maior
parte da economia da cidade de Manaus [SUFRAMA 2015]. Os profissionais atuantes
nesta realidade industrial vivenciam diversas situações que podem ser descritas em pro-
blemas de scheduling [Müller and Dias 2002], nos quais o tempo reflete diretamente no
desempenho financeiro da empresa. Uma dessas situações ocorre em uma empresa local
de produção de placas eletrônicas, responsável por diversos processos, desde a montagem
das placas à implementação destas em um produto final.
A situação-problema apresenta-se como a busca pela minimização do tempo de
término das tarefas (makespan) a serem realizadas por uma máquina de inserção au-
tomática de componentes. No contexto analisado, os tempos de preparação da máquina
são dependentes da sequência, isto é, terão duração de acordo com a tarefa processada
anteriormente. Atualmente, o problema é resolvido manualmente, o que evidencia um
considerável distanciamento entre os meios teóricos e práticos empregados na atividade
23
XXXVII Congresso da Sociedade Brasileira de Computação
2. Metodologia
Com os dados coletados na empresa a partir de entrevista do tipo semiestruturada,
verificou-se que o tempo de setup varia em função da similaridade entre as placas. Deste
modo, construiu-se a instância denominada J22. Esta corresponde à uma matriz de ad-
jacência com a quantidade de carretéis a serem trocados entre um modelo e outro de um
total de 22 placas.Além do desenvolvimento da instância J22, foram utilizadas instâncias
clássicas do Problema do Caixeiro Viajante, disponibilizadas na biblioteca TSPLIB, a fim
de garantir resultados consistentes dos métodos, uma vez que para essas instâncias a res-
posta ótima já é conhecida. Neste trabalhos, representamos apenas a instância Ulysses22
para efeitos de comparação.
A próxima etapa constitui-se na implementação dos algoritmos que indiquem a
sequência de produção de menor número de trocas de carretéis e, consequentemente,
menor consumo de tempo durante o setup. Cada algoritmo segue uma lógica diferente
para esse fim, sendo um otimizado, e o outro, seguindo a regra MTS, conforme descritos
a seguir.
24
2º ETC - Encontro de Teoria da Computação
3. Resultados
Os resultados foram obtidos através da execução e análise dos algoritmos descritos. Os
programas recebiam de entrada a matriz de adjacências ponderada, representando as
instâncias de teste. A saı́da é o custo total desta solução sendo o tempo total de setup
no sequenciamento. Os gráficos de Gantt foram utilizados para comparação visual dos
resultados de cada uma das técnicas utilizadas, Algoritmo Genético e MTS. No eixo ho-
rizontal, representa-se o tempo total da produção em uma dimensão arbitrária.
A Figura 1 demostra as soluções obtidas através da instância clássica Ulysses22.
Observa-se, no caso do MTS, como as melhores escolhas no curto prazo podem custar
muito no longo prazo. Isto é claramente representado nas tarefas finais. Quando com-
paradas individualmente, as tarefas do AG demonstram redução de tempo em relação às
soluções geradas pelo MTS. Caso o tempo fosse interpretado como minutos, por exemplo,
o MTS sequenciaria esta produção em 178,18h. O AG, por sua vez, geraria uma sequência
de placas em 121,31h. Significando uma redução de 31% no tempo da produção total.
25
XXXVII Congresso da Sociedade Brasileira de Computação
melhoria encontrada neste caso é de uma hora de produção entre as soluções obtida pelos
algoritmos. Em termos de produção, uma hora pode representar uma boa contenção de
gastos ao fim da linha de montagem. Esse tempo acumulado ao longo de uma semana ou
um mês, certamente geraria para a empresa mais lucro e menos desperdı́cio.
4. Conclusão
Conforme os dados expostos na seção anterior, nota-se a importância da imersão de
métodos computacionais na indústria como ferramenta auxiliadora na modelagem das
linhas de produção e, consequentemente, na tomada de decisão pelo gestor. No estudo
desenvolvido, ainda que a Regra de Liberação facilite, simplifique e padronize o sequen-
ciamento aos olhos humanos, há uma grande possibilidade de que o algoritmo proposto
pela Regra de Liberação produza um resultado distante ao ótimo, isso é, aumentando a
ociosidade da máquina, como apresentado na Figura 1.
Por se tratar de uma instância real, inicialmente foram alcançados os valores base
a fim de garantir a otimização dos algoritmos propostos (Figura 2). Após isto, foram re-
alizadas novas implementações que permitiram aumentar a quantidade de placas a serem
sequenciadas. Dessa forma, se amplia a atuação do estudo aos casos reais da empresa
através de técnicas escalonáveis, como é o caso do AG. Os trabalhos futuros visam apri-
morar os testes com novas variações do AG em novas instâncias genuı́nas da empresa.
Pode-se também pensar em prototipação de um sistema que permita uma melhor interação
com o profissional da produção.
Referências
de Lacerda, E. G. and de Carvalho, A. (1999). Introdução aos algoritmos genéticos.
Sistemas inteligentes: aplicaçoes a recursos hıdricos e ciências ambientais, 1:99–148.
Müller, F. M. and Dias, O. B. (2002). Algoritmo para o problema de seqüenciamento em
máquinas paralelas não-relacionadas. Revista Produção, 12(2):7.
Pacheco, R. F. and Santoro, M. C. (2001). A adoção de modelos de schedulingno brasil:
deficiências do processo de escolha. Gestão & Produção, 8(2):128–138.
Subramanian, A., Battarra, M., and Potts, C. N. (2014). An iterated local search heuristic
for the single machine total weighted tardiness scheduling problem with sequence-
dependent setup times. International Journal of Production Research.
SUFRAMA (2015). Modelo Zona Franca de Manaus. Disponı́vel em:
www.suframa.gov.br zfm o que e o projeto zfm.cfm Acessado em Março de 2017.
26
2º ETC - Encontro de Teoria da Computação
Abstract. In this paper we study the facility leasing problem with penalties. We
present a 3-approximation primal-dual algorithm, based on the algorithms by
Nagarajan and Williamson for the facility leasing problem and by Charikar,
Khuller, Mount and Narasimhan for the facility location problem with penalties.
1. Introduction
In the facility location problem, it is given a metric space (V, d), a set F ⊆ V of facilities,
an opening cost for each facility, and a set D ⊆ V of clients. The goal is to choose a subset
of facilities to open and an assignment between clients and facilities which minimize
the cost of opening the facilities plus the sum of the distances from each client to its
corresponding facility. This problem does not admit a polynomial-time algorithm with
approximation factor smaller than 1.463 unless P = NP [Sviridenko 2002]. Currently the
best approximation factor is 1.488 [Li 2013].
In the facility location problem with penalties, we may leave a client j unas-
signed if we choose to pay a penalty πj . I.e., we must select a subset of the facilities to
open, and a subset of the clients to assign to open facilities. The cost of a solution is the
cost of opening facilities, plus the sum of the distances from each assigned client to its
corresponding facility, plus the penalty cost for unassigned clients. The facility location
problem reduces to this problem if we set πj = ∞ for every client j. Currently, a 1.5148-
approximation algorithm is known for this problem [Li et al. 2015]; there is a simpler
3-approximation algorithm [Charikar et al. 2001].
In the facility leasing problem, clients are distributed along the time, and instead
of opening facilities permanently, we may lease each facility for one of K different dura-
tions δ1 , . . . , δK . The cost for leasing a facility p for δk units of time is γ(p, k) ∈ R+ ; it
depends on the facility position, as in the traditional facility location problem, but also on
the leasing type k. We may assume that leasing costs respect economies of scale, i.e., it is
more cost-effective to lease facilities for longer periods. We wish to select a set of facility
leases that serve the clients and minimizes the leasing costs plus the sum of the distances
from each client to the facility lease that serves it. This problem has a 3-approximation
primal-dual algorithm [Nagarajan and Williamson 2013].
∗
Supported by FAPESP/CAPES Proc. 2014/18781-1, and CNPq Proc. 142161/2014-4.
†
Supported by CAPES PNPD scholarship 1522390.
‡
Supported by CNPq Proc. 311373/2015-1, and FAPESP Proc. 2015/11937-9.
27
XXXVII Congresso da Sociedade Brasileira de Computação
Our Contribution. We study the combination of the two previous problems, which we
call the facility leasing problem with penalties (FL E P): facilities are leased instead of
permanently opened, and some clients may be left unassigned by paying a penalty cost.
We obtain a 3-approximation algorithm by combining algorithms for the facility leasing
problem and for the facility location problem with penalties.
Related Work. For every covering problem that admits an α-approximation,
the corresponding problem with submodular penalties admits a (1 − e−1/α )−1 -
approximation [Li et al. 2015]. Combining this approach with the algorithm by Nagarajan
and Williamson (α = 3), one obtains a 3.5277-approximation algorithm for the facility
leasing problem with submodular penalties. Note that FL E P is a particular case of this
problem, but our algorithm has smaller approximation ratio.
Text Organization. In Section 2 we define some notation and we present a formal defi-
nition of FL E P, as well as its primal and dual formulations. In Section 3 we describe our
algorithm, and in Section 4 we present some conclusions and future research directions.
Variable yf indicates whether facility f was leased, variable xjf indicates whether client j
was served by facility lease f , and variable zj indicates whether the algorithm decided to
28
2º ETC - Encontro de Teoria da Computação
pay the penalty associated with not assigning j. The relaxation of the dual problem is:
P
maximize j∈D αj
P
subject to j∈D (αj − d(j, f ))+ ≤ γf ∀f ∈ F
αj ≤ πj ∀j ∈ D
αj ≥ 0 ∀j ∈ D
The dual has the following economical interpretation: each client j is willing to pay αj to
connect itself to some facility lease. Part of this value covers the distance to the facility;
the other part is a contribution to pay the facility leasing cost. However, a client is not
willing to pay more than its penalty.
3. Algorithm
Our algorithm is based on the algorithm for the facility leasing problem, and on an al-
gorithm for the facility location problem with penalties [Nagarajan and Williamson 2013,
Charikar et al. 2001]. We say that client j reaches facility lease f if αj ≥ d(j, f ).
The algorithm maintains a dual variable αj for each client j, a set X of temporarily
leased facilities, and a set S of the clients whose dual variable still is being increased,
which initially is the whole set of clients D. Increasing pauses when: (a) a client reaches
an already temporarily leased facility, or (b) the sum of the contributions towards a facility
lease pays for its cost, or (c) the dual variable reaches the penalty cost for some client. We
then add to X the facilities that reach condition (b), and remove from S the clients that
reach some temporarily leased facility or whose dual variable pays for the penalty cost,
and then proceed increasing the remaining dual variables until S becomes empty.
29
XXXVII Congresso da Sociedade Brasileira de Computação
After this phase, we build an interference graph GX between the facility leases
in X. Graph GX has vertex set X and has an edge between facilities f and f ′ if there is
some client that reaches both f and f ′ . Then, we sort set X in non-increasing order of
lease duration and build a maximal independent set X ′ in a greedy manner; i.e., we visit
set X in that order and add a facility f to X ′ if there is no other facility lease f ′ ∈ X ′
reached by some client that reaches f . Thus X ′ satisfies the following properties:
1. Every client reaches at most one facility lease in X ′ ;
2. If f and f ′ in X are reached by the same client j, and if f ′ ∈ X ′ , then δf ≤ δf ′ .
Note that there may be some client j that reaches some f in X but is not covered by any
facility lease in X ′ . However, remember that some f ′ ∈ X ′ shares a reaching client j ′
with f , thus δf ≤ δf ′ and the intervals covered by facility leases f and f ′ overlap. Then,
we buy X̂, which has three copies of f ′ , beginning at instants tf ′ − δf ′ , tf ′ and tf ′ + δf ′ .
Thus, the interval formed by those three facilities, which is [tf ′ − δf ′ , tf ′ + 2δf ′ ), is a
superset of interval [tf , tf + δf ), and therefore one of the facility leases covers tj .
Finally, if some client j does not reach any facility lease in X, then its dual variable
pays for its penalty and we set a(j) to null.
Note that, although the number of potential facility leases is infinite, the algorithm
may be implemented in polynomial time in the input size: it is enough to consider, for
every facility point, a lease beginning at each instant in which we have a client.
We omit the proof of the following theorem due to space constraints.1
References
Charikar, M., Khuller, S., Mount, D. M., and Narasimhan, G. (2001). Algorithms for facility
location problems with outliers. In SODA’01: Proceedings of the 12th Annual ACM-SIAM
Symposium on Discrete Algorithms, pages 642–651.
Li, S. (2013). A 1.488 approximation algorithm for the uncapacitated facility location problem.
Information and Computation, 222:45–58.
Li, Y., Du, D., Xiu, N., and Xu, D. (2015). Improved approximation algorithms for the facility
location problems with linear/submodular penalties. Algorithmica, 73(2):460–482.
Nagarajan, C. and Williamson, D. P. (2013). Offline and online facility leasing. Discrete Opti-
mization, 10(4):361–370.
Sviridenko, M. (2002). An improved approximation algorithm for the metric uncapacitated facility
location problem. In Integer Programming and Combinatorial Optimization, volume 2337 of
Lecture Notes in Computer Science, pages 240–257.
1
A proof is available at http://www.ime.usp.br/˜mslima/appendix-etc2017.pdf.
30
2º ETC - Encontro de Teoria da Computação
{m.o.jenssen|b.j.roberts}@lse.ac.uk,
{yoshi|mota}@ime.usp.br, morrison@maths.ox.ac.uk
31
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Dados grafos G e H e um inteiro positivo q, dizemos que G é q-Ramsey para H se toda
q-coloração das arestas de G contém uma cópia monocromática de H. Denotamos essa
propriedade por G Ñ pHqq . Quando q “ 2, escrevemos simplesmente G Ñ H. Em
sua forma mais simples, o clássico Teorema de Ramsey [Ramsey 1930] afirma que para
qualquer grafo H existe um inteiro N tal que KN Ñ H. O número de Ramsey rpHq de
um grafo H é definido como o menor tal inteiro N . Problemas em Teoria de Ramsey tem
sido bastante estudados e muitas técnicas elegantes têm sido desenvolvidas para estimar os
números de Ramsey. O trabalho de Conlon, Fox e Sudakov [Conlon et al. 2015] contém
um resumo detalhado dos avanços na área.
Diversas variantes do clássico problema de Ramsey foram introduzidas e con-
tinuam a ser muito estudadas (uma boa introdução a esses problemas relacionados
pode ser vista em [Conlon et al. 2015]. Em particular, Erdős, Faudree, Rousseau e
Schelp [Erdős et al. 1978] propuseram o problema de determinar a menor quantidade de
arestas em um grafo G tal que G Ñ H. Mais precisamente, definimos o número de Ram-
sey relativo a arestas de H, denotado por r̂pHq, como r̂pHq “ mint|EpGq| : G Ñ Hu.
Aqui estamos interessados em problemas envolvendo estimar r̂pHq.
` ˘
Para qualquer grafo H, temos o limitante óbvio r̂pHq ď rpHq 2
. Um resultado de
Chvátal (veja, e.g., [Erdős et al. 1978]) garante que esse é o valor
`rpKn q˘ para o número
correto
de Ramsey relativo a arestas de grafos completos, i.e., r̂pKn q “ 2
.
Considerando o caminho Pn com n vértices, Erdős [Erdős 1981] fez a seguinte
pergunta: é verdade que limnÑ8 pr̂pPn q{nq “ 8 e limnÑ8 pr̂pPn q{n2 q “ 0? Utilizando
uma construção probabilı́stica, Beck [Beck 1983] provou que o número de Ramsey rela-
tivo a arestas de caminhos é linear, i.e., r̂pPn q “ Opnq. Em [Alon and Chung 1988] é
fornecida uma construção explı́cita de um grafo G com Opnq arestas tal que G Ñ Pn .
Recentemente, Dudek e Prałat [Dudek and Prałat 2015] obtiveram uma prova alterna-
tiva para esse resultado (veja também [Letzter 2016]). Mais geralmente, Friedman e
Pippenger [Friedman and Pippenger 1987] provaram que número de Ramsey relativo a
arestas de árvores com grau máximo limitado é linear (veja também [Dellamonica 2012,
Haxell and Kohayakawa 1995, Ke 1993]) e foi mostrado em [Haxell et al. 1995] que cir-
cuitos também tem número de Ramsey relativo a arestas linear.
Respondendo uma questão colocada por Beck [Beck 1990] (negativamente), que
perguntou se r̂pGq é linear para todos os grafos G com grau máximo limitado, Rödl e
Szemerédi mostraram que existe um grafo H com n vértices e grau máximo 3 tal que
r̂pHq “ Ωpn log1{60 nq. O melhor limitante superior conhecido atualmente para grafos
com grau máximo limitado é provado em [Kohayakawa et al. 2011], onde é provado que
para todo ∆ existe uma constante c tal que para qualquer grafo H com n vértices e grau
máximo ∆ temos
r̂pHq ď cn2´1{∆ log1{∆ n.
Resultados adicionais sobre o número de Ramsey relativo a arestas podem ser vistos
em [Ben-Eliezer et al. 2012, Kohayakawa et al. 2016, Reimer 2002].
Dado um grafo H com n vértices e um inteiro k ě 2, a k-ésima potência H k
de H é o grafo com conjunto de vértices V pHq e todas as arestas tu, vu tais que a
distância entre u e v em H é no máximo k. Respondendo uma questão sugerida por
32
2º ETC - Encontro de Teoria da Computação
Referências
Alon, N. and Chung, F. R. K. (1988). Explicit construction of linear sized tolerant
networks. Discrete Math., 72(1-3):15–19.
Beck, J. (1983). On size Ramsey number of paths, trees, and circuits. I. J. Graph Theory,
7(1):115–129.
Beck, J. (1990). On size Ramsey number of paths, trees and circuits. II. In Mathematics
of Ramsey theory, volume 5 of Algorithms Combin., pages 34–45. Springer, Berlin.
33
XXXVII Congresso da Sociedade Brasileira de Computação
Ben-Eliezer, I., Krivelevich, M., and Sudakov, B. (2012). The size Ramsey number of a
directed path. J. Combin. Theory Ser. B, 102(3):743–755.
Conlon, D. (2016). Problema sugerido para o ATI–HIMR Focused Research Workshop:
Large-scale structures in random graphs, Alan Turing Institute, Dezembro de 2016.
Conlon, D., Fox, J., and Sudakov, B. (2015). Recent developments in graph Ramsey
theory. In Surveys in combinatorics 2015, volume 424 of London Math. Soc. Lecture
Note Ser., pages 49–118. Cambridge Univ. Press, Cambridge.
Dellamonica, Jr., D. (2012). The size-Ramsey number of trees. Random Structures Algo-
rithms, 40(1):49–73.
Dudek, A. and Prałat, P. (2015). An alternative proof of the linearity of the size-Ramsey
number of paths. Combin. Probab. Comput., 24(3):551–555.
Erdős, P. (1981). On the combinatorial problems which I would most like to see solved.
Combinatorica, 1(1):25–42.
Erdős, P., Faudree, R. J., Rousseau, C. C., and Schelp, R. H. (1978). The size Ramsey
number. Period. Math. Hungar., 9(1-2):145–161.
Erdős, P. and Lovász, L. (1975). Problems and results on 3-chromatic hypergraphs and
some related questions. In Infinite and finite sets (Colloq., Keszthely, 1973; dedicated
to P. Erdős on his 60th birthday), Vol. II, pages 609–627. Colloq. Math. Soc. János
Bolyai, Vol. 10. North-Holland, Amsterdam.
Friedman, J. and Pippenger, N. (1987). Expanding graphs contain all small trees. Com-
binatorica, 7(1):71–76.
Haxell, P. E. and Kohayakawa, Y. (1995). The size-Ramsey number of trees. Israel J.
Math., 89(1-3):261–274.
Haxell, P. E., Kohayakawa, Y., and Łuczak, T. (1995). The induced size-Ramsey number
of cycles. Combin. Probab. Comput., 4(3):217–239.
Ke, X. (1993). The size Ramsey number of trees with bounded degree. Random Structures
Algorithms, 4(1):85–97.
Kohayakawa, Y., Retter, T., and Rödl, V. (2016). The size-Ramsey number of short sub-
divisions of bounded degree graphs. Submitted, 2016.
Kohayakawa, Y., Rödl, V., Schacht, M., and Szemerédi, E. (2011). Sparse partition uni-
versal graphs for graphs of bounded degree. Adv. Math., 226(6):5041–5065.
Kővári, T., Sós, V. T., and Turán, P. (1954). On a problem of K. Zarankiewicz. Colloquium
Math., 3:50–57.
Letzter, S. (2016). Path Ramsey number for random graphs. Combin. Probab. Comput.,
25(4):612–622.
Pokrovskiy, A. (2017). Calculating Ramsey numbers by partitioning colored graphs.
Journal of Graph Theory, 84(4):477–500.
Ramsey, F. P. (1930). On a problem of formal logic. Proc. London Math. Soc., S2-
30(1):264.
Reimer, D. (2002). The Ramsey size number of dipaths. Discrete Math., 257(1):173–175.
34
2º ETC - Encontro de Teoria da Computação
Abstract. In this paper we study the problem of coloring the edges of a graph
for any k-list assignment such that there is no maximal monochromatic biclique,
in other words, the k-biclique edge-choosability problem. We prove that the K3 -
free graphs that are not odd cycles are 2-star edge-choosable, chordal bipartite
graphs are 2-biclique edge-choosable and we present a lower bound for the
biclique choice index of power of cycles and power of paths. We also provide
polynomial algorithms to compute a 2-biclique (star) edge-coloring for K3 -free
and chordal bipartite graphs for any given 2-list assignment to edges.
1. Introduction
There are many problems related to coloring graphs. In this work we define an edge-
coloring problem called the the k-biclique edge-choosability problem. We call a biclique
an induced complete bipartite subgraph and if a maximal biclique is colored only with
one color then we say it’s a maximal monochromatic biclique.
The first related problem was studied by Pablo Terlisky in his master thesis in
2010 [Terlisky 2010]. He defined the k-biclique coloring analogously to the k-clique
coloring problem, studied by Dániel Marx [Marx 2011], as coloring the vertices of a
graph with k colors such that there is no maximal monochromatic biclique. A biclique
can be defined as a induced maximal complete bipartite subgraph. Terlisky proved that
the k-biclique coloring problem is ΣP2 -complete in general case for k ≥ 2. Furthermore
Hélio B. Macedo Filho et al. [Figueiredo et al. 2013] showed that to verify if a power of
a cycle or a power of a path is biclique colorable is coN P-complete.
Also, the k-biclique coloring problem was studied in the context of list coloring
by Marina Groshaus et al. in 2012 [Soulignac et al. 2012]. They showed that k-biclique
choosability and k-star choosability are ΠP3 -complete for k > 2 in general case. A power
of a path Pnk is graph with n vertices which {vi , vj } ∈ E(Pnk ) if and only if |i − j| ≤ k.
And a power of a cycle Cnk is a graph with n vertices which {vi , vj } ∈ E(Cnk ) if and only
if min{(j − i) mod n, (i − j) mod n} ≤ k. Note that a Pnk is a subgraph of Cnk .
When focus on coloring edges of the graph, the natural k-biclique edge-coloring
problem arises. It was defined by Dantas et al. as coloring the edges of a graph with k
colors such that there is no maximal monochromatic biclique [Guedes et al. 2017]. They
proved that the 2-biclique edge-coloring problem is N P-Hard in the general case, K3 -free
∗
Partially supported by CAPES/MathAmSud 021/14, ANPCyT PICT-2013-2205 and CONICET.
35
XXXVII Congresso da Sociedade Brasileira de Computação
graphs that are not odd cycles are 2-star edge-colorable, chordal bipartite are 2-biclique
edge-colorable and power of paths and power of cycles are biclique edge-colorable using
at most 4 colors. A graph is chordal bipartite if there is a perfect edge without vertex
elimination ordering, which each removed edge induces a biclique.
A natural question that arises is what happens when Dantas et al. results are
considered in the context of list coloring. Given a graph G and a list color assignment L
to its edges, G is L-biclique edge-colorable if each edge of G can be colored using one
color from its list such that the (non trivial) bicliques of G are not monochromatic. The
k-biclique edge-choosability problem is to decide if a given graph G is L-biclique edge-
colorable for every list color assignment L with k colors to each edge. The biclique choice
index of a graph G (ch′B (G)) is the minimum k such that G is k-biclique edge-choosable.
As the star is specific case of biclique then the k-star edge-choosability problem can
be defined analogously just replacing biclique by star. Since a graph choice index is at
least equals to its chromatic index [Rubin et al. 1979], then it is important to check the
relationship of graph biclique chromatic index and its biclique choice index. Therefore
the objective of this paper is to extend Dantas et al. results to list coloring context by
studying the k-biclique edge-choosability problem.
We prove that the K3 -free graphs that are not odd cycles are 2-star edge-choosable,
chordal bipartite are 2-biclique edge-choosable and present a lower bound for the biclique
choice index of power of cycles and power of paths.
Theorem 1. The K3 -free graphs not isomorphic to odd cycles, are 2-star edge-choosable.
Proof. Let G be a connected (otherwise use each connected component) K3 -free graph
not isomorphic to any odd cycle. If G is an even cycle then coloring its edges is equivalent
to color the stars of G. As even cycles are 2-choosable [Rubin et al. 1979] then G is 2-
star edge-choosable. Otherwise, G is not an even cycle, then we show that G is 2-star
edge-choosable by giving an algorithm for coloring the edges of the graph.
If there is a vertex v with degree 1, consider a depth first search (DFS) of G started
at v. In that way there are no return edges to the root v. If there is no vertex of degree 1,
then there is a cycle C = (v1 , . . . , vℓ ). Assuming G is not a cycle, there is a vertex of C
that has a neighbor, w, outside the C. Suppose w.l.o.g. that vℓ is that vertex. Consider a
DFS started at v1 such that v2 , . . . , vℓ appear in that sequence and before w. In that case,
there is at least a returning edge {vℓ , v1 } (the root) and vℓ is not a leaf of the DFS.
We color the tree edges with a color different from the edge that is above in the
tree, since the list has size 2 this assignment is always possible. After that, the stars
centered at vertex that are not the root or a leaf of the DFS are already not monochromatic.
36
2º ETC - Encontro de Teoria da Computação
If the root has degree 1, its star is trivial. Otherwise, if the star centered at the root is still
monochromatic, color the return edge {vℓ , v1 } with a different color. For the stars centered
at leaves of the DFS with return edges, choose one of its return edges and color with a
different color. Every non trivial star is not monochromatic. The remaining return edges
are colored with any color since all the stars are already colored with at least two colors.
We assure that every maximal star has two colors and then G is 2-star edge-choosable.
Proof. We are going to show that every chordal bipartite graph G is 2-biclique edge-
choosable by assigning inductively a color to an edge ei using its perfect edge-without-
vertex elimination ordering (e1 , . . . , em ) [Kratsch and Kloks 1995]. The base case is
when |E(G)| = 2 and in this case it is always possible to set a different color to each
of the edges. By inductive hypothesis we have that Gi−1 \ ei is 2-biclique edge-choosable.
As ei is bisimplicial then ei belongs only to one biclique, so it is enough to set a color to
ei different from the edges of the biclique which contains ei , if it is still monochromatic.
And since the order (e1 , . . . , em ) traverses all bicliques of G, then when a color is set to
e1 there is no monochromatic biclique for any 2-list assignment and thus G is 2-biclique
edge-choosable.
As the naive method to find a bisimplicial edge (the vertices of an edge induces a
complete bipartite graph) takes O(|E|2 ) steps then the algorithm to compute a 2-biclique
edge-coloring is O(|E|3 ).
Theorem
3. The biclique choice index ch′B (Cnk ) > max{2, α}, if k ≥ 2, n > 4k and
k 2α−1
2
≥ α .
Proof. Let H be the a graph defined by V (H) = {vij | {vi , vj } ∈ E(Cnk )} and E(H) =
{{vij , vjl }|{vi , vl } 6∈ E(Cnk )}, that is, vi , vj and vl induce a P3 of Cnk . We are going to
show that ch′B (Cnk ) > max{2, α}, if k ≥ 2, n > 4k and k2 ≥ 2α−1 α
, by proving
k
that if H is not α-choosable then Cn is not α-biclique edge-choosable, and that H is not
α-choosable.
As n > 4k then Cnk maximal bicliques are P3 and an edge of H is equivalent to a
biclique of Cnk . A vertex coloring of H is an edge coloring of Cnk such that the bicliques
37
XXXVII Congresso da Sociedade Brasileira de Computação
are not monochromatic. Note that by definition of H the degree of any vertex vij ∈ H
is dG (vi,j ) = 2(min{(j − i) mod n, (i − j) mod n}) and δ(H) = 2 and ∆(H) = 2k.
Since H is not a K1 , nor an even cycle, nor a θ2,2,2c , for an integer c, then H is not
2-choosable [Rubin et al. 1979] and thus ch′B (Cnk ) > 2.
Also note that the resulting graph H has a K⌈ k ⌉,⌈ k ⌉ as an induced subgraph. Since
2 2
2α−1
a complete bipartite graph Km,m is not α-choosable
for m ≥ α
[Rubin et al. 1979]
k 2α−1 k
then H is not α-choosable
for ⌈ 2 ⌉ ≥ α and thus Cn is not α-biclique edge-choosable
for ⌈ k2 ⌉ ≥ 2α−1
α
.
Corollary
4. The biclique choice index ch′B (Pnk ) > max{2, α}, if k ≥ 2, n > 2k and
k 2α−1
2
≥ α .
Proof. As the power of paths are a specific case of power of cycles then we can use the
proof
of Theorem
3 to conclude that ch′B (Pnk ) > max{2, α}, if k ≥ 2, n > 2k and
k
2
≥ 2α−1
α
5. Conclusion
In this paper we study the k-biclique-edge coloring choosability problem for some classes
of graphs. We prove that K3 -free graphs are 2-star edge-choosable, chordal bipartite are 2-
biclique edge-choosable and are not 2-biclique edge-choosable and present a lower bound
for the biclique choice index of power of cycles and power of paths. We remark that these
last result is not tight. We provide polynomial algorithms to find 2-biclique (star) edge-
coloring for K3 -free graphs and chordal bipartite graphs.
References
Figueiredo, C. M. H., Filho, H. B. M., Machado, R. C. S., and Dantas, S. (2013). Biclique-
colouring verification complexity and biclique-colouring power graphs. Discrete Ap-
plied Mathematics, 192:65–76.
Guedes, A., Ries, B., Sasaki, D., Groshaus, M., Machado, R. C. S., and Dantas, S. (2017).
On star and biclique edge-colorings. International Transactions in Operational Re-
search, 24(1-2):339–346.
Kratsch, D. and Kloks, T. (1995). Computing a perfect edge without vertex elimination
ordering of a chordal bipartite graph. Information Processing Letters, 55:11–16.
Marx, D. (2011). Complexity of clique coloring and related problems. Theoretical Com-
puter Science, 412:3487–3500.
Rubin, A. L., Taylor, H., and Erdös, P. (1979). Choosability in graphs. Congr. Numer,
26:125–157.
Soulignac, F. J., Groshaus, M., and Terlisky, P. (2012). The star and biclique coloring and
choosability problems. Journal of Graph Algorithms and Applications, 18:347–383.
Terlisky, P. (2010). Biclique-coloreo de grafos. Master’s thesis, Universidad de Buenos
Aires.
38
2º ETC - Encontro de Teoria da Computação
rb
Abstract. Given graphs G and H, we denote the following property by G Ý p H:
Ñ
for every proper edge-colouring of G (with an arbitrary number of colours)
there is a rainbow copy of H in G, i.e., a copy of H with no two edges of the
same colour. It is known that, for every graph H, the threshold function prb H “
prb
H pnq of this property for the binomial random graph Gpn, pq is asymptotically
p2q
at most n´1{m pHq , where mp2q pHq denotes the so-called maximum 2-density
of H. In this work we discuss this and some recent results in the study of anti-
Ramsey properties in random graphs, and we prove that if H “ C4 or H “ K4
´1{mp2q pHq
then prbH ă n , which is in contrast with the known facts that prb Ck “
´1{mp2q pCk q rb ´1{mp2q pK` q
n for k ě 7, and pK` “ n for k ě 19.
rb
Resumo. Dados grafos G e H, denotamos a seguinte propriedade por G Ý p H:
Ñ
para toda coloração própria das arestas de G (com uma quantidade ar-
bitrária de cores) existe uma cópia multicolorida de H em G, i.e., uma cópia
de H sem duas arestas da mesma cor. Sabe-se que, para todo grafo H, a
função limiar prb rb
H “ pH pnq para essa propriedade no grafo aleatório bino-
p2q
mial Gpn, pq é assintoticamente no máximo n´1{m pHq , onde mp2q pHq denota
a assim chamada 2-densidade máxima de H. Neste trabalho discutimos esse e
alguns resultados recentes no estudo de propriedades anti-Ramsey para grafos
´1{mp2q pHq
aleatórios, e mostramos que se H “ C4 ou H “ K4 então prb H ă n ,
´1{mp2q pCk q
que está em contraste com os fatos conhecidos de que prb
Ck “ n para
rb ´1{mp2q pK` q
k ě 7, e pK` “ n para k ě 19.
1. Introduction
Let r be a positive integer and let G and H be graphs. We denote by G Ñ pHqr
the property that any colouring of the edges of G with at most r colours contains a
monochromatic copy of H in G. In 1995, Rödl and Ruciński determined the threshold
p2q
for the property Gpn, pq Ñ pHqr for all graphs
! H. The maximum 2-density ) m pHq of
|EpJq|´1
a graph H is denoted by mp2q pHq “ max |V pJq|´2
: J Ă H, |V pJq| ě 3 , where we
suppose |V pHq| ě 3.
The author was supported by FAPESP (2013/11431-2, 2013/03447-6) and partially by CNPq
(459335/2014-6). The author acknowledges the support of CAPES/DAAD PROBRAL (430/15).
39
XXXVII Congresso da Sociedade Brasileira de Computação
Theorem 1 (Rödl and Ruciński [Rödl and Ruciński 1993, Rödl and Ruciński 1995]). Let
H be a graph containing a cycle. Then, the threshold function pH “ pH pnq for the
p2q
property Gpn, pq Ñ pHqr is given by pH pnq “ n´1{m pHq .
Given a graph H, we are interested in the following ‘anti-Ramsey’ type proper-
rb
ties of the random graph G “ Gpn, pq, denoted by G Ý Ñp H: for every proper edge-
colouring of G, there exists a rainbow copy of H in G, i.e., a copy of H with no two
edges of the same colour. The term ‘anti-Ramsey’ is used in different contexts, but
we follow the terminology used in [Kohayakawa et al. 2014, Kohayakawa et al. 2017,
rb
Nenadov et al. 2017, Rödl and Tuza 1992]. Since the property Gpn, pq Ý Ñp H is in-
creasing for every fixed graph H, we know that it admits a threshold function prb
H “
rb
pH pnq [Bollobás and Thomason 1987].
The study of anti-Ramsey properties of random graphs was initiated by Rödl and
Tuza, who proved in [Rödl and Tuza 1992] that for every ` there exists a fairly small p,
rb
such that Gpn, pq Ý p C` almost surely. In fact, this result answers positively a question
Ñ
posed by Spencer (see [Erdős 1979], p. 29), who asked whether there are graphs of
arbitrarily large girth that contain a rainbow cycle in any proper edge-colouring. We
´1{mp2q pHq
obtained the following result, which implies that prb
H ď n for any fixed graph H.
The proof of Theorem 2 combines ideas from the regularity method for sparse
graphs (see, e.g., [Kohayakawa 1997, Kohayakawa and Rödl 2003, Szemerédi 1978]) and
a characterization of quasi-random sparse graphs (see, e.g., [Chung and Graham 2008]).
This result was the beginning of a systematic study about anti-Ramsey problems in
random graphs. In [Kohayakawa et al. 2017] we proved that for an infinite family of
´1{mp2q pF q
graphs F we have prb F ! n , which is in contrast with Theorem 1. Before state
this result precisely´ we need one
¯ more definition: given a graph H with mp2q pHq ă 2,
put βpH, K3 q “ 13 1 ` mp2q1pHq . Theorem 3 below makes the discussion above precise.
Theorem 4 (Nenadov, Person, Škorić and Steger [Nenadov et al. 2017]). Let H be a cycle
´1{mp2q pHq
on at least 7 vertices or a complete graph on at least 19 vertices. Then prb
H “ n .
The authors of Theorem 4 remarked that their result could hold for all cycles and
cliques of size at least 4. We conjecture that Theorem 4 can indeed be extended to cycles
40
2º ETC - Encontro de Teoria da Computação
and cliques of size at least 5, but not for C4 and K4 . In fact, we show that if H is C4 or
´1{mp2q pHq
K4 , then prb
H is asymptotically smaller than n .
Consider the complete bipartite graph K2,4 with partition classes ta, bu and
tw, x, y, zu. We will first show that any proper colouring of the edges of K2,4 contains a
rainbow copy of C4 and then we conclude that for p " n´3{4 a.s. Gpn, pq contains a copy
of K2,4 . Suppose by contradiction that there is a proper colouring χ of EpK2,4 q with no
rainbow copy of C4 . W.l.o.g. let χpawq “ χpbxq “ 1 and χpayq “ χpbzq “ 2. Since
the colouring is proper the edges ax and az get different new colours, say, χpaxq “ 3 and
χpazq “ 4. Since the C4 induced by ta, x, b, yu is not rainbow, we have χpbyq “ 3. But
then the C4 induced by the vertices ta, x, b, zu is rainbow, a contradiction. Therefore, any
colouring of the edges of K2,4 contains a rainbow C4 . By Theorem 6, if p " n´3{4 , then
a.s. Gpn, pq contains a copy of K2,4 . Therefore, a.s. any proper colouring of the edges of
Gpn, pq contains a rainbow copy of C4 , which implies that prb C4 ď n
´1{mpK2,4 q
“ n´3{4 .
Lower bound for prb
C4 .
Now let us turn our attention to the lower bounds. Let G and H be graphs. We
say that a sequence F “ H1 , . . . , H` of H-copies in G is an H-chain if for any 2 ď i ď `
we have EpHi q X pEpH1 q, . . . , EpHi´1 qq ‰ H. Note that a copy of H in G that does not
intersect edge-wise with any other copy of H is a maximal H-chain composed by only
one copy of H. Furthermore, the edge sets of two distinct maximal H-chains are disjoint.
Thus, it is easy to see that each H in G belongs to exactly one maximal H-chain.
Let G “ Gpn, pq and let p ! n´3{4 . The idea is to prove that a.s. there exists a
proper colouring of G that contains no rainbow C4 . In this proof we will consider C4 -
chains that are maximal with respect to the number of C4 ’s. The first and more important
step is to colour some edges in all maximal C4 -chains so that all C4 ’s in G will be non-
rainbow and this partial colouring will be proper. Then, since all C4 ’s are coloured we
can just give a new colour for each one of the remaining uncoloured edges. For the first
step, we use Markov’s inequality and the union bound to obtain that a.s.
G does not contains any graph H with mpHq ě 4{3 and |V pHq| ď 12. (1)
41
XXXVII Congresso da Sociedade Brasileira de Computação
References
Bollobás, B. (2001). Random graphs. Cambridge Studies in Advanced Mathematics.
Cambridge University Press.
Bollobás, B. and Thomason, A. (1987). Threshold functions. Combinatorica, 7(1):35–38.
Chung, F. and Graham, R. (2008). Quasi-random graphs with given degree sequences.
Random Structures & Algorithms, 32(1):1–19.
Erdős, P. (1979). Some old and new problems in various branches of combinatorics. In
Proc. 10th southeastern conference on combinatorics, graph theory and computing,
pages 19–37, Winnipeg, Man. Utilitas Math.
Kohayakawa, Y. (1997). Szemerédi’s regularity lemma for sparse graphs. In Founda-
tions of computational mathematics (Rio de Janeiro, 1997), pages 216–230. Springer,
Berlin.
Kohayakawa, Y., Konstadinidis, P. B., and Mota, G. O. (2014). On an anti-Ramsey thresh-
old for random graphs. European Journal of Combinatorics, 40:26–41.
Kohayakawa, Y., Konstadinidis, P. B., and Mota, G. O. (2017). On an anti-ramsey thresh-
old for sparse graphs with one triangle. Journal of Graph Theory. In press.
Kohayakawa, Y. and Rödl, V. (2003). Szemerédi’s regularity lemma and quasi-
randomness. In Recent advances in algorithms and combinatorics, volume 11 of CMS
Books Math./Ouvrages Math. SMC, pages 289–351. Springer, New York.
Nenadov, R., Person, Y., Škorić, N., and Steger, A. (2017). An algorithmic framework
for obtaining lower bounds for random Ramsey problems. J. Combin. Theory Ser. B,
124:1–38.
Rödl, V. and Ruciński, A. (1993). Lower bounds on probability thresholds for Ramsey
properties. In Combinatorics, Paul Erdős is eighty, Vol. 1, Bolyai Soc. Math. Stud.,
pages 317–346. János Bolyai Math. Soc., Budapest.
Rödl, V. and Ruciński, A. (1995). Threshold functions for Ramsey properties. J. Amer.
Math. Soc., 8(4):917–942.
Rödl, V. and Tuza, Z. (1992). Rainbow subgraphs in properly edge-colored graphs. Ran-
dom Structures Algorithms, 3(2):175–182.
Szemerédi, E. (1978). Regular partitions of graphs. In Problèmes combinatoires et théorie
des graphes (Colloq. Internat. CNRS, Univ. Orsay, Orsay, 1976), volume 260 of Col-
loq. Internat. CNRS, pages 399–401. CNRS, Paris.
42
2º ETC - Encontro de Teoria da Computação
1. Introduction
All graphs considered here are simple and undirected. Let G be a graph and P be a path
in G. The length of P is its number of edges. If P has length k, we say that it is a k-
path. In the special case when k = 0, we also say that P is trivial. A set of pairwise
vertex-disjoint paths is a path cover of G if it spans V (G).
In the M INIMUM PATH C OVER (M IN PC) problem we want to find a path cover
of minimum cardinality. Clearly, deciding whether a graph has a Hamiltonian path
is equivalent to deciding whether it has a path cover of cardinality one. Therefore,
M IN PC is NP-hard in the classes of graphs for which the Hamiltonian path problem
is NP-complete, such as cubic planar 3-connected graphs [Garey et al. 1976], circle
graphs [Damaschke 1989], split graphs, chordal bipartite graphs [Müller 1996], etc.
∗
Preliminary results of an ongoing research carried out by the author in his PhD program at IME-USP
under the supervision of Yoshiko Wakabayashi. Research supported by CAPES fellowship, FAPESP Project
(Proc. 2013/03447-6) and MaCLinC project of NUMEC/USP.
43
XXXVII Congresso da Sociedade Brasileira de Computação
44
2º ETC - Encontro de Teoria da Computação
with a triangle Tv (that is, a K3 ). Each vertex of Tv represents one of the edges incident
to v in G. The set of edges E 0 is composed of the edges of the triangles Tv for each v
in V (G), and for each edge uv ∈ E(G) there is an edge in E 0 linking the vertices in Tu
and Tv that represent the edge uv. Observe that G0 always has a nontrivial path cover.
Moreover, if G is planar and 3-connected, then G0 also has these properties. The following
result is used to show the hardness to approximate M IN N T PC.
Proposition 2 Let G be a cubic graph and let G0 be a graph as defined above. Let P be a
nontrivial path cover of G0 . Then, G0 has a nontrivial path cover Q such that, |Q| ≤ |P|,
and whenever a path in Q intersects a triangle Tv , it traverses two edges of Tv .
Using the reduction and the Proposition above, we can conclude that M IN N T PC
is NP-hard on cubic planar 3-connected graphs. This result also follows from the fact that
the Hamiltonian path problem is NP-complete on cubic planar 3-connected graphs.
Now, we present some inapproximability results for M IN PC and M IN N T PC. For
that, we use the fact that the M INIMUM T RAVELING S ALESMAN (M IN TSP-(1, 2)) prob-
lem is Max SNP-hard [Papadimitriou and Yannakakis 1993] even when the edge-weights
are 1 or 2, and the edges with weight 1 induce a cubic graph. Using a result of Arora
et al. [Arora et al. 1998] and showing AP-reductions from M IN TSP-(1, 2) to M IN PC,
and from M IN PC to M IN N T PC, we prove the following result.
45
XXXVII Congresso da Sociedade Brasileira de Computação
Theorem 5 For every > 0, there is no 371370
− -approximation algorithm for M IN PC,
unless P = NP.
When restricted to trees, we can show the following result.
Theorem 6 M IN N T PC on trees can be solved in linear time.
3. Concluding remarks
As far as we know, the M IN N T PC and M AX N T PC problems have not been treated in the
literature. Currently, we are testing some integer programming formulations which we
have proposed for M IN N T PC. The computational results are preliminary, but seem very
promising. We are also interested in the design of approximation algorithms for M IN PC
and M IN N T PC.
References
Anstee, R. (1985). An algorithmic proof of Tutte’s f -factor theorem. J. Algorithms,
6(1):112–131.
Arikati, S. R. and Pandu Rangan, C. (1990). Linear algorithm for optimal path cover
problem on interval graphs. Inform. Process. Lett., 35(3):149–153.
Arora, S., Lund, C., Motwani, R., Sudan, M., and Szegedy, M. (1998). Proof verification
and the hardness of approximation problems. J. ACM, 45(3):501–555.
Corneil, D. G., Dalton, B., and Habib, M. (2013). LDFS-based certifying algorithm
for the minimum path cover problem on cocomparability graphs. SIAM J. Comput.,
42(3):792–807.
Damaschke, P. (1989). The Hamiltonian circuit problem for circle graphs is NP-complete.
Inform. Process. Lett., 32(1):1–2.
Franzblau, D. S. and Raychaudhuri, A. (2002). Optimal Hamiltonian completions and
path covers for trees, and a reduction to maximum flow. ANZIAM J., 44(2):193–204.
Garey, M., Johnson, D., and Tarjan, R. (1976). The planar Hamiltonian circuit problem is
NP-complete. SIAM J. Comput., 5(4):704–714.
Heinrich, K., Hell, P., Kirkpatrick, D., and Liu, G. (1990). A simple existence criterion
for (g < f )-factors. Discrete Math., 85(3):313–317.
Las Vergnas, M. (1978). An extension of Tutte’s 1-factor theorem. Discrete Math.,
23(3):241–255.
Lovász, L. (1970). Subgraphs with prescribed valencies. J. Combin. Theory, 8:391–416.
Lovász, L. and Plummer, M. D. (1986). Matching theory, volume 121 of North-Holland
Mathematics Studies. North-Holland Publishing Co., Amsterdam; North-Holland Pub-
lishing Co., Amsterdam. Annals of Discrete Mathematics, 29.
Moran, S. and Wolfstahl, Y. (1991). Optimal covering of cacti by vertex-disjoint paths.
Theoret. Comput. Sci., 84(2, Algorithms Automat. Complexity Games):179–197.
Müller, H. (1996). Hamiltonian circuits in chordal bipartite graphs. Discrete Math.,
156(1-3):291–298.
Papadimitriou, C. H. and Yannakakis, M. (1993). The traveling salesman problem with
distances one and two. Math. Oper. Res., 18(1):1–11.
46
2º ETC - Encontro de Teoria da Computação
1. Introdução
Em diversas aplicações de transportes, logı́stica, etc., necessitamos da instalação de ter-
minais, como aeroportos de conexão ou switches de rede. Um terminal é um cen-
tro de consolidação, troca e ordenação, que permite remanejamento de conexões di-
retas, usando uma quantidade menor de ligações indiretas. Uma vez que a maio-
ria de problemas voltados a essas aplicações são NP-difı́ceis, consideramos alternati-
vas, como algoritmos de aproximação: um algoritmo polinomial para um problema
de otimização é uma α-aproximação se o custo da solução encontrada é no máximo
α vezes mais caro que a melhor solução existente. Enquanto aproximações para pro-
blemas de localização, como o problema clássico dos k-Centros são conhecidas desde
os anos 80 [Hochbaum and Shmoys 1986], as primeiras aproximações para problemas
de alocação de terminais só apareceram depois, como para o chamado Problema de
Alocação de Terminais em Estrela, em 2009 [Iwasa et al. 2009]. Recentemente, Pe-
drosa et al. [Pedrosa et al. 2016] consideraram o Problema de Centro de Alocação dos
p-Terminais (Capacitated p-Hub Center Problem, p-HP), mostrando que é NP-difı́cil en-
contrar uma aproximação com fator melhor que 2 e obtendo um algoritmo com fator 3.
∗
Este trabalho foi parcialmente financiado pelo processo no 2015/11937-9, Fundação de Amparo à Pesquisa do
Estado de São Paulo (FAPESP).
†
Bolsista do CNPq - Brasil.
47
XXXVII Congresso da Sociedade Brasileira de Computação
2.1. Algoritmo
O algoritmo para o p-CHP consiste de quatro rotinas, p-C AP H UB, G ET M ONARCHS,
S ET D OMAINS e A SSIGN, que são detalhadas nos Algoritmos 1 a 4. Uma descrição tex-
tual é apresentada a seguir.
A rotina p-C AP H UB obtém uma estimativa do valor de uma solução ótima, τ ,
enumerando cada uma das possibilidades. Dada uma estimativa τ , cria-se um grafo H
bipartido entre demandas D e locais V , chamado de grafo de gargalo, em que uma aresta
significa que uma demanda pode ser servida a partir de um certo local ao custo de no
máximo τ . Se houver demanda isolada, então pode-se testar o próximo valor de τ no con-
junto de possibilidades, já que nesse caso não existe terminal que satisfaz essa demanda
com custo τ . Se toda demanda é incidente a pelo menos uma aresta em H, então o pro-
blema se reduz em encontrar uma solução com o número mı́nimo de terminais em que
cada demanda é satisfeita por um terminal na vizinhança de H. Iremos mostrar depois
que, para um certo τ , ou p-C AP H UB encontra uma solução com até p terminais em que
cada demanda é atribuı́da a um terminal à distância até 7 em H, ou em qualquer solução
do problema original de custo até τ , mais do que p terminais são necessários. No primeiro
caso, o algoritmo devolverá uma 7-aproximação e o algoritmo termina; no último caso,
conclui-se que τ está subestimando o valor ótimo, e testa-se a próxima possibilidade.
48
2º ETC - Encontro de Teoria da Computação
49
XXXVII Congresso da Sociedade Brasileira de Computação
2.2. Análise
A correção do algoritmo utiliza dois fatos principais: para um dado τ , a rotina p-C AP H UB
não seleciona mais terminais do que uma solução ótima; e, para cada demanda, o terminal
associado está à distância no máximo 7. Primeiro precisamos da seguinte definição.
Definição. Um monarca leve é um monarca m ∈ M com |Dom(m)| < L. Um monarca
cheio é um monarca m ∈ M com |Dom(m)| = L.
Lema 1. Seja kL o número de monarcas leves, nL é o número de demandas nos domı́nios
de monarcas leves e n o número total de demandas. Se S ∗ é o conjunto de terminais de
uma solução de custo τ com um número mı́nimo de terminais, então |S ∗ | ≥ kL + d n−n L
L
e.
O seguinte lema limita a distância entre uma demanda e o terminal atribuı́do.
Lema 2. Seja e uma demanda. Se e foi atribuı́da a um terminal v, então distH (e, v) ≤ 7.
Demonstração. Seja e uma demanda e seja m o monarca correspondente à execução
de A SSIGN no momento em que e foi atribuı́da. Vamos mostrar que distH (e, m) ≤ 6.
Consideramos dois casos. Se e pertence ao domı́nio ou ao império de m, então temos
distH (e, m) ≤ 2. Do contrário, então e ∈ Pass(m), i.e., e é uma demanda passada por
um filho de m na árvore de monarcas, diga-se m0 . Como e não foi atribuı́do a m0 , segue
que e ∈ Dom(m0 ). Obtemos distH (m0 , m) = 4 e distH (e, m0 ) ≤ 2. Combinando essas
equações, obtemos distH (e, m) ≤ distH (e, m0 ) + distH (m0 , m) ≤ 2 + 4 = 6.
Para concluir o lema, basta observar que todas as demandas atribuı́das por
A SSIGN, ao ser executado com monarca m, são atribuı́das a um mesmo local v na
vizinhança de m. Daı́, distH (m, v) = 1 e, finalmente, distH (e, v) ≤ distH (e, m) +
distH (m, v) ≤ 6 + 1 = 7.
Lema 3. Seja v ∈ V e e = (x, y) ∈ D. Se distH (e, v) = α, então d(x, v) + d(v, y) ≤ ατ .
Teorema 1. Existe uma 7-aproximação para o p-CHP.
Demonstração. Primeiro note que o algoritmo executa em tempo polinomial. Também,
pelo Lema 2, em cada iteração de p-C AP H UB com valor τ , obtemos uma atribuição φ tal
que para cada e ∈ D, distH (e, φ(e)) ≤ 7. Pelo Lema 3, obtemos que d(e, φ(e)) ≤ 7τ .
Seja OPT o custo da solução ótima S ∗ . Note que OPT é considerado pelo al-
goritmo p-C AP H UB, i.e., OPT ∈ F . Pelo Lema 1, na iteração em que τ = OPT, vale
|S ∗ | ≥ kL +d n−n
L
L
e. Como os únicos terminais instalados e não completamente ocupados
estão associados a monarcas leves e, possivelmente, um único terminal instalado para a
raiz r, segue que o A SSIGN instala, no máximo, kL + d n−n L
L
e ≤ |S ∗ | ≤ p terminais. Por-
0
tanto, para alguma iteração com valor τ ≤ OPT, o algoritmo irá devolver uma solução
de custo no máximo 7τ 0 e com no máximo p terminais.
Referências
[Hochbaum and Shmoys 1986] Hochbaum, D. S. and Shmoys, D. B. (1986). A Unified Approach to Ap-
proximation Algorithms for Bottleneck Problems. J. ACM, 33(3):533–550.
[Iwasa et al. 2009] Iwasa, M., Saito, H., and Matsui, T. (2009). Approximation algorithms for the single
allocation problem in hub-and-spoke networks and related metric labeling problems. Discrete Applied
Mathematics, 157(9):2078–2088.
[Khuller and Sussmann 2000] Khuller, S. and Sussmann, Y. J. (2000). The Capacitated K-Center Problem.
SIAM Journal on Discrete Mathematics, 13(3):403–418.
[Pedrosa et al. 2016] Pedrosa, L. L. C., Santos, V. F., and Schouery, R. C. S. (2016). Uma aproximação
para o problema de alocação de terminais. In Anais do CSBC 2016 (1o ETC - 2016).
50
2º ETC - Encontro de Teoria da Computação
Abstract. The family of rational relations, or the relations between words which
can be realised by transducers (automata with inputs and outputs) is considered.
Not every rational relation can be realised by an unambiguous transducer. Our
main contribution is a characterisation of the intrinsically ambiguous k-valued
rational relations based on the concept of lag between successful computations.
We also show that it is undecidable whether the union of two rational functions
is an intrinsically ambiguous relation. Finally, we show that the unambiguous k-
valued relations are precisely the sums of k pairwise disjoint rational functions.
Our proofs are built on structural constructions with automata based on the
concept of covering of automata.
Resumo. A famı́lia das relações racionais, ou relações entre palavras que po-
dem ser realizadas por transdutores (autômatos com entrada e saı́da) é consi-
derada. Nem toda relação racional pode ser realizada por um transdutor não-
ambı́guo. Nossa principal contribuição é uma caracterização das relações k-
valoradas intrinsicamente ambı́guas baseada no conceito de deslocamento en-
tre passeios. Também apresentamos uma prova simples de que é indecidı́vel se a
união de duas funções racionais é uma relação intrinsicamente ambı́gua. Final-
mente, mostramos que as relações k-valoradas não-ambı́guas são precisamente
somas de k funções racionais duas a duas disjuntas. Nossas provas consistem
de construções estruturais baseadas no conceito de revestimento de autômatos.
1. Introdução
Dizemos que um autômato A com transições rotuladas por elementos de um monóide M
é não-ambı́guo se passeios bem-sucedidos distintos de A tem rótulos distintos; dizemos
neste caso que o comportamento de A (= o subconjunto de M dos rótulos dos passeios
bem-sucedidos) é um conjunto racional não-ambı́guo. 1
O conceito de ambiguidade está na raiz de alguns dos problemas mais desafi-
adores na área de Linguagens Formais e Autômatos. Tal é a situação mesmo no
contexto mais elementar, onde M é um monóide livre A∗ e A é um autômato não-
determinı́stico (transições rotuladas por letras de A). Neste caso, sempre é possı́vel cons-
truir um autômato não-ambı́guo equivalente (no limite, basta considerar um autômato de-
terminı́stico equivalente, usando-se a construção dos subconjuntos). Em outras palavras,
∗
Este trabalho é apoiado pelo projeto Problemas estruturais em modelos formais de Computação, Edital
MCTI/CNPQ/Universal 14/2014 (Processo 459957/2014-7).
1
Por limitação de espaço, não apresentamos neste resumo definições e notações básicas sobre autômatos
e transdutores. Esse material pode ser consultado no livro de Jacques Sakarovitch [Sakarovitch 2009].
51
XXXVII Congresso da Sociedade Brasileira de Computação
52
2º ETC - Encontro de Teoria da Computação
53
XXXVII Congresso da Sociedade Brasileira de Computação
relação racional 2-valorada é intrinsicamente ambı́gua. De fato, card (uσ) = 1 sse |u|a =
|u|b, e assim {u ∈ dom σ : card (uσ) = 1} não é reconhecı́vel. De forma semelhante,
podemos mostrar que toda relação racional contida em (a, c)∗ (b, 1)∗ + (a, 1)∗ (b, c)∗ e con-
tendo um número infinito de pares da forma (ai bi , ci ) é intrinsicamente ambı́gua.
Teorema 2.2 Uma relação racional k-valorada é não-ambı́gua se, e somente se, ela pode
ser escrita como uma soma de k funções racionais duas a duas disjuntas.
Esboço da prova A substância da prova consiste na decomposição de um transdutor
k-valorado não-ambı́guo T em k transdutores funcionais não-ambı́guos com comporta-
mentos dois a dois disjuntos. O revestimento lexicográfico permite identificar, para cada
ℓ ≥ 0, os passeios bem-sucedidos para os quais há ℓ menores na ordem lexicográfica. O
sub-autômato correspondente dá origem a um transdutor funcional e não-ambı́guo. Os k
transdutores para ℓ = 0, 1, . . . , k − 1 formam a decomposição desejada.
3. Uma caracterização
Teorema 3.1 Seja τ : A∗ → B ∗ uma relação racional k-valorada. As condições
seguintes são equivalentes:
1. τ é intrinsacamente ambı́gua;
2. existe um transdutor T realizando τ tal que hT i = ∞;
3. para todo transdutor T realizando τ , hT i = ∞.
Comentário sobre a prova A substância da prova é a implicação (2) ⇒ (3), e é ela-
borada, dependendo de manipulações estruturais com passeios bem-sucedidos do revesti-
mento lexicográfico. Os detalhes podem ser consultados nas referências citadas.
4. Indecidibilidade
Teorema 4.1 É indecidı́vel se a união de duas funções racionais é uma relação intrinsi-
camente ambı́gua.
Esboço da prova A primeira etapa consiste em mostrar que não é decidı́vel se a
intersecção entre duas funções racionais é racional, o que estabelecemos com uma
redução ao Problema da Correspondência de Post. Mostramos em seguida que a união
de duas funções racionais é não-ambı́gua se, e somente se, sua intersecção é racional;
essa segunda etapa faz uso do Teorema 2.1.
References
Colcombet, T. (2015). Unambiguity in automata theory. In Proceedings of Descriptional
Complexity of Formal Systems - 17th International Workshop, DCFS 2015, volume
9118 of Lecture Notes in Computer Science, pages 3–18. Springer-Verlag.
de Souza, R. (2008). Approche structurelle des transducteurs de norme bornée. PhD
thesis, TELECOM ParisTech.
Eilenberg, S. (1974). Automata, Languages, and Machines. Academic Press, Inc.
Sakarovitch, J. (1998). A construction on finite automata that has remained hidden. The-
oretical Computer Science, 204(1-2):205–231.
Sakarovitch, J. (2009). Elements of Automata Theory. Cambridge University Press.
Sakarovitch, J. and de Souza, R. (2010). Lexicographic decomposition of k-valued trans-
ducers. Theory of Computing Systems, 47(3):758–785.
54
2º ETC - Encontro de Teoria da Computação
augusto.vellozo@tecsinapse.com.br
1. Introdução
Consideraremos um problema de alocação justa no qual é dada uma coleção de itens I que
deve ser dividida entre um conjunto de competidores K. Cada competidor deseja maximi-
zar sua satisfação considerando os itens alocados a ele. Desta forma, desejamos encontrar
uma alocação de itens aos competidores que seja justa segundo a métrica que será apre-
sentada adiante. Cada competidor expressa sua preferência por meio de uma função que
avalia numericamente sua satisfação ao receber uma coleção de itens. O objetivo é encon-
trar uma alocação de itens para os competidores que maximize suas satisfações e satisfaça
as propriedades de uma métrica de justiça considerada.
Para classificar os itens da coleção I, existe um conjunto de categorias H nas quais
todo item da coleção I pertence a alguma categoria de H. Cada competidor está interes-
sado na quantidade de itens de cada categoria alocados a ele. Para cada categoria h de H,
há uma quantidade ah que corresponde ao número de itens da categoria h disponı́veis
para alocação. Cada competidor deve receber uma quantidade fixa de itens, denominada
55
XXXVII Congresso da Sociedade Brasileira de Computação
demanda, dada por um vetor m de |K| posições onde mk é a quantidade exata de itens
que deve ser alocada para o competidor k. Desta maneira, uma alocação deve gerar,
para cada competidor k, um vetor indexado pelas categorias de H, no qual cada posição
representa a quantidade de itens da categoria alocadas P a ele. Portanto, uma alocação é
H
P como uma função α : K → N , tal que k∈K α(k)h ≤ ah , para todo h em
definida
H e h∈H α(k)h = mk , para todo competidor k em K. Em seguida, apresentamos a
expressão das preferências de um competidor sobre a coleção de itens. A preferência é
expressa por uma matriz P|K|×|H| , na qual Pk,h corresponde à quantidade de itens da cate-
goria h que o competidor k deseja receber. A satisfação máxima por categoria h do com-
petidor k é atingida quando a quantidade alocada de h para k é exatamente igual a Pk,h .
A função de satisfação é construı́da considerando as preferências dos competidores, de
forma a favorecer o atendimento dos valores Pk,h de cada competidor k e categoria h.
Além disso, deve favorecer o atendimento de categorias com quantidades desejadas mai-
ores e atender proporcionalmente quantidades desejadas iguais. Desta forma, definimos a
P |P −α(k) |2
função de satisfação como φ : K × NH → R, onde φ(k, α) = − h∈H k,h mk h para
um competidor k e uma alocação α.
Esse problema possui uma aplicação na qual uma distribuidora deseja distribuir
sua produção de veı́culos entre concessionárias. Os veı́culos são divididos em modelos
e cores e as demandas das concessionárias são determinadas pela distribuidora. As pre-
ferências das concessionárias são expressas por pedidos de quantidades de cada modelo
e cor. A satisfação de cada concessionária é dada pelo atendimento de seus pedidos.
Por regras de negócio internas, toda concessionária pode questionar o resultado de uma
alocação. Por isso, o problema foi desenvolvido para oferecer um certificado de justiça
que possa ser utilizado pela distribuidora para justificar uma alocação para suas conces-
sionárias.
Os resultados conhecidos para problemas de alocação justa com itens indivisı́veis
são recentes e, em geral, variam de acordo com as restrições impostas sobre a função de
satisfação e com a métrica de justiça escolhida. Para funções de satisfação monótonas
e polinomiais, [Golovin 2005] demonstrou que o problema é NP-difı́cil. Para o caso da
função de satisfação genérica, não necessariamente monótona, [Golovin 2005] demons-
trou que computar uma aproximação também é NP-difı́cil. Para a variante considerada,
não se sabe se o problema permanece NP-difı́cil.
O trabalho está organizado da seguinte forma. Na seção 2 definimos a métrica de
justiça, enquanto na seção 3 modelamos um problema auxiliar usado pelo método. Já na
seção 4, apresentamos o método exato. Por fim, na seção 5 apresentamos a conclusão.
56
2º ETC - Encontro de Teoria da Computação
57
XXXVII Congresso da Sociedade Brasileira de Computação
Considere uma alocação gerada pelo método. A ideia da prova de corretude é su-
por que existe uma outra alocação na qual é possı́vel aumentar a satisfação de um compe-
tidor sem violar a propriedade da justiça definida anteriormente. Ao considerar a iteração
em que o competidor em questão foi adicionado a R pelo método, deve se verificar um
absurdo com relação a otimalidade de uma solução do (P QP CM P CR ) da iteração.
4.1. Resultados preliminares
O método descrito acima foi implementado em python e o resolvedor GUROBI foi uti-
lizado na implementação. As instâncias da aplicação apresentam, em média, 130 com-
petidores e 35 categorias. Foram executadas 11 instâncias P da aplicação. O tamanho da
coleção de itens varia entre 3000 e 4500 unidades. O valor h∈H Pk,h é próximo de mk
do competidor k em todas as instâncias. O tempo de execução médio foi de 4 horas.
Referências
Bansal, N. and Sviridenko, M. (2006). The santa claus problem. In Proceedings of the
Thirty-eighth Annual ACM Symposium on Theory of Computing, STOC ’06, pages
31–40, New York, NY, USA. ACM.
Golovin, D. (2005). Max-min fair allocation of indivisible goods. Technical Report
CMU-CS-05-144, School of Computer Science, Carnegie Mellon University.
Le Boudec, J.-Y. (2008). Rate adaptation, Congestion Control and Fairness: A Tutorial.
58
2º ETC - Encontro de Teoria da Computação
1. Introdution
A set of processes belongs to a deadlock if each process of this set is blocked, waiting
response from another process of this same set; that is, the processes can not proceed
their execution, because of a necessary event or response that only another process in the
same set can send. Deadlock is a common phenomenon to resource sharing.
A wait-for graph G = (V, E) is an useful abstraction to analyse deadlock situa-
tions. The set of vertices V represents processes in a distributed computation and the set
of directed edges E represents wait conditions [1]. An edge exists in E directed away
from vi ∈ V towards vj ∈ V if vi is blocked, waiting a signal from vj . The graph G
changes dynamically according to the dependency model as the computation progresses.
The dependency models are known as deadlock models and, in essence, they determine
the development of G. More precisely, a deadlock model specifies rules for vertices that
are not sinks in G to become sinks [2]. (A sink is a vertex with out-degree zero.)
The main deadlock models that have been investigated so far in the literature are
presented below.
AND model – A process vi can only become a sink when vi receives a signal from all of
the processes in Oi .
OR model – a process vi becomes a sink when vi receives a signal from one of the
processes in Oi .
59
XXXVII Congresso da Sociedade Brasileira de Computação
X-Out-Of-Y model – There are two integers, xi and yi , associated with a process vi . In
order to be relieved from its wait state, it suffices for vi to receive a signal from any xi of
those yi processes.
AND-OR model – There are ti ≥ 1 subsets of Oi associated with process vi . These
subsets are denoted by Oi1 , . . . , Oiti and must be such that Oi = Oi1 ∪ · · · ∪ Oiti . It suffices
for a process vi to become a sink to receive a signal from all processes in at least one of
Oi1 , . . . , Oiti .
Once a deadlock is detected, only a external intervention may break it. The con-
tributions of this work are to provide an analysis of the computational complexity of op-
timization problems, so-called deletion problems, related to deadlock resolution. Given
a deadlocked distributed computation G which operates according to a deadlock model
M ∈ {AND, OR, X-O UT-O F -Y, AND-OR}, we investigate vertex-deletion and arc-
deletion problems whose goal is to obtain the minimum number of removals in order to
turn G free of graph structures that characterize deadlocks. The complexity of such prob-
lems depends on the deadlock model which governs the computation as well as the type
of structure to be removed. To the best of our knowledge, this computational complex-
ity mapping considering the particular combination of deletion operations and deadlock
models for deadlock resolution is novel.
Due to space constraints, all proofs will be omitted.
2. Deletion Problems
We define λ–D ELETION(M) as a generic optimization problem for deadlock resolution,
where λ indicates the type of deletion operation to be used in order to break all the dead-
locks of the input graph, and M ∈ {AND, OR, X-O UT-O F -Y, AND-OR} is the dead-
lock model of the wait-for graph G.
The types of deletion operations considered in this work are explained below:
1. Arc: The intervention is given by arc removal. The removal of an arc can be seen
as the preemption of a resource.
2. Vertex: The intervention is given by vertex removal. The removal of a vertex can
be seen as the abortion of one process.
3. Outputs: The intervention is given by removing all out-edges of a vertex.The
removal of all out-edges of a vertex can be interpreted as an immediate trans-
formation of a blocked process into an executable process by preempting all its
required resources.
3. Computational Complexities
As deadlock detection can be done in polynomial time for any model M ∈ {AND, OR,
X-O UT-O F -Y, AND-OR}, it remains to show NP-hardness proofs or polynomial algo-
rithms for our problems. The complexities are proved in the theorems below.
Theorem 1.
(a) A RC –D ELETION (AND) is NP-Hard.
(b) V ERTEX –D ELETION (AND) is NP-Hard.
(c) O UTPUTS –D ELETION (AND) is NP-Hard.
60
2º ETC - Encontro de Teoria da Computação
Theorem 2.
(a) A RC –D ELETION (OR) can be solved in polynomial time.
(b) O UTPUTS –D ELETION (OR) can be solved in linear time.
Theorem 3.
(a) A RC –D ELETION (AND-OR), V ERTEX –D ELETION (AND-OR) and O UTPUTS –
D ELETION (AND-OR) are NP-Hard.
(b) A RC –D ELETION (X-O UT-O F -Y), V ERTEX –D ELETION (X-O UT-O F -Y) and
O UTPUTS –D ELETION (X-O UT-O F -Y) are NP-Hard.
The Table 1 presents the computational complexities of the problems presented
so far. The complexity analysis of V ERTEX –D ELETION (OR) is presented in the next
section.
λ–D ELETION(M)
E OR AND-OR X-Out-Of-Y
Arc NP-H P NP-H NP-H
Vertex NP-H ? NP-H NP-H
Sink NP-H P NP-H NP-H
Table 1. Partial scenario of λ–D ELETION(M) complexity.
4. Vertex–Deletion(OR)
We explore different classes of graphs in order to discover features that make the prob-
lem V ERTEX –D ELETION (OR) NP-hard or solvable in polynomial time. We show that
V ERTEX –D ELETION (OR) is NP-hard via a 3-SAT reduction.
Lemma 4. V ERTEX –D ELETION (OR) is NP-Hard.
In general, a wait-for graph on the OR model can be seen as a conglomerate of
several strongly connected components. The problems that can be solved in polynomial
time has one characteristic in common: it suffices to simply solve every knot in G because
no other SCC will turn into a knot after these removals. The next result handles with the
natural question “Can V ERTEX –D ELETION (OR) be solved in polynomial time when the
input graph is strongly connected (i. e., G is a single knot)?”.
Corollary 5. V ERTEX –D ELETION (OR) remains NP-Hard even when G is strongly con-
nected.
Now we consider properties of the underlying undirected graph of G.
Since one of the most used architectures in distributed computation is the
user/server achitecture, a intuitively interesting graph class for distributed computation
purposes are bipartite graphs.
Theorem 6. V ERTEX –D ELETION (OR) remains NP-Hard even when the underlying
undirected graph of G is bipartite, planar and have maximum degree equal to 4.
We proved that even for graphs with ∆(G) = 4 the problem remains NP-Hard.
Furthermore, the problem for graphs with ∆(G) ≤ 2 is trivial [4]. Thus, we explore the
complexity of V ERTEX –D ELETION (OR) when the underlying undirected√subcubic graph
of G (graph with maximum degree three); in this case we obtain aa O(m n) algorithm.
When we study the vertices characteristics, based on the in- and out-degrees, we
are able to phase out unnecessary vertices such as sources and sinks. After that, all vertices
61
XXXVII Congresso da Sociedade Brasileira de Computação
of G are in deadlock. The next step is to continuously analyse graph aspects in order to
establish rules and procedures that may define specific vertices that are part of an optimum
solution.
By classifying the remaining vertices into types, we were able to identify cases
where a knot can be solved with only one removal without spreading to others SCCs.
By analyzing topological characteristics, we can obtain some reductions presented below,
that provide a partial solution and a smaller and more restricted graph to consider.
Observation 1. Any SCC with more than one output to a knot can be disregarded.
Lemma 7. Any SCC C 1 that reaches any SCC C 2 that is not a knot can be disregarded.
Furthermore, if C 1 is at distance 1 of some knot, a reduction is applicable to Q.
From the reductions presented, we have that the graph to be analyzed, without
loss of generality, has only knots that are directed cycles where each vertex in those knots
have an input edge coming from another SCC. Also, all SCCs (which are not a knot) only
reach knots at a distance one. Then, we show that the remaining problem, i.e., freeing the
graph of deadlock reduces to finding a (f, g)-semi-matching in SCCs after applying some
rules of reduction.
Lemma 8. [3] Given a bipartite graph G0 = (K ∪ C, E) and two functions f : k → N
and g : c → N, where k ∈ K and c ∈ C, find a maximum (f, g)-semi-matching of G0 can
be done in polynomial time.
Finally, we prove that the following theorem holds.
Theorem
√ 9. V ERTEX -D ELETION (OR) restricted to subcubic graphs can be solved in
O(m n) time.
Such results are summarized in the following table.
V ERTEX –D ELETION (OR)
Instance Complexity
Weakly connected NP-Hard
Strongly connected NP-Hard
+
Planar, bipartite, ∆(G) ≥ 4 and ∆(G) = 2 NP-Hard
∆(G) = 3 Polynomial
Table 2. Complexity of V ERTEX –D ELETION (OR) for some graph classes.
References
[1] V. C. Barbosa. The Combinatorics of Resource Sharing. In Models for Parallel and
Distributed Computation, pages 27–52. Springer, 2002.
[2] V. C. Barbosa, A. D. A. Carneiro, F. Protti, and U. S. Souza. Deadlock models in dis-
tributed computation: foundations, design, and computational complexity. In Pro-
ceedings of the 31st Annual ACM Symposium on Applied Computing, pages 538–541.
ACM, 2016.
[3] P. Kolman and J. Kratochvı́l. Graph-Theoretic Concepts in Computer Science: 37th Inter-
national Workshop, WG 2011, Teplá Monastery, Czech Republic, June 21-24, 2011,
Revised Papers, volume 6986. Springer Science & Business Media, 2011.
[4] D. P. Mitchell and M. J. Merritt. A distributed algorithm for deadlock detection and
resolution. In Proceedings of the third annual ACM symposium on Principles of
distributed computing, pages 282–284. ACM, 1984.
62
2º ETC - Encontro de Teoria da Computação
Abstract. This paper introduces the concept of probabilistic implicit graph re-
presentations, extending the definition from [Spinrad 2003] by allowing the ad-
jacency test to have a constant probability of false positives or false negatives.
It also discusses two novel representations based on well-known probabilistic
data structures: one that uses Bloom filters and can represent general graphs
with the same space complexity as the adjacency matrix (but outperforms it for
sparse graphs), and other that uses MinHash and can represent trees with lower
space complexity than any deterministic implicit representation.
1. Introdução
Uma representação implı́cita de grafos é um esquema de rotulação dos vértices que
resulta numa representação eficiente em espaço e permite o teste de adjacência efi-
ciente de um par de vértices através da comparação de seus rótulos [Muller 1988,
Kannan et al. 1992, Spinrad 2003]. Mais formalmente, dada uma classe de grafos C com
2f (n) membros de n vértices, uma representação é dita implı́cita se
1. é assintoticamente ótima, requerendo O(f (n)) bits para representar grafos de C;
2. distribui informação uniformemente entre os vértices, ou seja, cada vértice é re-
presentado por um rótulo usando O(f (n)/n) bits;
3. o teste de adjacência é local, isto é, para testar a adjacência entre qualquer par de
vértices, somente seus rótulos são usados no processo.
Desta definição, segue-se que a matriz de adjacências é uma representação implı́cita para
2
a classe que contém todos os grafos, pois há 2Θ(n ) grafos com n vértices e a matriz de ad-
jacência pode representá-los utilizando Θ(n2 ) bits. Por outro lado, a lista de adjacências
não é uma representação implı́cita, pois requer Θ(m log n) bits para representar a mesma
classe de grafos, que pode ser Θ(n2 log n) bits no pior caso (grafos completos).
Neste artigo introduzimos o conceito de representação implı́cita probabilistica
de grafos, que estende o conceito de representação implı́cita por relaxar uma das pro-
priedades: o teste de adjacência admite uma probabilidade constante de falsos negati-
vos ou falsos positivos (0% de probabilitade de falsos positivos/negativos implica uma
representação implı́cita regular). Representações probabilı́sticas são mais eficientes em
termos de espaço por permitir alguns resultados incorretos. Esta caracterı́stica permite
representar muitos grafos que não caberiam na memória principal com representações
tradicionais. Em especial, beneficiam-se aplicações de grafos onde não é tão importante
obter respostas exatas. Redes sociais, por exemplo, possuem grafos grandes e dinâmicos,
onde mesmo operações simples como contagem de componentes não terminariam antes
∗
Projeto parcialmente financiado por FAPERJ.
63
XXXVII Congresso da Sociedade Brasileira de Computação
do grafo provavelmente já ter sido modificado. Apresentaremos, neste artigo, duas novas
representações implı́citas probabilı́sticas, cada uma baseada em uma estrutura de dados
probabilı́stica distinta.
Estruturas de dados probabilı́sticas permitem representação eficiente de dados,
com menores requisitos de espaço que as estruturas determinı́sticas. Neste artigo, usa-
mos duas estruturas baseadas em hash para criar representações probabilı́sticas: Filtro
de Bloom [Bloom 1970], que permite o teste de pertinência a um conjunto com 1%
de falsos positivos, usando menos que 10 bits por elemento; e MinHash [Broder 1997,
Li and König 2010], que permite estimar, para os conjuntos A e B, o coeficiente de Jac-
|A∩B|
card J(A, B) = |A∪B| , representando cada conjunto com um número constante de bits.
64
2º ETC - Encontro de Teoria da Computação
J(A, B) = |A∩B|
|A∪B|
[Broder 1997]. Para tanto, computa-se a assinatura para cada conjunto
S, usando k funções hash h1 , . . . , hk , independentes duas a duas. Cada elemento na as-
sinatura é o valor hash mı́nimo hmin i (S) = min{hi (x) : x ∈ S} para 1 ≤ i ≤ k. A
probabilidade de dois conjuntos A e B terem um elemento comum às assinaturas é igual
ao seu coeficiente de Jaccard, ou seja, Pr[hmin min
i (A) = hi (B)] = J(A, B). Então, a
comparação de elementos correspondentes nas duas assinaturas forma um conjunto inde-
pendente de estimadores não-enviesados para o coeficiente de Jaccard dos dois conjuntos.
Assim, o aumento do número k de elementos da assinatura decresce a variância do es-
timador. Os limites de erro na estimativa de similaridade podem ser provados usando a
desigualdade de Chernoff. Em especial, para atingir um fator de erro θ com probabilidade
maior que 1 − δ, k deve ser definido de tal forma que k ≥ 2+θ θ2
× ln(2/δ).
A idéia principal da representação baseada em MinHash é encontrar, para qual-
quer grafo G = (V, E) de uma classe C, um método de construir conjuntos de repre-
sentantes Sv 6= ∅ para v ∈ V , tal que J(Su , Sv ) ≥ δB se e somente se (u, v) ∈ E
e J(Su , Sv ) ≤ δA se e somente se (u, v) ∈ / E. Nenhum coeficiente de Jaccard entre
conjuntos de representantes do grafo pode estar no intervalo (δA ; δB ). Desta forma, a
aresta (u, v) pode ser testada estimando-se J(Su , Sv ) > δ para algum δA ≤ δ ≤ δB .
A estimativa pode ser feita usando MinHash. Uma vez que as assinaturas requerem um
número constante de elementos (que podem ser representados com um número constante
de bits [Li and König 2010]), uma representação baseada em MinHash requer O(n) bits
para representar qualquer classe onde tal construção seja possı́vel.
Apresentamos, a seguir, uma construção dos conjuntos para árvores com δA = 1/3
e δB = 1/2. Dada uma árvore T , a construção é feita recursivamente, enraizando a árvore
em um vértice arbitrário v, definindo um conjunto para Sv com 2∆(T ) inteiros arbitrários.
Então, para cada nı́vel na árvore enraizada, o procedimento alterna entre escolher um
subconjunto ou estender o conjunto de cada vértice pai (exemplificado na Figura 1).
{1, 2, 3, 4}
1 raiz
2
{1, 2} 3
{1, 3} subconjunto
{1, 5}
7 subconjunto
65
XXXVII Congresso da Sociedade Brasileira de Computação
1 2 3 4 5 6 7 8
0 1 2 3 s S
0 1 0 0 0 0 0 0000 1 3 5 7
0 x4 x4
0101
0 0 0 1 0 1 0 1 1 4 5 8
0 0
1 0 1 2 0 0 1 1 0011 1 3 6 8
3 0 1 1 0 0110 1 4 6 7
Referências
Bloom, B. H. (1970). Space/time trade-offs in hash coding with allowable errors. Com-
munications of the ACM, 13(7):422–426.
Broder, A. Z. (1997). On the resemblance and containment of documents. In Compression
and Complexity of Sequences 1997. Proceedings, pages 21–29. IEEE.
Kannan, S., Naor, M., and Rudich, S. (1992). Implicit representation of graphs. SIAM
Journal on Discrete Mathematics, 5(4):596–603.
Li, P. and König, A. C. (2010). b-bit minwise hashing. In Nineteenth International World
Wide Web Conference (WWW 2010). Association for Computing Machinery, Inc.
Muller, J. H. (1988). Local structure in graph classes. PhD thesis, Georgia Institute of
Technology.
Spinrad, J. P. (2003). Efficient graph representations. American mathematical society.
66
2º ETC - Encontro de Teoria da Computação
1. Introduction
There are many approaches to formally verify authenticity and secrecy in communication
protocols. In this work we are most interested in logical approaches to deal with that kind
of system, in particular based on [Dolev and Yao 1983].
Epistemic logics deal with concepts like knowledge and believes. Many of the-
ses logics have been tailored to be applied to computer science problems. They have a
semantics based on [Lamport 1978] and can be used for protocol verification.
Some approaches use epistemic logic for reasoning about protocol specifications
[Cohen and Dam 2007, Boureanu et al. 2009, Kramer 2008]. The most important feature
that differentiate our approach is the use of structured propositions, i.e., these are propo-
sitions that have some kind of inner structure. Allowing for the development of a new
technique to deal with security protocols in an uniform way, keeping the logic proposi-
tional.
In section 2 we present the Dolev-Yao model. Section 3 introduces the Dolev-Yao
multi-agent epistemic logic and section 4 provides some future works and final remarks.
2. Dolev-Yao Model
Introduced in [Dolev and Yao 1983], this is a seminal work in this area. They work with
symmetric public key protocols and consider a perfect encryption, i.e., the keys used are
unbreakable. We present the system followed by examples and rules that can be obtained.
67
XXXVII Congresso da Sociedade Brasileira de Computação
A /B A /| /B B
(A,EB (M ),B) ?
(a) Msg. from A to B
(A,EB (M ),B) (Z,EB (M ),B) (B,EZ (M ),Z)
Z Z
(b) Intruder Z’s actions (c) Msg. from B to Z
A /B A /| /B B
(A,EB (M A),B) ?
(a) Msg. from A to B
(A,EB (M A),B) (Z,EB (M A),B) (B,EA (M B),Z)
Z Z
(b) Intruder Z’s actions (c) Msg. from B to Z
Example 2 A sends message M A to B and B replies to the user that is encrypted with
the message M and not to the sender [Fig. 2(a)]; intruder Z intercepts this message and
sends message (Z, EB (M A), B) to B [Fig. 2(b)]; B sends message (B, EA (M B), Z) to
Z [Fig. 2(c)] and Z cannot decode EA (M B) to obtain M .
2.2. Rules
These rules are not presented in the original paper, but they can easily be obtained from
the theory presented there. Here, we are assuming a set K = {K1 , . . . } of keys, a set
T represent a intruder knowledge and an encryption function {M }K , which encrypt a
message M under key K. A user can only decrypt an encrypted message {M }K if he
knows the key K.
M ∈T T `K T `M T ` {M }K T ` K
Reflexivity: Encryption: Decryption:
T `M T ` {M }K T `M
T `M T `N T ` (M, N ) T ` (M, N )
Pair-Composition: Pair-Decomposition:
T ` (M, N ) T `M T `N
3. Dolev-Yao Multi-Agent Epistemic Logic
This section presents the Dolev-Yao multi-agent epistemic logic S5DY . It is aimed to rea-
soning about knowledge in protocols, i.e., keys, messages, encryption/decryption, agents
and so on. We propose this new semantics and an axiomatization for this logic.
3.1. Language and Semantics
There is a novelty in the language of S5DY , formulas are built from expressions and not
only from proposition symbols. Intuitively, an expression is any peace of information that
can be encrypted, decrypted or concatenated in order to be communicated.
Definition 1 The Dolev-Yao multi-agent epistemic language consists of a set Φ of count-
ably many proposition symbols, a finite set A of agents, a set of keys K = {k1 , . . . }, the
boolean connectives ¬ and ∧, a modality Ka for each agent a1 . The expressions and
formulas are defined as follows:
1
We use the standard abbreviations ⊥ ≡ ¬>, ϕ ∨ φ ≡ ¬(¬ϕ ∧ ¬φ), ϕ → φ ≡ ¬(ϕ ∧ ¬φ) and
Ba ϕ ≡ ¬Ka ¬ϕ.
68
2º ETC - Encontro de Teoria da Computação
• M, s |= e iff s ∈ V (e)
• M, s |= ¬φ iff M, s 6|= φ
• M, s |= φ ∧ ψ iff M, s |= φ and M, s |= ψ
• M, s |= Ka φ iff for all s0 ∈ S, if s ∼a s0 then M, s0 |= φ
3.2. Axiomatization
1. All instantiations of propositional tautologies,
2. Ka (ϕ → ψ) → (Ka ϕ → Ka ψ),
3. Ka ϕ → ϕ,
4. Ka ϕ → Ka Ka ϕ (+ introspection),
5. ¬Ka ϕ → Ka ¬Ka ϕ (– introspection),
6. Ka m ∧ Ka k → Ka {m}k (encryption),
7. Ka {m}k ∧ Ka k → Ka m (decryption),
8. Ka m ∧ Ka n ↔ Ka (m, n) (pair composition & decomposition).
Theorem 1 S5DY is sound and complete w.r.t. the class of S5DY models.
69
XXXVII Congresso da Sociedade Brasileira de Computação
KB m ax. 7
KB {m}kZB ax. 6
sendBZ ({m}kBZ )
3. KB3 := KB2 ∪ KZ {m}kBZ
KZ m ax. 7
Intruder Z knows M .
4. Final Remarks
In this work, we have presented a new epistemic logic to reasoning about security pro-
tocols. This logic introduces a new semantics based on structured propositions. Instead
of building formulas from atomic propositions, they are built from expressions. The lat-
ter, are any peace of information that can appear in protocols: keys, messages, agents,
encrypted messages or any combination of these informations in pairs.
We propose this new semantics and an axiomatization for this logic. We also prove
soundness and completeness.
Acknowledgements: We would like to thank anonymous referees for their profitable
comments.
References
Boureanu, I., Cohen, M., and Lomuscio, A. (2009). Automatic verification of temporal-
epistemic properties of cryptographic protocols. Journal of Applied Non-Classical
Logics, 19(4):463–487.
Cohen, M. and Dam, M. (2007). A complete axiomatization of knowledge and cryptog-
raphy. In 22nd IEEE Symposium on Logic in Computer Science (LICS 2007), 10-12
July 2007, Wroclaw, Poland, Proceedings, pages 77–88.
Dolev, D. and Yao, A. C. (1983). On the security of public key protocols. Information
Theory, IEEE Transactions on, 29(2):198–208.
Fagin, R., Halpern, J. Y., Moses, Y., and Vardi, M. Y. (1995). Reasoning About Knowl-
edge. MIT Press, Cambridge, Massachusetts.
Kramer, S. (2008). Cryptographic Protocol Logic: Satisfaction for (timed) Dolev-Yao
cryptography. Journal of Logic and Algebraic Programming, 77(1–2).
Lamport, L. (1978). Time, clocks, and the ordering of events in a distributed system.
Commun. ACM, 21(7):558–565.
70
2º ETC - Encontro de Teoria da Computação
1. Introduction
Throughout this text, a graph is always a simple graph, which means undirected, loopless
and with no multiple edges. We follow the usual definitions and notation for graph-
theoretical related concepts. In particular, given a vertex u in a graph G, we denote the
set of neighbours of u in G by NG (u) and the degree of u in G by dG (u) = |NG (u)|.
Let G be an n-order graph of maximum degree ∆. A k-edge-colouring of G
is a function ϕ : E(G) → [1..k] such that adjacent edges have different images (or
colours). The chromatic index of G, denoted by χ′ (G), is the least k for which G is
k-edge-colourable. A breakthrough by [Vizing 1964] uses a recolouring procedure in or-
der to show that χ′ (G) is either ∆ or ∆ + 1. The graph G is said to be Class 1 (Class
2) in the former (latter) case. Deciding if a graph is Class 1 is an NP-complete prob-
lem [Holyer 1981], even when restricted to triangle-free graphs with ∆ = 3 [Koreas 1997].
We sayP that G is overfull if it has more than than ∆⌊n/2⌋ edges, or, equivalently,
if n is odd and u∈V (G) (∆−dG (u)) ≤ ∆−2 [Niessen 1994]. We say that G is subgraph-
overfull (SO) if it has a ∆-overfull subgraph, i.e. an overfull subgraph H with ∆(H) = ∆.
Being SO is clearly a sufficient condition for G to be Class 2. The Overfull Conjecture
states that this condition is also necessary when n > ∆/3 [Hilton and Johnson 1987].
This is particularly interesting because deciding if G is SO can be done in polynomial-time
when ∆ > n/3 and in linear-time when ∆ ≥ n/2 [Niessen 2001]. The conjecture holds
for triangle-free graphs with ∆ ≥ n/2 (which are all Class 1) [Zorzi and Zatesko 2016].
Following [Niessen 1994], we call a vertex of maximum degree in G a major of
G. A proper major of G is a major x of G which satisfies
X
(∆ − dG (u)) ≤ ∆ − 2. (1)
u∈NG (x)
We remark that x being a proper major does not imply that H := NG (x) ∪ {x} induces an
overfull graph, because for that to happen we should have (1) holding even when replacing
71
XXXVII Congresso da Sociedade Brasileira de Computação
2. The result
We use in our result (Theorem 3) a lemma from [Zorzi and Zatesko 2016] which is a vari-
ation of Vizing’s recolouring procedure [Vizing 1964]. We restate this lemma (Lemma 1)
in terms of two properties, defined below, about a sequence of distinct vertices σ =
v0 , . . . , vk of a graph G. For the statements of the properties and of the lemma, let
ϕ : E(G) → C be a t-edge-colouring of G and uv be a non-edge of G.
Property P1 . All of the following holds:
1. v0 = v and {v1 , . . . , vk } ⊆ NG (u);
2. for all i ∈ {0, . . . , k − 1}, either vi misses a colour αi , or i > 0 and some
wi ∈ NG (vi )\(NG (u)∪{v0 }) misses αi−1 , in which case we define αi := ϕ(vi wi );
3. for all i ∈ {1, . . . , k}, we have ϕ(uvi ) = αi−1 .
In Property P1 .2, when vi does not actually miss a colour αi , but has a neighbour
wi which misses αi−1 , we say that vi misses the colour αi := ϕ(vi wi ) virtually.
Property P2 . One of the following holds:
1. there is a colour missing at both vk and u;
2. k > 0 and the colour αj , for some j < k, is missing at vk ;
3. k > 0 and there is a vertex wk ∈ NG (vk ) \ (NG (u) ∪ {v0 }) which misses αk−1
such that ϕ(vk wk ) is missing at u or is equal to αj for some j < k.
Lemma 1 [Zorzi and Zatesko 2016]. If u misses a colour of C and there is a sequence
of distinct vertices σ = v0 , . . . , vk satisfying both Properties P1 and P2 , then G + uv is
also t-edge-colourable.
For any two colours α and β used in an edge-colouring of a graph G, we define
G[α, β] as the subgraph of G induced by all the edges coloured with α or β. Notice
that every component of G[α, β] is a path or an even cycle. Considering this, it is worth
remarking the following about Lemma 1, which, by the way, can be used to prove that
every graph with no major vertex belonging to an odd cycle is Class 1.
Observation 2. For every sequence σ = v0 , . . . , vk satisfying Property P1 , we can as-
sume without loss of generality:
1. Every colour β ∈ C missing at u is not missing at any vi for i ∈ {0, . . . , k − 1},
since otherwise, by taking the least such i, the sequence v0 , . . . , vi would already
satisfy all the properties required in Lemma 1.
2. For all β ∈ C missing at u and all i ∈ {0, . . . , k − 1}, the vertices u and vi belong
to the same component P in G[αi , β], since otherwise, by exchanging the colours
of the component to which u belongs, the sequence v0 , . . . , vi would itself satisfy
all the properties required in Lemma 1. Note that P is a path, u is an outer vertex
of P and, if vi does not miss αi virtually, the other outer vertex is vi .
3. For all i ∈ {1, . . . , k − 1} and all j ∈ {0, . . . , i − 1}, αi is not missing at vj
nor is ϕ(vj wj ) for some wj ∈ NG (vj ) \ (NG (u) ∪ {v0 }) which misses αj−1 , since
otherwise, by repeatedly taking such i and j, we would be able to choose αi for
the role of αj , thus replacing σ = v0 , . . . , vk by σ ′ = v0 , . . . , vj , vi+1 , . . . , vk .
72
2º ETC - Encontro de Teoria da Computação
Hence, by the Pigeonhole Principle, there must be two vertices y1 , y2 ∈ NH (vk ) \ {u}
missing the same colour γ ∈ C . As it is possible for only one among y1 and y2 to belong to
the same component of H[β, γ] as u, say y1 , exchanging the colours of the component to
which y2 belongs yields β missing at both u and y2 . It should be noticed that this operation
may cause some vi with i ∈ {0, . . . , k − 1} to miss β. In this case v0 , . . . , vi would satisfy
the two properties and we would be done. Otherwise, we are back to Case 1.
73
XXXVII Congresso da Sociedade Brasileira de Computação
wk−1 αk−2
β
β αk−1
y vk−1
β α1
αk
vk β
αk−2
αk−1
v1 α0
α0 β
β u
v = v0
Figure 1. An illustration for Case 1.2. Here, the dashed line indicates the edge to
be coloured and the dotted lines indicate the colours missing at the vertices.
Now, if we are not done yet, the sequence still satisfies Property P1 and there is
some wk ∈ NH (vk ) which misses αk−1 and defines αk := ϕ(vk wk ). So, if the sequence
does not satisfy also Property P2 , we can continue to construct it by appending to it the
vertex vk+1 such that ϕ(uvk+1 ) = αk , and so on, until the two properties are satisfied. In
the process, we may append a major vertex x which does not have a neighbour missing
ϕ(ux), but this situation we have shown how to handle.
We finish by pointing out that the edge-colouring process described in the proof
of Theorem 3 can be performed in polynomial time.
References
Hilton, A. J. W. and Johnson, P. D. (1987). Graphs which are vertex-critical with respect
to the edge-chromatic number. Math. Proc. Cambridge Philos. Soc., 102:103–112.
Holyer, I. (1981). The NP-completeness of edge-colouring. SIAM J. Comput., 10(4):718–
720.
Koreas, D. P. (1997). The NP-completeness of chromatic index in triangle free graphs
with maximum vertex of degree 3. J. Appl. Math. Comput., 93:13–17.
Niessen, T. (1994). How to find overfull subgraphs in graphs with large maximum degree.
Discrete Appl. Math., 51:117–125.
Niessen, T. (2001). How to find overfull subgraphs in graphs with large maximum degree,
II. Electron. J. Combin., 8.
Vizing, V. G. (1964). On an estimate of the chromatic class of a p-graph. Diskret. Analiz.,
3:25–30. In Russian.
Zorzi, A. and Zatesko, L. M. (2016). On the chromatic index of join graphs and triangle-
free graphs with large maximum degree. Discrete Appl. Math. Article in press:
http://dx.doi.org/10.1016/j.dam.2016.10.022.
74
2º ETC - Encontro de Teoria da Computação
1
Instituto de Computação – UFF, Niterói, Brasil
Facultad de Ingenierı́a - Universidad de Talca, Talca, Chile
Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brasil
Abstract. Given a graph G and a pair s,t in V(G), where each edge e has a
weight t(e) and each vertex v has a value p(v) such that t(e) represent a trans-
portation time and p(v) a prize collecting. Prize Collecting Path (PCP) consists
of finding a (s,t)-path that minimizes the total transportation time minus the
total prize of nodes in such path. PCP is at core of numerous relevant applica-
tions in several fields like telecommunications, transportation and logistics. In
this paper, the complexity behavior of the problem is analyzed. For some cases
we prove that PCP is NP-complete, these results lead to the generation of new
sets of benchmark instances that are computationally hard according to natural
characteristics of the problem. In addition, polynomial time algorithms are de-
scribed for other cases and a mathematical formulation is introduced to solve
general instances of PCP.
X X
min tij xij − pj zj (1)
(ij)∈A j∈V
Variables are represented by the binary vectors x ∈ {0, 1}|A| and z ∈ {0, 1}|V | ;
such that xij = 1 if arc (ij) ∈ A is used by a (s, t)-path and xij = 0 otherwise, and zi = 1
if node i ∈ V is visited by a (s, t)-path, and zi = 0 otherwise. A feasible (s, t)-path is
induced by a vector x that belongs to the following set:
75
XXXVII Congresso da Sociedade Brasileira de Computação
X
xsj = 1
X X
(sj)∈δ + (s)
xjh − xkj = 0, ∀j ∈ V \ {s, t}
Pst = x ∈ {0, 1}|A| (3)
(jh)∈δ + (t)
X
(kj)∈δ − (j)
xjt = 1
(jt)∈δ − (t)
X
zj ≤ xij , ∀j ∈ V \ {s, t} (4)
(ij)∈δ − (j)
zs ≥ 1 (5)
zt ≥ 1 (6)
NP-completeness
Definition 1 Given a graph G, a (s, t)-hamiltonian path is a simple path between two
nodes (source and target) that visits each node exactly once. The (s, t)-Hamiltonian Path
problem (for short, HP) is about determine whether a given graph contains a Hamiltonian
path starting in s and finishing in t.
76
2º ETC - Encontro de Teoria da Computação
that is equivalent to X
(te − ph(e) )
e∈E(p)
As source and target nodes have null prizes then p has the same cost in both prob-
lems.
(⇐) By construction, any (s, t)-path p of G0 is also an (s, t)-path of G, and as
shown previously, p has the same cost in both instances.
By Theorem 1.1 and Theorem 1.3 HP ∝ PCP ∝ SPAW. This gives us a mapping
of the complexity of the PCP problem, providing sufficient conditions for the problem
becomes polynomial or NP-hard. Figure 1 illustrates the relation of complexity between
the problems. More precisely, Theorem 1.1 and Theorem 1.3 implies the following corol-
laries.
77
XXXVII Congresso da Sociedade Brasileira de Computação
Corollary 1.4 For any graph class C such that HP on C is NP-hard, the PCP problem
on C is also NP-hard.
Corollary 1.5 Any instance I of PCP can be solved in polynomial time whether the
instance g(I) of SPAW can be solved in polynomial time, where g returns a digraph
constructed as described in the proof of Theorem 1.3.
Corollary 1.6 PCP can be solved in Ppolynomial time when the input G does not contain
cycles C = v1 , v2 , . . . , vk such that (te − pvj ) < 0.e = vi , vj , 1 ≤ i ≤ k, j = ((i + 1)
mod (k + 1)).
Proof. Follows from Lemma 1.5 and the result for minimum path of graphs with no neg-
ative cycles.
Now, we study the complexity of the problem in a special graph class.
Grid graphs
Definition 3 Let G∞ be the infinite graph whose vertex set consists of all points of the
plane with integer coordinates and in which two vertices are connected if and only if
the Euclidean distance between them is equal 1. A Grid graph is a node-induced finite
subgraph of the infinite grid. It is rectangular if its set of nodes is the product of two
intervals.
Lemma 1.7 [Itai et al.(1982)Itai, Papadimitriou, e Szwarcfiter] Hamiltonian Path prob-
lem in grid subgraphs is NP-complete.
Corollary 1.8 (s, t) Longest Path problem in rectangular grid graphs is NP-complete.
Theorem 1.9 Prize Collecting Path problem in general grid graphs is NP-complete.
References
Itai, A., Papadimitriou, C. H., e Szwarcfiter, J. L. (1982). Hamilton Paths in Grid Graphs.
SIAM Journal on Computing, 11(4):676–686. ISSN 0097-5397.
Karp, R. M. (1972). Reducibility among Combinatorial Problems. In Complexity of
Computer Computations, p. 85–103. Springer US, Boston, MA.
78
2º ETC - Encontro de Teoria da Computação
1. Introdução
Problemas de coloração são alguns dos mais estudados em teoria dos grafos. Em sua
versão clássica, o problema da k-coloração pergunta se existe uma atribuição de k cores
aos vértices de um grafo de forma que vértices adjacentes tenham cores distintas. Ao
longo dos anos, variações do problema foram propostas, sendo uma delas a k-clique-
coloração, onde se procura uma atribuição de cores aos vértices do grafo tal que ne-
nhuma clique maximal do mesmo seja monocromática. De forma similar, uma k-biclique-
coloração busca uma atribuição de cores aos vértices do grafo tal que nenhuma biclique
maximal seja monocromática.
Em termos de cliques, um trabalho recente [7] demonstrou que k-clique-coloração
é Σp2 -completo, enquanto [2] propôs um algoritmo O∗ (2n ) para se computar de forma
exata o número clique cromático χC (G). Já em termos de bicliques, [4] apresenta uma
prova de que k-biclique-coloração também é Σp2 -completo para grafos gerais, além de
mostrar a NP-completude do problema para diversas classes de grafos. Apesar disso,
em [6] são apresentados algoritmos polinomiais para esses problemas quando o domı́nio
é restrito aos grafos livres de unicordas.
Neste trabalho, apresentamos alguns resultados inspirados em [2] que possibilitam
a construção de um algoritmo O∗ (2n ) para o problema da k-biclique-coloração. Nele,
fazemos uso do algoritmo baseado em inclusão-exclusão proposto em [1] para o problema
da cobertura exata e mostramos a equivalência entre uma solução do mesmo e uma k-
biclique-coloração válida.
2. Definições e Notações
Ao longo deste trabalho, denotamos um grafo por G = (V, E), com V e E seu conjunto de
vértices e arestas, respectivamente, e n = |V | e m = |E|. Para cada X ⊆ V (G), dizemos
que G[X] = (X, EX ) é um subgrafo induzido de G se EX = {uv | u, v ∈ X, uv ∈ E}.
O complemento G = (V, E) de G é tal que E = {uv | uv ∈ / E}.
Um grafo Kn é dito ser completo se seus vértices são dois a dois adjacentes;
In é um conjunto independente se seu complemento é isomorfo a Kn . G é bipartido
se podemos construir uma bipartição V = (L, R) tal que G[L] e G[R] são conjuntos
independentes. Km,n é bipartido completo se todo u ∈ L é adjacente a todo v ∈ R.
79
XXXVII Congresso da Sociedade Brasileira de Computação
3. Computando χB (G)
Trabalhos recentes fazem uso do princı́pio de inclusão-exclusão para resolver uma série de
problemas clássicos da literatura, como cobertura exata [1] e k-vértice-coloração [5], além
de problemas menos estudados, como k-clique-coloração [2]. Uma abordagem natural
para se construir uma solução exponencial é a transformação do problema em questão
para algum outro cuja complexidade seja inferior. Neste âmbito, em [2] foi apresentado
um algoritmo O∗ (2n ) para a k-clique-coloração transformando uma instância do mesmo
para uma de cobertura exata sem prejudicar a complexidade final da solução.
Tomando como base os resultados de [2], neste artigo demonstramos como cons-
truir um algoritmo O∗ (2n ) para o problema da k-clique-coloração, transformando-o em
uma instância de cobertura exata. De forma natural, buscaremos cobrir V e, para isso, a
escolha de F deve ser feita de forma a impedir que qualquer cobertura válida possa gerar
uma coloração imprópria. A escolha dessa famı́lia é discutida abaixo.
Nosso primeiro resultado traduz a ideia de que, fixada uma cor i, toda biclique
80
2º ETC - Encontro de Teoria da Computação
O Lema 1 nos dá uma famı́lia natural para se usar durante o procedimento de co-
bertura: a famı́lia TB∗ dos complementos de transversais de HB . Computar diretamente
transversais, por sua vez, é custoso, uma vez que a famı́lia de bicliques maximais pode
ser da ordem de O(n · 3n/3 ), como demonstrado em [3]. Para enumerar TB∗ , observe que
TB = 2V \ OB . Ou seja, se conseguirmos descobrir OB de forma mais eficiente, TB∗ pode
ser construı́da em tempo O∗ (2n ). Nosso próximo resultado garante que tal descoberta é
possı́vel.
81
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
[1] Björklund, A., Husfeldt, T., Koivisto, M.: Set partitioning via inclusion-exclusion. SIAM
Journal on Computing 39(2), 546–563 (2009)
[2] Cochefert, M., Kratsch, D.: Exact algorithms to clique-colour graphs. In: International
Conference on Current Trends in Theory and Practice of Informatics. pp. 187–198.
Springer (2014)
[3] Gaspers, S.: Exponential Time Algorithms. Serge Gaspers (2010)
[4] Groshaus, M., Soulignac, F.J., Terlisky, P.: Star and biclique coloring and choosability.
Journal of Graph Algorithms and Applications 18(3), 347–383 (2014)
[5] Koivisto, M.: An o*(2ˆ n) algorithm for graph coloring and other partitioning problems
via inclusion–exclusion. In: Foundations of Computer Science, 2006. FOCS’06. 47th
Annual IEEE Symposium on. pp. 583–590. IEEE (2006)
[6] Macêdo Filho, H., Machado, R., de Figueiredo, C.: Efficient algorithms for clique-
colouring and biclique-colouring unichord-free graphs. Algorithmica pp. 1–29 (2016)
[7] Marx, D.: Complexity of clique coloring and related problems. Theoretical Computer
Science 412(29), 3487–3500 (2011)
82
2º ETC - Encontro de Teoria da Computação
1. Introdução
Neste trabalho, todo grafo G = (V (G), E(G)) é simples, conexo e tem pelo me-
nos uma aresta. Uma atribuição de cores para as arestas de G, geralmente dada por uma
função c : E(G) → N, é uma coloração arco-ı́ris se entre qualquer par de vértices existe
um caminho cujas cores das arestas são duas a duas distintas [Chartrand et al. 2008]. Ca-
minhos que não possuem duas ou mais arestas com a mesma cor são chamados de cami-
nhos multicoloridos.
O número de conexão arco-ı́ris, rc(G), é menor inteiro para o qual existe uma
coloração arco-ı́ris de um grafo G. O Problema da Coloração Arco-Íris é determinar
rc(G) para um dado grafo G. Em algumas classes de grafos, o número de conexão arco-
ı́ris é trivial, por exemplo, para uma árvore T com n vértices rc(T
n ) = n−1; para um grafo
completo Kn , rc(Kn ) = 1; e para um ciclo Cn , rc(Cn ) = 2 [Chartrand et al. 2008].
Para obter uma coloração arco-ı́ris de qualquer grafo simples e conexo G, é suficiente atri-
buir cores distintas para todas as arestas de uma de suas árvores geradoras, o que implica
rc(G) ≤ |V (G)| − 1. Observa-se que tal limite superior é justo. l Em m[Li et al. 2012], os
autores provaram que se G é 2-vértice-conexo, então rc(G) ≤ |V (G)| 2
. Para um grafo G
3n
conexo com n vértices e grau mı́nimo δ(G), rc(G) ≤ δ(G)+1
+ 3 [Chandran et al. 2012].
Em um grafo G, a distância entre dois vértices u e v é o tamanho do menor
caminho entre u e v, dado pelo número de arestas deste caminho. A excentricidade (v)
83
XXXVII Congresso da Sociedade Brasileira de Computação
Dos resultados para árvores e ciclos [Chartrand et al. 2008] e do Teorema 1, pode-
se inferir que rc(Pm ×Pn ) = m+n−2, para dois caminhos Pm e Pn , 2 ≤ m ≤ n; rc(Cm ×
Cn ) = m+n2
para dois ciclos Cm e Cn , m e n pares, 3 < m ≤ n; e rc(Cm ×Pn ) = n−1+ m2
para um caminho Pn e um ciclo Cm , m par. Quando m 6= 3 é impar, diam(Cm ) < rc(Cm )
e, portanto, o número de conexão arco-ı́ris do produto cartesiano é um problema em
aberto. A contribuição deste trabalho é a determinação de rc(Cm ×Pn ) quando m é ı́mpar
e rc(Cm × Cn ) quando m e n têm paridades distintas. Também provamos que rc(Cm ×
Cn ) ≤ m+n 2
se m e n são ı́mpares, melhorando o limite apresentado no Teorema 1. O
novo limite tem diferença de no máximo uma unidade do ótimo. As provas apresentadas
implicam em algoritmos polinomiais para coloração arco-ı́ris.
2. Resultados
Nesta seção, primeiro será apresentada a prova de que rc(Cm ×Pn ) = m2 +n−1
quando m é ı́mpar. É importante observar que os grafos Cm ×Pn e Pn ×Cm são isomorfos.
As provas fazem uso de um conhecido resultado segundo o qual qualquer grafo conexo G
tem rc(G) ≥ diam(G) [Chartrand et al. 2008]. Em seguida, determinamos rc(Cm × Cn )
quando m = n = 3 e quando m e n têm paridades distintas. No caso em que m e n são
ambos ı́mpares, sabe-se que rc(Cm × Cn ) ≥ diam(Cm × Cn ) = m+n 2
− 1. Neste caso,
m+n
apresentamos uma coloração arco-ı́ris com 2 cores.
Teorema 2. Se Cm × Pn tem m ı́mpar e n ≥ 2, então rc(Cm × Pn ) = m2 + n − 1.
84
2º ETC - Encontro de Teoria da Computação
m m
2
≤ i < m
− 1; e pinte (vi , u0 )(vi , um−1 ) com
m cor m2 − 1. Para cada caminho Pi , se
m
0 ≤ i ≤ 2 , pinte
(vi , u0 )(vi , u1 ) com cor 2 ; e se 2 ≤ i < m, pinte (vi , u0 )(vi , u1 )
m
com cor i − 2 .
Vamos mostrar que existe um caminho multicolorido entre cada par de vértices
(vi , uj ) e (vk , ul ), 0 ≤ i, k < m e 0 ≤ j, l ≤ 1. Se j = l, então o caminho multicolorido
é o menor caminho entre (vi , uj ) e (vk , ul ) no ciclo Cj . Então, suponha j 6= l e, sem
perda de generalidade, seja j = 0 e l = 1. Considere as operações aritméticas módulo m.
Seja P 0 o menor caminho de (vi , u0 ) a (vk , u0 ). Se (vi−1 , u0 ) ∈ P 0 , então (vi , u0 )(vi , u1 )
concatenado ao menor caminho de (vi , u1 ) a (vk , u1 ) é um caminho multicolorido. Senão,
P 0 concatenado a (vk , u1 ) é um caminho multicolorido.
Agora, suponha n > 2. Pinte as arestas dos ciclos Cj , 0 ≤ j < n, e as arestas
(vi , u0 )(vi , u1 ), 0 ≤ i < m, da mesma forma que no caso n = 2. Seja H o subgrafo de
G já colorido. Resta colorir as arestas dos caminhos Pi0 = (vi , u1 )(vi , u2 ). . .(vi , un−1 ),
0 ≤ i < m. Pinte a aresta (vi , uj )(vi , uj+1 ), 1 ≤ j < n − 1, com cor j + m2 . Observe
que cada caminho Pi0 , 0 ≤ i < m, é multicolorido e não contém cores usadas nas arestas
de H. Então cada par de vértices em G tem um caminho multicolorido. De fato, qualquer
par de vértices contido em C0 ∪ C1 possui um caminho multicolorido já apresentado no
caso n = 2. Considere o par de vértices (vi , uj ) e (vk , ul ), tal que i ≥ 1 e k > 1. Então,
o menor caminho entre (vi , uj ) e (vk , uj ) no ciclo Cj é multicolorido, e o caminho de
(vk , uj ) a (vk , ul ) em Pk0 é multicolorido por construção. Agora, considere um caminho
entre (vi , u0 ) e (vk , ul ), l > 1. O caminho de (vi , u0 ) a (vk , u1 ), já apresentado no caso
0
n = 2, concatenado ao caminho m de (vk , u1 ) a(vk , ul ), contido em Pk , é multicolorido.
Observe que foram utilizadas 2 + n − 2 = m2 + n − 1 cores.
Teorema 3. Seja Cm × Cn um grafo com m ı́mpar.
= 2, se m = n = 3;
n
= 2 + 1, se m = 3 e n > 3;
rc(Cm × Cn )
= m−1 + n2 , se m, n > 3 e n é par;
2
m+n
≤ 2 , se m, n > 3 e n é ı́mpar.
85
XXXVII Congresso da Sociedade Brasileira de Computação
Então, mconsidere
m, n > 3. Pinte cada ciclo Xj , 0 ≤ j < n, da seguinte forma.
Se 0 ≤ i < 2 , pinte a aresta(vi, uj )(vi+1 , uj ) com cor j. Se m2 ≤j < m − 1, pinte
m m
(vi , uj )(vi+1 , uj ) com cor j − 2 . Pinte (v0 , uj )(vm−1 , uj ) com cor 2 − 1. Pinte as
arestas (vi , uj )(vi , uj+1 ) ∈ Yi , 0 ≤ i < m, da seguinte
n forma. Considere as somas nos
m
m m. Se
ı́ndices módulo
m
0 ≤ i ≤ 2 e j ≡ 0 (mod n2 ), pinte a aresta (vi , uj )(vi , uj+1 )
com cor 2 . Se
m
2 ≤ i < m ejn ≡ 0 (mod 2 n), pinte a aresta (vi , uj )(vi , uj+1 )
com cor i − 2 . Se j 6≡ 0 (mod 2 ) e 1 ≤ j < 2 , pinte n a aresta (vi , uj )(vi , uj+1 )
com cor j + m2 , 0 ≤ i < m. Se
m n j ≡
6 0 (mod n
2
) e 2
< j < n, pinte a aresta
(vi , uj )(vi , uj+1 ) com cor j + 2 − 2 , 0 ≤ i < m.
Considere um par de vértices (vi , uj ) e (vk , ul ), 0 ≤ i, k < m e 0 ≤ j, l < n. Seja
H o subgrafo induzido pelas arestas coloridas com as cores do conjunto {0, 1, . . . , m2 }.
Se (vi , uj ) e (vk , ul ) pertencem à mesma componente conexa em H, então existe um ca-
minho multicolorido entre esses vértices, como provado no Teorema 2. Então, suponha
que (vi , uj ) e (vk , ul ) pertencem a componentes conexas distintas em H, O1 e O2 , res-
pectivamente. Existe em O1 um caminho multicolorido P entre (vi , uj ) e (vk , uj ). Além
disso, se O1 é um subgrafo isomorfo a Cm × P2 , então existe em O1 um caminho mul-
ticolorido P 0 entre (vi , uj ) e (vk , ut ), onde ou t = j − 1 ou t = j + 1. Como m P e P
0
são caminhos em O1 , ambos estão coloridos com cores do conjunto {0, 1, . . . , 2 }. Por
construção, em Cm × Cn , ou existe um caminho multicolorido entre (vk , uj ) e (vk , ul )
ou existe
m um
caminho mmulticolorido
n entre (vk , uj ) e (vk , ut ), com cores do conjunto
m
{ 2 , 2 + 1, . . . , 2 + 2 − 1}. Portanto, existe um caminho multicolorido en-
tre (vi , uj ) e (vk , ul ).
Para m, n > 3, foram usadas m2 + n2 cores. Logo, se n é par, diam(Cm ×Cn ) =
m−1
2
+ n2 ≤ rc(Cm × Cn ) ≤ m−1 2
+ n2 . Portanto, rc(Cm × Cn ) = m−1 2
+ n2 . Quando n é
ı́mpar, diam(Cm × Cn ) = 2 + 2 ≤ rc(Cm × Cn ) ≤ 2 + 2 = m+n
m−1 n−1 m−1 n+1
2
.
Referências
Chakraborty, S., Fischer, E., Matsliah, A., and Yuster, R. (2011). Hardness and algorithms
for rainbow connectivity. Journal of Combinatorial Optimization, 21:330–347.
Chandran, L. S., Das, A., Rajendraprasad, D., and Varma, N. M. (2012). Rainbow connec-
tion number and connected dominating sets. Journal of Graph Theory, 71:206–218.
Chartrand, G., Johns, G. L., McKeon, K. A., and Zhang, P. (2008). Rainbow connection
in graphs. Mathematica Bohemica, 133(1):85–98.
Li, X., Liu, S., Chandran, L. S., Mathew, R., and Rajendraprasad, D. (2012). Rainbow
connection number and connectivity. Electronic Notes of Combinatorics, 19(1). P20.
Li, X., Shi, Y., and Sun, Y. (2013). Rainbow connections of graphs: A survey. Graphs
and Combinatorics, 29(1):1–38.
86
2º ETC - Encontro de Teoria da Computação
Abstract. Let lct(G) be the minimum size of a set of vertices that contains at
least one vertex in every longest cycle of a graph G. We show that lct(G) = 1
if G is a 3-tree, and that lct(G) ≤ 2 if G is a 2-connected partial 3-tree.
1. Introduction
It is known that, in every 2-connected graph, every pair of longest cycles intersect each
other in at least two vertices. A natural question asks whether all longest cycles have a
vertex in common in 2-connected graphs. (If the graph is not 2-connected, two longest cy-
cles can be disjoint.) This has in general a negative answer, as the Petersen’s graph shows.
However, there are some graph classes for which this question has a positive answer, such
as classes containing only Hamiltonian graphs [Thomas and Yu 1994, Tutte 1956], and
dually chordal graphs [Jobson et al. 2016]. In this paper we show that the class of 3-trees
also has a positive answer to this question. Observe that 3-trees are not dually chordal
graphs, as they are not clique-Helly graphs, so they are not included in the class addressed
by Jobson et al. [Jobson et al. 2016].
When one cannot find a vertex that is common to all longest cycles in a graph, it
is interesting to look for a set of vertices such that every longest cycle has at least one
vertex in that set. Such a set is called a longest cycle transversal, or just a transversal,
and we look for small transversals, possibly of minimum size. The minimum size of
a transversal is denoted by lct(G). When we cannot determine lct(G) exactly, it is
interesting to search for a good upper bound for it. For every 2-connected graph G
with n vertices, lct(G) ≤ dn/3e [Thomassen 1978]. This bound was later improved
2/3
to lct(G) ≤ d n3 − n36 e [Rautenbach and Sereni 2014]. Restating what was written at the
end of the previous paragraph, here we show that lct(G) = 1 when G is a 3-tree. We also
show that, when G is a 2-connected partial 3-tree, lct(G) ≤ 2.
2. Preliminaries
Let C be a cycle in a graph G. Sometimes we will refer to C as the set of vertices of C.
We denote by |C| the length of C, that is, the number of edges in C. A triangle in G is
a cycle of length three. Let S be a set of vertices of G. Given a cycle C with at least
one vertex not in S, we say that S fences C if C − S is contained in a single connected
component of G − S, otherwise we say that C crosses S. For an integer t and a set S of
vertices, we say that a cycle C t-touches S if C intersects S at exactly t vertices. Note
that if C 1-touches S then C is fenced by S.
Lemma 1. Let G be a 2-connected graph with a triangle ∆. Let C be the set of all longest
cycles in G that cross ∆. At least two vertices of ∆ are in all cycles of C.
87
XXXVII Congresso da Sociedade Brasileira de Computação
Let X and Y be two subsets of V (G). We denote by CompY (X) the union of the
vertex set of the connected components of G − Y containing at least one vertex of X \ Y .
If C is a cycle, then we may write CompY (C) instead of CompY (V (C)). Also, if v
is a vertex, we may write CompY (v) instead of CompY ({v}). The next lemma is an
adaptation of Lemma 6 of de Rezende et al. [De Rezende et al. 2013].
Lemma 2. Let G be a 2-connected graph with a triangle ∆. If there are longest cycles C 0
and C 00 such that Comp∆ (C 0 ) ∩ Comp∆ (C 00 ) = ∅, then one of the vertices of ∆ is in all
longest cycles of G.
A 3-tree is defined recursively as follows. A graph that is a triangle is a 3-tree.
Any graph obtained from a 3-tree by adding a new vertex and making it adjacent to all the
vertices of an existing triangle is also a 3-tree. We say that a graph that is a triangle is a
trivial 3-tree, while all the other 3-trees are nontrivial. A graph is a partial 3-tree if it is a
subgraph of a 3-tree. Forbidden minors are known for partial 3-trees.
Lemma 3. [Arnborg et al. 1990] There is no K5 -minor in a partial 3-tree.
3. 3-trees
Our goal is to show that all longest cycles intersect in 3-trees. Next we will generalize
Lemmas 7 and 8 of de Rezende et al. [De Rezende et al. 2013] for 3-trees.
Lemma 4. If K is a K4 in a graph G, then either G contains a K5 -minor or
∩{Comp∆ (v∆ ) : ∆ is a triangle in K} = ∅,
where v∆ is the vertex of K not in ∆.
Let K be a K4 in a connected graph G. We say that K is 4-fencing if, for each
triangle ∆ in K, there is a longest cycle C in G such that C is fenced by ∆, intersects ∆
at most twice, and satisfies Comp∆ (C) = Comp∆ (v∆ ), where v∆ is the vertex of K not
in ∆.
Lemma 5. If, for every triangle ∆ in a nontrivial 3-tree G, there is a longest cycle fenced
by ∆ and intersecting ∆ at most twice, then G contains a 4-fencing K4 .
The next lemma is basically a corollary of Lemma 2.
Lemma 6. Let G be a 2-connected graph. If K is a 4-fencing K4 in G and C is a longest
cycle such that CompK (C) ∩ Comp∆ (v∆ ) = ∅, where ∆ is a triangle in K and v∆ is the
vertex in K not in ∆, then there is a vertex in K intersecting all longest cycles in G.
Corollary 7. Let G be a 3-tree. Either there exists a vertex intersecting all longest cycles
in G or every 4-fencing K4 in G fences no longest cycle.
The corollary above implies that, in a 3-tree, either there is a vertex intersecting all
longest cycles or every 4-fencing K4 intersects at least twice every longest cycle, because
each such cycle crosses such K4 . Next lemma strengthens this result.
Lemma 8. Let G be a 3-tree. Either there exists a vertex intersecting all longest cycles
in G, or no longest cycle in G 2-touches a 4-fencing K4 in G.
So, in a 3-tree G, either there exists a vertex intersecting all longest cycles in G,
or every longest cycle intersects at least three times each 4-fencing K4 . If G has a 4-
fencing K4 and no vertex intersects all longest cycles in G, then, for every triangle ∆ in
this K4 , there must be a longest cycle 3-touching the K4 at the vertices of ∆.
Theorem 9. In every 3-tree G, there exists a vertex intersecting all longest cycles in G,
that is, lct(G) = 1.
88
2º ETC - Encontro de Teoria da Computação
4. Partial 3-trees
Before proving our main result, we give some basic definitions and notation.
A tree-decomposition [Diestel 2010, p. 337] of a graph G is a pair (T, V) consist-
ing of a tree T and a collection V = {Vt : t ∈ V (T )} of bags Vt ⊆ V (G), that satisfies
the following three conditions:
S
(T1) t∈V (T ) Vt = V (G);
(T2) for every uv ∈ E(G), there exists a bag Vt such that u, v ∈ Vt ;
(T3) if a vertex v is in two different bags Vt1 and Vt2 , then v is also in every bag Vt such
that t is on the (unique) path from t1 to t2 in T .
The width of (T, V) is the number max{|Vt | − 1 : t ∈ V (T )}, and the tree-width tw(G)
of G is the minimum width of any tree-decomposition of G.
It is known that partial 3-trees are exactly the graphs with tree-width
three [Brandstädt et al. 1999]. Sometimes we are interested in particular tree-
decompositions. The following proposition is a lemma of Bodlaender.
Proposition 10. [Bodlaender 1998] If k is the tree-width of a graph G, then G has a
tree-decomposition (T, V) of width k such that |Vt | = k + 1 for every t ∈ V (T ), and
|Vt ∩ Vt0 | = k for every tt0 ∈ E(T ).
Given a node t of T , we say that the connected components of T − t are the
branches of T at t [Heinz 2013]. For a node t0 ∈ V (T − t), we denote by Brancht (t0 ) the
branch of T at t where t0 lies. Similarly, for a vertex v ∈ V (G), we denote by Brancht (v)
the branch Brancht (q) of T at t where q is a node of T such that v ∈ Vq .
Lemma 11. Let G be a 2-connected partial 3-tree. Let (T, V) be a tree-decomposition
of G as described in Proposition 10, and let t be a node of T . If lct(G) > 2, then there
exists a longest cycle in G that touches Vt at most once.
89
XXXVII Congresso da Sociedade Brasileira de Computação
5. Final remarks
Similar proofs can lead to more general results. Namely, that lct(G) ≤ ω(G) − 3 for
every 2-connected chordal graph, where ω(G) is the size of a maximum clique of G, and
that lct(G) ≤ k − 1 for every 2-connected graph of tree-width k. This would imply that
lct(G) = 1 for 2-connected partial 2-trees and for 2-connected planar graphs that are also
chordal.
Similar but weaker results can be obtained when considering paths instead of cy-
cles. One difficulty that arises is that paths can have their ends in different connected
components. That is, given a longest path P with ends x and y, and a triangle ∆, we can
have that Comp∆ (x) 6= Comp∆ (y). This generates more possibilities, and for this reason
the results are not as strong as for cycles.
References
Arnborg, S., Proskurowski, A., and Corneil, D. (1990). Forbidden minors characterization
of partial 3-trees. Discrete Mathematics, 80(1):1–19.
Bodlaender, H. (1998). A partial k-arboretum of graphs with bounded treewidth.
Theoretical Computer Science, 209(1):1–45.
Brandstädt, A., Le, V., and Spinrad, J. (1999). Graph Classes: A Survey. Society for
Industrial and Applied Mathematics, Philadelphia, PA, USA.
De Rezende, S., Fernandes, C., Martin, D., and Wakabayashi, Y. (2013). Intersecting
longest paths. Discrete Mathematics, 313:1401–1408.
Diestel, R. (2010). Graph Theory, volume 173 of Graduate texts in mathematics. Springer,
4th edition.
Heinz, M. (2013). Tree-decomposition: Graph minor theory and algorithmic implications.
Master’s thesis, Technischen Universität Wien.
Jobson, A., Kézdy, A., Lehel, J., and White, S. (2016). Detour trees. Discrete Applied
Mathematics, 206:73–80.
Rautenbach, D. and Sereni, J.-S. (2014). Transversals of longest paths and cycles. SIAM
Journal of Discrete Mathematics, 28(1):335–341.
Thomas, R. and Yu, X. (1994). 4-Connected projective-planar graphs are Hamiltonian.
Journal of Combinatorial Theory, Series B, 62(1):114–132.
Thomassen, C. (1978). Hypohamiltonian graphs and digraphs. In Alavi, Y. and
Lick, D. R., editors, Proceedings of the International Conference of the Theory and
Applications of Graphs (1976), volume 642 of Lecture Notes in Mathematics, pages
557–571. Springer.
Tutte, W. (1956). A theorem on planar graphs. Transactions of the American
Mathematical Society, 82:99–116.
90
2º ETC - Encontro de Teoria da Computação
1. Introdução
Um código com distância Hamming d é capaz de corrigir b d−1 2
c erros, [Hamming 1950].
A distância Hamming d de um código linear C é o tamanho do menor conjunto linear-
mente dependente de colunas de sua matriz de paridade H, [Hartnett 2012]. Para um dado
comprimento n e uma distância Hamming 3, o número máximo de palavras de um código
é dado por B(n, 3) = 2n−r , onde r é o único inteiro que satisfaz 2r−1 − 1 < n ≤ 2r − 1,
[MacWilliams and Sloane 1977], de onde podemos concluir que r = dlog2 (n + 1)e. Um
código com o máximo de palavras possı́veis é denominado código ótimo.
A seguir, caracterizaremos uma famı́lia de códigos lineares binários ótimos, para
d = 3, denominada Gham(n), onde n indica o comprimento da palavra do código.
91
XXXVII Congresso da Sociedade Brasileira de Computação
onde cn−1
ij representa o bit j da palavra cn−1
i .
Observe que, neste caso, tomamos o código Gham(n − 1) e acrescentamos 0 na
posição k + 1. Observe também que a segunda metade das palavras ainda pode
ser escrita como 1||[cn−1
i ⊕ bin(n, n − 1)], para M2 ≤ i ≤ M .
Neste caso, os parâmetros rn e kn são dados por: rn = rn−1 + 1 e kn = kn−1 .
Na Tabela 1 mostramos os códigos para n de 3 a 6. Os códigos para n de 5 e 6
correspondem à primeira forma de criação recursiva, com 3 bits de paridade para todos.
O código para n = 4 corresponde à segunda forma.
Prova: Vamos fazer a prova por Indução Matemática. Temos dois casos base, que são n =
3 e n = 4. É fácil ver que Gham(3) é gerado por G3 = [111], k = 3 − dlog2 (3 + 1)e = 1
e a única linha de A é o número 3 representado em 3 − 1 = 2 bits. Já para Gham(4)
temos a matriz G4 = [1011], com k = 4 − dlog2 (4 + 1)e = 1 e a única linha de A é o
número 3 representado em 4 − 1 = 3 bits.
Para o restante da prova consideraremos dois casos conforme n seja potência de
2 ou não. Lembre que todos os vetores uk+1 i de F k+1 são da forma 0ukj ou 1ukj , para
ukj ∈ F k . Suponha que Gn = [Ik×k |Ak×n−k ] é uma matriz geradora do código Gham(n).
Isto é, as palavras de Gham(n) são formadas fazendo-se cn = uki · Gn , para todo ui ∈ F k .
1. Se n + 1 6= 2m , para m ∈ N, então,
92
2º ETC - Encontro de Teoria da Computação
onde cada bit de bin(n + 1, n) é escrito em uma das n colunas de Gn+1 ordenada-
mente.
(a) se uk+1
i = 0||uki , então temos que (0||uki ) · Gn+1 = 0||cni , pois ao multipli-
carmos 0||uki pela primeira coluna de Gn+1 , geramos o primeiro bit 0 no
resultado final; e como o primeiro bit de 0||uki é 0, multiplicar 0||uki pelas
n últimas colunas de Gn+1 é o mesmo que fazer uki · Gn = cni .
(b) se uk+1
i = 1||uki , então (1||uki ) · Gn+1 = 1||[cni ⊕ bin(n + 1, n)], pois ao
multiplicarmos 1||uki pela primeira coluna de Gn+1 , geramos o primeiro bit
1 no resultado final; e como o primeiro bit de 1||uki é 1, multiplicar 1||uki
pelas n últimas colunas de Gn+1 é o mesmo que fazer uki ·Gn = cni e somar
em cada posição, os bits da primeira linha, ou seja, fazer cni ⊕bin(n+1, n).
Assim, todas as palavras de Gham(n + 1) são geradas.
2. Se n + 1 = 2m , para m ∈ N, então,
Neste caso, a matriz geradora Gn+1 possui uma coluna nula na posição k + 1.
0
.. Ak×n−k .
Gn+1 = Ik .
0
93
XXXVII Congresso da Sociedade Brasileira de Computação
4. Codificação e Decodificação
Seja uma palavra cni , com 0 ≤ i ≤ 2k −1, do código Gham(n). Note que pelo processo de
construção dos códigos Gham(n) se uma palavra começa com bit 1, então ela foi gerada
fazendo-se um ou exclusivo com bin(n, n − 1). Assim, tomando uki = uik uik−1 · · · ui1 ,
para calcular p(uki ), fazemos a operação de ou exclusivo de bin(0, r) com A(j) para todo
j tal que uij = 1 com 1 ≤ j ≤ k, onde A(j) representa o j-ésimo número que não é
potência de 2. O processo de decodificação é dado pelo teorema a seguir.
Teorema 3 Considere que um vetor y de tamanho n é recebido. Vamos denotar os k =
n−dlog2 (n+1)e bits inicias de y por u e os r finais por p0 (u). O processo de decodificação
consiste em calcular p(u) e fazer a operação p(u) ⊕ p0 (u). Temos que:
1. p(u) ⊕ p0 (u) = 0 se, e somente se, não ocorreu erro em y;
2. p(u) ⊕ p0 (u) tem apenas um bit 1, digamos na posição l se, e somente se, ocorreu
um erro na posição l de p0 (u);
3. p(u)⊕p0 (u) é o l-ésimo número em binário que não é potência de 2, com 1 ≤ l ≤ k
se, e somente se, ocorreu um erro na posição l (da direita para a esquerda) de u;
4. Se p(u) ⊕ p0 (u) não satisfaz a nenhuma condição anterior, então ocorreu mais de
um erro e y não é decodificado.
Prova:
1. p(u) ⊕ p0 (u) = 0 ⇔ p(u) = p0 (u) ⇔ y = u||p(u) ∈ Gham(n). Note que, para
todo u ∈ F k , o vetor u||p(u) de tamanho n é uma palavra do código Gham(n).
2. Se p(u) ⊕ p0 (u) tem apenas um bit 1, na posição l, então d(y, u||p(u)) = 1. O fato
de um código C ter distância Hamming 3, garante que um vetor qualquer de F k
tem distância 1 para, no máximo, uma palavra de C. Neste caso, y é decodificado
como u||p(u), isto é, ocorreu um erro na posição l de p0 (u). A volta é imediata.
Nos casos restante, temos que w(p(u) ⊕ p0 (u)) > 1.
3. Vamos mostrar que o erro ocorreu na posição l do vetor u. Para isto, considere o
vetor u0 obtido a partir de u trocando-se apenas o bit na posição l, para algum 1 ≤
l ≤ k. Temos que p(u0 ) = p(u) ⊕ A[l] ou podemos escrever p(u) ⊕ p(u0 ) = A[l].
Se p(u) ⊕ p0 (u) = A[l], então p(u0 ) = p0 (u). Portanto, d(y, u0 ||p(u0 )) = 1. E o
vetor y é decodificado como u0 ||p(u0 ), tendo ocorrido um erro na posição l de u.
Reciprocamente, se ocorreu um erro na posição l de u, então p(u) = p(u0 ) ⊕ A[l].
Como não ocorreu erro na parte de paridade, temos que p(u0 ) = p0 (u). Logo,
p(u) ⊕ p0 (u) = A[l].
4. Se p(u) ⊕ p0 (u) não satisfaz nenhuma das condições anteriores, considerando as
demonstrações dos 3 itens, podemos concluir que houve mais de 1 erro o que
impossibilita a correção.
Referências
Hamming, R. W. (1950). Error detecting and error correcting codes. Bell System technical
journal, 29(2):147–160.
Hartnett, W. E. (2012). Foundations of coding theory, volume 1. Springer Science &
Business Media.
MacWilliams, F. J. and Sloane, N. J. A. (1977). The theory of error correcting codes.
Elsevier.
94
2º ETC - Encontro de Teoria da Computação
1. Introduction
Let G be a simple graph with vertex set V (G) and edge set E(G). We denote an edge
e ∈ E(G) by uv where u and v are its endpoints. An element of G is a vertex or an edge
of G. As usual, the degree of a vertex v ∈ V (G) is denoted by dG (v). We say that G is
k-regular if all of its vertices have degree k.
For S = E(G) or S = V (G) ∪ E(G) and a set L ⊂ R, a labelling of G is a
mapping π : S → L. If S = E(G), π is an L-edge-labelling and, if S = V (G) ∪ E(G),
π is an L-total-labelling. Given a labelling π of G, wePdefine cπ : V (G) → C, C a
set of colours, such that, for each v ∈ V (G), cπ (v) = uv∈E(G) π(uv), if π is an L-
P
edge-labelling, and cπ (v) = π(v) + uv∈E(G) π(uv), if π is an L-total-labelling. The
mapping cπ is a proper-vertex-colouring of G if cπ (u) 6= cπ (v), for every edge uv ∈
E(G). We say that the pair (π, cπ ) is a neighbour-distinguishing-L-edge-labelling when
π is an L-edge-labelling and cπ is a proper-vertex-colouring. Similarly, taking π an L-
total-labelling in the previous definition, we say that (π, cπ ) is a neighbour-distinguishing-
L-total-labelling. In this work, [k] denotes the set of consecutive integers {1, . . . , k}.
In 2004, Karónski et al. [4] proposed the problem of determining the least positive
integer k needed to obtain a neighbour-distinguishing-[k]-edge-labelling of an arbitrary
simple graph G without isolated edges. This problem has attracted attention and the least
value of k known is due to Kalkowski et al. [3], who proved that every graph with no
isolated edge has a neighbour-distinguishing-[5]-edge-labelling. In their work, Karónski
et al. observed that all the families of graphs they studied have a neighbour-distinguishing-
[3]-edge-labelling. Based on this, they posed the following conjecture.
Conjecture 1 (Karónski et al. [4]). If G is a simple graph with no isolated edge, then G
has a neighbour-distinguishing-[3]-edge-labelling.
95
XXXVII Congresso da Sociedade Brasileira de Computação
2. Preliminaries
Given a simple graph G and two distinct vertices u, v ∈ V (G), the distance between u
and v in G is the number of edges in a shortest path connecting u and v, and is denoted by
dG (u, v). The k-th power Gk of a graph G is the simple graph that has vertex set V (Gk ) =
V (G), with distinct vertices u, v being adjacent in Gk if and only if dG (u, v) ≤ k.
As usual, a path with n vertices is denoted by Pn and a cycle with n vertices is
denoted by Cn . When G ∼ = Pn , graph Gk is called power of paths and is denoted by
Pnk . Similarly, when G ∼= Cn , graph Gk is called power of cycles and is denoted by Cnk .
Note that Pn = Kn , when k ≥ n − 1, and Cnk ∼
k ∼
= Kn , when k ≥ bn/2c. Since the
1,2,3-Conjecture has been verified for paths, cycles and complete graphs [4], in this work
we consider only powers of paths Pnk with 1 < k < n − 1 and powers of cycles Cnk
with 1 < k < bn/2c. The next results, related to neighbour-distinguishing labellings of
graphs, are used in the proofs of Section 3.
Proposition 2. Let (π, cπ ) be a neighbour-distinguishing-[k]-total-labelling of a graph
G. If π(v) = p, for every v ∈ V (G), then (π 0 , cπ0 ) such that π 0 (uv) = π(uv), for every
uv ∈ E(G), is a neighbour-distinguishing-[k]-edge-labelling.
Lemma 3 (Przybyło and Woźniak [7]). If G ∼ = Kn , then G has a neighbour-
distinguishing-[2]-total-labelling (π, cπ ), called canonical labelling, such that, either
C = {n, . . . , 2n − 1} or C = {n + 1, . . . , 2n}. Moreover, if either n = 3 and C = {4, 5, 6}
or n ≥ 4, then π has at least two vertices with label 2.
Lemma 4. Let G ∼ = Kn with n ≥ 3. Let (π 0 , cπ0 ) be a canonical labelling, with
C = {4, 5, 6} for n = 3. Then, (π 0 , cπ0 ) can be modified so as to obtain a neighbour-
distinguishing-[3]-total-labelling (π, cπ ) such that: (i) for every v ∈ V (G), π(v) = 1;
and (ii) if cπ0 (v) = maxu∈V (G) {cπ0 (u)}, then cπ (v) ∈ {cπ0 (v), cπ0 (v) + 1}; otherwise,
cπ (v) = cπ0 (v).
96
2º ETC - Encontro de Teoria da Computação
Proof. Let G and (π 0 , cπ0 ) as stated in the hypothesis. Let S = {v ∈ V (G) : π 0 (v) = 2}.
Let M be a maximum matching of G[S]. Adjust notation so that, if |S| ≡ 1 (mod 2),
the unsaturated vertex u ∈ S has cπ0 (u) = minv∈S {cπ0 (v)}. First, define π(v) = 1, if
v ∈ S, and π(v) = π 0 (v), otherwise. If e ∈ M , π(e) = π 0 (e) + 1, otherwise π(e) = π 0 (e).
Note that every vertex v ∈ S has its label decreased by one and, if |S| ≡ 0 (mod 2), v
has the label of exactly one of its incident edges increased by one. Therefore, cπ (v) =
cπ0 (v). If |S| ≡ 1 (mod 2), let w ∈ S such that cπ0 (w) = maxv∈V (G) {cπ0 (v)}. Define
π(uw) = π 0 (uw) + 1. This implies that cπ (u) = cπ0 (u) and cπ (w) = cπ0 (w) + 1. Since
cπ0 (w) = maxv∈V (G) {cπ0 (v)}, we conclude that cπ is a proper-vertex-colouring of G.
Moreover, π : V (G) ∪ E(G) → {1, 2, 3} and the result follows.
= Pnk or G ∼
Theorem 5 (Luiz et al. [5, 6]). If G ∼ = Cnk , then G has a neighbour-
distinguishing-[2]-total-labelling.
3. Results
In this section, we state our main results.
Theorem 6. If G is a simple graph such that G ∼ = Pnk or G ∼ = Cnk , then G has a neighbour-
distinguishing-[3]-edge-labelling.
Outline of the proof. Let G ∼ = Pnk or G ∼= Cnk . We assume G is not a path, a cycle, or a
complete graph, since the result is known for these cases. If G ∼ = Pnk , with n ≥ 2k + 2,
or G ∼= Cnk , we write n = α(k + 1) + r such that 0 ≤ r ≤ k, α ≥ 2, and r, α ∈ N. In
these cases, we take a partition P = {B 0 , . . . , B α } of V (G) into blocks B i such that each
block induces a complete graph. Note that P comprises α blocks with k + 1 vertices and
one block with r vertices. Now, if G ∼ = Pnk with k + 1 < n < 2k + 2, we take a partition
P = {B 0 , B 1 , B 2 } of V (G) such that |B 0 | = |B 2 | = b(n − k)/2c and k ≤ |B 1 | ≤ k + 1.
We consider seven cases: (i) G ∼ = Pnk and n ≥ 2k + 2; (ii) G ∼ = Pnk and k + 1 <
n < 2k + 2; (iii) G ∼ = Cnk , k ≥ 3 and r 6= 1; (iv) G ∼ = Cnk , k ≥ 3 and r = 1; (v) G ∼ = Cnk ,
∼ k ∼ k
k = 2 and r = 0; (vi) G = Cn , k = 2 and r = 1; and (vii) G = Cn , k = r = 2.
In order to prove the result, by Proposition 2, it suffices to show that G has a
neighbour-distinguishing-[3]-total-labelling (π, cπ ) such that π(v) = 1 for every v ∈
V (G). Such a labelling (π, cπ ) is obtained by modifying the neighbour-distinguishing-[2]-
total-labelling (π 0 , cπ0 ) of G constructed in the proof of Theorem 5, using the technique
presented in the proof of Lemma 4: for each vertex v ∈ V (G), with π 0 (v) = 2, we assign
π(v) = 1 and increase the labels of some selected edges by one, maintaining the property
that any two adjacent vertices have distinct colours.
In this extended abstract, we exemplify this construction for case (i), for which
∼
G = Pnk and n ≥ 2k + 2. Let (v0 , . . . , vn−1 ) be a linear order of V (Pn ). Thus, for
0 ≤ i ≤ α − 2, block B i comprises the k + 1 consecutive vertices, starting from vi(k+1)
and following the linear order. Block B α−1 comprises the set of r consecutive vertices
starting from v(α−1)(k+1) , and the remaining k + 1 vertices comprise block B α . Note that,
if r = 0, then B α−1 = ∅. Considering this partition P of V (G), (π 0 , cπ0 ) is defined as
follows: (i) every element in G[B 0 ] receives label 2; (ii) every element in G[B α ] receives
label 1; (iii) for 1 ≤ i ≤ α − 1, G[B i ] receives a canonical labelling with colour set
C = {|B i | + 1, . . . , 2|B i |}, such that any two vertices vk , vl ∈ B i have cπ0 (vk ) < cπ0 (vl )
if and only if k < l; and (iv) the remaining edges receive label 1.
97
XXXVII Congresso da Sociedade Brasileira de Computação
4. Acknowledgements
This work was partially supported by grant 2014/16861-8, São Paulo Research Founda-
tion (FAPESP).
References
[1] Dudek, A. and Wajc, D. (2011). On the complexity of vertex-coloring edge-weightings. Dis-
crete Mathematics and Theoretical Computer Science, 13(3):45–50.
[2] Hulgan, J., Lehel, J., Ozeki, K., and Yoshimoto, K. (2016). Vertex Coloring of Graphs by
Total 2-Weightings. Graphs and Combinatorics, 32(6):2461–2471.
[3] Kalkowski, M., Karónski, M., and Pfender, F. (2010). Vertex-coloring edge-weightings: To-
ward the 1-2-3-conjecture. Journal of Combinatorial Theory, Series B, 100(3):347–349.
[4] Karónski, M., Łuczak, T., and Thomason, A. (2004). Edge weights and vertex colours. Jour-
nal of Combinatorial Theory, Series B, 91(1):151–157.
[5] Luiz, A. G., Campos, C. N., Dantas, S., and Sasaki, D. (2015). The 1,2-Conjecture for powers
of cycles. Electronic Notes in Discrete Mathematics, 50:83–88.
[6] Luiz, A. G., Campos, C. N., Dantas, S., and Sasaki, D. (2017). The 1,2-conjecture for powers
of paths and powers of cycles. (submmited).
[7] Przybyło, J. and Woźniak, M. (2010). On a 1,2 Conjecture. Discrete Mathematics and Theo-
retical Computer Science, 12(1):101–108.
[8] Seymour, P. D. (1995). Nowhere-zero flows. In Handbook of combinatorics (eds. Graham,
R. L., Grotschel, M., and Lovasz, L.), North-Holand, Amsterdam, pages 289–299.
[9] Thomassen, C., Wu, Y., and Zhang, C.-Q. (2016). The 3-flow conjecture, factors modulo k,
and the 1-2-3-conjecture. Journal of Combinatorial Theory, Series B, 121:308–325.
98
2º ETC - Encontro de Teoria da Computação
Abstract. The Lovász Local Lemma (LLL) is a powerful tool for proving the
existence of combinatorial objects which satisfy a given set of constraints. More
precisely, given a finite collection events A, the LLL gives sufficient
Tof “bad”
conditions for the probability P A∈A A to be positive. In a breakthrough by
Moser and Tardos [Moser and Tardos 2010], an efficient algorithm for finding
objects whose existence is guaranteed by the LLL was developed. This work
surveys a few applications of the LLL in combinatorics and seeks to apply the
Moser-Tardos algorithm in those problems.
Resumo. O Lema Local de Lovász (LLL) é uma ferramenta poderosa para pro-
var a existência de objetos combinatórios que satisfazem um dado conjunto de
restrições. Mais precisamente, dado uma coleção finita A de
Teventos “ruins”, o
LLL dá condições suficientes para que a probabilidade P A∈A A seja posi-
tiva. Em um celebrado artigo [Moser and Tardos 2010], Moser e Tardos desen-
volveram um algoritmo para encontrar eficientemente tais objetos cuja existên-
cia é garantida pelo LLL. Esse trabalho discute aplicações do LLL em proble-
mas de combinatória e aplica o algoritmo de Moser e Tardos nesses problemas.
99
XXXVII Congresso da Sociedade Brasileira de Computação
2. Algumas aplicações
Uma coloração própria de um grafo G é dita β-frugal se cada cor aparece no máximo β ve-
zes na vizinhança de cada vértice. Defina F (G) como o menor número para o qual existe
uma coloração β-frugal de G com F (G) cores. Alon (veja [Hind et al. 1997, p. 478])
provou que existe uma constante c = cβ tal que para todo ∆ existe um grafo G com grau
máximo ∆ que satisfaz F (G) > c∆1+1/β . O seguinte teorema mostra que esse resultado é
assintoticamente ótimo. (Este resultado é uma pequena amostra das ideias envolvidas na
prova de que o número cromático total de um grafo é ∆ + polylog(∆) [Hind et al. 1999]).
Teorema 3 (Hind, Molloy e Reed [Hind et al. 1997]). Se G tem grau máximo ∆ ≥ β β ,
então G tem uma coloração β-frugal usando no máximo 16∆1+1/β cores.
Demonstração. Para β = 1, o resultado é equivalente a encontrar uma coloração própria
de G2 , isto é, o grafo obtido de G adicionando-se arestas entre vértices com distância
igual a 2. Como esse grafo tem grau máximo menor ou igual a ∆2 , ele tem uma coloração
com ∆2 + 1 ≤ 16∆2 = 16∆1+1/β cores.
Suponha então que β ≥ 2. Defina C = 16∆1+1/β . Para cada vértice de G atri-
buímos aleatoriamente uma cor entre {1, . . . , C} com probabilidade uniforme. Para cada
aresta uv de G definimos o evento Auv de que os vértices u e v recebam a mesma cor. Cha-
mamos tais eventos de eventos do Tipo A. Além disso, para cada conjunto {u1 , . . . , uβ+1 }
de β +1 vértices todos na vizinhança de um mesmo vértice, definimos o evento Bu1 ,...,uβ+1
de que cada ui receba a mesma cor. Chamamos tais eventos de eventos do Tipo B. Cla-
ramente, se evitamos todos os eventos do Tipo A e do Tipo B, então a nossa coloração
aleatória é β-frugal.
Note que a probabilidade de cada evento do Tipo A é 1/C, e a probabilidade de
cada evento do Tipo B é 1/C β−1 . Além disso, cada um dos eventos (Tipo A ou Tipo B)
não é independente de no máximo (β + 1)∆ eventos do Tipo A e (β + 1)∆ ∆ β
eventos
do Tipo B. Feitas estas observações, não é difícil verificar que a atribuição x(A) = 2/C
para eventos A do Tipo A e x(B) = 2/C β−1 para eventos B do Tipo B satisfaz (1).
100
2º ETC - Encontro de Teoria da Computação
si a ti . Cada pacote i precisa percorrer o caminho Pi para chegar ao seu destino final.
Assumimos um modelo síncrono, em que cada aresta pode carregar apenas um pacote
por instante de tempo. Nosso objetivo é encontrar um escalonamento que minimize o
tempo de todos os pacotes chegarem ao seu destino final. Como os caminhos já estão
especificados, nossa única decisão no escalonamento diz respeito ao sistema de filas, isto
é: quando vários pacotes querem passar por uma mesma aresta, precisamos escolher quem
passa primeiro.
Dois parâmetros são importantes no problema: a congestão c, definida como o
número máximo de caminhos que passam por uma aresta qualquer, e a dilação d, definida
como o comprimento maximo de um caminho qualquer. Não é difícil se convencer de que
o tempo de um escalonamento ótimo é Ω(c + d). Leighton et al. [Leighton et al. 1999]
demonstraram com o LLL a existência de um escalonamento O(c + d), usando filas de
tamanho constante em cada aresta.
Cada vez que um evento A é escolhido na linha 4 dizemos que ele foi reamostrado.
Note que a eficiência do método depende de que (i) o número de reamostragens não é
muito grande; (ii) valores aleatórios para cada variável P ∈ P podem ser eficientemente
amostrados; (iii) verificar (e encontrar) a ocorrência de um evento também pode ser feito
eficientemente. O resultado de Moser e Tardos trata do primeiro problema.
101
XXXVII Congresso da Sociedade Brasileira de Computação
Teorema 4 (Moser e Tardos [Moser and Tardos 2010]). Seja P um conjunto finito de va-
riáveis aleatórias mutuamente independentes num mesmo espaço de probabilidade e A
uma coleção finita de eventos determinados por essas variáveis. Se A satisfaz as con-
dições do LLL, então existe uma atribuição de valores às variáveis de P que não viola
nenhum dos eventos de A. Além disso, o número esperado de reamostragens do evento
A ∈ A que o algoritmo aleatório acima faz
P é no máximo x(A)(1−1 − x(A))−1 . Portanto, o
número total esperado de amostragens é A∈A x(A)(1 − x(A)) .
4. O algoritmo na prática
Uma análise mais cuidadosa do algoritmo de Moser e Tardos é feita em
[Haeupler et al. 2011]. Um dos parâmetros fundamentais da análise é
Y
δ := min x(A) (1 − x(B)).
A∈A
B∈Γ(A)
Note que, nas hipóteses do LLL, vale que δ ≥ minA∈A P(A). O primeiro resultado de
[Haeupler et al. 2011] é o seguinte.
Teorema 5 (Hauepler, Saha e Srinivasan). Suponha que estamos nas mesmas condi-
ções do Teorema 4. Então o número total esperado E de amostragens realizadas pelo
algoritmo satisfaz E ≤ n(log 1/δ) maxA∈A (1 − x(A))−1 .
Aplicação em colorações frugais
Proposição 6. Seja G um grafo nas condições do Teorema 3. Existe um algoritmo alea-
tório com tempo esperado O(βn2 ∆ log ∆) que encontra uma coloração β-frugal de G.
Demonstração. Note que é possível descobrir se uma coloração não é frugal em tempo
O(n∆). Além disso, na prova do Teorema 3 os eventos satisfazem δ ≥ minA∈A P(A) =
1/C β−1 . Portanto, log 1/δ ≤ log(C β−1 ) ≤ β log ∆. Temos ainda que maxA∈A (1 −
x(A))−1 = 1/(1 − 2/C) ≤ 3. Segue que o tempo esperado do algoritmo de Moser e
Tardos nesse problema é E = O(βn2 ∆ log ∆).
Referências
Erdős, P. and Lovász, L. (1975). Problems and results on 3-chromatic hypergraphs and
some related questions. In Infinite and finite sets, pages 609–627. North-Holland,
Amsterdam.
Haeupler, B., Saha, B., and Srinivasan, A. (2011). New constructive aspects of the Lovász
local lemma. J. ACM, 58(6):Art. 28, 28.
Hind, H., Molloy, M., and Reed, B. (1997). Colouring a graph frugally. Combinatorica,
17(4):469–482.
Hind, H., Molloy, M., and Reed, B. (1999). Total coloring with ∆ + poly(log ∆) colors.
SIAM J. Comput., 28(3):816–821.
Leighton, T., Maggs, B., and Richa, A. W. (1999). Fast algorithms for finding O (conges-
tion + dilation) packet routing schedules. Combinatorica, 19(3):375–401.
Molloy, M. and Reed, B. (1999). Further algorithmic aspects of the local lemma. In STOC
’98 (Dallas, TX), pages 524–529. ACM, New York.
Moser, R. A. and Tardos, G. (2010). A constructive proof of the general Lovász local
lemma. J. ACM, 57(2):Art. 11, 15pp.
102
2º ETC - Encontro de Teoria da Computação
1. Introduction
Finding a minimum spanning tree is known to be easy, but extra requirements for the
tree can turn the problem NP-hard. One of the NP-hard variations occurs when con-
flict constraints over pairs of edges are imposed [Darmann et al. 2011, Zhang et al. 2011,
Samer and Urrutia 2015]. These constraints are naturally described by an undirected sim-
ple graph, where each edge is a pair of conflicting edges of the input graph. Inspired by
this problem, we introduce the Least-Dependency Constrained Spanning Tree problem,
whose constraints are represented by a directed graph.
Let G = (V, E) be a connected graph and D = (E, A) be a digraph whose ver-
tices are the edges of G. e1 ∈ E is a dependency of e2 ∈ E if (e1 , e2 ) ∈ A. The
Least-Dependency Constrained Spanning Tree Problem (L-DCST(G, D)) consists in de-
ciding whether there is a spanning tree T of G such that each edge in T either has an
empty dependency set or at least one of its dependencies is also in T . The corresponding
optimization version, where a weighting function w : E → R+ is considered and one
wants to minimize the weight of tree, will be denoted L-DCMST(G, D, w).
Applications for this problem appear, for instance, in communication systems
when a link can only be used if the message arrives through certain other links, due to
protocol conversion restrictions on the nodes of the network [Viana 2016].
In this text, we use many concepts from graph theory. For those not familiar with
them, we refer to classical books in the area such as [Douglas 2001].
2. NP-completeness
We show that L-DCST(G, D) is NP-complete even if the structure of both G and D are
very simple. We use a reduction from 2 in 3 3-SAT.
An NP-complete variation of 3-SAT is 1 in 3 3-SAT which consists of decid-
ing whether a formula can be satisfied with every clause having exactly one true literal
[Gary and Johnson 1979]. We can define 2 in 3 3-SAT analogously. Note that 1 in 3
3-SAT can be reduced to 2 in 3 3-SAT by negating the literals of all clauses.
103
XXXVII Congresso da Sociedade Brasileira de Computação
ax ax
vx1 vx2
ex ex
v ex ex
eC
l1 eC
l2
vC1 vC2 eC eC C
eC x
i
x
k
ex j
l3
One can check that the 2 in 3 3-SAT instance has a “yes” answer if, and only if, the
corresponding instance L-DCST(G, D) is feasible, which leads to the following theorem.
Theorem 1 L-DCST(G, D) is NP-complete, even if G is a chordal cactus whose diameter
is 2, and D is a union of arborescences whose height is 2.
Notice that G is planar and has arbitrary ∆(G). We can rearrange its triangles to
get ∆(G) = 3. We make the triangles (related to clauses and variables) disjoint and link
them as in Figure 2.
104
2º ETC - Encontro de Teoria da Computação
vxC a1 a2 eC
l1 eC
l2 eC
l3
eC
x eC
x
v a u 0 v0 eC
l
1
eC
l
2
a
eC eC
vC
Cpl
el eC
l
i
a and a0 , these two edges as well as eC , for all clause C, must be chosen. Then, if
C = l1 ∨ l2 ∨ l3 , the oriented star in D related to C ensures that eC l is in T , for some
C
l ∈ {l1 , l2 , l3 }, and so el is not in T (since T is acyclic). Besides, the oriented cycle in D
related to l guarantees that eC l is in T , for all C containing l. This indicates a consistent
value for every variable that makes the formula satisfiable. Therefore, the following result
holds.
Theorem 2 L-DCMST(G, D) is NP-Complete, even if G is planar bipartite with diameter
3, and D is a union of oriented cycles and anti-arborescences of height 1.
3. Polynomial cases
We present two cases where L-DCMST(G, D, w) is solvable in polynomial time. In both
of them, we restrict the structure of D so that the problem can be decomposed in a poly-
nomial number of Minimum Spanning Tree subproblems.
Theorem 3 If D has O(log2 (|V (G)|)) components, and each of them is either an oriented
cycle or an arborescence whose subjacent graph is a star, DCMST(G, D, w) can be solved
in polynomial time.
Proof. If D is a directed cycle, either G is a tree or L-DCMST(G, D, w) is infeasible.
When D is an arborescence whose subjacent graph is a star, we delete its root r and
contract the related edge of G, obtaining G0 (we do this again in case r is a leaf, obtaining
G00 ) and solve the Minimum Spanning Tree Problem for the resulting graph G0 (G00 ).
When D is a union of oriented cycles and directed stars, we have a choice to
make for each of its (say, k) components: for each directed cycle, we decide to include
none or all of its edges in the solution; for each directed star, we decide to include or
not the root of D (and its unique descendant node, if the root is a leaf) and then allow
or forbid all the other vertices of the star (edges of G) to take part of the solution. This
way, we have 2k subproblems to consider, each of them solvable in polynomial time. If
k = O(log2 (|V (G)|)), then all these subproblems can be solved in polynomial time.
Notice the importance of restricting the number of components of D in the above
theorem. Theorem 2 shows that the problem may become hard otherwise.
Theorem 4 L-DCMST(G, D, w) can be solved in polynomial time, if D is an arbores-
cence whose subjacent graph is a caterpillar.
105
XXXVII Congresso da Sociedade Brasileira de Computação
References
Darmann, A., Pferschy, U., Schauer, J., and Woeginger, G. J. (2011). Paths, trees and
matchings under disjunctive constraints. Discrete Applied Math., 159(16):1726 – 1735.
Douglas, B. (2001). West. Graph Theory. Prentice Hall, Upper Saddle River, NJ.
Gary, M. R. and Johnson, D. S. (1979). Computers and Intractability: A Guide to the
Theory of NP-completeness.
Samer, P. and Urrutia, S. (2015). A branch and cut algorithm for minimum spanning trees
under conflict constraints. Optimization Letters, 9(1):41–55.
Viana, L. A. (2016). Árvore geradora com dependências mı́nima. Master’s thesis, Federal
University of Ceará.
Zhang, R., Kabadi, S., and Punnen, A. (2011). The minimum spanning tree problem with
conflict constraints and its variations. Discrete Optimization, 8(2):191 – 205.
106
2º ETC - Encontro de Teoria da Computação
{msambinelli,lee}@ic.unicamp.br
rafael.coelho@ifnmg.edu.br
107
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introduction
A decomposition D of a graph G is a set {H1 , . . . , Hk } of edge-disjoint subgraphs of G
that cover the edge-set of G. We say that D is a path (resp. cycle) decomposition if Hi is
a path (resp. cycle) for i = 1, . . . , k. We say that a path (resp. cycle) decomposition D of
a graph (resp. an Eulerian graph) G is minimum if for any path (resp. cycle) decomposi-
tion D0 of G we have |D| ≤ |D0 |. The size of a minimum path (resp. cycle) decomposition
is called the path (resp. cycle) number of G, and is denoted by pn(G) (resp. cn(G)). In
this paper, we focus in the following conjectures concerning minimum path and cycles
decompositions of graphs (see [Bondy 2014, Lovász 1968]).
Conjecture 1 (Gallai, 1966) If G is a connected graph with n vertices, then pn ≤ b n+1
2
c.
Conjecture 2 (Hajós, 1968) If G is an Eulerian graph with n vertices, then cn ≤ b n−1
2
c.
Although these conjectures are very similar, the results obtained towards their verification
are distinct. In 1968, Lovász proved that a graph with n vertices can be decomposed into
at most bn/2c paths and cycles. A consequence of this result is that if G is a graph with
at most one vertex of even degree, then pn(G) = bn/2c. Pyber (1996) and Fan (2005)
extended this result, but the conjecture is still open. In [Botler and Jiménez 2017], one
of the authors verified Conjecture 1 for a family of even regular graphs, and Jiménez and
Wakabayashi (2014) verified it for a family of triangle-free graphs.
In another direction, Geng, Fang and Li (2015) verified Conjecture 1 for maximal
outerplanar graphs and 2-connected outerplanar graphs, and Favaron and Kouider (1988)
verified it for Eulerian graphs with maximum degree 4. While we were writing this paper,
we learned that Bonamy and Perrett [Bonamy and Perrett 2016] verified Conjecture 1 for
graphs with maximum degree 5.
Conjecture 2, on the other hand, was only verified for graphs with maximum de-
gree 4 [Granville and Moisiadis 1987] and for planar graphs [Seyffarth 1992].
In this paper, we present a technique that showed to be useful to deal with both
Gallai’s and Hajós’ Conjectures. Our technique consists of finding, given a graph G, a
special subgraph H, which we call a reducing subgraph of G, that have small path or
cycle number compared to the number of vertices of G that are isolated in G − E(H).
In this paper we focus on series–parallel graphs and graphs with maximum degree 4. We
verify Gallai’s and Hajós’ Conjectures for these classes in Section 2 and 3, respectively.
Due to space limitations, we present only the sketch of some proofs.
108
2º ETC - Encontro de Teoria da Computação
contain at least two non-adjacent vertices of degree at most 2. This fact is easy to verify,
since series-parallel graphs are also the graphs with treewidth at most 2.
Theorem 2 Let G be a connected graph on n vertices. If G has no subdivision of K4 ,
then pn(G) ≤ bn/2c or G is isomorphic to K3 .
Sketch of the proof. For a contradiction, let G be a minimum counter-example for the
statement. It is not hard to verify that G has at least five vertices. Thus, let u, v be two
non-adjacent vertices of degree at most 2. We can show that u and v have at most one
neighbor in common, which implies that there is a path P containing both u and v as
internal vertices. Let H be the graph consisting of P together with the components of
G − E(P ) that isomorphic to K3 . We can show that H is an r-reducing subgraph and that
pn(G − E(H)) ≤ bn/2c − r. Therefore, Lemma 1 concludes the proof.
The same technique verifies Conjecture 1 for planar graphs with girth at least 6.
Theorem 3 If G is a planar graph on n vertices and girth at least 6, then pn(G) ≤ bn/2c.
The next theorem verifies Conjecture 1 for graphs with maximum degree 4.
Theorem 4 If G is a connected graph on n vertices and has maximum degree 4, then
pn(G) ≤ bn/2c or G is isomorphic to K3 , K5 or to K5− .
Sketch of the proof. For a contradiction, let G be minimum counter-example for the
statement. By Theorem 2, we may suppose that G contains a subdivision H of K4 . Let
v1 , v2 , v3 , v4 be the vertices of H with degree 3, and let S be the set of edges incidents
to vi in G − E(H), for i = 1, 2, 3, 4. The rest of the proof depends on the structure of
the subgraph of G induced by S. We analyze one of the possible cases. Suppose that
there are distinct vertices x, y in V (G) such that S ⊆ {xv1 , xv2 , yv3 , yv4 }. It is not hard
to check that H + S can be decomposed into two paths, and v1 , v2 , v3 , v4 are isolated
vertices in G − E(H) − S. Now, let H 0 be the graph consisting of H + S together with
the components of G − E(H) − S that are isomorphic to K3 , K5 , or K5 − e. Again, we
can show that H 0 is an r-reducing subgraph and that pn(G − E(H) − S) ≤ bn/2c − r.
Lemma 1 concludes the proof.
109
XXXVII Congresso da Sociedade Brasileira de Computação
4. Concluding remarks
Reducing subgraphs have allowed us to obtain both new results and new proofs for known
results. Also, this work provides literature with a technique that can be applied at the
same time to both Gallai’s and Hajós’ Conjectures. In a forthcoming work we apply this
technique to verify Conjectures 1 and 2 for partial 3-trees.
Referências
Bonamy, M. and Perrett, T. (2016). Gallai’s path decomposition conjecture for graphs of
small maximum degree. ArXiv e-prints.
Bondy, A. (2014). Beautiful conjectures in graph theory. European J. Combin., 37:4–23.
Botler, F. and Jiménez, A. (2017). On path decompositions of 2k-regular graphs. Discrete
Mathematics, 340(6):1405 – 1411.
Fan, G. (2005). Path decompositions and Gallai’s conjecture. J. Combin. Theory Ser. B,
93(2):117–125.
Favaron, O. and Kouider, M. (1988). Path partitions and cycle partitions of Eulerian
graphs of maximum degree 4. Studia Sci. Math. Hungar., 23(1-2):237–244.
Geng, X., Fang, M., and Li, D. (2015). Gallai’s conjecture for outerplanar graphs. Journal
of Interdisciplinary Mathematics, 18(5):593–598.
Granville, A. and Moisiadis, A. (1987). On Hajós’ conjecture (minimum cycle-partitions
of the edge-set of Eulerian graphs). Congr. Numer., 56:183–187. Sixteenth Manitoba
conference on numerical mathematics and computing (Winnipeg, Man., 1986).
Jiménez, A. and Wakabayashi, Y. (2014). On path-cycle decompositions of triangle-free
graphs. ArXiv e-prints.
Lovász, L. (1968). On covering of graphs. In Theory of Graphs (Proc. Colloq., Tihany,
1966), pages 231–236. Academic Press, New York.
Pyber, L. (1996). Covering the edges of a connected graph by paths. J. Combin. Theory
Ser. B, 66(1):152–159.
Seyffarth, K. (1992). Hajós’ conjecture and small cycle double covers of planar graphs.
Discrete Math., 101(1-3):291–306. Special volume to mark the centennial of Julius
Petersen’s “Die Theorie der regulären Graphs”, Part II.
110
2º ETC - Encontro de Teoria da Computação
Abstract. Cellular automata are fully discrete dynamical systems with locally-
defined dynamics. Such systems, in spite of its simplicity, are capable of showing
complex global behaviour. One fundamental question in the study of cellular au-
tomata is what kind of limit-behaviour they might have. In the present work we
present a method to infer attractors of elementary cellular automata by analy-
sing the growth of the regular expressions describing the time evolution of a
particular elementary cellular automaton.
1. Introdução
Autômatos celulares (ACs) são sistemas dinâmicos totalmente discretos cujo comporta-
mento global deriva de uma função definida localmente. ACs foram estudados tanto do
ponto de vista matemático-computacional [Wolfram 2002, Kari 2005, Cook 2004], como
modelos de sistemas complexos existentes no mundo real [Wolfram 2002], apesar das
limitações dos ACs para essa última tarefa , conforme relatado em [Santé et al. 2010],
por exemplo.
Em [Wolfram 1994], a complexidade dos ACs foi estudada através da observação
de autômatos finitos capazes de reconhecer a linguagem definida pela iteração de uma
regra sobre o conjunto de possı́veis configurações iniciais. Uma das perguntas feitas no
referido trabalho diz respeito a quais são os possı́veis comportamentos que podem surgir
numa evolução temporal infinita de uma dada regra.
Em um trabalho anterior [De Oliveira et al. 2016] foi apresentado um método para
detecção de padrões de crescimento nos autômatos finitos que descrevem as configurações
que podem ser obtidas iterando-se uma dada regra sobre o conjunto de configurações ini-
ciais. Tal método possibilita a inferência de autômatos finitos que descrevem o compor-
tamento da regra em questão para um número finito de iterações, mas não a inferência de
111
XXXVII Congresso da Sociedade Brasileira de Computação
2. Grafos de processo
Dada a regra local f de um ACE, foi descrito em [Wolfram 1994, Wolfram 2002] um
método iterativo para obter o GP Gtf que descreve o conjunto Ωtf . Observou-se em
[De Oliveira et al. 2016] que as regras 32, 128, 136, 160, 168 e 184 do espaço dos ACEs
produziam GPs com padrões de crescimento. No mesmo artigo, foi sugerido um método
para reconhecer automaticamente tais padrões, o que possibilitou a inferência direta de
GPs para um número maior de iterações t. Apesar de ser possı́vel inferir, a partir da
observação do crescimento dos grafos, GPs para evoluções temporais finitas, tal método
não pode ser aplicado para obter o conjunto-limite da regra f . A alternativa é analisar a
evolução das expressões regulares que descrevem as linguagens induzidas pelos GPs de
Ωtf .
112
2º ETC - Encontro de Teoria da Computação
Dessa forma, a expressão que descreve a linguagem-limite deve ser regular. Para
isso, deve satisfazer duas condições: (i) Deve ser escrita como somas e/ou concatenações
de expressões regulares; (ii) Deve ser finita.
Apesar de alguns ACs apresentarem GPs com crescimento simples, essa não é
a regra geral. A seguir aplicamos as técnicas expostas nesta seção para a regra 178 do
espaço dos ACEs para a qual foram detectados padrões de crescimento em seus GPs.
Em outras palavras, a regra 178 faz com que, após um número suficiente de
iterações, configurações iniciais que contenham cadeias de 0s (e de 1s) consecutivos de
tamanho maior que três sejam transformadas em configurações que não apresentam as
subcadeias “000” nem “111”.
Vale notar que a análise de Ω178,[03 ] e Ω178,[13 ] cobre apenas parcialmente o
conjunto-limite da regra 178: apenas as configurações obtidas a partir de configurações
iniciais que não pertencem a Ω0178,[0∞ ] ∪ Ω0178,[1∞ ] . Para cada tipo de exclusão, foi realizada
uma análise do crescimento das expressões regulares, com o intuito de obter expressões
gerais para um número arbitrário t de iterações. Então, a partir dessas expressões, foram
inferidas linguagens-limite descrevendo os atratores para ambos os tipos de exclusão. Por
fim, as expressões regulares inferidas foram somadas, obtendo a expressão regular que
descreve o atrator da regra 178 obtido a partir do conjunto Ω178,[0∞ ] ∪ Ω178,[1∞ ] . A Figura
1 mostra o autômato finito determinı́stico que descreve esse atrator.
4. Conclusões
No presente trabalho apresentou-se uma técnica para inferir atratores do conjunto-limite
de autômatos celulares elementares através da análise do crescimento das expressões re-
gulares que descrevem conjuntos de configurações obtidas a partir de um número finito
113
XXXVII Congresso da Sociedade Brasileira de Computação
Agradecimentos
Os autores agradecem ao MackPesquisa (Fundo Mackenzie de Pesquisa) e ao CNPq (Con-
selho Nacional de Desenvolvimento Cientı́fico e Tecnológico).
Referências
Cook, M. (2004). Universality in elementary cellular automata. Complex Systems,
15(1):1–40.
De Oliveira, P. P. B., Ruivo, E. L. P., Costa, W. L., Miki, F. T. e Trafaniuc, V. V. (2016).
Advances in the study of elementary cellular automata regular language complexity.
Complexity, 21(6):267–279.
Di Lena, P. e Margara, L. (2010). On the undecidability of the limit behavior of cellular
automata. Theoretical Computer Science, 411(7):1075–1084.
Kari, J. (2005). Theory of cellular automata: A survey. Theoretical Computer Science,
334(1–3):3–33.
Ruivo, E. L. P. e de Oliveira, P. P. B. (2017). Inferring the limit behaviour of some
elementary cellular automata. Manuscrito não publicado submetido ao International
Journal of Bifurcation and Chaos.
Santé, I., Garcı́a, A. M., Miranda, D. e Crecente, R. (2010). Cellular automata models for
the simulation of real-world urban processes: A review and analysis. Landscape and
Urban Planning, 96(2):108–122.
Wolfram, S. (1994). Cellular Automata and Complexity. Addison-Wesley Publishing Co.
Wolfram, S. (2002). A New Kind of Science. Wolfram Media.
114
2º ETC - Encontro de Teoria da Computação
2
COPPE Sistemas – Universidade Federal do Rio de Janeiro (UFRJ)
Abstract. [Erdös 1965] showed that every graph G = (V, E) with m edges
admits an edge cut of size at least m2 . In this paper we define a new graph class:
Half Cut graphs. A graph is Half Cut if it admits an edge cut with exactly d m2 e
edges. We also give some simple examples such as paths, cycles and complete
graphs that must satisfy special conditions to be Half Cut graphs.
Resumo. [Erdös 1965] mostrou que todo grafo G = (V, E) com m arestas
admite um corte de arestas com cardinalidade pelo menos m2 . Neste artigo
definimos a classe de grafos Half Cut como os grafos que admitem um corte de
arestas com cardinalidade igual a d m2 e. Nós também damos exemplos de grafos
tais como caminhos, ciclos e grafos completos que devem satisfazer condições
especiais para que sejam do tipo Half Cut.
1. Definições e Exemplos
Dados um grafo G = (V, E) com n vértices e m arestas, e um subconjunto não vazio
próprio S ⊂ V , definimos o corte de arestas ∂S como o conjunto formado por todas as
arestas com exatamente um extremo em S. Dizemos que um corte de arestas ∂S tal que
|∂S| = d m2 e é um half cut. Um grafo G = (V, E) é do tipo Half Cut se admite um half
cut.
Um exemplo trivial de grafo Half Cut é o grafo completo K3 no qual todo corte de
arestas tem cardinalidade 2 = d 23 e. Outro exemplo simples da classe dos grafos completos
é K4 que tem 6 arestas e admite um half cut tomando-se S = {v} para qualquer v ∈ V ,
já que d(v) = 3 para todo v ∈ V (K4 ).
(a) (b)
115
XXXVII Congresso da Sociedade Brasileira de Computação
(a) (b)
(a) (b)
116
2º ETC - Encontro de Teoria da Computação
Demonstração. Aplicamos indução forte sobre o número de arestas da árvore. Para uma
árvore com uma aresta temos um caminho P2 e segue imediatamente do Teorema 2.1 o
resultado. Suponhamos que toda árvore com m arestas, sendo 1 ≤ m ≤ k é do tipo
Half Cut. Dada uma árvore T com k + 1 arestas, a remoção de uma aresta qualquer
de T desconecta esse grafo dando origem a pelo menos duas componentes conexas que
são subárvores de T . Sem perda de generalidade, suponhamos que a remoção da aresta
e = {u, v} ∈ E(T ) dá origem às árvores T1 e T2 , com m1 e m2 arestas, respectivamente,
sendo u ∈ V (T1 ) e v ∈ V (T2 ). Se o número de arestas de T , dado por m = m1 + m2 + 1
for par, então m1 + m2 é ı́mpar, ou seja, uma das subárvores tem um número par de
arestas, enquanto a outra tem número ı́mpar. Digamos que m1 seja par e m2 seja ı́mpar.
Pela hipótese de indução existem cortes de arestas de T1 e de T2 com cardinalidades
m1
2
e m22+1 , respectivamente. Logo basta tomarmos S ⊂ V tal que u ∈ S e v ∈ S e
teremos um corte de arestas com m1 +m 2
2 +1
arestas, ou seja, m2 arestas como desejado.
Se m é ı́mpar, então m1 e m2 são ambos pares ou ambos ı́mpares. Caso sejam ambos
ı́mpares, pela hipótese de indução existem cortes de T1 e T2 com m12+1 e m22+1 arestas,
respectivamente. Novamente fazendo u ∈ S e v ∈ S e teremos um corte de arestas com
m1 +m2 +2
2
arestas, ou seja, m+1
2
= d m2 e arestas. Caso sejam ambos pares, pela hipótese de
indução existem cortes de T1 e T2 com m21 e m22 arestas, respectivamente. Posicionando
apenas um dos vértices u ou v em S, obtemos um corte de arestas com m1 +m 2
2
+ 1 arestas,
m1 +m2 +2
isto é, 2
arestas, o que conclui a demonstração.
117
XXXVII Congresso da Sociedade Brasileira de Computação
√ √
p = n+2 n e p = n−2 n que só têm sentido se n for quadrado perfeito, já que p é inteiro
positivo. Se n ≡ 2(mod 4), então n = 4k + 2 para algum natural k e assim temos
d n(n−1) e = 4k 2 + 3k + 1. Resolvendo a equação associada obtemos as soluções p =
4 √ √
(2k + 1) + k e p = (2k + 1) − k que só têm sentido quando k é um quadrado perfeito.
Desse modo devemos ter n = 4q 2 + 2, sendo k = q 2 . Se n ≡ 3(mod 4), então n = 4k + 3
para algum natural k e assim temos d n(n−1)
√4
e = 4k 2 +√ 5k + 2. Resolvendo a equação
associada obtemos as soluções p = n+ 24k+1 e p = n− 24k+1 que só têm sentido quando
4k + 1 = n − 2 é um quadrado perfeito. Desse modo, devemos ter n − 2 = q 2 , ou seja,
n = q 2 + 2. Portanto um grafo completo Kn é do tipo Half Cut se e somente se n = q 2
ou n = q 2 + 2.
4. Grafos Graciosos
Uma rotulação graciosa de um grafo G = (V, E) é composta por uma rotulação dos
vértices f : V → {0, 1, · · · , m} e uma rotulação das arestas fγ : E → {1, 2, · · · , m}
definida por fγ ({u, v}) = |f (u) − f (v)| ambas injetivas. Se G admite uma rotulação
graciosa, então G é dito um grafo gracioso. [Golomb 1972] provou que todo grafo
gracioso é do tipo Half Cut. A seguir apresentamos a demonstração desse fato devida a
ele.
Teorema 4.1. Todo grafo gracioso é do tipo Half Cut.
Referências
Erdös, P. (1965). On some extremal problems in graph theory. Israel Journal of Mathe-
matics, 3:113–116.
Golomb, S. W. (1972). How to number a graph. Graph theory and computing, pages
23–37.
Huang, C., Kotzig, A., and Rosa, A. (1982). Further results on tree labellings. Util. math.,
21c, pages 31–48.
Rosa, A. (1966). On certain valuations of the vertices of a graph. In Theory of Graphs
(Internat. Symposium, Rome, pages 349–355.
118
2º ETC - Encontro de Teoria da Computação
1. Introduction
Let G be a simple, finite and undirected graph with vertex set V (G) and edge set E(G). An
edge e ∈ E(G) with ends u, v ∈ V (G) is denoted by uv. The degree of a vertex v ∈ V (G) is
denoted by d(v) and the minimum degree of G, by δ(G). The set of edges incident with v is
denoted by E(v) and its neighbourhood, by N(v).
For a set C of colours, a (proper vertex-)colouring of G is a mapping c : V (G) → C,
such that c(u) 6= c(v) for every pair of adjacent vertices u, v ∈ V (G). If |C| = k, mapping c is
called a k-colouring. The chromatic number, χ(G), is the least number k for which G admits
a k-colouring. For S = E(G) or S = V (G) and a set of labels [k] = {1, . . . , k}, a labelling
π of G is a mapping π : S → [k]. For S ′ ⊆ S, the gap function, gap(π, S ′ ), is defined as:
1, if S ′ = ∅; π(s), if S ′ = {s}; or maxs∈S {π(s)} − mins∈S {π(s)}, if |S| ≥ 2. A gap-[k]-
edge-labelling of G is an ordered pair (π, cπ ) such that π : E(G) → [k] is a labelling of G and
cπ : V (G) → C, a colouring of G defined as cπ (v) = gap(π, E(v)). The least k for which G
admits a gap-[k]-edge-labelling, χgE (G), is called edge-gap number. A gap-[k]-vertex-labelling
of G is defined similarly, with π : V (G) → [k], and cπ (v) = gap(π, N(v)). The least k for
which G admits a gap-[k]-vertex-labelling, χgV (G), is called vertex-gap number. An interesting
remark is that all K2 -free graphs admit a gap-[k]-edge-labelling for some k, while there are
graphs for which there is no gap-[k]-vertex-labelling, for any k [7]. For instance, complete
graphs Kn , n ≥ 4, do not admit such a labelling.
Most researchers date the labelling of graphs using mathematical operations back to
1967, when it was introduced by A. Rosa [3, 4]. Since then, several variants of labellings have
been created and studied. Gap-[k]-edge-labellings, introduced in 2012 by M. Tahraoui et al. [7]
as a variant of gap-k-colourings, were investigated by R. Scheidweiler and E. Triesch [5, 6],
and A. Brandt et al. [1]. The latter proved that χ(G) ≤ χgE (G) ≤ χ(G) + 1 for all graphs except
stars. They also determined the edge-gap number for complete graphs, cycles and trees. The
vertex variant was first introduced in 2013 by A. Dehghan et al. [2], who proved that deciding
whether a graph admits a gap-[k]-vertex-labelling is NP-complete for several classes of graphs.
These findings inspired us to further research the properties of these labellings. In this work,
119
XXXVII Congresso da Sociedade Brasileira de Computação
we study the edge-gap and vertex-gap numbers for three classes of graphs: cycles, crowns and
wheels, and compare these parameters.
2. Results
We start by considering cycle graphs Cn , which are 2-regular, connected, simple graphs. Let
V (Cn ) = {v0 , . . . , vn−1 } and E(Cn ) = {vi vi+1 }, 0 ≤ i < n. For C3 , χgV (C3 ) = χgE (C3 ) = 4.
For n ≥ 4, the vertex-gap number is established in the next theorem.
Theorem 1. Let G ∼ = Cn , n ≥ 4. Then, χgV (G) = 2, if n ≡ 0 (mod 4), and χgV (G) = 3,
otherwise.
Outline of the proof. Let G = Cn , n ≥ 4. Since δ(G) ≥ 2, χgV (G) ≥ χ(G). It is well-
known that χ(G) = 2 if n is even, and χ(G) = 3, otherwise. By induction on n, we show
that χgV (G) ≤ 3.
We prove that G admits a gap-[3]-vertex-labelling (π, cπ ) with labels (π(vn−2 ), π(vn−1 ),
π(v0 )) and colours (cπ (vn−2 ), cπ (vn−1 ), cπ (v0 )) satisfying one of the following conditions: (i)
(1, 2, 1) and (1, 0 , 1); (ii) (2, 3, 2) and (2, 0, 2); (iii) (3, 1, 3) and (1, 0, 1); or (iv) (1, 1, 1) and
(2, 0, 2).
For C4 and C5 , assign labels (1, 3, 1, 2) and (1, 3, 1, 1, 2) to vertices (v0 , . . . , vn−1 ), re-
spectively, satisfying condition (i). Now, let (π, cπ ) be a gap-[3]-vertex-labelling for Cn , n ≥ 4,
satisfying one of the above conditions. We create cycle Cn+2 by replacing vertex vn−1 with
a P3 , and labelling the new vertices so that if Cn satisfies condition l, l ∈ {(i), (ii), (iii), (iv)},
then Cn+2 satisfies the next condition in the cyclic order ((i), (ii), (iii), (iv)). We remark that all
operations on the indices are taken modulo n. Figure 1 exemplifies this construction.
vn−3 vn−2 vn−3 vn−2 vn−1
c 1 c 1 2
2 3 2 3 1
0 ⇒ 0
Cn 1
vn−1
Cn+2 1
vn
c 1 c 1 2
2 v1 3 v0 2 v1 3 v0 1 vn+1
Figure 1. Cycle Cn satisfies condition (iii). We assign labels to the vertices of Cn+2 so
as to satisfy condition (iv)
120
2º ETC - Encontro de Teoria da Computação
Theorem 2. Let G ∼
= Rn , n ≥ 3. Then, χgE (G) = χgV (G) = χ(Cn ).
Proof. Let G = Rn , with V (G) = {v0 , . . . , vn−1 } ∪ {u0, . . . , un−1 }, d(vi ) = 3 and d(ui ) = 1,
0 ≤ i < n. First, we show that χgE (G) ≥ χ(Cn ). Note that χgE (G) ≥ 2 since G has adjacent
vertices of same degree. However, if n is odd, χgE (G) ≥ 3 since it is not possible to have
colour 2 in a vertex of degree three in any gap-[2]-edge-labelling of G.
Let π(vi vi+1 ) = 1, 0 ≤ i < n, and π(vi ui ) = 1 + (i mod 2), 0 ≤ i < n − (n mod 2). If
n is odd, let π(vn−1 un−1) = 3. Observe that cπ (ui ) = π(vi ui ) for all ui , cπ (vi ) = i mod 2, for
i ∈ [0, n − (n mod 2)], and cπ (vn−1 ) = 2, when n is odd. Therefore, (π, cπ ) is a gap-[χ(Cn )]-
edge-labelling, and we conclude that χgE (G) = χ(Cn ).
Now, we prove that χgV (G) = χ(Cn ). As in the previous case, χgV (G) ≥ χ(Cn ). In
order to conclude the proof, it is sufficient to construct a gap-[χ(Cn )]-vertex-labelling for G.
Let π(vi ) = χ(Rn ), 0 ≤ i < n, and π(ui ) = 1 + (i mod 2), 0 ≤ i < n − (n mod 2). If n is
odd, let π(un−1) = 3. The result follows from the fact that cπ (ui ) = π(vi ) = χ(Rn ) for all ui ,
cπ (vi ) = χ(Rn ) − 1 − (i mod 2), and cπ (vn−1 ) = 0, when n is odd.
The last class considered is the wheel graphs. A wheel Wn , n ≥ 3 is the graph obtained
from Rn by identifying all degree-one vertices. In the next theorem we determine χgE (Wn ).
Theorem 3. Let G ∼ = Wn , n ≥ 3. Then, χgE (G) = 3, if n is even and n 6= 4, and χgE (G) = 4,
otherwise.
Proof. Let G = Wn , n ≥ 3. Since δ(G) ≥ 2, χgE (G) ≥ χ(G) = χ(Cn ) + 1. Consider, first,
the case where n is even. Assign label 2 to edges vi vi+1 , 0 ≤ i < n. Following the order of
the indices, assign labels 2, 1, alternately, to edges vi vn , 0 ≤ i < n − 1. Assign label 3 to
the remaining edge vn−1 vn . Observe that cπ (vi ) = i mod 2, 0 ≤ i < n, and cπ (vn ) = 2. We
conclude that (π, cπ ) is a gap-[3]-edge-labelling of G.
Now take n = 3. Since G ∼ = K4 , χgE (G) = χgE (K4 ) = 4, as shown by A. Brandt et
al. [1]. Finally, suppose n ≥ 5 and odd. Assign labels 2, 3, alternately, to the edges vi vi+1 ,
1 ≤ i ≤ n − 3; labels 1, 2 to the edges vi vn , 0 ≤ i ≤ n − 3; and labels 3, 1, 1, 4, 1 to
the edges vn−2 vn−1 , vn−1 v0 , v0 v1 , vn−2 vn , vn−1 vn , respectively. In order to see that (π, cπ ) is
a gap-[4]-edge-labelling, note that cπ (vi ) = 2 − (i mod 2), 1 ≤ i ≤ n − 1, cπ (v0 ) = 0 and
cπ (vn ) = 3. This concludes the proof.
121
XXXVII Congresso da Sociedade Brasileira de Computação
3. Concluding remarks
In this work, we studied χgE (G) and χgV (G) for cycles, crowns and wheels and observed that
the edge-labelling variant is less restrictive than the vertex one. This occurs because a labelled
edge only affects the colours of its endpoints, whereas a labelled vertex affects its entire neigh-
bourhood. Moreover, for the classes considered in this work, it is possible to assign different
labels to a certain edge, maintaining the resulting vertex colouring, whereas such a property is
not true for gap-[k]-vertex-labellings.
Acknowledgements
Partially supported by grant #2015/11937-9, São Paulo Research Foundation (FAPESP).
References
[1] A. Brandt, B. Moran, K. Nepal, F. Pfender, D. Sigler, Local gap coloring from edge labelings, Australasian
Journal of Combinatorics 65(3) (2016), 200-211.
[2] A. Dehghan, M.-R. Sadeghi and A. Ahad, Algorithmic complexity of proper labeling problems, Theoretical
Computer Science 495 (2013), 25 - 36.
[3] J. A. Gallian, A dynamic survey of graph labeling, The Electronic Journal of Combinatorics #DS6 (2016)
[4] A. Rosa, On certain valuations of the vertices of a graph, Theory of Graphs (International Symposium) (1967),
394-355.
[5] R. Scheidweiler, E. Triesch, New estimates for the gap chromatic number, SIAM Journal of Discrete Mathematics
328 (2014), 42-53.
[6] R. Scheidweiler, E. Triesch, Gap-neighbour-distinguishing colourings, Journal of Combinatorial Mathematics
and Combinatorial Computing, 94 (2015), 205-214.
[7] M. A. Tahraoui, E. Duchene, H. Kheddouci, Gap vertex-distinguishing edge colourings of graphs, Discrete
Mathematics 312 (20) (2012), 3011 - 3025.
122
2º ETC - Encontro de Teoria da Computação
1
Programa de Pós-Graduação em Engenharia Elétrica – UFMG
{jeannra}@ufmg.br
Abstract. This paper presents a generic mathematical model for the School Bus
Routing Problem (SBRP) in rural areas, in order to minimize the total cost in-
volved end ensuring that students are transported timely. Factors such as vehicle
capacity and time window of schools are observed in the model.
1. Introdução
123
XXXVII Congresso da Sociedade Brasileira de Computação
2. Modelo Proposto
Considere um sistema de transporte escolar que atenda um conjunto de paradas P =
{1, . . . , np } que estão distribuı́das na zona rural de determinado municı́pio em que existe
um conjunto de Escolas E = {np + 1, . . . , np + ne }. Esse problema pode ser representado
por um grafo não direcionado G = (V, A), onde V = {0}∪P ∪E é o conjunto de vértices
mapeados que descreve o trajeto do ônibus saindo da garagem (vértice 0), percorrendo
as paradas e a(s) escola(s). Logo, A = {(i, j) : i, j ∈ V } é o conjunto de arestas
que conectam tais vértices. Para cada parada i ∈ P , existe um conjunto Ki ⊆ E de
escolas que precisam ser atendidas, no qual dik P > 0 estudantes da parada i deve(m) ser
transportado(s) para a escola k. Todos os qi = k∈Ki dik alunos da parada i devem ser
apanhados pelo mesmo ônibus, ao mesmo tempo, e transportados para as escolas em Ki
[Alves et al. 2015, Sarubbi et al. 2014, Lima et al. 2016].
Considere B um conjunto de ônibus de diferentes capacidades estacionados na
garagem. Cada ônibus b ∈ B tem capacidade Qb , custo fixo sb , e distância máxima
permitida de ρb . Assume-se que Q1 ≤ Q2 ≤ . . . ≤ Q|B| e s1 ≤ s2 ≤ . . . ≤ s|B| . Cada
aresta (i, j) ∈ A tem um custo não negativo cbij = θb `ij , e que depende do ônibus b ∈ B
que irá trafegar naquele trecho. Portanto, θb é o custo unitário por km para o ônibus b, e
`ij é a distância da parada i para a parada ou escola j.
0
Seja Rb um subconjunto de arestas de A, o que denota um subgrafo G (Rb ) que
gera uma rota a ser percorrida pelo ônibus b partindo da garagem, pegando os estudantes
nas paradas Pb , e distribuindo às escolas Kb , antes de retornar à garagem. Deste modo,
124
2º ETC - Encontro de Teoria da Computação
0
G (V (Rb ), Rb ) é um subgrafo induzido por Rb , no qual V (Rb ) é o conjunto de vértices
0
ligadas a no mı́nimo uma aresta de Rb . Ou seja, G (Rb ) se configura um ciclo simples
com inı́cio e fim no vértice 0 (garagem), de tal modo que a demanda total de estudantes
nas paradas Pb não exceda a capacidade máxima Qb de estudantes suportada pelo ônibus
b. O custo da rota é dado pela soma dos custos das arestas que formam o ciclo, e pelo
custo fixo do ônibus sb .
Sendo A = {(i, j) : i, j ∈ V } o conjunto de arestas, existe um tempo de percurso
tij associado a aresta Aij . Observando que há uma janela de tempo [α, ω] associada a
rota Rb de determinado veı́culo respeitando o ı́nicio da aula em cada escola E, sendo α o
horário de saı́da da garagem e ω o horário da escola com entrada mais tardia. É permitido
que o veı́culo chegue ao último vértice antes de ω, no entanto, ele precisa esperar o tempo
ω para deixar a localidade. O problema consiste então em projetar estas rotas de tal forma
que todos os alunos sejam transportados para suas respectivas escolas a um custo total
mı́nimo, onde cada parada é visitada apenas uma vez por qualquer ônibus.
Considere yib ∈ {0, 1} uma variável inteira igual a 1, se a parada i ∈ V − {0}) é
atribuı́da ao ônibus b ∈ B; 0, caso contrário. Considere z b ∈ {0, 1} uma variável inteira
iqual a 1, se o ônibus b ∈ B está atribuı́do à uma rota; 0, caso contrário. Considere
xbij ∈ {0, 1} uma variável inteira igual a 1, se a aresta (i, j) ∈ A é usada na rota do ônibus
b ∈ B; 0, caso contrário. A notação usada neste trabalho é sintetizada na Tabela 1 e o
modelo matemático de Programação Inteira para esse problema é formulado a seguir:
X X
Minimize sb z b + cbij xbij (1)
b=B (i,j)∈A
s.a.
X
yib = 1 ∀i ∈ P (2)
b∈B
X
qi yib ≤ Qb z b ∀b ∈ B (3)
i∈P
A função objetivo (1) minimiza o custo total. A restrição em (2) garante que
cada parada é atribuı́da a um ônibus. Em (3) busca-se garantir que a capacidade de cada
ônibus não será excedida. A restrição descrita em (4) assegura que se uma parada é
atribuı́da a um ônibus, as escolas associadas aos estudandes que aguardam nessa parada
são também visitadas pelo mesmo ônibus. As restrições em (5) e (6) descrevem restrições
de grau para as paradas visitadas por um ônibus, e para a garagem onde um ônibus está
vinculado, respectivamente. A restrição em (7) impõe que apenas uma aresta conectando
125
XXXVII Congresso da Sociedade Brasileira de Computação
uma parada à uma escola deverá ser usada sempre quando um ônibus é atribuı́do a uma
rota, o que garante que o ônibus irá pegar todos os alunos atribuı́dos à ele antes de se
dirigir às escolas.
X X
xbij ≤ yib ∀b ∈ B, k ∈ S, S ⊆ V − {0} (8)
(i,j)∈A:i,j∈S i∈S\{k}
X
`ij xbij ≤ ρb ∀j ∈ V − {0}, b ∈ B (9)
(i,j)∈A
X
tbij xbij + αb ≤ ωb ∀j ∈ V − {0}, b ∈ B (10)
(i,j)∈A
3. Conclusão
No cenário brasileiro, para este problema, existe a necessidade de adotar soluções que per-
mitam transportar alunos de escolas diferentes ao mesmo tempo, bem como utilizar frota
heterogênea que possibilite atender regiões densas e esparsas, observando a indispens-
abilidade de oferecer educação de qualidade a todas as regiões. Em relação ao métodos
de resolução, tem sido desenvolvidas heurı́sticas e meta-heurı́sticas, que englobam algo-
ritmos exatos e probabilı́sticos. Dentre as meta-heurı́sticas mais utilizadas destaca-se a
Busca Tabu, os Algoritmos Evolucionários e as Redes Neurais. O modelo apresentado
neste trabalho visa ser resolvido empregando algoritmos exatos para Programação Inteira
como Branch and Bound e Branch and Cut. Espera-se obter resultados com garantia de
otimalidade e com tempo computacional competitivo considerando esse problema em um
municı́pio de grande densidade populacional nas zonas rurais.
Referências
Alves, F. S. et al. (2015). Problemas de roteamento de veı́culos aplicados no planejamento
logı́stico do transporte escolar da cidade de coxim-ms.
Bezerra, M. L., Bacelar, T., Miranda, C. O. d. S., and Silva, H. O. d. S. (2013).
Concepções da ruralidade contemporânea: as singularidades brasileiras.
Lima, F. M. S., Pereira, D. S., Conceição, S. V., and Nunes, N. T. R. (2016). A mixed load
capacitated rural school bus routing problem with heterogeneous fleet: algorithms for
the brazilian context. Expert Systems with Applications, 56:320–334.
Park, J. and Kim, B.-I. (2010). The school bus routing problem: A review. European
Journal of operational research, 202(2):311–319.
Sarubbi, J., Faraj, M., and Machry, F. (2014). Estudo de caso: o problema do transporte
escolar rural em minas gerais. Simpǿsio Brasileiro de Pesquisa Operacional.
126
2º ETC - Encontro de Teoria da Computação
1. Introdução
O Problema Cabo-Trincheira (PCT) foi definido por [Vasko et al. 2002] para modelar re-
des cabeadas. Nesse problema, um conjunto de clientes precisa ser conectado a um servi-
dor através de cabos dedicados, que são acomodados em uma infraestrutura de trincheiras
não capacitadas. O objetivo é minimizar a soma dos custos de construção da infraes-
trutura de trincheiras e cabeamento. Dado um grafo completo G = (V, E), um vértice
vr ∈ V e fatores τ e γ não negativos, o objetivo do problema é encontrar uma árvore ge-
radora T = (V, ETP ) de G enraizadaP em vr que representa a infraestrutura de trincheiras,
minimizando τ ( dij ) + γ( dT (vr , v)), onde dij é o custo entre os vértices (i, j)
(i,j)∈ET v∈V
e dT (vr , v) o custo entre vr a v em T . Dentre as aplicações do PCT e suas variantes, des-
tacamos o planejamento de redes cabeadas e sem-fio [Nielsen et al. 2008], e reconstrução
de vascularização em imagens de tomografia computadorizada [Vasko et al. 2016].
Neste artigo, apresentamos uma variante do PCT, o Problema Cabo Trincheira
com Localização de Instalações (p-PCTLI), em que até p instalações podem ser abertas
para servir clientes e cada instalação possui um custo de abertura. Esse problema ge-
neraliza o PCT e Localização de Instalações. Além disso, também generaliza a variante
apresentada por [Marianov et al. 2012], chamada p-Cabo-Trincheira (p-PCT), onde exa-
tamente p servidores são abertos para servir clientes, mas não há custos de abertura.
Definimos formalmente o p-PCTLI e mostramos uma formulação linear inteira na
Seção 2, apresentamos uma heurı́stica baseada em Relax-and-Fix na Seção 3, e apresen-
tamos uma heurı́stica baseada em BRKGA na Seção 4. Concluı́mos o trabalho avaliando
os resultados na Seção 5.
∗
Financiamento CNPq:306358/2014-0, 311499/2014-7, 133728/2016-1, 425340/2016-3, 155498/2016-
9, 131175/2017-3. FAPESP: 2014/14375-9, 2015/11937-9, 2015/11937-9, 2016/23552-7, 2016/12006-1.
127
XXXVII Congresso da Sociedade Brasileira de Computação
X
k
Restrito a: f0j =1 ∀k ∈ N, (2.1)
j∈F
X
k
fik =1 ∀k ∈ N, (2.2)
i∈N + :i6=k,(i,k)∈A+
X X
fijk − k
fjh = 0, ∀j, k ∈ N : j 6= k, (2.3)
i∈N + :i6=k;(i,j)∈A+ h∈N :(j,h)∈A
X
xij = 1 ∀j ∈ N, (2.4)
i∈N + :(i,j)∈A+
A restrição (2.1) define v0 como origem para todas as commodities. A restrição (2.2)
faz com que todo vértice receba sua commodity correspondente. A restrição (2.4) define
que todo vértice seja coberto por uma trincheira. A restrição (2.5) exige que exista uma
trincheira na aresta sempre que houverem cabos, e (2.6) restringe o grau de v0 em no
máximo p.
128
2º ETC - Encontro de Teoria da Computação
suporte de cada solução do PL, fixando como parte da solução final os p caminhos de
menor custo de uma instalação até um novo cliente, como parte da solução final, onde
p é um parâmetro dependendo do tamanho da instância. Após fixados os p caminhos,
re-otimizamos o PL para fixar os próximos p caminhos.
5. Resultados Numéricos
129
XXXVII Congresso da Sociedade Brasileira de Computação
parâmetros utilizados para o BRKGA foram, população 50, elite 20%, mutação 15% ,
herança de caracterı́stica 70%, com tempo máximo de 30 minutos e com 10 repetições.
Usamos 180 instancias nas quais todos os métodos foram executados, variando
o valor de γ/τ em 0.25, 0.5 e 0.75. p foi definido como 10%, 20% e 30% do número
de vértices de cada instância, totalizando 1620 repetições. Para comparar os resulta-
dos do BRKGA para instancias onde o PLI não pode ser executado devido a limitações
de recursos computacionais, adaptamos a heurı́stica utilizando Relaxação Lagrangeana
apresentada em [Marianov et al. 2012]. O resumo dos resultados pode ser observado na
Tabela 1. A primeira linha apresenta os métodos de solução. Cada linha subsequente pos-
sui resultados médios para as classes de instâncias. A coluna Nome informa a classe de
instancias que foi executada, n o número de vértices da respectiva classe, x, σ, m, min e
max apresentam a média, desvio padrão, mediana, valores mı́nimo e máximo para o gap
(em %) de função objetivo entre o método de solução e o ótimo. As colunas t apresentam
o tempo de execução médio para cada classe.
Podemos destacar a heurı́stica Relax-and-Fix, que obteve o custo ótimo para
76.97% das instâncias analisadas, e soluções no máximo 2% acima do ótimo. O BRKGA
encontrou em média, resultados 60.2% acima do ótimo, mas com tempo de execução em
média 2.45x menor que o Relax-and-Fix. A Relaxação Lagrangeana foi executada em
todas as instancias testadas, como apresenta a Tabela 1 obteve bons resultados, mantendo
um gap para a solução ótima de em média 1.09%, sendo também em média 9x mais
rápida do que a heurı́stica Relax-and-Fix. A Tabela 2, apresenta as instâncias nas quais
somente os métodos BRKGA e Relaxação Lagrangeana foram executados, o grupo fp 17
com instancias de 614 vértices, das 30 instâncias e 270 replicações, o BRKGA apresentou
resultado melhor que a Relaxação Lagrangeana em apenas 54 instâncias.
Em trabalhos futuros pretendemos explorar novas formulações e heurı́sticas envol-
vendo Relaxação Lagrangeana. Para o Relax-and-Fix, explorar novas formas de fixação
de arestas combinando com PLI. Para o BRKGA, pretendemos variar os parâmetros ado-
tados e buscar por novos decodificadores para melhorar os resultados obtidos.
Referências
Beasley, J. E. (1990). OR-Library: distributing test problems by electronic mail. Journal of the Operational
Research Society, 41(11):1069–1072.
Marianov, V., Gutiérrez-Jarpa, G., Obreque, C., and Cornejo, O. (2012). Lagrangean relaxation heuristics
for the p-cable-trench problem. Comp. Oper. Res., 39(3):620–628.
Nielsen, R. H., Riaz, M. T., Pedersen, J. M., and Madsen, O. B. (2008). On the potential of using the cable
trench problem in planning of ict access networks. In ELMAR, 2008. 50th International Symposium,
volume 2, pages 585–588.
Toso, R. F. and Resende, M. G. (2015). A c++ application programming interface for biased random-key
genetic algorithms. Optimization Methods and Soft., 30(1):81–93.
Vasko, F. J., Barbieri, R. S., Rieksts, B. Q., Reitmeyer, K. L., and Jr., K. L. S. (2002). The cable trench
problem: combining the shortest path and minimum spanning tree problems. Computers & Operations
Research, 29(5):441 – 458.
Vasko, F. J., Landquist, E., Kresge, G., Tal, A., Jiang, Y., and Papademetris, X. (2016). A simple and
efficient strategy for solving very large-scale generalized cable-trench problems. Networks, 67(3):199–
208.
Wolsey, L. A. (1998). Integer Programming. Wiley-Interscience publication.
130
2º ETC - Encontro de Teoria da Computação
1. Introdução
O objetivo do Problema da Evacuação por Ônibus (Bus Evacuation Problem, BEP) é
determinar, a priori, uma polı́tica de evacuação e resgate de pessoas em eventos e situações
de risco, como enchentes, terremotos, furacões etc. Em tais situações, é comum que os
meios de transporte individuais (automóvel e demais) não estejam disponı́veis ou não
sejam uma opção viável, então a estratégia recomendada é que, uma vez dado um alerta
de risco, as pessoas caminhem até o ponto de evacuação mais próximo. O resgate das
pessoas é feito em seguida por meio de um número fixo de ônibus, estacionados em um
depósito que levam cada grupo de pessoas a um de vários abrigos seguros. Cada ônibus
faz uma ou mais viagens, a depender de sua capacidade e distância percorrida. Como
∗
Este trabalho foi parcialmente financiado pelo processo no 2015/11937-9, Fundação de Amparo à Pes-
quisa do Estado de São Paulo (FAPESP).
131
XXXVII Congresso da Sociedade Brasileira de Computação
os eventos considerados somente podem ser previstos com muito pouca antecedência, é
crucial que o comprimento da maior rota realizada por um ônibus seja a menor possı́vel.
Diversos modelos e variantes desse problemas são considerados na literatura, em
que se podem considerar ônibus iguais ou com capacidades diferentes, abrigos limitados,
etc. Alguns trabalhos relacionados já estudaram o Problema da Evacuação por Ônibus.
Particularmente, Bish (2011) introduziu um modelo matemático para o problema e desen-
volveu um algoritmo heurı́stico para esse modelo. Ainda, Goerigk et al. (2013) descrevem
diversas abordagens para obtenção de limitantes inferiores ou superiores (para o modelo
de programação linear inteira), discutindo algumas técnicas de branch-and-pruning, e fa-
zendo uma comparação de tais estratégias com a utilização do modelo de programação
inteira pura. Porém, até o momento nenhum trabalho considerou o problema do ponto de
vista de algoritmos de aproximação.
2. Definições e preliminares
2.1. Definição
Formalmente, uma instância de BEP é composta por um grafo bipartido completo
G = (V, E) com partes S e T ∪ {r}, em que S = {1, . . . , s} é o conjunto de fontes,
T = {1, . . . , t} é o conjunto de sorvedouros e r representa um local distinto, que é usado
como depósito de um número B de ônibus. Para cada fonte i ∈ S, existem li grupos
de pessoas a serem resgatadas esperando em i, sendo que cada ônibus tem capacidade
para transportar exatamente um grupo por vez. Cada sorvedouro j ∈ T tem capacidade
para abrigar até uj grupos de pessoas. O tempo de viagem entre dois nós é dado por uma
função de distância d : V 2 → R+ , i.e., para cada par i, j em V , vale dij = dji ≥ 0 e
dij ≤ dik + dkj para todo k ∈ V .
Uma solução para o problema é um conjunto de B passeios em G, começando
por r e terminando em um vértice de T (possivelmente com repetições de vértices), em
que cada vértice i ∈ S aparece pelo menos li vezes no conjunto de todas as rotas e cada
vértice j ∈ T apareça no máximo uj vezes no conjunto de todas as rotas. O objetivo é
encontrar uma solução que minimiza a distância total percorrida pela maior rota.
P
Seja L = i∈S li o número total de grupos de pessoas a serem resgatadas. Sem
perda de generalidade, pode-se supor que B ≤ L, já que do contrário uma solução ótima
poderia ser trivialmente encontrada associando-se um ônibus para cada grupo e reduzindo
o problema para um problema de emparelhamento de custo mı́nimo. Ainda, suponha
que L é limitado polinomialmente por |S| + |T |. Assim, a soma dos números de vértices
(contando repetições) em todas as rotas é limitado polinomialmente em |S| + |T | e, nesse
caso, a saı́da do problema tem tamanho polinomial. Do contrário, se L não for limitado
por um polinômio de |S| + |T |, então qualquer algoritmo para BEP não pode ser polino-
mial, considerando-se o tamanho da saı́da.
132
2º ETC - Encontro de Teoria da Computação
U NCAP BEP(G, d, B, r, l)
1. Para cada par sin , sout ∈ S × S tal que sin 6= s2 :
(a) σ 0 ← PATH TSP(d, ˜ sin , sout );
(b) Para cada par consecutivo de fontes i, j em σ 0 , insira um sorvedouro k entre os dois
de forma que d(i, k) + d(k, l) = d(i, ˜ l), obtendo um passeio σ em S ∪ T ;
(c) Divida σ em subcaminhos σ1 , σ2 , . . . , σB de tal forma que o comprimento do maior
subcaminho é no máximo d(σ)/B, onde d(σ) é o comprimento de σ;
(d) Para cada i, 1 ≤ i ≤ B, seja ti o sorvedouro mais próximo de acordo com d da
última fonte de σi ;
(e) P (sin , sout ) ← {rσ1 t1 , rσ2 t2 , . . . , rσB tB };
2. Devolva arg min{VAL(P (sin , sout )) : sin , sout ∈ S × S, sin 6= sout }.
Algoritmo 1: BEP Sem Capacidades
2.2. NP-Completude
Verificando que (s, t)-TSP pode ser codificado como uma instância de NC-BEP, obtém-se
o seguinte resultado. Lembre-se de que (s, t)-TSP é uma variante do TSP em que, dados
um grafo G e dois vértices s e t de G, queremos encontrar um caminho Hamiltoniano que
começa em s e termina em t e que tenha custo mı́nimo entre os caminhos com essa forma.
Teorema 2.1. O problema NC-BEP é NP-difı́cil, mesmo quando B = 1.
133
XXXVII Congresso da Sociedade Brasileira de Computação
4. Análise
Primeiro, comparamos o valor ótimo de uma solução de NC-BEP com 1 ou B ônibus.
Considere duas instâncias I1 e IB de NC-BEP sobre o mesmo grafo G e com mesmo
conjunto de demandas li , para cada i ∈ S, mas cujos números de ônibus são 1 e B,
respectivamente. A seguir, definimos OPT1 e OPTB como os valores de soluções ótimas
para I1 e IB . O próximo lema limita o valor ótimo para I1 .
Lema 4.1. Para todo B ≥ 1, vale OPT1 ≤ (2B − 1)OPTB .
A afirmação a seguir segue diretamente do fato de que cada fonte está em uma
rota e cada rota é um limitante para o valor ótimo.
Lema 4.2. Valem: maxi∈S d(r, i) ≤ OPTB e maxi∈S minj∈T d(i, j) ≤ OPTB .
Teorema 4.3. Seja α o fator de aproximação de PATH TSP para (s, t)-TSP. Então
U NCAP BEP é uma (2α + 2)-aproximação para NC-BEP.
Demonstração. Considere uma solução ótima para I1 , isso é, o problema com um único
ônibus. Nesse caso, uma solução é um passeio da seguinte forma rs1 t1 . . . s|S| t|S| . Defina
s∗in = s1 e s∗out = s|S| . Seja π o subpasseio s1 t1 s2 . . . s|S| e d(π) seu comprimento. Também
seja π 0 o subpasseio sem os sorvedouros s1 s2 . . . s|S| e d(π ˜ 0 ) o comprimento. Claramente,
˜ 0 ) = d(π).
d(π
Agora considere uma instância de (s∗in , t∗out )-TSP formada pelos vértices S,
˜ e seja OPTTSP uma solução ótima para essa instância. Sabemos
com distância d,
que OPTTSP ≤ d(π). De fato, π 0 é uma solução viável para (s∗in , t∗out )-TSP, então
˜ 0 ) = d(π). Pelo Lema 3.1 e pelo fato de PATH TSP ser uma α-aproximação,
OPTTSP ≤ d(π
˜ 0 ) ≤ αOPTTSP . Por construção de σ e π, temos d(σ) ≤ αd(π).
temos que d(σ
Considere o conjunto de rotas P (s∗in , s∗out ), que foi construı́do pelo algoritmo. Seja
rσj tj a rota de maior comprimento e suponha que σj começa em si e termina em sj .
Combinando com os Lemas 4.1 e 4.2, obtemos:
d(rσj tj ) = d(r, si ) + d(σj ) + d(sj , tj )
≤ OPTB + d(σ)/B + OPTB
≤ 2OPTB + αd(π)/B
≤ 2OPTB + αOPT1 /B
≤ 2OPTB + α(2B − 1)OPTB /B
≤ (2 + 2α)OPTB .
Se utilizarmos o algoritmo de Sebő (2013) como sub-rotina para (s, t)-TSP, que
obtém fator de aproximação 8/5, obtemos o seguinte resultado.
Corolário 4.4. Existe uma 5,2-aproximação para NC-BEP.
Referências
Bish, D. R. (2011). Planning for a bus-based evacuation. OR Spectrum, 33(3):629–654.
Goerigk, M., Grün, B., and Heßler, P. (2013). Branch and bound algorithms for the bus
evacuation problem. Computers & Operations Research, 40(12):3010 – 3020.
Sebő, A. (2013). Eight-fifth approximation for the Path TSP. In Proceedings of the 16th
Conference on Integer Programming and Combinatorial Optimization, pages 362–374.
134
2º ETC - Encontro de Teoria da Computação
1. Introdução
O crescimento do número de veı́culos nas vias tem ocasionado diversos problemas para
a sociedade nas últimas décadas. A maioria das cidades não foi projetada para suportar
o tráfego atual. Assim, quando há um fluxo de veı́culos desbalanceado, onde uma de-
terminada demanda de veı́culos que passa pela via ultrapassa a capacidade da mesma,
tem-se o congestionamento de tráfego. Nesse sentido, este trabalho propõe soluções para
minimizar o congestionamento de tráfego através do controle do fluxo de veı́culos que
trafegam nas vias; a abordagem consiste na alocação de pedágios em pontos estratégicos.
Os pedágios funcionam como uma penalidade econômica para desencorajar o uso de al-
guns caminhos. O objetivo maior então, é escolher a melhor configuração para as tarifas
a fim de reduzir os custos de viagem e balancear o tráfego. Neste caso, assume-se que os
usuários escolhem os caminhos considerando o valor gasto com deslocamento e tarifas.
Esse é um problema combinatório, cuja resolução demanda grande esforço computacio-
nal.
2. Formulação do Problema
Seja G = (N, A) um grafo direcionado com um conjunto de nós N e um conjunto de
arcos ponderados A. Seja K um conjunto de tráfegos (origens e destinos) para cada nó
de origem i ∈ N e de destino j ∈ N com demanda dk , k ∈ K. Sejam R um número
máximo de pedágios que podem ser instalados nos arcos da rede, e L um número de
nı́veis de tarifas. Para cada arco (i, j) ∈ A tem-se um custo unitário cpij de deslocamento,
um custo fixo de tarifa tpij e uma capacidade upij variando por nı́vel p = {0, 1, ..., L}. A
tarifa pode ser zero (t0ij = 0) se a capacidade u0ij garantir que não haja congestionamento.
O objetivo é minimizar os custos associados ao deslocamento e às tarifas, atendendo o
tráfego e instalando um máximo de R pedágios.
135
XXXVII Congresso da Sociedade Brasileira de Computação
3.1. Modelo 1
Função objetivo:
X X
L X X
L
min cpij zijp + tpij zijp (1)
(i,j)∈A p=0 (i,j)∈A p=1
X
L
yijp ≥ xkij , ∀(i, j) ∈ A, ∀k ∈ K (3)
p=0
X
L
yijp ≤ 1, ∀(i, j) ∈ A (4)
p=0
X
L X
yijp ≤ R (5)
p=1 (i,j)
X
L X
zijp = xkij dk , ∀(i, j) ∈ A (6)
p=0 k
0 ≤ zijp ≤ upij yijp , ∀(i, j) ∈ A, ∀p ∈ L (7)
xkij ∈ {0, 1}, ∀(i, j) ∈ A, ∀k ∈ K (8)
yijp ∈ {0, 1}, ∀(i, j) ∈ A, ∀p ∈ L (9)
136
2º ETC - Encontro de Teoria da Computação
veı́culos passando por esses. A restrição (5) assegura que serão instalados até R pedágios.
As restrições (6) associam a soma do fluxo total de cada arco (i, j) ∈ A, divididos em p
nı́veis, à soma das demandas que passam pelos arcos. O conjunto de restrições (7) garante
que o fluxo total de cada arco não excederá a capacidade máxima de cada nı́vel p. Por
fim, as restrições (8) e (9) definem o domı́nio das variáveis de decisão x e y.
3.2. Modelo 2
O segundo modelo, diferentemente do primeiro, é baseado na formulação do Problema de
Fluxo Multiproduto em um grafo aumentado (p arcos para cada arco no grafo original),
com variáveis e restrições adicionais. Cada um desses arcos está relacionado com uma
capacidade e todas as demandas que passam entre dois nós devem utilizar o mesmo arco,
isto é, apenas um nı́vel pode ser escolhido para cada arco.
Função objetivo:
X X
L X X X
L X
min cpij xkp
ij d
k
+ tpij xkp
ij d
k
(10)
(i,j)∈A p=0 k (i,j)∈A p=1 k
yijp ≥ xkp
ij , ∀(i, j) ∈ A, ∀k ∈ K, ∀p ∈ L (12)
X
L
yijp ≤ 1, ∀(i, j) ∈ A (13)
p=0
X
L X
yijp ≤ R (14)
(p=1) (i,j)
X
xkp k p p
ij d ≤ uij yij , ∀(i, j) ∈ A, ∀p ∈ L (15)
k
xkp
ij ∈ {0, 1}, ∀(i, j) ∈ A, ∀k ∈ K, ∀p ∈ L (16)
yijp ∈ {0, 1}, ∀(i, j) ∈ A, ∀p ∈ L (17)
137
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados Computacionais
Os modelos foram implementados em linguagem C com a biblioteca de otimização
[CPLEX 2009] versão 12.6. Os experimentos foram conduzidos no sistema operacio-
nal Ubuntu 14.04 LTS, processador Intel
R
Xeon
R
E5645, 2.40 GHz de frequência e 32
GB de memória RAM. Foi estabelecido um limite de tempo de 10800 segundos. O carac-
tere “ - ” indica que o limite foi alcançado. Os experimentos foram realizados utilizando
quatro instâncias sintéticas (8, 12, 16 e 20 nós), criadas a partir da instância original Sioux
Falls Test Network [Meng and Yang 2002] que possui 24 nós, com diferentes capacidades
em cada um dos arcos, coordenadas e demandas fixas para os pares de nós.
O custo de deslocamento (c0ij ) foi calculado a partir das coordenadas, utilizando
o cálculo de distâncias euclidianas. Para os outros cpij foi estabelecido um acréscimo de
{0%, 10%, 20%} do valor inicial. O número de nı́veis foi pré-determinado como L = 2 e
as tarifas (tpij ) para cada nı́vel igual a {1, 2 e 3} unidades, respectivamente. A capacidade
(uij ) dos arcos foi acrescida por um multiplicador, proporcional aos nı́veis {1.0, 1.5, 2.0}.
O número máximo de pedágios, R, foi definido como o total de arcos da rede.
Neste trabalho foi considerado a relaxação de integralidade das variáveis xpij , xkp
ij
e yijp ,
essas deixaram de ser inteiras, para assumirem valores contı́nuos. A solução da
relaxação linear (RL) pode demonstrar o quanto a relaxação de um modelo é mais forte e
também permite comparar os modelos em termos de limites inferiores que esse fornece.
A Tabela 1 apresenta os resultados computacionais. É possı́vel perceber que o PLI dado
pelo primeiro modelo resolve as instâncias mais rapidamente, mas os limites da relaxação
linear do segundo modelo são melhores.
5. Conclusão
Foram apresentados dois modelos de Programação Linear Inteira (PLI) para este pro-
blema. O PLI dado pela primeira formulação resolve as instâncias mais rápido do que o
PLI dado pelo segunda, mas os limites da relaxação linear do segundo modelo são melho-
res. Como trabalho futuro, planeja-se utilizar técnicas exatas como geração de colunas e
branch-and-price com o intuito de obter soluções para instâncias maiores em um tempo
aceitável.
Referências
CPLEX, I. (2009). Ilog cplex homepage 2009.
Meng, Q. and Yang, H. (2002). Benefit distribution and equity in road network design.
Transportation Research Part B: Methodological, 36(1):19–35.
138
2º ETC - Encontro de Teoria da Computação
Abstract. The crossing number cr(G) of a graph G is the least number of cros-
sings over all possible drawings of G. This paper describes a minor improve-
ment over a naive algorithm for deciding if cr(G) ≤ 1.
1. Introdução
Um desenho D de um grafo G = (V (G), E(G)) é a união das imagens de:
• uma função injetiva φ : V (G) → R2 , e
• uma função φe para cada aresta e = uv, tal que φe é um mapeamento contı́nuo
entre o intervalo real [0, 1] e um subconjunto do R2 , φe (0) = φ(u) e φe (1) = φ(v),
ou vice-versa, e φ(V ) ∩ φe ([0, 1]\{0, 1}) = ∅.
No texto, não faremos distinção entre as arestas e vértices do grafo e o conjunto
de pontos representando elas em D. Seja H um subgrafo de G, usamos a notação D[H]
para representar o desenho de H em D.
Seja D um desenho de um grafo G, um cruzamento é uma interseção entre o
interior de duas arestas. O número de cruzamentos cr(D) de D é o número de interseções
entre arestas em D. O número de cruzamentos cr(G) de um grafo G é o menor cr(D)
dentre todos os desenhos D de G.
O número de cruzamentos de um grafo tem aplicações práticas nas áreas de
VLSI (Very Large Scale Integration) e de desenhos de grafos (graph drawing). Leigh-
ton [Leighton 1983] mostrou que a área necessária para representar um circuito elétrico
está intrinsecamente relacionada ao número de cruzamentos do grafo que representa o cir-
cuito. Purchase [Purchase 1997] fez uma pesquisa mostrando que o desenhos de grafos
que minimizam o número de cruzamentos são os mais fáceis de entender visualmente.
Como apontado por Székely [Székely 1997], resultados sobre o número de cruza-
mentos de grafos podem ser utilizados para provar, de forma simples, alguns problemas
difı́ceis de geometria discreta.
Dado um grafo G e um inteiro k, determinar se cr(G) ≤ k é um problema NP-
Completo [Garey and Johnson 1983]. Sabe-se que o problema é fixed-parameter tracta-
ble para k fixo [Grohe 2001]. Informalmente, isto significa que para cada k fixo existe
um algoritmo polinomial que decide se cr(G) ≤ k.
∗
Pesquisa financiada pela FAPESP Proc. 2014/14375-9, 2015/04385-0 e 2015/11937-9, CNPq Proc.
311373/2015-1
139
XXXVII Congresso da Sociedade Brasileira de Computação
140
2º ETC - Encontro de Teoria da Computação
deve conter e e f pois são as únicas arestas que se cruzam em D. Logo, D[H] tem um
cruzamento.
O lema anterior mostra que não é necessário verificar se cr(Ge,f ) = 1 para todo
par de arestas de G. Basta apenas verificar para todo par de arestas cruzante de um 1-
subgrafo H de G.
Assim, podemos modificar o algoritmo da seguinte maneira. Verificamos de G é
planar. Se sim então o problema está resolvido. Senão, existe um subgrafo H de G que é
uma subdivisão de um K3,3 ou K5 . O subgrafo H pode ser obtido através do algoritmo de
planaridade em tempo linear no número de vértices [Hopcroft and Tarjan 1974]. Verifi-
camos se cr(Ge,f ) = 0 para cada par de arestas e, f distintas de H. Caso sim para algum
par, então cr(G) ≤ 1. Caso contrário, cr(G) > 1.
O algoritmo tem complexidade O(|E(H)|2 |V (G)|). No pior caso, no qual G =
H, a complexidade é a mesma do algoritmo descrito na seção anterior. Dado que o número
de arestas de H é linear com relação ao número de vértices de G, em grafos densos, temos
uma melhora de até |E(G)| no tempo de execução do algoritmo com relação ao ingênuo.
Podemos usar este algoritmo como caso base no algoritmo da seção anterior, me-
lhorando o tempo de execução do mesmo. No caso em que é conhecido um 1-subgrafo
H de G especı́fico, podemos utilizar a informação sobre os pares cruzantes de H para
melhorar o tempo de execução.
Referências
[Garey and Johnson 1983] Garey, M. R. and Johnson, D. S. (1983). Crossing number is
NP-complete. SIAM Journal on Algebraic Discrete Methods, 4(3):312–316.
[Grohe 2001] Grohe, M. (2001). Computing crossing numbers in quadratic time. In Pro-
ceedings of the Thirty-third Annual ACM Symposium on Theory of Computing, STOC
’01, pages 231–236, New York, NY, USA. ACM.
[Hopcroft and Tarjan 1974] Hopcroft, J. and Tarjan, R. (1974). Efficient planarity testing.
J. ACM, 21(4):549–568.
[Leighton 1983] Leighton, F. T. (1983). Complexity Issues in VLSI: Optimal Layouts for the
Shuffle-exchange Graph and Other Networks. MIT Press, Cambridge, MA, USA.
[Purchase 1997] Purchase, H. (1997). Which aesthetic has the greatest effect on human
understanding? In DiBattista, G., editor, Graph Drawing, volume 1353 of Lecture
Notes in Computer Science, pages 248–261. Springer Berlin Heidelberg.
[Székely 1997] Székely, L. A. (1997). Crossing numbers and hard Erdős problems in dis-
crete geometry. Combinatorics, Probability and Computing, 6:353–358.
141
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The goal of this paper is to present a simple introduction to the theory
of flag algebras developed by Razborov, as well as illustrate this theory’s power
for obtaining results in extremal combinatorics. In this paper, we investigate a
density problem in tournaments.
Resumo. O objetivo deste trabalho é apresentar uma introdução acessı́vel à
teoria das álgebras de flags desenvolvida por Razborov, bem como ilustrar a
aplicabilidade desta teoria para obter resultados em combinatória extremal.
Neste trabalho, lidamos com um problema de densidade em torneios.
Introdução
Neste trabalho, apresentamos uma breve introdução à teoria de álgebras de flag, desen-
volvida por Razborov [Razborov 2007], que tem sido utilizada em diversos problemas
de combinatória extremal. Para ilustrar a aplicabilidade dessa teoria, apresentamos um
resultado para torneios [Coregliano et al. 2015, Parente 2016] obtido utilizando técnicas
da teoria de álgebra de flags.
Um torneio é um digrafo T = (V, A) tal que, para cada par não-ordenado de
vértices {u, v}, temos que exatamente um dentre (u, v) e (v, u) pertence a A (veja a Fi-
gura 1). O problema que estudamos é o seguinte. Seja T um torneio com t vértices.
Queremos calcular o seguinte valor: maxTn ∈Tn p(T, Tn ), onde Tn é o conjunto de todos
os torneios com n vértices e p(T, Tn ) é o número de cópias de T em Tn dividido por nt .
Note que p(T, Tn ) é a probabilidade de, ao sortearmos um conjunto S de t vértices de
Tn , obtermos um digrafo Tn [S] isomorfo a T . Dizemos que p(T, Tn ) é a densidade de
T em Tn . Ou seja, queremos saber qual é a densidade máxima de T considerando todos
os torneios em n vértices. Em combinatória extremal, é comum lidarmos com versões
assintóticas dos problemas investigados. No nosso caso, isso significa que queremos cal-
cular o valor limn→∞ maxTn ∈Tn p(T, Tn ). Neste trabalho, utilizamos álgebras de flag para
mostrar que
lim max p(R, Tn ) = 1/16, (1)
n→∞ Tn ∈Tn
The first author is supported by FAPESP grant (2016/24041-6) and this article was produced as part of the activities of FAPESP
Research, Innovation and Dissemination Center for Neuromathematics (grant 2013/ 07699-0 , S.Paulo Research Foundation). The
second author is Partially supported by FAPESP grant (Processo 2013/03447-6).
142
2º ETC - Encontro de Teoria da Computação
Álgebra de flags
Nesta seção, apresentamos brevemente alguns conceitos de álgebra de flags. Para faci-
litar a leitura, definiremos flags no contexto de torneios. No entanto, um dos aspectos
mais atrativos dessa teoria é que esta pode ser usada para modelar diversas estruturas
combinatórias como, por exemplo, grafos, hipergrafos, permutações, grafos livres de uma
famı́lia de grafos proibidos, entre outras. Mais precisamente, a teoria de álgebra de flags
foi criada para lidar com qualquer teoria universal de primeira ordem.
A idéia principal é criar uma álgebra que capture as densidades p(T, Tn ). Tra-
balhamos com torneios rotulados e parcialmente rotulados: um tipo é um torneio cujo
conjunto de vértices é {1, . . . , t} para algum t ∈ N; dado um tipo σ com t vértices, uma
σ-flag é um par F = (T, θ) onde T é um torneio, θ : {1, . . . , t} → V (T ) é uma imersão
de σ em T , ou seja, a função θ é um isomorfismo entre σ e o torneio induzido por im(θ)
em T . Veja a Figura 2. Dado um tipo σ, denotamos por F`σ o conjunto das σ-flags com `
vértices e fazemos F σ = ∪F`σ . Para σ-flags T, T 0 de tamanhos t ≤ t0 , definimos p(T, T 0 )
como a razão entre o número de conjuntos W de tamanho t − s (onde s = |V (σ)|) tais
t0
que T 0 [W ∪ S] é isomorfo a T (onde S é o conjunto de vértices rotulados de T ) e t−s .
3 3 3
1σ 1 σ2 2 1 σ3 2 1 1 2
1
143
XXXVII Congresso da Sociedade Brasileira de Computação
lim max p(R, Tn ) = max φ(T ), onde 0 é um torneio sem vértices. (2)
n→∞ Tn ∈Tn φ∈Hom+ (A0 ,R)
144
2º ETC - Encontro de Teoria da Computação
intuição combinatória por um problema muito mais difı́cil por lidar com objetos muito
mais complexos (os homomorfismos). De fato, a intuição combinatória perde-se nos ho-
momorfismos. No entanto, Razborov desenvolveu um método para formular problemas
semidefinidos para obter limitantes superiores para (2). Dessa forma, podemos usar o
auxı́lio do computador por meio de resolvedores para programas semidefinidos para obter
esses limitantes. Esse método tem sido usado com muito sucesso para avançar o entendi-
mento de diversos problemas de combinatória extremal.
A seguir, descrevemos como construir o programa semidefinido para o nosso pro-
blema. Primeiro, escolhemos um número m ∈ N e tipos σ1 , . . . , σt . Para cada 1 ≤ i ≤ m,
seja ki o número de vértices de σi . Em seguida, escolhemos números `, `1 , . . . , `m tais que
2`i − ki ≤ ` para todo 1 ≤ i ≤ m.
σi σ
F ×F i
No programa semidefinido abaixo, as variáveis são matrizes Q(i) ∈ R `i `i ,
para 1 ≤ i ≤ m. Uma matriz simétrica real é dita positiva semidefinida se todos os
n×n
Pn Pn Para duas matrizes A, B ∈ R , o produto interno
seus autovalores são não-negativos.
hA, Bi é definido como i=1 j=1 Ai,j Bi,j . O programa semidefinido é o seguinte:
min y
X
m
s.t. p(R, T ) + hQ(i), C(i, T )i ≤ y ∀T ∈ T` ;
i=1
σ σ
F` i ×F` i
Q(i) ∈ R i i é positiva semidefinida ∀i ∈ {1, . . . , m},
σ σ
F` i ×F` i
onde C(i, T ) ∈ R i ié uma matriz de coeficientes tal que, para T1 , T2 ∈ F`σii ,
X
C(i, T )T1 ,T2 = p(T1 , T2 ; T )p(σi , T |0 )p(T |0 , T ),
σ
T ∈F` i
Referências
[Coregliano et al. 2015] Coregliano, L. N., Parente, R. F., and Sato, C. M. (2015). On the
maximum density of fixed strongly connected subtournaments. ArXiv e-prints.
[Lovász and Szegedy 2006] Lovász, L. and Szegedy, B. (2006). Limits of dense graph se-
quences. J. Combin. Theory Ser. B, 96(6):933–957.
[Parente 2016] Parente, R. F. (2016). Empacotamento e contagem em digrafos: cenários
aleatórios e extremais. PhD thesis, Instituto de Matemática e Estatı́stica, Universidade
de São Paulo.
[Razborov 2007] Razborov, A. (2007). Flag algebras. J. Symbolic Logic, 72(4):1239–1282.
145
XXXVII Congresso da Sociedade Brasileira de Computação
Resumo. Seja (G, w, t) uma tripla formada por um grafo conexo G = (V, E)
com uma função peso w definida sobre E, e um número real t > 1. Uma árvore
t-spanner de G é uma árvore geradora H de G tal que para quaisquer pares
de vértices u, v, a distância entre u e v em H é no máximo t vezes a distância
entre u e v em G. Estudamos o problema da árvore spanner de custo mı́nimo,
denotado por MWTS (acrônimo de Minimum Weight Tree Spanner): dada uma
tripla (G, w, t), encontrar em G uma árvore t-spanner que tenha o menor peso
possı́vel. Sabe-se que MWTS é NP-difı́cil para todo t ≥ 4, fixo. Propomos duas
formulações lineares inteiras para o MWTS, baseadas em arborescências, de
tamanho polinomial, e apresentamos resultados preliminares sobre os experi-
mentos computacionais realizados com essas formulações.
1. Introduction
In this work, (G, w, t) denotes a triplet consisting of a connected graph G = (V, E) with
nonnegative weight we for each edge e ∈ E, and a real number t > 1. For two distinct
vertices u, v in V , the distance between u and v in G, denoted by distG (u, v), is the length
of a shortest path (w.r.t. w) from u to v in G.
A t-spanner of G is a spanning subgraph H of G such that distH (u, v) ≤
t · distG (u, v) for all vertices u, v in V . The integer t is called the strech factor. A
tree t-spanner is a t-spanner that is a tree. We study the Minimum Weight Tree Spanner
Problem (MWTS), defined as follows: given a a triplet (G, w, t), find a tree t-spanner in
G of minimum weight.
∗
Preliminary results of an ongoing research carried out by the author in his PhD program at IME-
USP under the supervision of Professor Yoshiko Wakabayashi. This work also benefited from helpful
discussions with Professor Manoel Campêlo (UFC). Research supported by FAPESP fellowship, Project
(Proc. 2013/22875-9) and MaCLinC project of NUMEC/USP.
146
2º ETC - Encontro de Teoria da Computação
147
XXXVII Congresso da Sociedade Brasileira de Computação
X
r
zir =0 ∀r ∈ V (3)
i∈δ − (r)
xe = zijr + zji
r
∀r ∈ V, ∀e = {i, j} ∈ E (4)
ziju − zijv ≤ yeuv ≤ ziju + zijv ∀uv ∈ E, ∀e = {i, j} ∈ E (5)
u v
−
zji ≤zji ≤ yeuv
+ u
zji v
zji ∀uv ∈ E, ∀e = {i, j} ∈ E (6)
X
we yeuv ≤ t · w(u, v) ∀uv ∈ E (7)
e∈E
xe = zijr + zji
r
∀r ∈ V, ∀e = {i, j} ∈ E (12)
uri − urj + (Mij + wij )zijr + (Mij − wij )zji
r
≤ Mij ∀r ∈ V, ∀ij ∈ A, j 6= r (13)
uri + (Mir − wir )zri ≤ Mir ∀r ∈ V, ∀ri ∈ A (14)
urr =0 ∀r ∈ V (15)
uji = uij ≤ t · wij ∀ij ∈ E (16)
|E| r |E|×|E| r |V |
x ∈ B ,z ∈ B ,u ∈ R ∀r ∈ V (17)
The idea behind constraint (13) was used by [Miller et al. 1960] for the TSP.
3. Computational experiments
We carried out some computational experiments to compare the two formulations and
to have some idea of the strength of these formulations. We focused the unweighted
case (cardinality version) and the case in which the weights represent Euclidean distance.
For the cardinality version, we implemented a polynomial-time algorithm (showed by
Nadiradze, 2013) for the Bounded Diameter Minimum Spanning Tree problem to use in
the preprocessing phase. We also added two other valid inequalities for this version.
148
2º ETC - Encontro de Teoria da Computação
Our implementation was coded in C++, using CPLEX as the ILP solver. The code
was run on a machine with 65 GB of RAM and 1.6 GHz (using single core). We present
only results obtained with Formulation 2, as it consistently outperformed Formulation 1.
Table 1 shows results for the cardinality version. We considered three parameters, and for
each combination, we generated 10 random instances. Density means the percentage of
edges in the graph compared to the complete graph. Time is the average time in seconds
(for the instances solved with ILP); TLE (Time Limit Exceeded) indicates the number of
instances not solved within 1 hour of CPU time.
t |V | Density # Solved in prep. phase TLE # Solved with ILP Time (s)
10 40 5 0 5 0.02
10 60 10 0 0 -
20 20 0 0 10 0.07
20 40 0 0 10 7.03
20 60 7 0 3 87.61
3 30 20 0 0 10 0.32
30 40 0 0 10 1250.94
30 60 7 3 0 -
40 20 0 0 10 83.30
40 40 0 10 0 -
40 60 0 10 0 -
For t = 3, instances with density 40 and 60 are the hardest ones. For this case,
almost all instances (of order up to 60) with density 20 could be solved quickly. Similarly,
for t ∈ {3, 4}, all instances (of order up to 60) with density 80 were solved quickly (all
of them with preprocessing). For t = 4, all instances with density 40 or 60 were solved
quickly (with positive answer).
For the Euclidean case, we considered instances of order in the range from 10 to
120 (subgraphs of graphs from public libraries). For t = 3, all instances were solved.
However, few of these instances admit a tree 3-spanner, and these are all of low order.
For t = 4, the greater the density, the smaller the number of instances solved. In this
case, for instances with density 80, only instances of order up to 40 were solved. For
the instances considered, finding tree spanners for t = 3 was faster than for t = 4. We
have to perform more computational experiments, but it seems that the random instances,
cardinality version, are harder to be solved.
References
[Awerbuch 1985] Awerbuch, B. (1985). Complexity of network synchronization. J. ACM,
32(4):804–823.
[Bondy 1989] Bondy, J. A. (1989). Trigraphs. Discrete Math., 75(1-3):69–79.
[Cai and Corneil 1995] Cai, L. and Corneil, D. G. (1995). Tree spanners. SIAM J. Disc.
Math., 8(3):359–387.
[Miller et al. 1960] Miller, C. E., Tucker, A. W., and Zemlin, R. A. (1960). Integer program-
ming formulation of traveling salesman problems. J. ACM, 7(4):326–329.
[Peleg and Upfal 1988] Peleg, D. and Upfal, E. (1988). A tradeoff between space and effi-
ciency for routing tables. In STOC ’88, pages 43–52, New York, USA.
149
XXXVII Congresso da Sociedade Brasileira de Computação
1
Institute of Computing – University of Campinas (UNICAMP)
Campinas – SP – Brazil
2
Department of Computer Science – Midwestern State University (UNICENTRO)
Guarapuava – PR – Brazil
{mhmulati,fkm}@ic.unicamp.br
Abstract. We deal with the cumulative vehicle routing problem (VRP), a gen-
eralization of the capacitated VRP, which objective is to minimize the fuel con-
sumption. Gaur et al. in 2013 gave a 4-approximation based on a well-known
partition heuristic to the traveling
salesperson
problem (TSP). We present a
4
tighter analysis obtaining a 4 − 3s3 Q2 -approximation, where Q is the capac-
ity of the vehicle and s is a scaling factor. To the best of our knowledge, this is
the best proved approximation for the cumulative VRP so far.
150
2º ETC - Encontro de Teoria da Computação
In this paper, we roughly follow the structure of [Gaur et al. 2013]. For our contribution,
we use the theorems 1-4 from [Gaur et al. 2013] and the definitions presented below.
Theorem 1 ([Haimovich and Rinnooy Kan 1985, Gaur et al. 2013]). Let C ∗ denote an
optimal TSP tour of the graph G(V, E). Then, the total
Pn
distance traveled by a vehicle to
∗ i=1 wi di
bring all objects to the depot is at least max |C |, 2 Q .
A subtour is a TSP tour that visits a subset of V (G), and, when it is clear, we will use tour
to denote it. W.l.o.g., consider that the vertices of a tour C are numbered as 0, 1, . . . , n
in the order that they appear in the sequence, and 0 is the depot. |C| is the length of the
tour C. By a cluster [i, j] we mean a set of a sequence of vertices in the tour C from i to
j, with the extremes included. Considering k ≥ 2, and 1 < x1 < x2 < · · · < xk−1 ≤ n,
a cluster partition denoted by P = [1, x1 , x2 , . . . , xk−1 , n] of tour C is a decomposition
of C into the k clusters [1, x1 ], [x1 , x2 ], . . . , [xk−1 , n]. From a cluster partition P of C,
we are able to construct k subtours C1 , . . . , Ck such that: to traverse the subtour Cj , the
vehicle begins at the depot, visits the vertices of Cj in increasing order, and ends in the
depot. The length of P is given by l(P ) = |C1 | + · · · + |Ck |.
Theorem 2 ([Altinkemer and Gavish 1987, Gaur et al. 2013]). Let an integer s > 0 be
a scaling factor in a way that swi , for every i ∈ V , sW0 , and sQ are positive integers,
such that swi ≤ sQ for every i ∈ V . Let C be a TSP tour of G and let Q be the
vehicle
Pn
capacity.
Then, there exists a cluster partition P of C with total length at most
w i d i 2
4 i=1Q + 1 − sQ |C|.
Theorem 3 ([Gaur et al. 2013]). Let C ∗ be an optimal TSP tour, and let Q be the capacity
of the vehicle. Then, the
minimumPfuel consumed
by the vehicle to bring all objects to the
∗
n
i=1 wi di
Pn
depot is at least a · max |C |, 2 Q + b ( i=1 wi di ).
Theorem 4 ([Gaur et al. 2013]). Let β > 0 be a positive rational number, C be a
TSP tour, and assume that the vehicle has infinite capacity. Then, there exists a clus-
PP = [1, x1 , x2 , . . . , xk−1 , n] of C with total fuel consumption at most
ter partition
1 + β2 b ( ni=1 wi di ) + 1 + β2 a|C|.
2. Our Contribution
We provide, in theorems 5 and 6, a refined analysis of the algorithm of [Gaur et al. 2013],
showing a tighter approximation ratio than the one presented by them.
Theorem 5 (From [Gaur et al. 2013] with a tighter bound). Let β > 0 be a positive
rational number, C be a TSP tour, and Q be the vehicle capacity. Then, there exists a
cluster
partition P = [1, x1 , x2 , . . . , xk−1 , n] of C with total fuel consumption at most
2
Pn β
Pn
wi di
Pk
j=1 |Cj |
1 + β b ( i=1 wi di ) + 1 + 2 a|C| + 4a i=1Q − 2a sQ .
Proof. Considering infinite capacity, there exists a cluster partition P of tour C with
fuel consumption f (P ) with an upper bound given by Theorem 4. Let C1 , C2 , . . . , Ck
be the subtours corresponding to the cluster partition P . Let Wj be the total weight of
the objects picked by the vehicle in the subtour Cj . If Wj ≤ Q, then Cj satisfies the
capacity restriction and, consequently, we keep the cluster corresponding to the subtour
Cj with fuel consumption f (Cj ) unchanged. On the other hand, assume that Wj > Q: by
151
XXXVII Congresso da Sociedade Brasileira de Computação
Theorem 2 there exists a refined cluster partition Pj of Cj such that the total weight of the
objects in each cluster of Pj is at most Q, and there exists an upper bound on its length.
Now, given a subtour Cj , we will give an upper bound on the fuel consumption f (Pj ).
W.l.o.g., we assume that the fuel consumption f (Cj ) of the subtour Cj is obtained by a
traversal in clockwise order (the reversed case is symmetric). Consider that the vehicle
traverses each subtour Cjl , 1 ≤ l ≤ kj in the partition Pj . We have that Vj is the set of
C
vertices of the tour Cj . Consider that, for each vertex i ∈ Vj , we have di j that represents
the distance traveled by the vehicle from picking object i to dropping it at the depot in
P
tour Cj , and analogously, di j represents the respective distance for the cluster partition
P C
Pj . We have that di j ≤ di j , because the cluster partition Pj is a refinement of thetour
Pkj Pkj P Pj
Cj . Thus we can write f (Pj ) = l=1 f (Cjl ) = l=1 a|Cjl | + b i∈Cjl wi di =
Pkj P P
P
P C i∈Cj wi di
a l=1 |Cjl | + b i∈Cj wi di j ≤ a · l(Pj ) + b i∈Cj wi di j ≤ 4a Q
+ a|Cj | −
P
P
C w d
i∈Cj i i
2 2
a|Cj | sQ + b i∈Cj wi di j = f (Cj ) + 4a Q
− a|Cj | sQ , where we used the upper
bound on l(Pj ) given by Theorem 2.
We consider that P 0 is the final cluster partition that includes all the clusters, the ones
unchanged as well as the ones refined.
Thus,P the total fuel consumption
is given by
Pk P k i∈C wi di P k
f (P 0 ) = j=1 f (Pj ) ≤ j=1 f (Cj ) + 4a Q
j 2
− a|Cj | sQ = j=1 f (Cj ) +
Pk P Pk Pn Pk
j=1 i∈C wi di |Cj | wi di |Cj |
j
4a Q
− 2a j=1 sQ
= f (P ) + 4a j=1Q − 2a j=1 sQ
. By the upper bound
0
of Theorem 4 on f (P ), we have that P is a cluster partition satisfying the theorem.
Lemma 1. Let C ∗ be an optimal TSP tour in a complete graph G(V, E) with Pn weight
∗
function d that are part of an instance of the capacitated VRP. Then, |C | ≤ 2 i=1 di .
Proof. Recall thatP|V | = n + 1, with P the vertices numbered P from 0 (depot)P to n. By
definition |C ∗ | = uv∈E(C ∗ ) duv ≤ uv∈E(C ∗ ) (du + dv ) = i∈V (C ∗ ) 2di = 2 ni=0 di =
P
2 ni=1 di , where we used: that duv ≤ du0 + d0v for uv ∈ E(C ∗ ) by the triangular
inequality, the definition that di0 = d0i = di for every i ∈ V , the fact that each vertex i is
an extreme of exactly two edges of C ∗ , and the definition d0 = 0.
Theorem 6. There exists a factor 4− 3s34Q2 polynomial-time approximation algorithm for
the cumulative VRP.
Proof. Given as input an instance of cumulative VRP as previously described, consider
the algorithm with the steps: (1) compute a tour C of G by the well-known Christofides’
algorithm [Gaur et al. 2013], which guarantees that |C| ≤ 32 |C ∗ |; (2) compute a cluster
partition P ∗ of tour C with optimal fuel consumption by a DP algorithm in time O(n2 ) as
done in [Gaur et al. 2013]; and (3) return the subtours C1∗ , C2∗ , . . . , Ck∗ of P ∗ .
In this algorithm, we optimally calculate P ∗ of C in polynomial time. The analysis is
being made over a heuristic algorithm that also calculates a cluster partition P of a tour,
thus we can state that f (P ∗ ) ≤ f (P ). Let S ∗ be an optimal routing scheduling in fuel
consumption. By theorems 5 and 3, we have the ratio
P Pn Pk
|Cj |
2 n β i=1 wi di
f (P ∗ ) 1 + β b ( i=1 wi di ) + 1 + 2 a|C| + 4a Q − 2a j=1
sQ
≤ Pn P
f (S ∗ ) ∗
a max |C |, 2 i=1 wi di
+b n wd
Q i=1 i i
152
2º ETC - Encontro de Teoria da Computação
∗ Pn Pn Pk
wi di j=1 |Cj |
4 a |C2 | + 2
2
Q
i=1
+ b w d
i=1 i i − 2a sQ
≤ Pn P (1)
wd
a max |C ∗ |, 2 i=1Q i i + b ni=1 wi di
Pk
2a j=1 |Cj |
≤4− Pn Pn
∗ i=1 wi di
sQ a max |C |, 2 Q + b i=1 wi di
Pn
wd
2a max |C ∗ |, 2 i=1Q i i
≤4− Pn P (2)
wd
sQ a max |C ∗ |, 2 i=1Q i i + b ni=1 wi di
Pn
∗ i=1 wi di
2µW0 max |C |, 2 Q
=4− Pn Pn (3)
∗ i=1 wi di
sQ µW0 max |C |, 2 Q + µ i=1 wi di
Pn
wd
2W0 max |C ∗ |, 2 i=1Q i i
≤4− Pn P (4)
wd
sQ sW0 max |C ∗ |, 2 i=1Q i i + sW0 ni=1 swi di
Pn
∗ i=1 wi di
2 max |C |, 2 Q
=4− Pn P
wd
s2 Q max |C ∗ |, 2 i=1Q i i + ni=1 swi di
Pn
wd
4 i=1Q i i 4
≤4− 3
Pn = 4 − 3 2. (5)
3s Q i=1 wi di 3s Q
To obtain (1), we chose β = 32 and used that |C| ≤ 23 |C ∗ |. We used Theorem 1 to get
(2). To obtain (3), recall that a = µW0 and b = µ. In (4), we made use of the fact that
s and sW0 are integers. To obtain (5), we deal with the absolute value of the fraction:
we kept orPlower the numerator;
Pn and we majored the denominator applying the fact that
∗ n
|C | ≤ 2 i=1 di ≤P2 i=1 swi dP i as Lemma 1 states and as swi are integers for every
n
i=1 wi di
n
sw d P
i ∈ V , and the fact 2 Q = 2 i=1sQ i i ≤ 2 ni=1 swi di , as sQ is integer.
References
Altinkemer, K. and Gavish, B. (1987). Heuristics for unequal weight delivery problems
with a fixed error guarantee. Operations Research Letters, 6(4):149 – 158.
Gaur, D. R., Mudgal, A., and Singh, R. R. (2013). Routing vehicles to minimize fuel
consumption. Operations Research Letters, 41(6):576 – 580.
Haimovich, M. and Rinnooy Kan, A. H. G. (1985). Bounds and heuristics for capacitated
routing problems. Mathematics of Operations Research, 10(4):527–542.
Kara, I., Kara, B. Y., and Yetiş, M. K. (2008). Cumulative Vehicle Routing Problems,
pages 85–98. InTech Education and Publishing KG, Vienna, Austria.
153
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. In the Car Renter Salesman Problem, a set of cities should be visited,
beginning and ending in the same city, using vehicles rented for transport. Has
the goal to minimize the cost to perform the route. Several vehicles are available
for rental, each one with its characteristics and operating costs. These costs
include besides the amount paid for the rent of vehicles, the fuel consumption
and toll. Additionally, there is a fee to return the vehicle to the city in which
it was rented, if it went returned in a different city. In this paper we propose
an exact algorithm based on the Branch-and-Bound method for the problem
mentioned.
1. Introdução
O Problema do Caixeiro Viajante – PCV (do inglês Traveling Salesman Problem –
TSP) é um dos problemas clássicos da otimização combinatória e um dos problemas de
otimização combinatória mais pesquisados na literatura. O PCV possui várias e importan-
tes aplicações práticas e diversas variantes [Gutin and Punnen 2002]. Uma das variantes
do PCV é o Problema do Caixeiro Alugador (do inglês Car Renter Salesman Problem
– CaRS), recentemente descrito na literatura em [Goldbarg et al. 2011]. Esse modelo
tanto pode representar importantes aplicações na área do aluguel de transporte para tu-
rismo quanto em manufatura flexı́vel [Goldbarg et al. 2012]. Por admitir o PCV como
um subcaso elementar, o modelo representa uma variante de complexidade seguramente
desafiadora [Goldbarg et al. 2011].
Neste trabalho, propomos atacar o Problema do Caixeiro Alugador de forma exata,
para isso aplicamos a técnica Branch-and-Bound [Balas and Toth 1983], pois ela tem sido
aplicada com bastante frequência em problemas de otimização combinatória, incluindo o
Problema do Caixeiro Viajante [Prestes 2006].
154
2º ETC - Encontro de Teoria da Computação
2. Caixeiro Alugador
Nos dias atuais existem mais de 90 companhias de aluguel de veı́culos com porte
significativo no mercado mundial [Car 2014]. A importância do negócio de aluguel
de veı́culos pode ser avaliada pelo faturamento do setor como pelo porte das com-
panhias prestadoras de serviço. Algumas destas chegam a faturar bilhões de dólares
[Conrad and Perlut 2006]. Contudo o aluguel de veı́culos é apenas uma fração dos custos
de transporte, sobre esses custos adiciona-se pelo menos as despesas com combustı́vel,
seguros e pedágios [Goldbarg et al. 2011]. Apesar de alguns trabalhos serem dedicados a
área de otimização combinatória para a indústria de aluguel de carros, tais como os revi-
sados por [Yang et al. 2008], o ponto de vista do cliente não foi objeto de estudo nessas
publicações. A abordagem do ponto de vista do usuário de carros alugados é introduzida
no trabalho [Goldbarg et al. 2011], a partir do Problema do Caixeiro Alugador.
Considerando um grafo G = (N, M ) ponderado em arestas, com r carros dis-
ponı́veis para alugar. Uma matriz de custos C r = [crij ] indica o custo total de aluguel pela
distância percorrida, combustı́vel e possı́veis pedágios entre quaisquer duas cidades i e j
com o veı́culo r. A matriz Dr = [drij ] indica o custo total do carro r alugado na cidade i
ser devolvido na cidade j, tal que i 6= j. A função objetivo é minimizar o custo total do
percurso mais o custo de retorno dos veı́culos alugados. Neste trabalho, é considerada a
variante do Caixeiro Alugador em que cada veı́culo pode ser alugado apenas uma única
vez.
155
XXXVII Congresso da Sociedade Brasileira de Computação
4. Experimentos e Resultados
O presente tópico desenvolve um experimento computacional com o objetivo de va-
lidar o algoritmo exato proposto, e o faz por intermédio de uma comparação de de-
sempenho com os resultados de um algoritmo backtracking apresentado no trabalho
[Goldbarg et al. 2012]. Os experimentos foram executados em uma plataforma In-
tel Core I5 3.20 GHz, 8GB RAM em Linux com C++, cuja implementação pode
ser acessada em: https://github.com/vitorgodeiro/CaixeiroViajanteAlugador. São rela-
tados resultados para 24 instâncias não-euclidianas que se encontram disponı́veis em:
http://dimap.ufrn.br/lae/projetos/CaRS.php. O número de cidades visitadas varia entre 9
e 16 e o número de veı́culos disponı́veis para alugar varia entre 2 e 5.
A Tabela 1 apresenta os resultados obtidos pelo algoritmo Branch and Bound des-
crito nesse trabalho e os resultados de um algoritmo backtracking apresentado no trabalho
[Goldbarg et al. 2012]. A coluna Nome contém o nome da instância que está sendo tes-
tada, a coluna #Cidade possui o número de cidades da instância em análise, a coluna
#Carro possui o número de carros disponı́veis para alugar na instância em análise, na
coluna T(s) apresenta o tempo de execução em segundos do algoritmo Branch and Bound
para o dado caso de teste, a coluna T(s)’ apresenta o tempo de execução em segundos do
algoritmo backtracking e a coluna Opt apresenta o valor das soluções ótimas.
156
2º ETC - Encontro de Teoria da Computação
5. Conclusão
Neste trabalho, propomos uma versão de algoritmo exato baseado no método Branch and
Bound para o CaRS e realizamos uma comparação com o único trabalho da literatura que
apresenta um algoritmo exato para o CaRS.
A comparação com o outro trabalho da literatura demonstrou uma redução expres-
siva nos tempos de execução para encontrar a solução exata do Caixeiro Alugador, o que
sugere que a metodologia proposta foi adequada ao contexto. Portanto estes resultados
nos dão confiança para continuar atacando este problema com técnicas de programação
matemática como por exemplo branch-and-cut, branch-and-price, branch-cut-and-price,
branch-and-prune; uma vez que não existem outros estudos experimentais publicados
sobre este problema para comparação direta.
Agradecimentos
Ao Programa de Educação Tutorial do Ministério da Educação.
Referências
Balas, E. and Toth, P. (1983). Branch and bound methods for the traveling salesman pro-
blem. Technical Report DRC-70-22-83, Carnegie-Mellon University.Computer sci-
ence. Pittsburgh (PA US).
Car (2014). Car Rental Business - Global Strategic Business Report. http:
//www.researchandmarkets.com/reports/338373/car_rental_
business_global_strategic_business. Accessed: 2016-08-29.
Conrad, C. and Perlut, A. (2006). Enterprise Rent-A-Car Hits New Billion-Dollar
revenue mark for 3rd consecutive year. https://www.enterpriseholdings.
com/content/dam/ehicom/press-releases/Enterprise_FYO6_
Sept06.pdf. Accessed: 2016-08-29.
Goldbarg, M. C., Asconavieta, P. H., and Goldbarg, E. F. G. (2012). Memetic algorithm
for the traveling car renter problem: an experimental investigation. Memetic Compu-
ting, 4(2):89–108.
Goldbarg, M. C., da Silva, P. H. A., and Goldbarg, E. F. G. (2011). Algoritmos Evolu-
cionários na Solução do Problema do Caixeiro Alugador. chapter 14, pages 301–330.
Gutin, G. and Punnen, A. P., editors (2002). The traveling salesman problem and its
variations. Combinatorial optimization. Kluwer Academic, Dordrecht, London.
Prestes, A. N. (2006). Uma Análise Experimental de Abordagens Heurı́sticas Aplica-
das ao Problema do Caixeiro Viajante. Master’s thesis, Universidade Federal do Rio
Grande do Norte. Accessed: 2016-09-08.
Radcliffe, N. J. and Surry, P. D. (1994). Formal memetic algorithms, pages 1–16. Springer
Berlin Heidelberg, Berlin, Heidelberg.
Yang, Y., Jin, W., and Hao, X. (2008). Car rental logistics problem: A review of litera-
ture. In 2008 IEEE International Conference on Service Operations and Logistics, and
Informatics, volume 2, pages 2815–2819.
157
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Os problemas de programação (scheduling) são problemas clássicos da área de otimiza-
ção combinatória, pois lidam com a alocação de recursos, respeitando algumas restri-
ções e maximizando (ou minimizando) uma função matemática. Dentre os problemas de
scheduling, os Problemas de Tabela-Horário (PTH) possuem destaque.
Segundo [Schaerf 1995] e [Souza et al. 2001], os PTH da área educacional podem
ser especificados em três categorias: PTH de Escolas de Ensino Médio, PTH de Universi-
dades e PTH de Exames Finais. O Problema de Tabela-Horário de Universidades (PTHU)
consiste em alocar uma sequência de encontros entre professores e alunos em um período
prefixado de tempo, satisfazendo a um conjunto de restrições [Souza et al. 2001].
O PTHU possui uma das mais altas complexidades da área de otimização com-
binatória e esta aumenta à medida em que são adicionadas novas restrições. Segundo
[Schaerf 1995] o problema é classificado como NP-Difícil para a maioria das formula-
ções, e assim, uma solução exata só pode ser garantida para instâncias pequenas, o que
não corresponde à realidade da maioria das instituições de ensino.
158
2º ETC - Encontro de Teoria da Computação
2. Solução Inicial
Na etapa de construção de uma solução inicial para o PTHU podem ser utilizadas diferen-
tes heurísticas construtivas. Nesta seção são apresentadas duas heurísticas propostas na
literatura. Ambos os métodos tem como objetivo construir uma tabela-horário (solução)
válida e que minimize a violação das restrições fracas.
159
XXXVII Congresso da Sociedade Brasileira de Computação
Em que ∆fs (i,j,k) representa o valor da penalidade das restrições fracas sobre a
possível alocação da aula li no horário j e sala k. Os pesos k1 e k2 são relativos as restrições
fortes e fracas, respectivamente, e uaci,j (s) representa o número de aulas das disciplinas
ainda não totalmente alocadas, que se tornam inviáveis para alocação no horário j após a
possível inserção da aula li no horário j e sala k.
3. Conclusões
Este trabalho apresentou dois métodos heurísticos construtivos distintos para o PTHU.
Testes computacionais com as instâncias utilizadas no ITC-2007 foram realizados para
avaliar qualidade das soluções construídas. Ambos os métodos foram testados para todas
as instâncias, utilizando α = 0.5 para obter soluções parcialmente aleatórias e gulosas na
execução da HCGA e k1 = 1.0 e k2 = 0.5 na execução da HCTG.
160
2º ETC - Encontro de Teoria da Computação
Na maior parte das instâncias a solução construída pela heurística HCTG, proposta
por [Lü and Hao 2010], teve qualidade superior. Na execução dos métodos, para a maior
instância disponível, HCTG apresentou desempenho médio 36% superior a HCGA.
Analisando o comportamento dos algoritmos, nota-se que ambas heurísticas levam
em consideração as penalidades das restrições fracas durante a escolha da aula a ser alo-
cada. No entanto, a heurística HCTG, adicionamente leva em consideração o impacto que
a possível alocação terá, na tabela-horário parcialmente construída, em iterações futuras.
Assim a heurística HCTG evita o cenário em que uma aula ainda não alocada ficará sem
horários viáveis para a alocação nas próximas iterações. Com isso, não há necessidade da
criação do procedimento de explosão, implementado em HCGA.
Vale ressaltar que o procedimento explosão garante que as soluções construídas
pela HCGA serão viáveis, enquanto que as soluções construídas pelo HCTG não possuem
essa garantia. Apesar disso, os testes computacionais demonstram que a heurística HCTG
constrói soluções viáveis para todas as instâncias de teste do ITC-2007.
Dessa forma, esse trabalho apresentou duas heurísticas de construção de soluções
para o PTHU, mostrando as principais diferenças entre elas, inclusive em termos de qua-
lidade da solução construída. A partir disso, como trabalho futuro, será possível combinar
essas heurísticas com métodos de busca local na intenção de encontrar soluções de maior
qualidade.
Agradecimento: Os autores agradecem à Fundação de Amparo à Pesquisa e Ino-
vação do Espírito Santo - FAPES (processo 67656021/2014) pelo apoio financeiro.
Referências
Kampke, E. H., de Souza Rocha, W., Boeres, M. C. S., and Rangel, M. C. (2015). A
grasp algorithm with path relinking for the university courses timetabling problem.
Proceeding Series of the Brazilian Society of Computational and Applied Mathematics,
3(2).
Lü, Z. and Hao, J.-K. (2010). Adaptive tabu search for course timetabling. European
Journal of Operational Research, 200(1):235–244.
PATAT (2007). International timetabling competition. URL:
http://www.cs.qub.ac.uk/itc2007.
Santos, H. G. and Souza, M. J. F. (2007). Programação de horários em instituições edu-
cacionais: Formulações e algoritmos. In Anais do XXXIX SBPO-Simpósio Brasileiro
de Pesquisa Operacional, number 1, pages 2827–2882.
Schaerf, A. (1995). A survey of automated timetabling. Artificial Intelligence Review,
13:87–127.
Souza, M. J. F., Maculan, N., and Ochi, L. S. (2001). A grasp-tabu search algorithm
to solve a school timetabling problem. In Proceedings of The Fourth Metaheuristics
International Conference (MIC2001), pages 53–58.
161
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A comunicação é algo imprescindı́vel para a vida em sociedade e para o adequado desen-
volvimento das habilidades cognitivas. A existência de deficiências e condições adversas
prejudica o desenvolvimento pessoal e coletivo de pessoas que sofrem dessas condições
fı́sicas, psicológicas ou cognitivas.
A comunidade Surda superou a barreira criada por sua condição por meio da
sinalização, a qual evoluiu a ser considerada uma Lı́ngua. Cada região possui sua própria
lı́ngua de sinais local, nos Estados Unidos predomina a ASL (American Sign language),
no Brasil predomina a LIBRAS (Lı́ngua Brasileira de Sinais).
As lı́nguas de sinais possuem todas as caracterı́sticas e propriedades que con-
figuram uma linguagem natural, como pode ser observado nos trabalhos de Stokoe
[STOKOE 1960]. Os cinco principais aspectos de uma linguagem natural são: Itens
fonéticos, modificadores morfológicos, estrutura sintática, valor semântico e contexto
162
2º ETC - Encontro de Teoria da Computação
pragmático. As lı́nguas de sinais possuem todos esses aspectos representados por sinais
espaciais ordenados (Gestos) [BRITO 1995].
A proposta deste trabalho parte do mapeamento dos parâmetros linguı́sticos das
lı́nguas de sinais em um modelo matemático de autômatos finitos determinı́sticos (Grafos
Direcionados) utilizados como máquinas de estado para a estruturação e representação
de sinais em lı́nguas de sinais em animações vetoriais geradas em tempo de execução.
A caracterı́stica paramétrica das lı́nguas de sinais permite que seus aspectos linguı́sticos
possam ser quantificados em valores discretos que combinados formam um sinal dotado
de sentido semântico e sintático.
Derdardi [DENARDI 2006], apresentou um modelo similar que valida o conceito
de mapeamento de parâmetros linguı́sticos em uma estrutura de autômatos finitos.
Por meio do Falibras1 , tradutor de português para LIBRAS (software de lincença
de código livre desenvolvido pela Universidade Federal de Alagoas) o sistema envia textos
em português e recebe como resposta uma estrutura de dados contendo dados linguı́sticos
que são mapeados para o sistema de máquinas de estados que controla as animações.
2.1.1. Implementação
Na Unity Engine, uma máquina de estados possui o conceito de camada, o sistema pode
ter múltiplas camadas (Multiplas máquinas de estados). As camadas podem ser ligadas
1
http://www.falibras.org/
2
https://unity3d.com/
163
XXXVII Congresso da Sociedade Brasileira de Computação
164
2º ETC - Encontro de Teoria da Computação
Como um item fonético é um componente estático, este pode ser representado por um
keyframe, que consiste da representação espacial de um modelo 3D sinalizando o deter-
minado item fonético. Cada um desses keyframes é um estado de uma das máquinas de
estados. As combinações de dois ou mais destes itens formam um fonema.
3. Considerações Finais
O desenvolvimento de uma estrutura de geração de sinais baseada em métodos formais
linguı́sticos representados em um modelo matemático abstrato, torna a sinalização um
processo quantificável e decomponı́vel à estruturas paramétricas básicas que podem ser
manipuladas e estudadas. Agregando um potencial totalmente escalável para qualquer
lı́ngua de sinais ser representada pelo modelo.
References
BRITO, L. (1995). Por Uma Gramática de Lı́nguas de Sinais. Tempo Brasileiro, Rio de
Janeiro.
DENARDI, R. (2006). Aga-sign: Animador de gestos aplicado à lı́ngua de sinais. Mas-
ter’s thesis, Universidade Federal do Rio Grande do Sul, Instituto de Informática, Porto
Alegre.
HOPCROFT, J. (2002). Introdução à Teoria de Autômatos, Linguagens e Computação.
Editora Campus, Rio de Janeiro.
STOKOE, W. (1960). Sign and Culture: A Reader for Students of American Sign Lan-
guage. Listok Press, Silver Spring, MD.
165
XXXVII Congresso da Sociedade Brasileira de Computação
Introdução
A teoria de poliedros deriva-se da teoria de programação linear inteira [Schrijver 1986],
quando é considerado o conjunto de soluções factı́veis deste problema. Considerando
o fecho convexo do conjunto de soluções factı́veis deste problema [Rockafellar 1997]
obtém-se um poliedro que é a interseção de um número finito de subespaços afins. No
caso em que o fecho convexo seja um conjunto limitado, é possı́vel obter-lho a par-
tir das combinações convexas de um subconjunto finito de soluções factı́veis. A pri-
meira representação é conhecida como implı́cita e a segunda, como gerada pelos vértices
[Motzkin et al. 1953]. Em geral, o poliedro pode ser decomposto como a soma de um
politopo e um cone convexo [Schrijver 1986].
Neste trabalho, para g ∈ Zn consideraremos a Cg = x ∈ Rn ; kxk ≤ kgk} onde
k.k denota a norma euclidiana em Rn . De fato no interior de Cg existe uma quantidade
finita de subconjuntos Zn , e assim, se consideramos o fecho convexo de cada um destes
subconjuntos, teremos a famı́lia de todos os poliedros que estão inscritos em Cg .
O objetivo deste trabalho é descobrir qual destes poliedros verifica a seguinte pro-
priedade: a interseção entre o interior da Cg e o complemento do poliedro não tem elemen-
tos em Zn . Para o caso n = 2, o problema foi resolvido em [Maltez and Lozada 2015] e
[Maltez 2016].
166
2º ETC - Encontro de Teoria da Computação
onde “−” denota a diferença entre conjuntos, |.| representa a cardinalidade de um conjunto
e para um conjunto S, P (S) = {A : A ⊂ S}. Neste trabalho estudamos o seguinte
problema de otimização combinatória:
min f (V )
(2)
sujeito a: V ∈ P (Cg ∩ Zn )
Algoritmo
As entradas do Algoritmo 1 são n ∈ N∗ , a dimensão onde está a hiperesfera, e g ∈ Zn
um ponto que define o raio r = kgk > 0 da hiperesfera. A saı́da do Algoritmo 1 é um
conjunto dos pontos em Zn mais próximos da hiperesfera que define Cg .
Cada um destes pontos será implementado por uma tupla, cuja dimensão crescem
à medida que novas dimensões forem inseridas. Inicialmente, cada tupla tem dimensão 1 e
será representada por (k), onde k ∈ Z. A dimensão de uma tupla pode ser incrementada
da seguinte forma. Seja I uma tupla de dimensão n − 1 tal que I = (i1 , i2 , . . . , in−1 ).
Acresenta-se uma coordenada em I, simbolizada no Algoritmo 1, por (I, k), para um
valor qualquer k ∈ Z. O resultado deste acréscimo será I = (i1 , i2 , . . . , in−1 , k). Uma
tupla, portanto, pode ser implementada com uma lista encadeada. No Algoritmo 1, a
saı́da está implementada como uma deque de tuplas. Dado x = (x1 , . . . , xn−1 ) ∈ Zn−1 ,
o resı́duo de norma inteiro é o maior inteiro s tal que k(x, s)k = k(x1 , . . . , xn−1 , s)k ≤
r. Em outras palavras, o resı́duo de norma inteiro define o maior valor inteiro que se
permite inserir na tupla x sem aumentar a norma de (x, s) p além do valor r. Para a norma
euclidiana, o resı́duo de norma inteiro é dado por s = ±b r2 − kxk2 c. A ideia de resı́duo
de norma inteiro pode ser definida usando qualquer norma e assim o Algoritmo 1 pode ser
adaptado para bolas n-dimensionais definidas com outra norma, basta mudar a equação do
resı́duo de norma inteiro na linha 15 do Algoritmo 1. O Algoritmo 1 inicialmente verifica
o caso trivial, isto é, quando n = 1, e executa apenas as linhas 3 e 4, pois a iteração da
167
XXXVII Congresso da Sociedade Brasileira de Computação
Entrada: n ∈ N∗ , g ∈ Zn
Saı́da: R = {x ∈ Zn : r − 1 < kxk ≤ r}
1 Inicialize uma deque R vazia;
2 se n = 1 então
3 Adicione a R a tupla (−brc);
4 Adicione a R a tupla (brc);
5 senão
6 para k ← −brc até brc faça
7 Adicione a R a tupla (k);
8 fim
9 fim
10 para i ← 2 até n faça
11 Atribua a Rl o tamanho atual de R;
12 para j ← 1 até Rl faça
13 Atribua a I a tupla no topo de R e desempilhe-a de R;
14 l ← kIk;
√
15 s ← b r2 − l2 c;
16 se n = i então
17 se s 6= 0 então
18 Adicione no final da deque R a tupla (I, −s) ;
19 Adicione no final da deque R a tupla (I, s) ;
20 senão
21 Adicione no final da deque R a tupla (I, s) ;
22 fim
23 senão
24 para k ← −s até s faça
25 Adicione no final da deque R a tupla (I, k) ;
26 fim
27 fim
28 fim
29 fim
linha 10 a 29 não é executada neste caso. Para o laço externo nas linhas 10 a 29, tem-se o
seguinte invariante de laço [Cormen 2009]
Este invariante se mantém nas três fases do laço. Na inicialização, após a atribuição
i ← 2, tem-se que R = {k ∈ Z : k(k)k ≤ r ∧ k ∈ {−s, −s + 1, . . . , s − 1, s}}
devido a execução prévia das linhas 6 a 8. Na manuntenção, o laço das linhas 12 a
28 adiciona uma coordenada a mais em cada elemento de R. Cada elemento de R com
dimensão i − 1 será removido (linha 13) para serem adicionados novos elementos em R
com dimensão i. O resı́duo de norma inteiro para este elemento removido é calculado
168
2º ETC - Encontro de Teoria da Computação
i−1 | q
X X
n−1 |R
2brc + 1 + E(j)|Rn−1 | + 2 r2 − kIj k2 + 1 , (4)
| {z } | {z }
i=2 j=1
linhas 6 a 8 linhas 16 a 22 | {z }
linhas 24 a 26
Referências
Chazelle, B. (1993). An optimal convex hull algorithm in any fixed dimension. Discrete
& Computational Geometry, 10:377–409.
Cormen, T. H. (2009). Introduction to algorithms. The MIT Press, Cambridge, Masachu-
setts; London.
Maltez, T. R. R. (2016). Polı́gono inscrito em uma circunferência sem pontos z2 en-
tre a circunferência e o polı́gono. Monografia (Bacharel em Ciências Exatas e Tec-
nológicas), UFRB (Universidade Federal do Recôncavo da Bahia), Cruz das Almas,
Brasil.
Maltez, T. R. R. and Lozada, E. G. M. (2015). Uma ferramenta dinâmica de geogebra para
o estudo de polı́gonos não regulares inscritos em uma circunferência. In III Reconcitec.
Motzkin, T., Raiffa, H., Thompson, G. L., and Thrall, R. M. (1953). The double descrip-
tion method. In Kuhn, H. W. and Tucker, A. W., editors, Contributions to the Theory
of Games II. Princeton University Press.
Rockafellar, R. (1997). Convex Analysis. Princeton landmarks in mathematics and phy-
sics. Princeton University Press.
Schrijver, A. (1986). Theory of Linear and Integer Programming. John Wiley and Sons,
Inc., New York, NY, USA.
169
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. Cellular automata has been used in several tasks, such as the classifi-
cation task. This is because the ease of implementation, and based on few rules
we can obtain great results, as compared with other classification methods. This
paper has the objective utilize cellular automata to classify the dataset IRIS, and
compare their results with an algorithm widely used in the classification task,
KNN. Our proposed method obtained a classification rate of 96,6%.
Resumo. Autômatos celulares vem sendo utilizados em várias tarefas, como por
exemplo, classificação. Isso acontece devido a facilidade de implementação, e
a partir de poucas regras pode-se obter bons resultados, quando comparado a
outros métodos. Este trabalho tem como objetivo utilizar autômatos celulares
para efetuar a classificação da base de dados IRIS, e comparar seus resultados
com um algoritmo muito usado na tarefa de classificação, o KNN. O algoritmo
proposto no artigo obteve uma uma taxa de classificação de 96,6%.
1. Introdução
Um autômato celular (CA – Cellular Automata) é um modelo matemático discreto
com uma população de células que evolui a cada geração a partir de uma regra de
transição [Chopard and Droz 1998]. John Horton Conway, um matemático britânico,
desenvolveu em 1970 um importante trabalho para a época, quando se fala em autômato
celular o exemplo mais comum é o jogo da vida, desenvolvido por ele [Adamatzky 2010].
No jogo da vida uma célula morre se possui menos de dois vizinhos ou se possui mais
de três vizinhos. Uma célula morta com três vizinhos se torna uma célula viva e se uma
célula viva possui exatamente dois ou três vizinhos, a célula continua viva.
Autômatos celulares estão presentes em diversas áreas como biologia, finanças,
processamento de imagens, computação paralela, simulações de situações reais, como
por exemplo, determinar a forma como um certo tipo de vı́rus pode se espalhar em deter-
minada região, simular a propagação de um incêndio em florestas ou realizar um estudo
sobre a expansão dos centros urbanos [Chandra and Vidushi 2012,Fu and Milne 2003,Tian
et al. 2016]. Neste contexto, o principal objetivo deste trabalho é empregar os conceitos
de autômatos celulares para reconhecimento de padrões, classificando amostras de acordo
com suas caracterı́sticas. Pode-se definir classificação como a tarefa de classificar ou dis-
por dados em determinadas classes, através da extração de informação ou conhecimento
de uma base de dados. A metodologia consiste em analisar os vizinhos da célula para
realizar a tarefa de classificação. Uma modificação muito importante foi feita na regra de
Moore para que o autômato considere o seu estado atual para a classificação pois o estado
atual da célula possui alta relevância para definir o seu próximo estado. Para verificar a
potencialidade da metodologia, a base de dados IRIS [Lichman 2013] será utilizada nos
experimentos.
170
2º ETC - Encontro de Teoria da Computação
2. Autômatos celulares
De acordo com John von Neumann [Von Neumann et al. 1966], um autômato celular pode
ser definido como um modelo capaz de se auto-reproduzir a partir de regras definidas.
Definição I. Um autômato é formado pela 5-tupla (α,β,γ,δ,Θ), onde:
(i)α é um conjunto finito de estados;
(ii)β é um conjunto finito de sı́mbolos;
(iii)γ é uma função de transição;
(iv) δ é o estado inicial do autômato, antes de ser aplicada uma função de transição
sobre determinada célula, onde δ ∈ α;
(v) Θ é um conjunto de estados de α, chamados também de estados de aceitação.
Em CA existem algumas definições de vizinhos, as mais utilizadas são as
definições de vizinhança de von Neumann e Moore [Wolfram 1983]. Em uma tesselação
2d, a definição de von Neumann consiste em verificar os estados de suas células vizinhas
que estão ao norte, sul, leste e oeste, já a definição de Moore acrescenta a possibilidade
de verificar o estado das células que estão a nordeste, sudeste, sudoeste e noroeste. Para
o desenvolvimento do CA utilizado neste artigo, a definição de Moore foi indicada por
obter uma boa precisão na tarefa de classificação.
4. Experimentos e resultados
A base dados utilizada para a realização do experimento foi a base de dados IRIS [Lich-
man 2013], que possui 3 classes de flores, sendo elas: setosa, versicolor e virgı́nica (A, B e
C, respectivamente). Cada classe possui 50 instâncias resultando em 150 instâncias. Cada
flor é composta por 4 caracterı́sticas: comprimento da pétala, largura da pétala, compri-
mento da sépala e largura da sépala. O CA foi implementado na linguagem C em duas
dimensões. Devido a base de dados IRIS possuir quatro caracterı́sticas, duas matrizes
bidimensionais foram construı́das, onde uma matriz possui relação com as caracterı́sticas
da pétala e a outra matriz com caracterı́sticas da sépala. Para realizar a classificação
foram utilizadas as duas matrizes, onde se verifica o número de vizinhos de cada célula e
a partir da regra de transição é feita a classificação. As Figuras 1(a) e 1(b) representam a
distribuição das classes que foram classificadas pelo autômato desenvolvido.
171
XXXVII Congresso da Sociedade Brasileira de Computação
172
2º ETC - Encontro de Teoria da Computação
5. Conclusões
O objetivo deste trabalho foi desenvolver um autômato celular que pudesse realizar tarefas
de classificação, para isso, a base de dados IRIS foi utilizada para realizar os experimentos
e com os resultados, pode-se perceber que autômatos celulares possuem uma vasta gama
de aplicação seja na área de ciência da computação como biologia, economia e áreas
afins. Como projetos futuros temos como objetivo fazer a fusão de mineração de dados
e autômatos para conseguir extrair informações, comportamentos ou regras de um deter-
minado conjunto de dados. De um modo geral pode-se dizer que a tarefa de classificação
é um tipo de mineração de dados no qual a partir de uma regra, classifica-se um con-
junto de dados. A principal vantagem de se utilizar o CA proposto está na facilidade de
implementação, além de ser uma abordagem nova e bastante promissora. É importante
destacar que podem ser utilizados dados com mais de 2 dimensões (números de carac-
terı́sticas), porém estes dados devem ser quebrados em matrizes bidimensionais para não
contrariar a definição de vizinhança utilizada neste trabalho.
References
Adamatzky, A. (2010). Game of life cellular automata, volume 1. Springer.
Adwan, O., Huneiti, A., Ayyal Awwad, A., Al Damari, I., Ortega, A., Abu Dalhoum,
A. L., and Alfonseca, M. (2013). Utilizing an enhanced cellular automata model for
data mining. International Review on Computers and Software.
Ahangaran, M., Taghizadeh, N., and Beigy, H. (2017). Associative cellular learning au-
tomata and its applications. Applied Soft Computing, 53:1–18.
Chandra, M. A. and Vidushi (2012). Article: A study and analysis on cellular automata
based classifier in data mining. IJCA Proceedings on International Conference on
Advances in Computer Applications 2012, ICACA(1):30–35. Full text available.
Chopard, B. and Droz, M. (1998). Cellular automata. Springer.
Fawcett, T. (2008). Data mining with cellular automata. ACM SIGKDD Explorations
Newsletter, 10(1):32–39.
Fu, S. and Milne, G. (2003). Epidemic modelling using cellular automata. In Proc. of the
Australian Conference on Artificial Life. Citeseer.
Lichman, M. (2013). UCI machine learning repository.
Tian, G., Ma, B., Xu, X., Liu, X., Xu, L., Liu, X., Xiao, L., and Kong, L. (2016). Sim-
ulation of urban expansion and encroachment using cellular automata and multi-agent
system model – a case study of tianjin metropolitan region, china. Ecological Indica-
tors, 70:439–450.
Von Neumann, J., Burks, A. W., et al. (1966). Theory of self-reproducing automata. IEEE
Transactions on Neural Networks, 5(1):3–14.
Wolfram, S. (1983). Statistical mechanics of cellular automata. Reviews of modern
physics, 55(3):601.
173
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. Graph Coloring problems are very common in the study of Graph
Theory, and there are many variants of the problem. In this paper, we present
a result regarding a variant known as Backbone Coloring. Given a graph G =
(V, E), a subgraph H ⊆ G and an integer q, a q-backbone -coloring of (G, H)
is a proper coloring φ of G such that |φ(u) − φ(v)| ≥ q, for every uv ∈ E(H).
The q-backbone chromatic number of (G, H), denoted by BBCq (G, H), is the
smallest integer such that there exists a q-backbone -coloring of (G, H). For
G an outerplanar graph and H a matching on G, we show that it is always
possible to find a 2-backbone 4-coloring of (G, H). Furthermore, this bound is
tight, that is, there are graphs G and H such that BBC2 (G, H) = 4.
1. Introdução
Problemas de coloração de Grafos são problemas que envolvem atribuir valores,
ou cores, a vértices de um grafo, satisfazendo um conjunto de restrições. Para definições
e teoria mais detalhada na área de Teoria dos Grafos ou Coloração de Grafos, referimos
ao leitor os livros de Douglas B. West [4] ou Bondy e Murty [3]. Uma coloração de
vértices em G é uma função φ : V (G) → I , onde I = {1, 2, . . . , }. Dizemos que
φ : V (G) → I é própria se |φ(u) − φ(v)| ≥ 1, para toda aresta uv ∈ E(G). Denotamos
por φ(S) = {φ(u) | u ∈ S}. Os exemplos mais antigos de coloração de grafos [5]
envolvem principalmente coloração de mapas, onde vilarejos eram os vértices e vilarejos
vizinhos não podiam ser coloridos com as mesmas cores. Este problema deu origem
ao que hoje é conhecido como Teorema das Quatro Cores [7]. O estudo de Coloração
de Grafos é útil em problemas de Atribuição de Frequência [6], onde pode-se ter vários
receptores que se comunicam com um satélite via sinais de diversas frequências. Se a
dois transmissores vizinhos forem assinaladas frequências iguais, ou mesmo próximas,
pode haver uma interferência entre os sinais. Um caso particular de Coloração de Grafos
174
2º ETC - Encontro de Teoria da Computação
2. Definições
Dado um par (G, H), um subpar (G , H ) de (G, H), escrevemos (G , H ) ⊆
(G, H), é um par tal que G ⊆ G e H ⊆ H. Além disso, se (G , H ) é um subpar de
(G, H) com H H ou G G, dizemos que (G , H ) é um subpar próprio de (G, H).
Duas cores c1 e c2 são ditas adjacentes se |c1 − c2 | = 1. Seja c ∈ I , denotamos
por [c] o conjunto {d ∈ I | |c − d| ≤ 1}, ou seja, o conjunto formado por c e suas cores
adjacentes.
Um subgrafo G ⊆ G é um subgrafo induzido de G se, para quaisquer x, y ∈
V (G ), xy ∈ E(G ) se, e somente se, xy ∈ E(G).
para u em φ, como:
Muitas vezes desejamos saber não os elementos do conjunto Aφ (u), mas a quan-
tidade de seus elementos. Utilizamos a notação aφ (u) para representar |Aφ (u)|.
175
XXXVII Congresso da Sociedade Brasileira de Computação
Um par (G, H) é dito (k, q)-minimal se BBCq (G, H) > k, mas BBCq (G , H ) ≤
k para todo subpar próprio (G , H ) de (G, H). Observe que se BBCq (G, H) ≥ k, então
existe um subpar (G , H ) de (G, H) que é (k, q)-minimal.
3. Resultados
Lema 2. Se (G, H) é um par (k, 2)-minimal, então G é conexo.
Demonstração. Suponha, por contradição, que G não é conexo. Dessa forma, tome C ⊂
V (G) uma componente conexa de G. Observe que (G, H) − C e (G, H)[C] admitem
k-colorações 2-backbone φ e φ’, respectivamente. Combinando φ e φ , obtemos uma
k-coloração 2-backbone de (G, H). Contradição.
BBC2 (G, M ) = 4.
176
2º ETC - Encontro de Teoria da Computação
4. Conclusão
Neste trabalho provamos que, para qualquer grafo periplanar G e um emparelha-
mento M , é possı́vel encontrar uma 4-coloração do grafo respeitando a diferença de 2
entre cores de vértices adjacentes no emparelhamento.
Em aberto seguem os dois questionamentos: e se o grafo planar for arbitrário?
Ainda é possı́vel colorir com quatro cores? De Broersma et al. [8], sabemos que é possı́vel
colorir utilizando seis cores, no entanto para quatro cores há sempre restrições aplicadas
na famı́lia de grafos para que seja possı́vel colorir com quatro cores. O segundo questio-
namento é: é possı́vel relaxar a particularização do valor de q e obter resultados similares?
Mais formalmente, existe uma constante c tal que BBCq (G, M ) ≤ q + c?
Referências
[1] Julio Araujo, Frédéric Havet, and Mathieu Schmitt. Steinberg-like theorems for backbone
colouring. Research Report RR-8641, INRIA Sophia Antipolis; INRIA, November
2014.
[2] Alexandre A. Cezar. Circular backbone colouring for graphs without cycles of size four.
Dissertação (Mestrado em Matemática) - Universidade Federal do Ceará. 2016
[3] Adrian Bondy. and Uppaluri S.R. Murty. Graph Theory. Graduate Texts in Mathematics.
Springer London, 2008.
[4] Douglas B. West. Introduction to graph theory. Vol. 2. Upper Saddle River: Prentice hall,
2001.
[5] Marek Kubale. Graph colorings. American Mathematical Soc. volume 352, 2004.
[6] Hale, William K. Frequency assignment: Theory and applications. Proceedings of the
IEEE 68.12 (1980): 1497-1514.
[7] Rudolf Fritsch, and Gerda Fritsch Four-Color Theorem. Springer-Verlag, 1998.
[8] Broersma, H., Fomin, F. V., Golovach, P. A., Woeginger, G. J. ”Backbone colorings for
graphs: Tree and path backbones.”Journal of Graph Theory 55.2 (2007): 137-152.
[9] Broersma, H., Marchal, B., Paulusma, D., Salman, A. N. M. ”Improved upper bounds for
λ-backbone colorings along matchings and stars.”International Conference on Cur-
rent Trends in Theory and Practice of Computer Science. Springer Berlin Heidelberg,
2007.
177
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
The second edition of the Workshop on Cloud Networks (WCN) aims at interacting with
the Brazilian Computer Society (SBC) for the creation of a SIG (Special Interest Group)
in Cloud Computing, formed by Brazilian academic experts for structuring the evolution
of the area within the research community in Brazil for the upcoming years. This SIG can
be responsible for organising future technical themed workshops to strengthen the
collaboration between academia and industry.
This workshop will present unpublished position papers by Brazilian and
European stakeholders related to the latest challenges, technologies, solutions and
techniques related to networking within the cloud and to the efficient and effective cloud
deployment and hosting of the various emerging applications and services.
178
2º WCN - Workshop on Cloud Networks
Comitê Organizador
Coordenação Geral
Wagner Meira Jr. (DCC/UFMG), Priscila Solis (UnB), Marco Vieira (UC)
Coordenação Local
Calebe de Paula Bianchini (Mackenzie)
TPC
Andrey Brito (UFCG), Antonio Augusto Frohlich (UFSC), Edmundo Monteiro
(University of Coimbra), Eduardo Alchieri (UnB), Flavio Wagner (UFRGS), Giovani
Gracioli (UFSC), João Gondim (UnB), Lisandro Zambenedetti Granville (UFRGS),
Moacyr Martucci (POLI-USP), Nuno Laranjeiro (University of Coimbra), Philippe
Navaux (UFRGS), Thais Vasconcelos Batista (UFRN)
179
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
Os testbeds de Internet do Futuro podem ser muito úteis no ensino de Redes de
Computadores, tanto em aulas de laboratório de cursos de graduação e pós-graduação
como no contexto de cursos online (EAD, MOOCs). O acesso a ambientes de
experimentação de larga escala oferece aos alunos uma experiência prática (hands-on)
que tipicamente não é possível oferecer com softwares simuladores e recursos locais de
uma instituição de ensino.
O objetivo deste workshop é apresentar e demonstrar o uso do testbed FIBRE -
Future Internet Brazilian Environment for Experimentation de forma a encorajar
professores a fazerem uso do testbed em sala de aula. Além de apresentação de tutoriais,
a segunda edição do workshop selecionou trabalhos de 5 usuários que relatam a execução
de experimentos realizados no testbed, a saber:
1. Investigação do Protótipo IRATI usando testbed FIBRE. Djalma A. Lima Filho e
José A. Suruagy Monteiro (UFPE)
2. Coleta de amostras de RSSI para testes de handoff em cenários com e sem
mobilidade utilizando-se testbeds FIBRE. Helga Dolorico Balbi e Célio V. N. de
Albuquerque (UFF)
3. Uma Análise de Métricas para Colocação de Servidores de Cache e Distribuição
de Conteúdo no testbed FIBRE. Caléo R. Nascimento e Antônio J. Abelém
(UFPA)
4. VCFlow: arcabouço para provimento de serviços de transporte de camada 2 em
redes SDN/OpenFlow híbridas. Pedro H. Diniz, Nilton Alves Jr. e Márcio P.
Albuquerque (CBPF)
5. NovaGenesis no Ambiente FIBRE: Desempenho da Troca de Conteúdos
Nomeados. Victor Hugo D. D’Ávila, Élcio Carlos Rosário, Felipe Simões
Miranda e Antônio M. Alberti (Inatel)
Destes 5 trabalhos, apenas os 2 primeiros haviam resultados maduros o suficiente para
serem relatados e incluídos nos anais do CSBC no momento do fechamento desta
publicação. Os 3 artigos restantes, apesar de apresentados no workshop, serão
disponibilizados online ou publicados em futuras edições deste workshop.
180
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
Comitê Organizador
Leandro Ciuffo (RNP), José Ferreira de Rezende (UFRJ), Iara Machado (RNP)
181
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Coleta de amostras de RSSI para testes de handoff em cenários com mobilidade
utilizando-se testbeds FIBRE
Helga Dolorico Balbi, Célio V. N. de Albuquerque
182
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
helgadb@midiacom.uff.br, celio@ic.uff.br
Abstract. The direct use of RSSI samples by the handoff algorithms implemen-
ted in client devices is one of the causes of the association instability problem in
dense infra-structured IEEE 802.11 networks. Considering that temporal RSSI
samples present a high variability in time due to the noisy wireless medium, it
becomes interesting to use filtering mechanisms to prevent applications based
on this metric to take wrong decisions. In order to facilitate the analysis of new
proposals for the problem of association instability, this work aimed at creating
traces of RSSI using the testbeds provided by the FIBRE project. As will be
presented, the results include the generation and publication of RSSI traces ob-
tained from different IEEE 802.11 interfaces in scenarios with mobility. These
traces may be used in the future as input for simulators of applications based on
RSSI metric, such as handoff and localization algorithms.
1. Introdução
As redes sem fio, particularmente as redes IEEE 802.11 [IEEE 2012] infraestruturadas
densas1 , comumente apresentam problemas de instabilidade de associação entre estações
cliente (STAs) e Pontos de Acesso (APs) [Santana et al. 2016, Raghavendra et al. 2007].
Uma das causas reportada em [Balbi et al. 2016] é a utilização de algoritmos de handoff
1
O termo “redes densas” aqui refere-se à densidade de estações, podendo estas serem estações cliente
ou pontos de acesso da rede.
183
XXXVII Congresso da Sociedade Brasileira de Computação
ineficientes por parte das STAs. Tais algoritmos são capazes de ocasionar handoffs fre-
quentes, até mesmo para estações estáticas, que podem ser inconvenientes para o usuário
da rede. Alguns efeitos inconvenientes são a perda de conectividade, a quebra de co-
nexões ativas e o aumento do número de quadros de gerência na rede, que aumenta o
overhead da comunicação.
Idealmente, um handoff para um novo AP deveria ocorrer somente quando, de
fato, observa-se um ganho de qualidade na conexão. Um exemplo é uma STA móvel
que gradualmente se move para longe de seu AP corrente, se aproximando de outro AP
pertencente ao mesmo ESS (Extended Service Set). Entretanto, especialmente em ambi-
entes nos quais muitos APs estão no alcance rádio de uma mesma STA, é comum que
esta realize handoffs para APs que proveem qualidade de conexão similar, ou até pior
em relação ao atual. Em alguns casos, a STA realiza handoffs sucessivos entre dois ou
mais APs em um curto intervalo de tempo, mesmo estando estática ou com mobilidade
reduzida [Balbi et al. 2016]. Esta instabilidade é comumente conhecida na literatura por
efeito “ping-pong” [Mhatre and Papagiannaki 2006, Ramani and Savage 2005].
O trabalho de [Balbi et al. 2016], mostra que o efeito ping-pong ocorre de forma
recorrente para uma grande gama de dispositivos de diferentes fabricantes e sistemas ope-
racionais atuais. Além disso, mostra que uma das raı́zes do problema está relacionada à
utilização direta de amostras de RSSI (Received Signal Strength Indication) na decisão
de handoff, uma métrica que possui grande variabilidade no tempo [Balbi et al. 2016]. A
partir desta constatação, os autores propõe a utilização de um filtro baseado na Média
Móvel Exponencialmente Ponderada (MMEP) para suavização das amostras temporais
de RSSI. Apesar de simples e efetivo na solução do efeito ping-pong, este filtro apre-
senta a desvantagem de ocasionar o atraso na realização dos handoffs que são realmente
desejados, como nos casos em que a STA se afasta de seu AP de origem e se aproxima
de um novo AP. Desta forma, torna-se interessante que outros métodos para filtragem do
ruı́do sejam elaborados considerando-se esta questão. Outra necessidade é a avaliação
dos métodos em cenários mais variados, incluindo cenários com mobilidade.
Para que a avaliação de mecanismos de filtragem possa ser realizada de forma
realı́stica e sistemática, se torna necessária a coleta de amostras temporais de RSSI em
redes reais com topologia conhecida. Tendo esta necessidade em vista, este trabalho ob-
jetivou a criação destes traces utilizando-se a infra estrutura de testbeds do FIBRE (Future
Internet Brazilian Environment for Experimentation). Como resultados dos experimen-
tos, traces de RSSI foram coletados a partir de duas interfaces IEEE 802.11 em cenários
móveis, e disponibilizados para a comunidade cientı́fica. A partir destes traces, o com-
portamento de diferentes mecanismos de handoff, baseados em diferentes métodos de
filtragem, poderá ser avaliado através do uso de simuladores que terão como entrada estas
amostras temporais. Os traces também poderão ser utilizados para pesquisa de outras
aplicações que baseiam-se no RSSI, como as de localização.
As próximas seções estão organizadas da seguinte forma: a Seção 2 apresenta a
infraestrutura do testbed FIBRE escolhido para a realização dos experimentos em redes
IEEE 802.11 com mobilidade; a Seção 3 descreve os experimentos e os resultados obti-
dos; a Seção 4 fala sobre a experiência de utilização do testbed FIBRE; por fim, a Seção
5 apresenta a conclusão do trabalho.
184
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
7,5 m
14 41 35 39
19,50 m
END ORG
30
Terceiro Andar
60 m
7,5 m
19,50 m
Legenda:
38 Nós Mini ITX
Nós Icarus
Quarto andar Estações de
parada do Trem
Figura 1. Plantas com localização dos nós Icarus e Mini ITX instalados no 3o e 4o
andar do testbed FIBRE da UFF.
A infraestrutura também incluiu um servidor que pôde ser acessado de fora da rede
da UFF e que possibilitou a comunicação com todos os nós sem fio descritos, incluindo
185
XXXVII Congresso da Sociedade Brasileira de Computação
nós Icarus, ITX, laptop e trem. A comunicação do laptop com a rede foi realizada através
de rede sem fio, utilizando o AP FibreUFF instalado dentro da estação ORG. Próximo a
ele, encontrava-se o AP MotorCrtl, que foi instalado para servir como backup para caso
o AP FibreUFF falhasse. Já a comunicação com o sistema de controle de movimentação
do trem foi realizada por rede cabeada Ethernet. Uma Webcam instalada na estação de
parada ORG também estava acessı́vel através deste servidor. As imagens geradas por
ela puderam ser recebidas por streaming a qualquer momento, mostrando visualmente a
localização do trem e se ele estava ou não em movimento.
(a) (b)
(c) (d)
A Figura 2 mostra fotos do “trem” e do laptop que fica acoplado a ele para a
execução dos testes com mobilidade. Três interfaces de rede IEEE 802.11 extras fo-
ram acopladas ao laptop para a realização dos experimentos (Figura 2-a ), duas para
captura de quadros (Airpcap NX [WikiDevi 2017a] e TP-LINK TL-WN722N rev 1.0
[WikiDevi 2017b]) e uma para envio de quadros de probe request (TL-WN722N rev 1.0),
para que quadros de probe response pudessem ser coletados, além de beacons provenien-
186
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
tes dos APs localizados nos arredores do trem. A Figura 2 (b) mostra as engrenagens do
trem e ao fundo o corredor pelo qual ele se desloca. A Figura 2 (c) mostra o trem visto
por baixo, ao lado da estação de parada ORG, ambos pendurados ao teto. A Figura 2 (d)
mostra o trem visto por trás e ao fundo o corredor. Esta foto foi obtida a partir da Webcam
do trem.
187
XXXVII Congresso da Sociedade Brasileira de Computação
1490166700.89 20170322 04:11:40 CLEAR ORG 0
1490166704.0045 20170322 04:11:44 FWD ORG 0
20170322 04:11:47 Reset button pressed. Train has reached end of track
20170322 04:11:47 Reset button pressed. Train has reached end of track
1490166753.9383 20170322 04:12:33 HALT END 6720
20170322 04:12:33 Reset button pressed. Train has reached end of track
20170322 04:12:34 Reset button pressed. Train has reached end of track
(a)
1490166764.8135 20170322 04:12:44 CLEAR END 6720
1490166767.9199 20170322 04:12:47 BWD END 6720
20170322 04:12:50 Reset button pressed. Train has reached end of track
20170322 04:12:50 Reset button pressed. Train has reached end of track
1490166816.1744 20170322 04:13:36 HALT ORG 0
20170322 04:13:36 Reset button pressed. Train has reached end of track
20170322 04:13:36 Reset button pressed. Train has reached end of track
(b)
Figura 3. Exemplos de conteúdo do arquivo de log: (a) sentido de IDA; (b) sentido
de VOLTA.
0 0
-10 MotorCtrl-c0:4a:00:bd:c1:54 -10 MotorCtrl-c0:4a:00:bd:c1:54
-20 -20
RSSI (dBm)
RSSI (dBm)
-30 -30
-40 -40
-50 -50
-60 -60
-70 -70
-80 -80
-90 -90
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
7:
8:
8:
8:
8:
8:
8:
9:
9:
7:
8:
8:
8:
8:
8:
8:
9:
9:
50
00
10
20
30
40
50
00
10
50
00
10
20
30
40
50
00
10
RSSI (dBm)
-30 -30
-40 -40
-50 -50
-60 -60
-70 -70
-80 -80
-90 -90
03
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 40:
03 40:
03
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 40:
03 40:
:
: 05
: 10
: 15
: 20
: 25
: 30
: 35
: 40
: 45
: 50
: 55
: 00
:4 05
:
: 05
: 10
: 15
: 20
: 25
: 30
: 35
: 40
: 45
: 50
: 55
: 00
:4 05
0:
0:
10
10
188
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
Após a finalização dos experimentos, os traces (no formato .cap) foram verifica-
dos, e informações de RSSI referentes aos beacons de cada AP encontrado no percurso
foram extraı́das. Para cada experimento, um diretório foi criado contendo um arquivo
para cada AP encontrado no trajeto. A distinção entre APs foi realizada pelo MAC de
transmissão do beacon. Cada arquivo gerado contém MAC, Epoch Time, RSSI e SSID
registrados no beacon recebido.
Além disso, gráficos RSSI x Tempo (Epoch Time) foram plotados. As Figuras
4 e 5 mostram alguns dos gráficos obtidos para o teste de No 0, nos sentidos de IDA e
VOLTA, para as interfaces TP-Link e Airpcap.
0 0
-10 FibreITX35-c0:4a:00:1c:f4:90 -10 FibreITX35-c0:4a:00:1c:f4:90
-20 -20
RSSI (dBm)
RSSI (dBm)
-30 -30
-40 -40
-50 -50
-60 -60
-70 -70
-80 -80
-90 -90
03
03 7:5
03 8:0
03 8:0
03 8:1
03 8:1
03 8:2
03 8:2
03 8:3
03 8:3
03 8:4
03 8:4
03
03
03
03
03
03
03
03
03
:3
:3 5
:3 0
:3 5
:3 0
:3 5
:3 0
:3 5
:3 0
:3 5
:3 0
:3 5
:3
:3
:3
:3
:3
:3
:3
:3
:3
8:
7:
8:
8:
8:
8:
8:
8:
9:
9:
50
50
00
10
20
30
40
50
00
10
Tempo (H:M:S) Tempo (H:M:S)
(a) (b)
0 0
-10 FibreITX35-c0:4a:00:1c:f4:90 -10 FibreITX35-c0:4a:00:1c:f4:90
-20 -20
RSSI (dBm)
RSSI (dBm)
-30 -30
-40 -40
-50 -50
-60 -60
-70 -70
-80 -80
-90 -90
03
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 40:
03 40:
03
03
03
03
03
03
03
03
:
: 05
: 10
: 15
: 20
: 25
: 30
: 35
: 40
: 45
: 50
: 55
: 00
:4 05
:3
:3
:3
:3
:3
:3
:4
:4
0:
9:
9:
9:
9:
9:
9:
0:
0:
10
00
10
20
30
40
50
00
10
Tempo (H:M:S) Tempo (H:M:S)
(c) (d)
189
XXXVII Congresso da Sociedade Brasileira de Computação
0 0
-10 P EngenhariaJr-00:23:cd:f1:fc:06 -10 P EngenhariaJr-00:23:cd:f1:fc:06
-20 -20
RSSI (dBm)
RSSI (dBm)
-30 -30
-40 -40
-50 -50
-60 -60
-70 -70
-80 -80
-90 -90
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
03
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
:3
7:
8:
8:
8:
8:
8:
8:
9:
9:
7:
8:
8:
8:
8:
8:
8:
9:
9:
50
00
10
20
30
40
50
00
10
50
00
10
20
30
40
50
00
10
Tempo (H:M:S) Tempo (H:M:S)
(a) (b)
0 0
-10 P EngenhariaJr-00:23:cd:f1:fc:06 -10 P EngenhariaJr-00:23:cd:f1:fc:06
-20 -20
RSSI (dBm)
RSSI (dBm)
-30 -30
-40 -40
-50 -50
-60 -60
-70 -70
-80 -80
-90 -90
03
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 39:
03 40:
03
03
03
03
03
03
03
03
:
: 00
: 05
: 10
: 15
: 20
: 25
: 30
: 35
: 40
: 45
: 50
: 55
:4 00
:3
:3
:3
:3
:3
:3
:4
:4
0:
9:
9:
9:
9:
9:
9:
0:
0:
05
00
10
20
30
40
50
00
10
Tempo (H:M:S) Tempo (H:M:S)
(c) (d)
OMF [Fibre Project 2017] com o “trem” não estava completa, a programação dos nós e
coleta dos resultados foram realizadas manualmente através da execução de scripts via
SSH (Secure Shell).
No decorrer da utilização do testbed, a implementação de novas funcionalida-
des foi realizada conforme a demanda. Um exemplo foi a implementação do comando
GOTO, que possibilita que o “trem” seja deslocado até certa posição e permaneça nela
sem movimentar-se. Esta função possibilitará a realização de testes sem mobilidade
utilizando-se o “trem”, que antes só realizava movimentos nos sentidos de IDA e VOLTA
entre ORG e END. Além desta nova funcionalidade, um novo mecanismo para recarga da
bateria do laptop móvel foi implementado e também uma função para recarga da bateria
para evitar que o laptop desligue durante os testes.
Em relação à infra-estrutura, algumas melhorias necessitam ser realizadas. A
ativação de todos os nós disponı́veis para testes é uma delas.
5. Conclusão
Este trabalho apresentou os experimentos realizados no testbed FIBRE localizado na
UFF para a coleta de traces de RSSI em cenários com mobilidade. No total, 116
traces foram coletados em dois cenários com mobilidade, por duas interfaces IEEE
802.11. Os dados foram compilados e disponibilizados para acesso público no endereço
http://www.midiacom.uff.br/ helgadb/tracesfibre.zip . Estes traces poderão ser utilizados
190
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
pela comunidade cientı́fica para a avaliação de novas propostas de soluções em redes sem
fio que necessitam da utilização da RSSI para tomada de decisão, como algoritmos de
handoff e de localização. Experimentos para a coleta de amostras de RSSI em cenários
estáticos estão em andamento e serão realizados utilizando-se outros testbeds disponibili-
zados pelo FIBRE.
Referências
Balbi, H., Passos, D., Carrano, R., Magalhães, L., and Albuquerque, C. (2016). Análise e
solução para o problema da instabilidade de associação em redes IEEE 802.11 densas.
In XXXIV SBRC, Salvador, BA, Brasil.
Fibre Project (2017). OMF Control Monitoring Framework. Disponı́vel em http://
www.fibre-ict.eu/index.php/cmf/omf.
Fibre Team (2016). Local Testbeds - FIBRE. Disponı́vel em https://fibre.org.
br/start-using-fibre/local-portals/.
IEEE (2012). IEEE Standard for Information technology–Telecommunications and in-
formation exchange between systems Local and metropolitan area networks–Specific
requirements Part 11: Wireless LAN Medium Access Control (MAC) and Physical
Layer (PHY) Specifications. IEEE Std 802.11-2012 (Revision of IEEE Std 802.11-
2007).
Linux Wireless Wiki (2017). Hostapd Linux documentation page. Disponı́vel em
https://wireless.wiki.kernel.org/en/users/documentation/
hostapd.
Mhatre, V. and Papagiannaki, K. (2006). Using Smart Triggers for Improved User Per-
formance in 802.11 Wireless Networks. In MobiSys, pages 246–259.
Mister X (2017). Aireplay-ng Aircrack-ng. Disponı́vel em https://www.
aircrack-ng.org/doku.php?id=aireplay-ng.
NITlab Team (2016). Icarus Nodes - NITlab. Disponı́vel em http://nitlab.inf.
uth.gr/NITlab/hardware/wireless-nodes/icarus-nodes.
Raghavendra, R., Belding, E. M., Papagiannaki, K., and Almeroth, K. C. (2007). Unders-
tanding Handoffs in Large IEEE 802.11 Wireless Networks. In IMC, pages 333–338.
Ramani, I. and Savage, S. (2005). SyncScan: practical fast handoff for 802.11 infrastruc-
ture networks. In INFOCOM, volume 1, pages 675–684.
Santana, J. A., Macı́as, E., Suárez, Á., Marrero, D., and Mena, V. (2016). Adaptive esti-
mation of WiFi RSSI and its impact over advanced wireless services. Mobile Networks
and Applications, pages 1–13.
tcpdump.org (2017). Manpage of TCPDUMP. Disponı́vel em http://www.
tcpdump.org/tcpdump_man.html.
UFF Fibre Team (2016a). UFF Island - FIBRE. Disponı́vel em https://fibre.
org.br/start-using-fibre/register/uff-island/.
UFF Fibre Team (2016b). UFF’s Mini-ATX router. Disponı́vel em https://www.
youtube.com/watch?v=yTxCnYM7IRM.
191
XXXVII Congresso da Sociedade Brasileira de Computação
192
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
1. Introdução
A Internet tem crescido e o seu uso está mais diversificado, desempenhando um papel
cada vez mais importante e fundamental na sociedade. Formada por uma gama de redes
diferenciadas e interconectadas, sua estrutura foi projetada em camadas empilhadas
[Moreira, 2009]. Neste contexto, um dos modelos de referência de camadas da Internet é
TCP/IP (Transmission Control Protocol / Internet Protocol) que é dividido em várias
camadas distintas cada qual com funcionalidades e protocolos diferenciados.
A arquitetura convencional da Internet requer constantes mudanças, apresenta
pouca flexibilidade para prover novos serviços e atender novas demandas de aplicações
além disso, é insegura e tem se tornado cada vez mais complexa [Grasa et al., 2011].
Devido à complexidade de prover novos serviços, a Internet atual apresenta
limitações na sua estrutura o que dificulta seu crescimento. Diante disso, RINA
(Recursive InterNetworking Architecture), aparece como uma arquitetura alternativa e
inovadora, no contexto de Internet do Futuro, cujo princípio básico é a comunicação de
processos IPC (InterProcess Communication) e, que pode solucionar muito dos
193
XXXVII Congresso da Sociedade Brasileira de Computação
2. A arquitetura RINA
Os princípios dessa arquitetura foram apresentados em 2008 por John Day em seu livro
"Padrões de Arquitetura de Rede: Um retorno aos fundamentos” [Day, 2008]. A razão
que levou aos estudos dessa nova arquitetura é a forma de repensar nas premissas básicas
de comunicação das redes. Diferente da arquitetura convencional que divide a estrutura
da rede em várias camadas com diferentes funções, RINA defende o uso de uma única
camada denominada DIF (Distributed IPC Facility) cujo propósito é oferecer serviço de
comunicação entre processos, IPC, de maneira distribuída e se repete provendo as
mesmas funções e mecanismos, porém em escopos diferentes.
Na RINA, de acordo com a sua característica recursiva, a convenção é tomar o
ponto de vista da camada atual e chamá-la de camada-(N) ou N-DIF. As camadas superior
e inferior são denominadas, respectivamente, como (N+1)-DIF e (N-1)-DIF [Day,2008].
A Figura 1 apresenta a convenção de camadas na arquitetura RINA.
194
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
responsável por monitorar todas as informações de cada processo IPC e essas informações
são armazenadas em uma base de dados designada como RIB (Resource Information
Base).
Por questões de compatibilidade, a camada mais baixa é implementada para operar
com outras tecnologias legadas e, é conhecida como shim DIF. RINA apresenta em sua
estrutura um conceito de mecanismos e políticas de formas separadas. O mecanismo é a
parte invariável da estrutura, enquanto que a política pode ser programada em diferentes
DIFs. Além do mais à RINA apresenta apenas dois protocolos conhecidos como CDAP
(Common Distributed Application Protocol) e o EFCP (Error and Flow Control
Protocol) que apresentam mecanismos na sua estrutura. O controle de fluxos é um
mecanismo implementado no EFCP, em contrapartida a alocação desses fluxos são as
políticas. Referente ao protocolo CDAP o controle de acesso como também a autenticação
são mecanismos, enquanto que o tipo de criptografia adotada na comunicação dos
processos IPCs refere-se à políticas. Diante disso, devido a sua estrutura recursiva à
arquitetura se torna menos complexa em relação ao modelo convencional [Day, 2008].
Alguns trabalhos como os de [Vrijders, 2014], [Bergesio,2013] e [Wang et al,
2013] foram realizados para explorar as funcionalidades da arquitetura RINA. Nos
trabalhos de [Vrijders, 2014] e [Bergesio,2013], especificamente, os autores abordaram
toda implementação do protótipo IRATI fazendo uma avaliação da arquitetura RINA
através do mesmo.
1
Ilha UFPE: Disponível em: https://portal.ufpe.fibre.org.br/LS-WEB/. Acessado em 24 de abril de 2017.
2
Projeto IRATI. Disponível em: http://irati.eu/. Acessado em 24 de abril de 2017.
195
XXXVII Congresso da Sociedade Brasileira de Computação
196
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
197
XXXVII Congresso da Sociedade Brasileira de Computação
O trabalho permitiu investigar alguns problemas nos templates das VMs, tais
como o tipo de virtualização implementado na ilha UFPE, pois após a instalação do
protótipo IRATI as máquinas não inicializavam usando virtualização total (HVM -
Hardware Virtual Machine). Neste contexto, foi necessária realizar uma customização
nos templates das VMs da ilha UFPE, mediante ajuda do suporte da RNP (Rede Nacional
de Pesquisa) para que as máquinas virtuais carregassem os principais módulos, shim-eth-
vlan e shim-tcp-udp, do protótipo corretamente. Feita a customização nos templates, as
VMs foram inicializadas com o protótipo na versão do kernel 4.1.16. Diante dessa
dificuldade encontrada e superada com sucesso, a Figura 4 apresenta a topologia lógica
do experimento realizado referente ao controle de acesso na arquitetura RINA.
198
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
199
XXXVII Congresso da Sociedade Brasileira de Computação
200
2º Workshop do testbed FIBRE - Future Internet Brazilian
Environment for Experimentation
Referências
Amdouni, Ichrak et al (2016). Exploring the flexibility of network access control in the
recursive InterNetwork Architecture. In: Communications (APCC), 2016 22nd Asia-
Pacific Conference on. IEEE. p. 559-566.
Bergesio, Leonardo. Prototipo de RINA sobre Ethernet. 2013. Dissertação de Mestrado.
Universitat Oberta de Catalunya.
Day, J. (2008). Patterns in network architecture: a return to fundamentals. Pearson
Education.
Grasa, E., et al (2011). Design principles of the Recursive InterNetwork Architecture
(RINA).
Grasa, Eduard et al. Developing a RINA prototype over UDP/IP using TINOS.
In: Proceedings of the 7th International Conference on Future Internet Technologies.
ACM, 2012. p. 31-36.
Luiz, C., & Monteiro, J. A. (2016). Investigação do Protótipo ProtoRINA utilizando o
Ambiente FIBRE. In Anais do WPEIF 2016 Workshop de Pesquisa Experimental da
Internet do Futuro (p. 29).
Moreira, M. D., Fernandes, N. C., Costa, L. H. M. K., & Duarte, O. C. M. B. (2009).
Internet do futuro: Um novo horizonte. Minicursos do Simpósio Brasileiro de Redes
de Computadores-SBRC, 2009, 1-59.
Van Leur, J. Klomp, Recursive InterNetwork Architecture, An Assessment of the IRATI
Implementation. (2015) [Online] Disponível em: http://www.delaat.net/rp/2015-
2016/p22/report.pdf. Acessado em: 10 de outubro de 2016.
Veselý, Vladimir et al. Your Recursive InterNetwork Architecture Simulator. arXiv
preprint arXiv:1509.03550, 2015.
Vrijders, Sander et al (2014). Prototyping the recursive internet architecture: the IRATI
project approach. IEEE Network, v. 28, n. 2, p. 20-25.
Wang, Yuefeng et al. Recursive InterNetworking Architecture (RINA) Boston University
Prototype Programming Manual (version 1.0). Computer Science Department, Boston
University, 2013.
201
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
O 4º Encontro Nacional de Computação dos Institutos Federais (ENCompIF) será
realizado em conjunto com o XXXVII Congresso da Sociedade Brasileira de Computação
em São Paulo. O ENCompIF tem por objetivo reunir professores e alunos de ensino médio
dos Institutos Federais e outras instituições que ofereçam cursos técnicos em informática.
O evento tem recebido um grande número de artigos em todas as suas edições e
tem sido uma excelente oportunidade para a troca de experiências entre os participantes
e um estímulo a integração e estabelecimento de parcerias entre professores e alunos e
diferentes Institutos Federais e outras instituições. O público participante do evento foi
de aproximadamente 200 pessoas, entre palestrantes e ouvintes, em cada edição do
evento.
202
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
Comitê Organizador
Coordenação Geral
Carlos Roberto de Oliveira Junior (IFRJ)
Coordenação Local
Takato Kurihara (Mackenzie)
203
XXXVII Congresso da Sociedade Brasileira de Computação
Palestras
Pesquisa Qualitativa em Computação
Mariano Pimentel (UNIRIO), Marcelo Fornazin (UFF)
Contudo, medições objetivas de uma realidade exterior, embora tenham tido grande êxito
na produção do conhecimento e no desenvolvimento de técnicas, podem ser
problemáticas quando endereçamos questões que envolvem tecnologia, pessoas e
organizações. Diferente de matérias inanimadas, componentes químicos e material
biológico, as pessoas muitas vezes não reagem da mesma maneira após a realização de
um experimento científico; ou seja, elas aprendem com o experimento e mudam seus
comportamentos. Além disso, as pessoas e sistemas de informação não podem ser
facilmente separadas do seu contexto de vida e uso para realização de pesquisa em
laboratório. Desse modo, as metodologias qualitativas podem ser mais eficazes no sentido
de se produzir conhecimento relevante a partir da investigação de Sistemas de Informação
inseridos nas organizações e na sociedade. Assim podemos interrogar o que os usuários
acham do sistema experienciado, como aquele sistema computacional modifica as
práticas dos atores e as relações entre eles, que fenômenos emergem com o uso do
sistema, o que precisa melhorar, dentre outros aspectos cuja complexidade não pode ser
reduzida a um número.
A pesquisa qualitativa, embora também possa ser realizada numa perspectiva positivista,
também pode ser empregada com base em outros paradigmas, como, por exemplo, o
interpretativo e o sociotécnico. Nesses casos, para compreendermos os sistemas
computacionais como artefatos sociotécnicos (e não apenas técnicos), usados por pessoas
num dado contexto e numa dada cultura, precisamos conversar com os usuários
(livremente ou por meio de entrevista ou grupo focal), realizar observação direta das
pessoas usando o sistema computacional em suas atividades cotidianas reais e interagir
com os usuários para juntos compreender o artefato sociotécnico. Torna-se necessário
204
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
interpretar (em vez de medir) os discursos produzidos pelos usuários e suas ações
praticadas (registradas em anotações, vídeo ou log do uso do sistema). A pesquisa deve
ser concebida e realizada a partir de abordagens epistemológicas-metodológicas de
perspectiva subjetiva.
205
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Levantamento de requisitos no desenvolvimento de jogos
Airon Wellington Lima dos Santos, Fábio de Jesus Lima Gomes
BlueHelp
Marcelo Machado Cunha, Leila Couto de Matos Buarque, Alisson Oliveira Neves, Bruno
Silva, Jadir Arnaldo Júnior
206
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
207
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Sistemas de software são recursos imprescindíveis nas empresas principalmente pelo
papel estratégico em que foram incorporados. Sua construção e manutenção exigem
organização e um conjunto de técnicas que quando utilizadas dão uma margem maior ao
tempo de vida/sucesso desses softwares. Necessita-se que estes sistemas estejam
completamente de acordo com os requisitos listados pelos clientes. Neste contexto, o
processo pelo qual os requisitos de um produto de software são coletados, analisados,
documentados e gerenciados ao longo do seu ciclo de vida é chamado de Engenharia de
Requisitos (ER) [Sommerville 2008].
A ER é aplicada na construção de softwares convencionais, que são aqueles
voltados para comércio, indústria, saúde e outros mercados existentes e que partem de
um problema inicial até ser transformado em uma solução tecnológica. Entretanto,
jogos digitais possuem perspectivas diferentes dos convencionais sistemas de software,
apesar de se tratar de um tipo de software, eles são feitos na maioria dos casos para
proporcionar diversão, interatividade e lazer. Não existe um problema inicial, a qual eles
se propõem a solucionar, há somente a premissa de que devem absorver o máximo de
atenção dos seus usuários.
O objetivo deste trabalho é auxiliar os profissionais envolvidos no
desenvolvimento de um jogo digital na escolha dos melhores métodos de levantamento
de requisitos. A organização do conteúdo abordado neste artigo foi feita da seguinte
forma: a seção 2 discorre sobre o desenvolvimento de jogos digitais de uma maneira
geral. A seção 3 enfatiza a ER no desenvolvimento de jogos digitais. A seção 4
apresenta os resultados e discussões oriundos deste trabalho e na seção 5 encontra-se
uma proposta de trabalhos futuros.
208
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
209
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados e Discussões
Com base nas técnicas de ER descritas nos trabalhos expostos ao longo deste artigo
concluímos que as melhores práticas para elencar requisitos de jogos digitais são
1
Uma engine é uma biblioteca com um pacote de funcionalidades que são disponibilizadas para facilitar o
desenvolvimento de um jogo, fornecendo um bom visual e diversos itens da jogabilidade, tais como, o sistema de
colisão entre personagens e objetos e a inteligência artificial de inimigos ou parceiros.
210
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
5. Trabalhos Futuros
As limitações referentes ao presente estudo deixam em aberto a necessidade de
formalizar as técnicas apresentadas no desenvolvimento de jogos digitais. É difícil
definir qual a melhor técnica a se utilizar, precisando-se realizar uma análise minuciosa
de cada uma delas, conhecendo suas limitações e vantagens. Idealmente, necessita-se
aplicar essas técnicas em empresas profissionais de desenvolvimento de jogos digitais
para avaliar os resultados obtidos com o uso de cada uma.
Em suma, a perspectiva de trabalho futuro está relacionada a explorar em
detalhes as técnicas aqui apresentadas através da criação de um questionário online
destinado a empresas de desenvolvimento de jogos digitais, onde os usuários (empresas)
devem informar quais técnicas vem utilizando no desenvolvimento de jogos e como é o
passo-a-passo de aplicação da técnica informada na sua empresa. As respostas obtidas
com o questionário servirão como indicadores de qualidade para as práticas que mais
são utilizadas, e ao mesmo tempo servirão de apoio para aqueles que pretendem aderir
ao uso das melhores práticas e desejam saber como utilizá-las.
Esses indicadores e informações de apoio serão baseados nos resultados obtidos
por meio das empresas e assim teremos condições de nortear os interessados neste
assunto de forma mais segura e precisa sobre como fazer o levantamento de requisitos
no processo de desenvolvimento de jogos digitais.
Agradecimentos
Agradecemos à Fundação de Amparo à Pesquisa do Estado do Piauí (FAPEPI) pelo
auxílio financeiro concedido para a apresentação deste trabalho no evento.
Referências
CALLELE, D.; NEUFELD, E.; SCHNEIDER, K. (2005) Requirements Engineering and
the Creative Process in the Video Game Industry. In: 13th IEEE International
Conference on Requirements Engineering, Washington, DC, USA. Proceedings: IEEE
Computer Society, 2005. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=1531045 >. Acesso em: 30 ago 2016.
KANODE, C. M.; HADDAD, H. M. (2009) Software Engineering Challenges in Game
Development. In: 6th IEEE International Conference on Information Technology: New
Generations, Las Vegas, USA. Proceedings: IEEE Computer Society, 2009. Disponível
em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5070627 >. Acesso em: 30 ago 2016.
PRESSMAN, R.S.; MAXIM, B. R. (2016) Engenharia de Software: Uma abordagem
Profissional. 6ª. Edição. Editora McGraw Hill - Bookman.
SOMMERVILLE, I. (2011) Engenharia de software. 9ª edição. Editora Pearson.
211
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Há no mercado inúmeras propostas de métodos, técnicas e ferramentas para o
Gerenciamento de Projetos de Software (GPS), entretanto, um dos grandes problemas
ou desafios é identificar e integrar as boas práticas do GPS em um framework de
Gerenciamento Ágil de Projetos (GAP) de forma a atender às necessidades de um
cenário específico de produção de software. Atualmente no Grupo de Pesquisa de
Engenharia de Software do IFPB1 (GPES-IFPB) estão em andamento três projetos de
pesquisa: Repositório de Práticas em Gerenciamento de Projeto de Software (RPGPS)
(Morais et al., 2016); Repositório de Práticas em Processos de Desenvolvimento de
Software (RPPDS) (Silva et al., 2016); e Ambiente de Boas Práticas Reconfiguráveis
em Engenharia de Software (ABPRES) (Almeida et al., 2016), neste desenvolve-se uma
plataforma web para disponibilizar todas as boas práticas identificadas nos dois
primeiros projetos. De acordo com o Project Management Institute (PMI, 2016) o nível
estratégico das organizações vêm percebendo os benefícios do uso de boas
práticas/metodologias para gerir seus projetos.
Neste cenário, e considerando que as boas práticas de GPS são conceitos vitais
para a indústria de software, o problema ou questão a ser investigada é “Qual
framework deve ser utilizado no gerenciamento ágil dos projetos de pesquisa e
desenvolvimento do GPES-IFPB?". Um framework é uma “mini-arquitetura”
reutilizável que fornece a estrutura genérica e o comportamento para uma família de
abstrações de software (Pressman et al., 2016). Com isso, o objetivo deste trabalho é
apresentar uma proposta de Framework de Gerenciamento Ágil de Projeto (FGAP) para
o GPES-IFPB.
1
"GPES-IFPB Grupo de Pesquisa, Desenvolvimento e Extensão em Engenharia de Software"
http://dgp.cnpq.br/dgp/espelhogrupo/0686408453733553.
212
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Metodologia
De acordo com Prodanov e Freitas (2013), considerando a metodologia de pesquisa
científica, este projeto é de Natureza Aplicada, pois pruduz conhecimentos para
aplicação prática dirigidos à solução de problemas específicos. O Método Científico
utilizado é o Hipotético-Dedutivo, onde são formuladas hipóteses para expressar as
dificuldades do problema, deduzindo consequências que devem ser testadas ou
falseadas. Considerando o Objetivo do Estudo, podemos classificar este projeto de
pesquisa como Exploratório, pois visa proporcionar maior familiaridade com o
problema, explicitando-o ou construindo hipóteses sobre ele. A abordagem de pesquisa
adotada é Quali-quantitativa e os principais Procedimentos Técnicos utilizados são:
Pesquisa Bibliográfica, Levantamento de Dados, Estudo de Caso e Pesquisa
Participante.
Do ponto de vista de execução, o projeto é desenvolvido de forma iterativa e
incremental, com entregas parciais trimestrais, nos seguintes passos: Levantamento e
Estratificação das Informações; Disponibilização das Informações no Repositório de
Boas Práticas; Validação; Qualificação Continuada dos Pesquisadores; e, Elaboração de
Relatórios e Artigos dos resultados para registro e publicação (Morais et al., 2016).
2
"Trello." https://trello.com/.
3
"Taiga.io." https://taiga.io/.
213
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados e Discussão
Durante as revisões e retrospectivas da primeira e segunda sprint foi usada a boa prática
de GPS chamada WWW (Campos, 2012), onde a equipe avalia o que deu certo (What
Went Well) e o que deu errado (What Went Wrong), com o uso de post-it, identificando
o porquê dos erros e registrando as lições aprendidas para não errar nas próximas
sprints.
Na primeira sprint foram identificados os seguintes resultados: Bom trabalho em
equipe; Reuniões presenciais produtivas; Realização de 90% (Taiga) das atividades.
Algumas melhorias sugeridas para a segunda sprint foram: Proatividade dos envolvidos
em atividades individuais; Reuniões objetivas e cronometradas; Novas estratégias para
reunião diária online; Entender melhor os requisitos do ambiente web do ABPRES. Na
segunda sprint os principais resultados observados foram: Melhor conhecimento sobre
tempo de execução das tarefas; Realização de todas as atividades previstas na sprint
trouxe a sensação de agilidade no andamento do projeto; Melhor comunicação da
equipe de desenvolvimento e independência com relação aos orientadores; Pensamento
unificado dos requisitos do projeto ABPRES. Melhorias sugeridas para as próximas
sprints: Decisões tomadas em reuniões online devem ser registradas em ata; Ampliar
uso das ferramentas de GPS para melhorar a comunicação; Ampliar reuniões semanais.
5. Considerações Finais
Neste momento o projeto se encontra na fase de validação. A utilização de um
214
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
6. Referências
ALMEIDA, S. L. F.; MORAIS, A. D. S.; SILVA, S. C; ALENCAR, F. P.; LIRA, H. B.
"Ambiente de Boas Práticas Reconfiguráveis em Engenharia de Software." XI
Semana de Ciência e Tecnologia do IFPB,
<http://editora.ifpb.edu.br/index.php/ifpb/catalog/view/72/40/114-1>, 2016.
CAMPOS, E. L. "Técnica para fazer uma reunião de retrospectiva scrum." Blog
ScrumHalf. 2012. Disponível em: <https://shar.es/1U4IEq>. Acessado em Fev/17.
MORAIS, A. D. S.; RANGEL, H. J. L.; LIRA, H. B.; RODRIGUES, N.N.; ALMEIDA,
S.L.F.; SILVA, S.C.;MEDEIROS, F.P.A."Repositório de Práticas em
Gerenciamento de Projetos de Software." XI Semana de Ciência e Tecnologia IFPB,
<http://editora.ifpb.edu.br/index.php/ifpb/catalog/view/72/40/114-1> 2016.
PMI, Project Management Institute. "Um Guia do Conhecimento em Gerenciamento
de Projetos" (PMBOK®)–5a. Edição, PMI-Project Management Institute, 2016.
PRESSMAN, R. S.; MAXIM, B. R. "Engenharia de Software - Uma Abordagem
Profissional" - 8 Ed. Argh Editora, 2016.
PRODANOV, C. C.; FREITAS, E. C. "Metodologia do trabalho científico: métodos e
técnicas da pesquisa e do trabalho acadêmico." 2. ed. Novo Hamburgo: Feevale,
2013. Disponível em <goo.gl/ydRNhH>. Acessado em: Fev/2017.
SILVA, S. C.; RANGEL, H. J. L.; LIRA, H. B.; RODRIGUES, N. N.; MEDEIROS, F.
P. A."Repositório de Práticas em Processos de Desenvolvimento de Software." XI
Semana de Ciência e Tecnologia do IFPB,
<http://editora.ifpb.edu.br/index.php/ifpb/catalog/view/72/40/114-1>, 2016.
215
XXXVII Congresso da Sociedade Brasileira de Computação
BlueHelp
Marcelo Machado Cunha, Leila Couto de Matos Buarque, Alisson
Oliveira Neves, Bruno Silva, Jadir Arnaldo Júnior
Introdução
Atualmente, existe uma grande facilidade de adquirir um smartphone ou tablet, de
forma que a maior parte da população utiliza-se desses aparelhos no dia a dia em
diversas atividades como: acessar a internet, enviar mensagens instantâneas, enviar e-
mails, acessar redes sociais, entre outras.
Paralelamente, os microcontroladores tornaram-se uma boa opção para realização
de projetos de automação por possuírem baixo custo, grande facilidade de expansão,
conexões com diversos dispositivos através do bluetooth, ethernet, entre outros
Nessa perspectiva, os smartphones, atrelados aos microcontroladores,
representam uma boa combinação para o desenvolvimento de projetos que objetivam
acompanhar as tendências de mercado e abrir portas para pesquisas que visam a melhoria
do desenvolvimento humano.
Nos dias atuais é comum encontrar pessoas que possuem alguma forma de
mobilidade reduzida, seja por alguma deficiência, seja pela idade, tornando-se
dependentes de serviços básicos como: abrir e fechar uma porta ou janela, acender e
desligar uma lâmpada. Logo, em virtude de sua deficiência a interação com sua
residência torna-se comprometida.
Dessa forma, a demanda por tecnologias que auxiliem tais públicos é cada vez
216
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
Materiais e Métodos
Para este trabalho foi utilizado um microcontrolador Arduino modelo Uno, conectado a
um módulo de expansão bluetooth. Foi desenvolvido um aplicativo para celulares com
sistema operacional Android e Windows Phone, que através do módulo bluetooth
conecta ao microcontrolador para o desenvolvimento de suas atividades.
A aplicação conta com botões intuitivos que possibilitam que pessoas com
mobilidade reduzida desempenhem diversas funções em suas residências, como: ligar e
desligar uma lâmpada, um aparelho de TV, um ventilador, abrir e fechar uma porta ou
janela.
Figura 1: Páginas contendo os botões para abrir e fechar janela e porta do quarto
217
XXXVII Congresso da Sociedade Brasileira de Computação
Além disso, o sistema permite emitir sinais sonoros e luminosos, que deverão ser
usados para a comunicação dos usuários com seus cuidadores ou familiares. O sistema
emitirá alertas de emergência para que as pessoas próximas possam tomar as devidas
providências buscando sempre preservar a saúde e a segurança dos usuários do
BlueHelp.
218
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
Resultados
O sistema foi testado através da maquete apresentada na figura 4 e apresentou
resultados satisfatórios. Tendo como etapa seguinte a realização de testes em residências
que possuam pessoas com mobilidade reduzida.
No momento, está sendo desenvolvido módulos que permitem a interação com mais
recursos da residência, incluindo câmeras, possibilitando o acompanhamento do que
acontece na residência em qualquer ponto que possua internet.
Conclusão
O BlueHelp é um sistema que facilita a vida das pessoas com mobilidade reduzida
dando-lhes mais liberdade e autoestima por possibilitar o controle da sua residência
através de uma interface intuitiva e de baixo custo quando comparado com as opções do
mercado. Dessa forma, busca-se difundir, fomentar e tornar acessível práticas que
melhorem o cotidiano das pessoas, fazendo do BlueHelp não apenas mais uma solução
em automação residencial, mas uma alternativa de baixo custo que carrega em seu bojo
o propósito de melhorar a qualidade de vida das pessoas.
Referências
Agência Brasil. Disponível em: http://agenciabrasil.ebc.com.br/geral/noticia/2015-
08/ibge-62-da-populacao-tem-algum-tipo-de-deficiencia. Acesso em 15 de março de
2017.
Secretaria de Direitos Humano. Disponível em: http://www.sdh.gov.br/assuntos/pessoa-
idosa/dados-estatisticos/DadossobreoenvelhecimentonoBrasil.pdf. Acesso em 15 de
março de 2017.
219
XXXVII Congresso da Sociedade Brasileira de Computação
{ubirajara.lima,monica_farias}@ifba.edu.br
1. Introdução
A automação atualmente desempenha um papel importante em nossas vidas, desde o
uso do controle remoto auxiliando pessoas com alguma deficiência, na execução de
alguma tarefa que seja considerável simples, ou mesmo na segurança.
Conforme Dias e Pizzolato [2004], a Domótica é a integração dos serviços e
tecnologias aplicados a residências, apartamentos e casas, com o propósito de
automatiza-las, gerenciando energia, água, iluminação, comunicação, climatização,
dentre outros, através de um computador ou mesmo de um smartphone. Levando em
consideração dados do International Data Corporation (IDC) e Associação Brasileira da
Indrústria Elétrica e Eletrônica (Abinne) [Teleco, 2015], que no segundo trimestre de
2015 foram vendidos 11,3 milhões de smartphones no Brasil, tem-se um campo aberto
para inserção de um novo olhar para a automação.
O processo de automação residencial pode ser aplicado em sala de aula para
realizar o controle de iluminação, de temperatura e até da frequência dos discentes.
Segundo Chaudhari, et al, (2015), a automação neste espaço pode ser uma interface
remota para diversos dispositivos dispostos nela, para isso, todos os dispositivos
envolvidos neste processo estariam interligados através da rede de computadores, seja
ela cabeada ou sem fio. Nesta composição o uso de um microcontrolador de entrada e
220
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
saída, Arduino, tecnologia de baixo custo que pode ser usada na concepção de projetos
de automação, será utilizado como base do projeto, que por sua vez representa uma
plataforma aberta. Ele interage com o meio externo através de sensores (temperatura,
umidade, gases) que captam as informações do ambiente e lhes são repassadas, fazendo
este, o tratamento das mesmas.
O objetivo desta proposta é realizar a automação de frequência/monitoramento
dos alunos em sala de aula com componentes de baixo custo para que se tenha uma
ação, realizada pela gestão da escola, no sentido de atacar um ponto da evasão escolar.
221
XXXVII Congresso da Sociedade Brasileira de Computação
222
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
4. Considerações Finais
O protótipo de automação de sala de aula a ser implementado, fortalece o uso de
plataforma de prototipagem eletrônica de baixo custo, uma possível resolução de um
problema identificado, além de atender ao requisito indicado pelo projeto pedagógico do
IFBA. Apesar de o sistema ser inicialmente implementado apenas para uma turma,
pretende-se trabalhar para realizar a implantação em todas as turmas do Instituto. Etapas
futuras são vislumbradas para a inserção de um aplicativo para dispositivos móveis, no
qual os alunos possam, também, acompanhar a sua assiduidade em sala de aula.
Referências
DIAS, C. L. A.; PIZZOLATO, N. D.; DOMÓTICA - Aplicabilidade e Sistemas de
Automação Residencial. Revista Vértices – Instituto Federal de Educação, Ciência e
Tecnologia Fluminense. Vol 6. p. 10-32. 2004.
TELECO, http://www.teleco.com.br/smartphone.asp. Acessado em: 19 de Novembro de
2015.
CHAUDHARI, S. B.; KHULPE, S.; PATKI, P.; KALE, K.; MALAGE, D.; Classroom
Automation using Voice Commands. International Journal for Science and Advance
Research in Technologu – IJSART. Vol. 1. p.76-78. 2015.
PPI IFBA - Projeto Pedagógico Institucional. Disponível em: www.ifba.edu.br
Acessado em: 14 de Março de 2017.
GHODEKAR, Vaishali; KUTE, Aboli; PATIL, Swati; THAKUR, Ritesh; Automated
Attendance system with RFID through smart card. International Journal of
Engineering Research e technology – IJERT. Vol. 2. p. 2724-2728. 2013.
CHANG, C. H.; Smart Classroom Roll Caller System with IOT Architecture.
Second International Conference on Innovation in Bio-inspired Computing and
Application. IEEE Computer Society. p. 356-260. 2011.
ISLAM, N; TABASSUM, F; SARKER, G. K.; SEN, D; Intelligent Classroom
Management System. Monografia do curso de Ciência em Elétrica e Engenharia
Eletrônica. Universidade Brac - Bangladesh. 2013
223
XXXVII Congresso da Sociedade Brasileira de Computação
{estela.maria,carlos.silva}@ifmg.edu.br
1. Introdução
O mercado de jogos vem se expandindo ao longo dos últimos anos. De acordo com a
[Newzoo 2015], empresa de consultoria e pesquisa de mercado especializada em games,
o mercado global movimentou mais de R$ 270 bilhões no ano de 2015 e tem previsão
para ultrapassar R$ 320 bilhões em 2017. No contexto nacional, o mercado de games
movimenta mais de R$ 40 milhões, fazendo com que os jogos eletrônicos deixassem de
ser apenas passatempo para se tornarem alternativas lucrativas de negócios. Apesar destes
números, a realidade é que o Brasil consome um grande volume de jogos, porém produz
pouco.
Neste trabalho buscamos por meio de um jogo ilustrar como enredo parte dos po-
tenciais turı́sticos e culturais do municı́pio histórico de Sabará em Minas Gerais. Além
disso, o jogo tem como propósito ser um agente educacional propiciando a difusão de
elementos educacionais como a consciência ambiental; estimular a reflexão sobre a di-
versidade de etnias e contextualizar e conscientizar sobre o transtorno do espectro autista.
Inicialmente a expectativa da aplicação do jogo é em um ambiente educacional, visto os
benefı́cios proporcionados pelo uso da tecnologia no ensino de disciplinas.
Apesar do jogo desenvolvido ter por objetivo a criação de uma metodologia edu-
cacional por meio da gameficação abordando temáticas sociais e culturais, o cenário atual
de games é promissor, ampliando a possibilidade do resultado desta pesquisa para fins
comerciais.
224
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
3. O Jogo Sabarabuçu
Inspirado no jogo “O Mundo de Jequi”, Sabarabuçu retrata uma ambientação local,
porém caracterizando sua principal vocação que é o turismo, seja pela representatividade
das inúmeras igrejas históricas, ou pela riqueza ambiental ou pela tradicional gastrono-
mia. O nome Sabarabuçu é uma abreviação da palavra tupi tesáberabusu que significa
“grandes olhos brilhantes”, se referindo às pepitas de ouro que foram encontradas na
região e este foi o nome da cidade no princı́pio de sua história. Estão presentes no jogo
as jabuticabas, consideradas na cidade como “Ouro Negro”, além das famosas igrejas
barrocas como a Igreja Nossa Senhora do Ó e Igreja Nossa Senhora do Carmo. O jogo
desenvolvido tem por objetivo disseminar a cultura local e estimular a educação social e
ambiental. Inicialmente o público-alvo do jogo seriam estudantes de escolas públicas da
cidade, podendo conciliar as atividades do jogo com conteúdo de disciplinas da escola,
como história. O jogo estará disponı́vel em um plataforma web, na qual existirá um for-
mulário de satisfação e quizzes sobre o jogo. A partir destas informações, serão feitas
análises estatı́sticas para verificar o desempenho e o aprendizado dos participantes.
225
XXXVII Congresso da Sociedade Brasileira de Computação
226
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
Figura 5. Segundo sketch e final dos personagens já com a pintura digital, se-
guindo da esquerda para a direita Yasmin (etnia indı́gena), Carlos Eduardo (Au-
tista) e Daniel (etnia africana).
4. Conclusão
Por meio do jogo Sabarabuçu, foram inseridas as temáticas de cultura afro-brasileira,
indı́gena, transtorno do espectro autista e educação ambiental. Espera-se com este jogo
promover um turismo virtual da cidade histórica mineira de Sabará. Além disso, o jogo
poderá ser utilizado como ferramenta de auxı́lio no processo de ensino e aprendizagem
nas escolas de ensino básico.
Referências
Ausubel, D. (2010). The acquisition and retention of knowledge: A cognitive view. Dor-
drecht.
Mendes, T. G. (2011). Jogos digitais como objetos de aprendizagem: Apontamentos para
uma metodologia de desenvolvimento. In SBGames.
Newzoo (2015). Global games market will grow 9.4% to US$91.5bn in 2015.
227
XXXVII Congresso da Sociedade Brasileira de Computação
Instituto Federal da Paraíba (IFPB), Av. Tranqüilo Coelho Lemos, 671 , Dinamérica –
CEP 58.432-300 – Campina Grande – PB – Brazil
marcelo@ifpb.edu.br, paulamedicina@bol.com.br,
{juanlyrabarros,gustavofranklin10, malexandrehs,
rerissondaniel}@gmail.com
1. Introdução
Ferramentas de simulação computacional desempenham um papel importante no estudo
de diversos tipos de sistemas complexos, os quais envolvem entidades autônomas
interagindo e variados tipos de comportamentos dinâmicos [Wooldridge, 2011; Macal
and North, 2006]. Mais recentemente, a abordagem denominada Modelagem e
Simulação Baseada em Agentes (MSBA) vem recebendo crescente atenção por parte da
comunidade de especialistas de diversas áreas do conhecimento devido a seu potencial
como laboratório eletrônico. Suas aplicações são bastante abrangentes, indo desde o
estudo dos mercados de ações, cadeias de fornecimento e mercados de consumo até a
previsão de como epidemias se espalham.
A imunologia é um ramo da biologia, de caráter interdisciplinar que tem como
objetivo o estudo do sistema imunológico, abrangendo desde os processos atômicos e
moleculares até interações celulares e as composições teciduais dos agentes
responsáveis pela integridade dos seres vivos [Abas and Shiv, 2012]. Dentre as
estruturas pertinentes à imunologia, a compreensão do comportamento de antígenos
(agentes naturais que promovem a defesa do organismo) e neutrófilos (agentes naturais
que atacam o organismo – p. ex., bactérias e vírus) é de fundamental importância. No
228
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Metodologia
Neste trabalho foi empregado o processo de desenvolvimento RATIONAL
acompanhado da linguagem de modelagem UML (Unified Modeling Language)
[Larman, 2007] e da ferramenta de modelagem STAR UML. A motivação por trás da
escolha desses recursos se deu pela necessidade de termos uma modelagem ágil e clara
e por termos adotado a orientação a objetos na fase de implementação.
A modelagem do sistema teve como objetivo obter uma representação da
estrutura e comportamento do sistema imunológico. Essa etapa se deu por meio de
estudos da literatura e da orientação de um profissional da área de saúde. A partir daí
foram criados diversos artefatos de modelagem tais como casos de uso, modelo
conceitual e diagramas de seqüência [Bezerra, 2014].
O desenvolvimento do SIMUNOS se deu através de iterações de curtos períodos
com o intuito de modelar, programar, avaliar requisitos e receber retroalimentação o
mais rápido possível. A implementação do código foi realizada por meio do framework
simulação baseado em agentes denominado de REPAST e da linguagem de
programação Java.
3. Experimentos e Resultados
O modelo descrevendo o sistema imunológico foi implementado na linguagem Java
usando bibliotecas do REPAST e simulado com diversos valores para os parâmetros de
entrada. Em cada cenário procurou se verificar como o sistema se comportava em
relação à proporção existente entre antígenos e neutrófilos. Dentre o conjunto de
cenários estudados, dois serão discutidos. Em ambos os casos, os gráficos foram
gerados por meio do próprio REPAST sem necessidade de ferramentas auxiliares.
229
XXXVII Congresso da Sociedade Brasileira de Computação
230
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
Referências
Abbas, A.; Lichtman, A. and Shiv, P. (2012) “Imunologia celular e molecular”. 7a.
Edição. Rio de Janeiro: Elsevier Brasil.
Chwifi, L; Medina, A. (2014) “Modelagem e Simulação de Eventos Discretos. Teoria e
Aplicações”. 4a. Edição. Rio de Janeiro: Elsevier Brasil.
Bezerra, E. (2014) “Princípios de Análise e Projetos de Sistemas com UML”. 3a.
Edição. Porto Alegre: Elsevier.
Macal, C.; North, M. (2009) “Agent-Based Modeling and Simulation”, Proc. of Winter
Simulation Conference, 2009 Dec. [último acesso em 2014 Mar 05]; I: Disponível
em: <http://www.informssim.org/wsc09papers/009.pdf>
North, H., Collier, N., Vos, J. (2006) “Experiences Creating Three Implementations of
the Repast Agent Modeling Toolkit. ACM Transactions on Modeling and Computer
Simulation”, Vol. 16, No. 1, January, Pages 1 – 6.
Wooldridge, M. (2011) “An Introduction to Multiagent Systems”. 2nd ed. England: John
Wiley & Sons.
231
XXXVII Congresso da Sociedade Brasileira de Computação
Uma avaliação da eficiência energética de uma Rede de
Sensores Sem Fios em relação ao posicionamento do nó sink
Melissa Bonfim Alcantud1, César Alberto da Silva1,2, Andrea Padovan Jubileu1,
Linnyer Beatryz Ruiz2,3
1Departamento de Informática – Instituto Federal de São Paulo (IFSP)
CEP 19470000 – Presidente Epitácio, SP – Brasil
2Programa de PósGraduação em Engenharia Elétrica
Universidade Federal de Minas Gerais (UFMG) – Belo Horizonte, MG – Brasil
3Programa de PósGraduação em Ciências da Computação
Universidade Estadual de Maringá (UEM) – Maringá, PR – Brasil
{melissa.alcantud,casilva91,andreapjubileu,linnyer}@gmail.com
Abstract. The research on the use of wireless technologies in several areas
propelled this study regarding the energy efficiency of Wireless Sensor
Networks (WSN), considering the variation of the number of sensor nodes, the
time of data collection of these nodes and the positioning of the sink node. For
this study, the Castalia simulator was used as an instrument to analyze the
behavior of an WSN in a real environment, reducing cost and time.
Resumo. A pesquisa em relação ao uso de tecnologias de conexão sem fio em
diversas áreas propulsionou esse estudo referente à eficiência energética de
Redes de Sensores sem Fio (RSSF), considerando a variação de quantidade
de nós sensores, o tempo de coleta de dados desses nós e o posicionamento do
nó sink. Para a realização desse estudo foi utilizado o simulador Castalia
como instrumento de análise do comportamento de uma RSSF em um
ambiente real, reduzindo custo e tempo.
1. Introdução
As Redes de Sensores Sem Fio (RSSFs) possuem uma ampla possibilidade de serem
utilizadas em diferentes áreas, tais como agricultura, militar, ambiental, médica, entre
outras. Podem ser implantadas para monitorar aspectos do mundo físico por meio dos
nós sensores, que são pequenos computadores acoplados com sensores de temperatura,
vibração e outros [Tanembaum e Wetherrall 2011].
A quantidade de energia consumida pelos nós sensores são quesitos relevantes
na implantação de uma aplicação, visto que a vida útil das RSSFs pode estar relacionada
à capacidade de hardware, armazenamento e recarga de energia [Ruiz et. al 2011] e
[Stattner et. al 2012]. Para encontrar um modelo ideal de configuração, de acordo com
aplicação desejada, fazse o uso de ferramentas que realizam simulações de ambientes
reais utilizando os dados coletados de uma RSSF. Uma vez realizada a simulação com
os parâmetros adotados, esses simuladores geram um pacote de arquivos contendo
dados que retratam todos os eventos que ocorreram ao longo da simulação na rede. Os
232
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Trabalhos Relacionados
Existem diversos trabalhos na literatura que propõem vários protocolos para reduzir o
consumo de energia em RSSF. Kumar [2014] apresenta um estudo com uso de
protocolos baseados em cluster. O autor propõe dois protocolos para uso em RSSF
heterôgena: Singlehop EnergyEfficient Clustering Protocol (SEECP) e Multihop
EnergyEfficient Clustering Protocol (MEECP). A eleição dos cluster heads, em
ambos os protocolos, é realizada por uma probabilidade baseada na relação entre a
energia residual de cada nó e a energia média da rede. Dessa forma, os nós com maior
quantidade de energia têm mais chances de serem eleitos. A diferença entre esses
protocolos é simplesmente que o protocolo SEECP é utilizado para comunicação
singlehop e o protocolo MEECP é usado para comunicação multihop. Dois
experimentos foram realizados utilizando o simulador NS2. No primeiro experimento
foram definidos 100 nós sensores distribuídos uniformemente em uma área de 100 x
100 m². No segundo experimento foram definidos 200 nós sensores distribuídos
uniformemente em uma área de 200 x 200 m². Os resultados dos experimentos foram
comparados com os protocolos EECT [Xin et. al 2008] e EEHC [Kumar et. al 2009]. Os
protocolos SEECP e MEECP foram superiores em relação ao tempo de vida da rede e
mantiveram o consumo de energia balanceado entre os cluster heads.
Diversas outras abordagens são utilizadas na implementação de um protocolo de
roteamento. Mondal et. al (2016) utilizam fuzzy logic para eleição do cluster head,
Gupta et. al (2016) utilizam a técnica Honey Bee Optimization para selecionar o
próximo nó na transmissão dos dados e Bhatti e Kaur (2017) propõem um algoritmo de
roteamento com sink móvel baseado em grid virtual.
O estudo em questão, apresentado neste artigo, diferenciase dos encontrados na
literatura por fazer uma análise do consumo de energia da rede em relação a quantidade
de nós sensores, posicionamento do nó sink e do tempo de coleta dos nós sensores.
3. Simulação e Resultados
Para realizar as simulações do presente estudo foi utilizado o simulador Castalia. No
caso, os nós sensores tem como finalidade medir a temperatura e umidade de uma área
233
XXXVII Congresso da Sociedade Brasileira de Computação
com 4 hectares (40.000 metros quadrados), o que corresponde a uma área de 200 metros
de comprimento por 200 metros de largura. Na referida área, os nós sensores da rede
são distribuídos em forma de grid, ou seja, de maneira regular sobre a área monitorada,
e com mesma capacidade de hardware.
Foram simulados quatro cenários com mobilidade estacionária e com quantidade
de nós de 25, 36, 49 e 81. Para cada cenário foram definidos dois tempos de
sensoriamento para os nós sensores: 10 e 30 segundos. Em ambos os casos, o
posicionamento do nó responsável em centralizar o recebimento de dados (nó sink) foi
avaliado no centro e em um canto da área, sendo que as simulações para cada cenário
foram repetidas 33 vezes. As Tabelas 1 e 2 apresentam os resultados das simulações em
relação ao tempo de coleta de 10 e 30 segundos, respectivamente.
Tabela 1: Dados das redes simuladas com envio de um pacote a cada 10
segundos.
Energia
Pacotes Perda de Energia
Pacotes Consumida
Qtd.de nós Nó sink Recebidos Pacotes Consumida
Enviados /Pacotes
(nó sink) Enviados (Joules)
recebidos
conf_6x6 36 centro 50,377 541,379 296,285 18,018 0,357
conf_6x6 36 canto 26,083 438,883 195,816 17,605 0,674
conf_7x7 49 centro 64,146 699,404 420,871 19,117 0,298
conf_7x7 49 canto 35,488 736,022 460,252 19,179 0,540
conf_8x8 81 centro 72,253 773,474 480,615 19,929 0,276
conf_8x8 81 canto 45,922 921,17 629,839 20,28 0,442
Podese observar que, mesmo variando a quantidade de nós e o tempo de coleta,
o posicionamento do nó sink no centro obteve melhor resultado, em todos os cenários,
em relação à energia consumida pela quantidade de pacotes recebidos.
4. Conclusões
Após as várias simulações com diferentes configurações de redes, chegouse à
conclusão que a localização do nó sink está diretamente relacionada ao consumo de
energia em uma RSSF.
234
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
A localização do nó sink deve visar à diminuição da distância máxima entre ele e
os outros nós sensores da rede, minimizando o problema de encaminhamento de dados
por nós sensores intermediários para os nós sensores que não possuem capacidade de
comunicação direta com o nó sink.
A quantidade de nós sensores da rede também está diretamente relacionada ao
consumo de energia, pois um número maior de nós sensores causa aumento de dados
trafegando pela rede, inclusive de dados de controle para descoberta de novas rotas.
Referências
Bhatti, R. e Kaur, G. (2017). Virtual Grid based energy efficient mobile sink routing
algorithm for WSN, In: 2017 11th International Conference on Intelligent Systems
and Control (ISCO), Coimbatore, pp. 3033.
Gupta, A., Thakur, A., Saini, H. S., Kumar, R. e Kumar, N. (2016). HIECBR: HBO
basedImproved Energy Efficient Chain Based Routing protocol in WSN, In: 2016
IEEE 1st International Conference on Power Electronics, Intelligent Control and
Energy Systems (ICPEICES), Delhi, pp. 14.
Kumar, D. (2014). Performance analysis of energy efficient clustering protocols for
maximising lifetime of wireless sensor networks, in IET Wireless Sensor Systems,
vol. 4, no. 1, pp. 916, March 2014.
Kumar, D., Aseri, T.C., e Patel, R.B. (2009). EEHC: energy efficient heterogeneous
clustered scheme for wireless sensor networks, In: Elsevier Comput. Commun, 32,
(4), pp. 662–667.
Mondal, S., Dutta, P., Ghosh, S. e Biswas, U. (2016). Energy efficient rough fuzzy set
based clustering and cluster head selection for WSN, In: 2016 2nd International
Conference on Next Generation Computing Technologies (NGCT), Dehradun, India,
pp. 439444.
Pantazis, N. A., Nikolidakis, S. A. e Vergados, D. D. (2013). EnergyEfficient Routing
Protocols in Wireless Sensor Networks: A Survey, In: IEEE Communications
Surveys & Tutorials, vol. 15, no. 2, pp. 551591.
Ruiz, L. B., Loureiro, A. A. F., Silva, F. A., Silva, T. R. M. B., Pozza, R. S., Costa, J. C.
C., Gonçalves, P. C. e Silva, C. A. (2011). Engenharia de computação invisível. In:
DE SOUZA, A. F.; MEIRA JR., W. (Org.), Atualizações em Informática 2011,
capítulo 8. PUC-Rio.
Stattner, E., Vidot, N., Hunel, P. e Collard, M. (2012). Wireless sensor network for
habitat monitoring: A counting heuristic. In: 2012 IEEE 37th Conference on Local
Computer Networks Workshops (LCN Workshops), p. 753–760.
Tanenbaum, A. S e Wetherall, D. (2011). Redes de computadores. Tradução: Daniel
Vieira. 5ª ed. São Paulo: Person.
Xin, G., Yong, X. W. e Fang, L. (2008). “An energyefficient clustering technique for
wireless sensor networks”. Proc. Int. Conf. IEEE Networking, Architecture, and
Storage, pp. 248–252.
235
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The lacks of places to produce and waste food are the major chal-
lenges nowadays. With the growth of cities, these problems tend to worsen the
situation if we do not get a solution of space utilization. In this context, we
present the GardenTech Project - a system based on sensor networks capable
of maintaining small plantings, providing the necessary energy for plant
growth without the addition of pesticides or fertilizers. This article summarizes
the main architectural decisions of the project and presents a developed proto-
type.
1. Introdução
Um dos maiores problemas enfrentados na contemporaneidade é a falta de espaço e o
grande desperdício na produção mundial de alimentos. Conforme as cidades crescem, o
espaço físico se torna cada vez mais concorrido e escasso, por conseguinte a produção
de alimentos mais complexa e cara [Carneiro et al. 2016].
Partindo desta análise, foi desenvolvido o Projeto GardenTech – um sistema
capaz de manter uma pequena plantação forte e saudável no interior de uma residência,
sem necessitar de adição de agrotóxicos ou fertilizantes. O objetivo é fornecer a energia
necessária para o conjunto das reações fotossintetizantes através da utilização de diodos
emissores de luz (leds) ajustados para emitir os comprimentos de onda mais facilmente
absorvidos de acordo com os pigmentos das plantas que serão cultivadas. Dessa forma,
nosso projeto pode ser visto como uma plantação automatizada que está livre de muitas
variáveis climáticas e por isso consegue assegurar uma produção eficaz.
O restante deste artigo está estruturado como segue: na Seção 2, é apresentado o
referencial teórico, enquanto na Seção 3 é resumida a proposta e os detalhes da imple-
mentação. Os resultados obtidos são apresentados na Seção 4 e, por fim, na Seção 5 são
feitas algumas considerações finais.
236
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Referencial Teórico
Os vegetais possuem grande amplitude de ajuste às variáveis do ambiente externo para
dar continuidade ao seu desenvolvimento [Evert e Eichhorn 2013]. Embora possam se
ajustar em algum grau às condições climáticas, as plantas possuem o que pode ser cha-
mado de condição ideal de desenvolvimento. Variáveis como a radiação solar, fotoperi-
odismo, umidade e nutrição do solo, por exemplo, podem ser ajustadas com a utilização
de sensores e atuadores em ambientes controlados com a finalidade de se obter uma
maior eficiência de produção [Monteiro Neto et al. 2016]. Conforme dispõe a teoria da
trofobiose, plantas equilibradas nutricionalmente são mais tolerantes e resistentes a do-
enças, o que contribui fortemente para adoção de práticas agrícolas mais limpas, dispen-
sando ou minimizando o uso de pesticidas e agrotóxicos, diminuindo o efeito nocivo
desses elementos e seus resíduos ao meio ambiente [Pereira et al. 2015].
Com a popularização da plataforma de prototipagem Arduíno e disponibilidade
de grande gama de sensores compatíveis, torna-se cada vez mais viável o desenvolvi-
mento de equipamentos e sistemas destinados a auxiliar na produção de alimentos
[Agrawal e Singhal 2015], seja em grande ou pequena escala nos ambientes urbanos sob
a forma de agricultura urbana [McRoberts 2011][Mendes 2016]. A agricultura urbana é
um conceito aplicado ao cultivo, produção e distribuição de itens alimentícios e não
alimentícios em áreas urbanas [Carneiro et al. 2016]. Tecnologias como o uso de telha-
dos verdes e hortas verticais e hortas coletivas são exemplos de agricultura urbana.
Principalmente nos grandes centros urbanos, é crescente a demanda pela popula-
ção de alimentos mais saudáveis, no entanto, pela reduzida disponibilidade de áreas
cultiváveis nesses centros, ocorre uma ampliação do uso de tecnologias de cultivo em
espaços alternativos in door, como no interior de residências e subterrâneos. Nesses
ambientes, a disponibilidade de radiação solar é comprometida, o que pode ser contor-
nado com a utilização de iluminação artificial. Os vegetais possuem um espectro de
absorção luminosa mais intenso na faixa de 430nm (azul) e 680nm (vermelho), fazendo
com que a utilização de diodos dessas cores de acordo com as demandas de cada espé-
cie, juntamente com o fornecimento de água e nutrientes adequados, aumentem a efici-
ência fotossintética do vegetal e, consequentemente, a incorporação de carbono, poten-
cializando o seu desenvolvimento [Taiz e Zeiger 2013].
3. O Projeto GardenTech
O projeto foi desenvolvido em duas partes componentes, conforme o esquema da Figura
1. A central de plantio – composta por uma rede de sensores e atuadores que age dire-
tamente no cultivo; e interface com o usuário – um aplicativo que recebe sinais e, de
acordo com os parâmetros de plantio, adapta as condições de ambiente.
237
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados Obtidos
Com o objetivo de verificar a validade e a aceitação da proposta, foram realizados testes
de laboratório com um protótipo construído a partir de materiais recicláveis. Para me-
lhor controle, o experimento foi dividido em três etapas: Estágio 1 – testes com a central
de plantio, com parâmetros configurados previamente; Estágio 2 – avaliação da interfa-
ce com o usuário, onde foi verificada a efetividade da comunicação entre o aplicativo e
a central de plantio; Estágio 3 - experimento com o sistema completo.
A Figura 2 apresenta o primeiro protótipo executando o primeiro estágio de tes-
tes. Observam-se os leds acesos, o irrigador sobre o vaso, além dos sensores e reservató-
rios de água. Durante esta fase, buscou-se controlar o cultivo de hortaliças em um cô-
modo sem iluminação. Foram semeadas diversas espécies: feijão, pimenta, alecrim, aipo
e cenoura – todas de desenvolvimento inicial rápido [EMBRAPA 2010]. O ensaio ava-
liou a capacidade do sistema em estimular o crescimento das diferentes espécies que
possuem diferentes exigências luminosas, de água e nutricionais, operando em modo
padrão, ou seja, com o fotoperíodo de 12 horas escuro/claro, umidade de solo entre 75 e
80% e temperatura entre 25 e 28°C. Após 14 semanas, todas as mudas emergiram e
atingiram sua fase vegetativa.
5. Considerações Finais
A agricultura urbana em pequenos espaços é uma alternativa viável para o cultivo de
alimentos e nesse contexto, o Projeto GardenTech mostrou-se uma tecnologia acessível
e de baixo custo para obtenção de alimentos mais saudáveis e livres de agrotóxicos em
ambientes reduzidos, mesmo em sua configuração padrão. O projeto foi apresentado em
dois eventos tecnológicos do CEFET-RJ tendo conquistado prêmio de honra ao mérito.
Futuramente, serão conduzidos ensaios com cada espécie a fim de obter as melhores
condições de desenvolvimento de cada vegetal.
238
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
Referências
Agrawal, N., Singhal, S. (2015). “Smart Drip Irrigation System using Raspberry pi and
Arduino”, In International Conference on Computing, Communication and Automa-
tion (ICCCA2015), pag. 928-932.
Carneiro, M. F. B., Pereira, L. A. G., Gonçalves, T. M. (2016). “Agricultura Urbana e
Segurança Alimentar no Brasil: desafios e perspectivas”, In Revista Desenvolvimento
Social, vol. 19(1), 2016.
Evert, R. F., Eichhorn, S. E. (2013). Biology of Plants. W.H. Freeman/Palgrave Mac-
millan, 8o edição.
McRoberts, M. (2011). Arduino básico. São Paulo: Novatec, 1a edição.
Mendes, L. S. (2016). “Agricultura Urbana e Periurbana como Fonte de Renda através
do Autoconsumo”, Monografia (Bacharelado em Ciências Econômicas) – UFSC,
Florianópolis.
Monteiro Neto, J. L. L., Araújo, W. F., Vilarinho, L. B. O., Silva, E. S., Araújo, W. B.
L., Sakazaki, R. T. (2016). “Produção de mudas de pimentão (Capsicum annuum L.)
em diferentes ambientes e substratos”, In Agrária, vol. 11(4), pag. 289-297.
Pereira, R. C., Vieira Júnior, J. O. L., Santana, F. C., Willems, M. I., Cardoso, I. M.
(2015). “Café com Agroecologia na Zona da Mata de Minas Gerais”, In IX Congres-
so Brasileiro de Agroecologia, Cadernos de Agroecologia, vol. 10(3), 2015.
Taiz, L.; Zeiger, E. (2013). Fisiologia vegetal. Porto Alegre: Artmed, 5ª edição.
239
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Os medicamentos constituem parte essencial para a promoção da melhoria da qualidade
de vida das populações e para o sucesso de ações promovidas pelo sistema de saúde. A
melhoria da qualidade de tratamentos e o aumento da expectativa de vida da população
tem feito crescer o consumo de medicamentos.
Estima-se que no Brasil, o consumo de medicamentos constitua um dos itens de
maior gasto familiar [Crispin 2008]. A discrepância de valores oferecidos no varejo tem
forte influência nos gastos, muito por conta da assimetria de informações e da fidelidade
às marcas, apesar da ampla divulgação dos medicamentos genéricos promovida pela
Política Nacional dos Medicamentos desde 1998 [Miranda et al. 2009].
O presente trabalho apresenta o Pharmabook, um aplicativo que dispõe de
mecanismos de colaboração entre usuários para divulgação de preços praticados por
diferentes farmácias na vizinhança e um controle de estoque para que o consumidor
possa planejar suas compras. O restante do artigo está estruturado como segue: na Seção
2, é apresentado o referencial teórico, enquanto na Seção 3 é resumido o aplicativo
Pharmabook. Os resultados obtidos são apresentados na Seção 4 e, por último, na Seção
5 são feitas as conclusões finais.
240
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Referencial Teórico
Nas últimas décadas, o Brasil tem ampliado suas políticas públicas na tentativa de
oferecer a população maior acesso a medicamentos e atendimento de saúde. Seguindo
uma tendência de outros países, o governo brasileiro promoveu em 1998 uma política de
regulamentação de medicamentos genéricos, para estimular a concorrência comercial e
melhorar a qualidade dos medicamentos [Miranda et al. 2009].
Com um número excessivo de farmácias no Brasil, estima-se uma razão de uma
loja para cada 3.500 habitantes [Silva e Rocha 2016], as farmácias recorrem a artifícios
como vender medicamentos bonificados para se manterem abertas. A indicação de tais
medicamentos, unida à falta de conhecimento do consumidor, tem prejudicado a venda
de genéricos e impactado no preço final ao consumidor.
Um outro importante aspecto é o uso racional dos medicamentos, que segundo a
OMS (2002), ocorre quando os pacientes recebem medicação apropriada às suas
necessidades clínicas, dentro de parâmetros de dosagem e período recomendados para
seu quadro e ao menor custo possível para si e para a comunidade [Aquino 2008].
Ocorre que no Brasil, muitas vezes a população estoca medicamentos em casa de
maneira inapropriada, o que leva a inúmeros casos de intoxicações medicamentosas
[Mastroianni et al. 2011].
Tais problemas se acentuam nos casos de pessoas portadoras de doenças
crônicas e idosos, devido ao uso habitual de medicamentos e, normalmente, não podem
deixar de usá-los. Apesar do Sistema Único de Saúde (SUS) fornecer gratuitamente uma
relação de medicamentos essenciais, muitos medicamentos de uso contínuo estão fora
da lista [Helfer et al. 2012]. Paniz e sua equipe (2008), em estudo feito em municípios
do Sul e Nordeste constataram que o acesso a medicamentos contínuos em adultos
chega a 81%, logo, o custo da medicação e sua correta estocagem é fundamental para o
equilíbrio das contas domésticas. O Pharmabook foi concebido para lidar com tais
dificuldades, buscando reduzir os impactos no orçamento familiar.
3. Projeto do Pharmabook
Para o método de desenvolvimento adotou-se como base o Lean Startup, no qual prega
a construção de um produto mínimo viável (MVP - Minimum Viable Product), visando
a criação de um produto a partir do que realmente importa ao cliente [Ries 2011].
Como ferramenta para especificação dos requisitos funcionais do sistema foi
utilizada a UML, com foco na representação das funcionalidades, estrutura e interação
das classes dos objetos do sistema. Dentre os modelos desenvolvidos, a Figura 1
apresenta do diagrama de casos de uso com as principais funcionalidade do aplicativo.
241
XXXVII Congresso da Sociedade Brasileira de Computação
Tema Funcionalidades
O usuário pode atualizar os preços dos medicamentos consultados nas
Precificar
farmácias, e estes são imediatamente disponibilizados para a comunidade de
Medicamento
usuários do Pharmabook.
Registro da periodicidade para uso de cada medicamento registrado no
Registrar Posologia
aplicativo para uso pessoal. Utilizado para contabilização do estoque.
Recurso de consulta rápida dos medicamentos precificados selecionados
Visualizar Favoritos
como favoritos na base pessoal do usuário.
Manter Medicamentos Permite o cadastro dos medicamentos utilizados pelo usuário. Utiliza como
Pessoais apoio base de medicamentos disponibilizada pela Anvisa
Permite o cadastro das farmácias pelo usuário, que ficam disponíveis para a
Manter Farmácia
comunidade de usuários do aplicativo.
Cadastrar Usuário Permite o cadastro de novos usuário para uso do aplicativo.
Permite que o usuário faça atualizações dos dados do seu perfil, alteração do
Manter Perfil
login e senha , como também, a exclusão do perfil.
4. Resultados Obtidos
O design responsivo aplicado no desenvolvimento da interface do usuário propiciou um
uso adequado em dispositivos móveis, o que aumenta a aderência ao uso do aplicativo.
Também, análise de interação humano-computador foram realizadas visando que o
aplicativo pudesse oferecer boa acessibilidade para pessoas idosas. A Figura 2 apresenta
o fluxo de telas ao monitorar e detalhar preços de um medicamento.
242
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
References
Aquino, D. S. de (2008), “Por que o uso racional de medicamentos deve ser uma
prioridade?”, In Ciência & Saúde Coletiva vol. 13, pag. 733-736.
Helfer A. P., Camargo A. L., Tavares N. U. L., Kanavos P., and Bertoldi A. D. (2012),
“Capacidade aquisitiva e disponibilidade de medicamentos para doenças crônicas no
setor public”, In Rev Panam Salud Publica, 2012, vol. 31(3), pag. 225–232.
Mastroianni P. C., Lucchetta R. C., Sarra J. R., and Galduróz J. C. F. (2011), “Estoque
doméstico e uso de medicamentos em uma população cadastrada na estratégia saúde
da família no Brasil”, In Rev Panam Salud Publica. 2011, vol. 29(5), pag. 358–64.
Miranda, E. S., Pinto, C. B. S., Reis, A. L. A., Emmerick, I. C. M., Campos, M. R.,
Luiza, V. L., e Osorio-de-Castro, C. G. S. (2009), “Disponibilidade no setor público
e preços no setor privado: um perfil de medicamentos genéricos em diferentes
regiões do Brasil”, In Caderno de Saúde Pública, 2009, vol. 25(10), pag. 2147-2158.
Paniz, V. M. V., Fassa, A. G., Facchini, L. A., Bertoldi, A. D., Piccini, R. X., Tomasil,
E., Thumé, E., Silveira, D. S., Siqueira, F. V., and Rodrigues, M. A. (2008), “Acesso
a medicamentos de uso contínuo em adultos e idosos nas regiões Sul e Nordeste do
Brasil”, In Cad. Saúde Pública, Rio de Janeiro, vol. 24(2), Feb. 2008.
Ries, E. (2011) “The lean startup: How today's entrepreneurs use continuous innovation
to create radically successful businesses”, Crown Business, 2011.
243
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. In recent years the number of people who have mobile devices in
Brazil has grown. Through smartphones or tablets anyone can access a vast
amount of information anywhere, anytime. In this context, using technology in
education enables a new style of learning, less onerous to the student and
more practical. Based on the concept of Mobile Learning, the "Object of Study
of Literature" (OEL) was developed. Consists of an application and a WEB
system. Frequent use of the application enables student learning through the
application. The use of the application by the students can be accompanied by
the WEB monitoring system.
Resumo. Nos últimos anos o número de pessoas que possuem dispositivos
móveis no Brasil tem crescido. Através de smartphones ou tablets qualquer
pessoa tem a possibilidade de ter acesso a um vasto volume de informações
em qualquer lugar, a qualquer hora. Neste contexto, utilizar as tecnologias na
educação possibilitam um novo estilo de aprendizado, menos oneroso ao
estudante e mais prático. Com base no conceito do Mobile Learning, foi
desenvolvido o “Objeto de Estudo de Letramento” (OEL). Constituído por um
aplicativo e um sistema WEB. A frequente utilização do aplicativo possibilita
o aprendizado do aluno por meio do aplicativo. A utilização do aplicativo
pelos alunos pode ser acompanhada pelo sistema de acompanhamento WEB.
1. Introdução
De acordo com [Silva and Crenitte 2016], problemas relacionados ao aprendizado da
leitura, escrita e pronúncias de palavras podem surgir durante a infância de uma criança.
Caso não haja o tratamento dessas disfunções previamente, este individuo poderá ser
tornar um analfabeto. Conforme os autores [Terra 2013] e [Soares 1998] uma pessoa é
considerada analfabeta quando não consegue extrair informações, por meio da leitura de
qualquer tipo de texto, seja ele um texto escrito, comuns no processo chamando de
letramento, ou de uma imagem, que segundo [Stokes 2002] é utilizado no chamado de
letramento visual.
244
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
245
XXXVII Congresso da Sociedade Brasileira de Computação
Android, a base de dados escolhida foi o MySQL e o Web Service foi desenvolvido com
a linguagem de programação PHP. A ideia principal do OEL é possibilitar ao professor,
o acompanhamento do uso do aplicativo pelos seus alunos, pois é através deste uso que
o sistema poderá identificar as dificuldades dos alunos e recomendar ao professor
realizar o acompanhamento de forma mais personalizada.
246
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
em forma de gráficos. Além disso, o sistema identifica quais as letras foram as mais e
menos acessadas, o histórico do desempenho de cada aluno e recomendações de alunos
que estão abaixo da média estabelecida (alunos que serão recomendados para o
acompanhamento individual).
O OEL será testado em uma escola da rede pública, em uma turma do primeiro
ano do ensino fundamental, a qual será dividida em dois grupos, sendo que só um dos
grupos utilizará o aplicativo. A intensão é quantificar a influência do OEL ao longo do
aprendizado, para isso uma reunião junto ao professor da turma é realizada a cada
quinze dias para saber do andamento dos dois grupos estabelecidos na turma.
3. Considerações parciais e trabalhos futuros
A utilização de novas tecnologias no âmbito da educação pode estimular o aprendizado
dos alunos, possibilitando trabalhar a sua criatividade, ao mesmo tempo em que se torna
um elemento de motivação e colaboração. Isto deixa o processo de aprendizagem mais
atraente, divertido e significativo, além disso o aluno cresce com a consciência de um
uso mais eficiente das tecnologias que permeiam as nossas vidas.
Como trabalho futuros é proposto o acompanhamento durante o ano junto a
turma estipulada, ao final deste período, é previsto a realização de melhorias no OEL
para que no ano seguinte se possa realizar um teste mais robusto do uso da tecnologia,
ampliando a quantidade de alunos envolvidos no grupo experimental. Todos os dados
gerados durante esse período de acompanhamento serão analisados e divulgados através
da produção científica. Como resultado final da pesquisa, espera-se deixar o OEL
disponível para que qualquer docente do país possa utilizá-lo.
Referências
Garcia, C. A. and Frozza, R. (2013). Sistema de recomendação de produtos utilizando
mineração de dados. Revista Tecno-Lógica, 17:78–90.
Kampff, A. J. C. and et al (2006). Nós no mundo: objeto de aprendizagem voltado para
o 1o ciclo do ensino fundamental. RENOTE - Revista Novas Tecnologias na
Educação, 4:1–10.
Kukulska-Hulme, A. and Traxler, J., editors (2005). Mobile learning: a handbook for
educators and trainers. Open and Flexible Learning Series. Routledge, London, UK.
Silva, N. S. M. and Crenitte, P. A. P. (2016). Desempenho de crianças com risco para
dificuldade de leitura submetidas a um programa de intervenção. CoDAS, 28:517 –
525.
Soares, M., editor (1998). Letramento - Um Tema Em Três Gênero. Autêntica Editora.
Stokes, S. (2002). Visual literacy in teaching and learning: A literature perspective.
Elec-tronic Journal for the Integration of Technology in Education.
Terra, M. R. (2013). Letramento letramentos: uma perspectiva sócio-cultural dos usos
da escrita. DELTA: Documentação de Estudos em Linguística Teórica e Aplicada,
29:29– 58.
247
XXXVII Congresso da Sociedade Brasileira de Computação
anderson_stochero@yahoo.com.br, brunawkopplin@gmail.com,
{cristiane.stamberg,andrea.pereira}@iffarroupilha.edu.br
1. Introdução
O direito do aluno com necessidades educativas especiais e de todos os cidadãos à
educação é um direito constitucional. A garantia de uma educação de qualidade para
todos implica, dentre outros fatores, um redimensionamento da escola no que consiste
não somente na aceitação, mas também na valorização das diferenças. Esta valorização
se efetua pelo resgate dos valores culturais, os que fortalecem identidade individual e
coletiva, bem como pelo respeito ao ato de aprender e de construir [Jacomeli 2017].
No atual contexto social a inclusão tornou-se imprescindível, e necessária de ser
estudada e trabalhada dentro e fora das instituições de ensino. Sendo assim, este artigo
tem como objetivo apresentar as ações desenvolvidas a partir de um projeto de pesquisa
que possui como proposta encontrar caminhos para a utilização de ferramentas
tecnológicas capazes de contribuir com processo de ensino e aprendizagem da
matemática para alunos com transtorno do espectro autista, possibilitando a promoção
248
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Contextualização
Diante dos problemas e dificuldades enfrentados ao longo do processo de ensino e
aprendizagem os educadores sentem, cada vez mais, à necessidade de recorrer a
ferramentas capazes de auxiliar neste processo. Nesse sentido, torna-se urgente buscar
aporte das tecnologias da informação, as quais oferecem subsídios capazes de suprir tais
carências. Conforme destaca [Jucá 2006], por muitos anos o quadro e o giz foram
utilizados como as principais ferramentas de ensino na mediação pedagógica, porém,
nas últimas décadas a difusão da tecnologia vem se propagando e tomando conta das
instâncias educacionais. Foi a partir da união da tecnologia com os meios de
comunicação que ocorreu a revolução da educação, possibilitando novas experiências
de aprendizado através da utilização de softwares específicos trabalhados no contexto
de ensino e aprendizagem, os quais são denominados softwares educacionais.
Neste contexto [Morellato et al. 2006] defendem que a utilização da informática
na educação se apresenta como uma importante ferramenta no processo de
aprendizagem assumindo diversos significados. Desta forma, não basta inserir
hardwares e softwares no ambiente educacional, é de suma importância que a escola
reflita acerca de sua utilização e na promoção significativa de aprendizagem de modo
que o sujeito seja capaz de desenvolver e executar algo de forma que a construção do
conhecimento ocorra através da resolução de problemas e da comunicação.
Na verdade, o educador desempenha um papel fundamental neste processo de
forma que se faz necessário adicionar novas exigências em seu perfil, a fim de atender
tais mudanças, como: saber lidar com os ritmos individuais dos alunos, se apropriar de
novas técnicas para a produção de materiais didáticos através dos meios eletrônicos,
diferente daqueles do ensino tradicional, manejando de forma criativa as novas
tecnologias [Jucá 2016]. Há a necessidade de mudanças na postura no processo de
ensino e aprendizagem de acordo com a necessidade de cada indivíduo, com isso
buscando novas abordagens na prática pedagógica, entre elas a utilização de recursos da
informática, possibilitando a maior participação dos alunos em geral. Afirma-se
também que o ambiente de aprendizagem baseado nas tecnologias da informação e
comunicação proporcionam atividades com propósitos educacionais favorecendo a
construção do conhecimento e proporcionando ao aluno novas experiências.
Nesta perspectiva, legitima-se o desenvolvimento desse projeto de pesquisa, pois
há uma intencionalidade em proporcionar ao aluno novas experiências de ensino e
aprendizagem e também promover a inclusão de jovens no ambiente educacional, diante
do reconhecimento da importância na utilização da tecnologia nesse processo,
249
XXXVII Congresso da Sociedade Brasileira de Computação
3. Metodologia
O desenvolvimento do projeto foi baseado inicialmente em referenciais bibliográficos, e
após, submetido ao comitê de ética, para que se tornasse possível a continuidade da
pesquisa.
No que se refere às entrevistas com pessoas especializadas, foi estabelecida a
metodologia de entrevista semiestruturada, a qual compreende um roteiro com
perguntas fechadas e abertas, permitindo maior flexibilidade nas conversas e para o
entendimento questões trazidas pelo interlocutor. Esse modelo favorece a comunicação
entre entrevistador e entrevistado possibilitando aprofundar as reflexões em torno de
determinado tema [MINAYO 2010]. Os participantes das entrevistas, já atuam em uma
perspectiva de inclusão, profissionais da educação e gestores, articulados com o uso da
tecnologia no ensino e aprendizagem de matemática, com intuito de conhecer a
realidade e as necessidades no processo de ensinar e aprender do sujeito com autismo.
As instituições visitadas e entrevistadas no primeiro momento foram: Associação de
pais e amigos do autista e centro de atenção psicossocial infância e adolescência
(CAPSI II).
4. Resultados e Discussão
O contato inicial se estabeleceu com um profissional fisioterapeuta com estudos sobre o
autismo. A entrevista possibilitou expandir os conhecimentos sobre as principais
características dos jovens autistas, possibilitando uma reflexão mais aprofundada e
norteando os passos a serem traçados para o desenvolvimento do projeto.
Outro encontro que merece destaque foi na instituição CAPSI II, de forma que
no primeiro contato houve a possibilidade de participar de uma reunião com a
coordenadora e mais cinco psicólogas que atendem crianças com autismo, objetivando
expor o projeto em desenvolvimento e conhecer mais das características do público-alvo
deste estudo. As psicólogas relataram os trabalhos e as atividades que realizam com as
crianças e orientaram quanto ao nível de jogo a ser implementado, destacando que o
mais adequado para se trabalhar matemática é com as etapas iniciais como por exemplo:
as quatro operações básicas. Foi agendado, também, um encontro no laboratório de
250
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
5. Considerações finais
A partir do desenvolvimento do presente projeto espera-se como resultado a efetiva
melhoria no processo de ensino e aprendizagem em matemática, através de jogos e
materiais didáticos desenvolvidos com o auxílio de ferramentas tecnológicas, tendo
como foco alunos com transtorno do espectro autista. Acredita-se que promover a
inclusão com o apoio de softwares que contemplam jogos e materiais didáticos se
apresenta como uma relevante contribuição para o campo da educação. Espera-se
também revelar o potencial das tecnologias no cotidiano das instituições de ensino,
como um recurso pedagógico fundamental, merecedores de maior reconhecimento,
rompendo com as metodologias tradicionais e sensibilizando profissionais envolvidos
no campo da educação, especialmente os que atuam com pessoas que possuem
necessidades educacionais diferenciadas.
Atualmente o projeto encontra-se na fase de investigação, realizando entrevistas
com profissionais das áreas relacionadas, associações de pais e com os indivíduos foco
deste estudo, visando identificar as necessidades de cada um, seus gostos e
peculiaridades, permitindo assim, avançar para as próximas etapas, que se estabelece na
seleção e construção de jogos e materiais didáticos com o auxílio de softwares e
ferramentas tecnológicas, a fim de contribuir para o processo de ensino e aprendizagem
da matemática, componente curricular obrigatório na educação básica brasileira.
Referencias
251
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O Pensamento Computacional é uma metodologia de resolução de problemas
que dispõe de múltiplas características e requisitos que permitem aos alunos
que o aderem ver uma relação entre diversos conteúdos acadêmicos. Entre os
elementos que o pensamento computacional compreende, está inclusa
segmentação de informações ou problemas em partes menores e
administráveis, reconhecimento de padrões, identificação de fundamentos
gerais que geram esses padrões e desenvolvimento de orientações passo a
passo de como resolver impasses [Google 2017]. Dado que o pensamento
computacional surgiu como um método de solucionar problemas, gerar
sistemas e entender o comportamento humano que se constitui de conceitos
primordiais da Ciência da Computação, sua finalidade para solução de
problemas nas mais diversas áreas do conhecimento o torna uma
competência fundamental para todas as pessoas, sendo assim, uma condição
primária para a formação básica dos profissionais de todos os campos nos
anos seguintes [Gomes 2013]. Uma outra metodologia educacional é a
Aprendizagem Baseada em Projetos (PBL), que é um modelo de ensino que
baseia-se em possibilitar que os alunos lidem com as obstáculos e as
indagações do mundo atual que consideram interessantes determinando como
abordá-los e, assim, agindo de modo cooperativo a fim de chegar em uma
1
252
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Trabalho Proposto
Atualmente, jogos se sobressaem não somente como um instrumento de puro
entretenimento, mas também como um significativo artifício de
ensino-aprendizagem [Gurgel 2006], pois a criação dos mesmos, abrange
conceitos de programação e requer uso de lógica, necessitando de pesquisa e
estudo para sua realização. A proposta deste projeto consiste no uso de uma
ferramenta de desenvolvimento de jogos para aprendizagem de conceitos
básicos de programação utilizando Aprendizagem Baseada em Projetos e
Pensamento Computacional. Utiliza-se neste projeto o Game Maker Studio
como mecanismo de desenvolvimento de jogos por ser uma ferramenta livre e
acessível de criação de jogos 2D. Para aplicação das metodologias de PBL
(Aprendizagem Baseada em Projetos) e CT (Pensamento Computacional),
minicursos seriam ministrados por tutores que auxiliam os estudantes com uso
de um material de aula que abrange todo o conteúdo para criação de um jogo.
Como consequência do minicurso apresentado, os alunos adquirem
entendimento de conceitos básicos de programação, uma vez que o mini-curso
abrange diversos conceitos de lógica e algumas sintaxes semelhantes à
Linguagem C.
Após a criação deste primeiro projeto, o aluno pode despertar o interesse pela
área e ingressar na mesma, evoluindo, assim, o que foi estimulado por este
projeto.
3. Metodologia
Para aplicação do projeto, foi utilizada a ferramenta de criação de jogos 2D,
Game Maker Studio, que trabalha com a linguagem de programação
denominada GML (Game Maker Language) e usa mecanismos de fácil
procedimento para desempenho.
O projeto desenvolvido pelos alunos durante o minicurso foi um jogo
semelhante ao Asteroids, criado em 1979 pela Atari. A escolha desse jogo se
deu em razão da facilidade na sua criação e sua abrangência de assuntos na
elaboração.
O minicurso tem duração de duas tardes seguidas, dividindo o conteúdo
ministrado em duas partes apresentadas em um material didático de aula,
253
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados
A metodologia foi aplicada com um grupo de pessoas que foram inscritas
previamente para participar do minicurso gratuito e aberto ao público no
Instituto Federal, como mostra a figura 1. Essa aula foi realizada como
preparação para a Global Game Jam, evento mundial no qual quaisquer
pessoas interessadas se reúnem e formam grupos para criação de um jogo em
48 horas de forma colaborativa. O grupo de tutores e monitores foi composto
de alunos do ensino médio do Instituto Federal, que ministraram a aula para o
conjunto de participantes dos mais diversos níveis de estudo e faixa etária,
entre eles alunos do ensino médio, alunos do ensino superior, professores e
mestrandos. Com a ajuda dos monitores, os participantes tiveram seu primeiro
contato com criação de jogos e desenvolveram, mesmo sem nenhum
conhecimento prévio, o jogo de Asteroids completo.
Figure 1. Aplicação do minicurso de jogos. Fonte: Autoria própria
O minicurso foi ministrado 2 dias antes do evento Global Game Jam, sediado
no Instituto Federal do Piauí, os participantes do minicurso também se
inscreveram no evento e durante ele desenvolveram jogos a partir do
conhecimento adquirido [Labiras 2017]. Os jogos desenvolvidos foram
submetidos e publicados no site oficial do evento [Global Game Jam 2017],
nesse mesmo evento, em 2015, foi iniciado o Crown Brawl, jogo desenvolvido
por alunos do IFPI e aceito na Imagine Cup 2017, campeonato mundial de
tecnologia promovido anualmente pela Microsoft [IFPI 2017].
254
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
5. Conclusão
Como aspecto positivo dos resultados obtidos, se destaca o uso de recursos
simples de produção e ensino. No entanto, a aplicação do minicurso foi
limitada a poucos eventos e instituições, portanto, futuramente, espera-se levar
este minicurso à outros lugares, em outras instituições (com foco nas
instituições públicas e com acesso à laboratórios de informática), para que seja
propagada a criação de jogos 2D acessível para todos. Pretende-se também
criar uma apostila sobre criação de jogos, onde os alunos possam aprender de
forma autônoma e, posteriormente, desenvolver projetos de autoria própria.
6. Referências
Ventura, Matthew et al. Development of a Video Game that Teaches the
fundamentals of Computer Programming. In: SoutheastCon 2015. IEEE,
2015. p. 1-5.
Joly, Maria C. Rodrigues Azevedo. Tecnologia No Ensino: Implicações Para a.
Casa do Psicólogo, 2002.
De França, Rozelma Soares; DO AMARAL, Haroldo José Costa. Proposta
metodológica de ensino e avaliação para o desenvolvimento do pensamento
computacional com o uso do scratch. In: Anais do Workshop de Informática
na Escola. 2013. p. 179.
Google. 2017. Pensamento Computacional para Educadores . [ONLINE]
Disponível em: https://computationalthinkingcourse.withgoogle.com/unit.
[Acessado em 10 de março de 2017].
Gomes, T.; Melo, J. O Pensamento Computacional no Ensino Médio: Uma
Abordagem Blended-Learning. In: Anais do XXI Workshop sobre Educação
em Computação–XXXIII Congresso da Sociedade Brasileira de
Computação. Maceió, AL–Brasil. 2013.
Bender, Willian N. Aprendizagem baseada em projetos: educação diferenciada
para o século XXI. Penso Editora, 2015.
Gurgel, Ivannoska et al. A importância de avaliar a usabilidade dos jogos: A
experiência do virtual team. Anais do SBGames, Recife, 2006.0
Global Game Jam. 2017. THE Game Jam Games. [ONLINE] Disponível em:
http://globalgamejam.org/2017/jam-sites/game-jam/games. [Acessado em 26
de Abril de 2017].
Labiras. 2017. GLOBAL GAME JAM. [ONLINE] Disponível em:
http://labiras.cc/ggj2017/. [Acessado em 26 de maio de 2017].
IFPI. 2017. Jogo criado no IFPI é finalista em competição de tecnologia da
Microsoft. [ONLINE] Disponível em:
http://libra.ifpi.edu.br/noticias/jogo-criado-no-ifpi-e-finalista-em-competicao-de
-tecnologia-da-microsoft/view. [Acessado em 26 de maio de 2017].
255
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This article presents the Genetic Algorithm (GA) applied to the
problem of allocation / location of health center. The goal is a minimum
number of health posts covering a greater quantity of demand points by
positioning them geographically at strategic points. In this problem, the
number of facilities is not fixed, and it is up to GA to find a number of health
centers that meet the established criteria. The possibility of filament
generation during times of movement at health posts is disregarded. The
Genetic Algorithm proved to be very effective in computational tests in several
small instances of large problems, with a rapid evolution of the population.
1. Introdução
Decisões sobre aonde alocar ou instalar facilidades considerando as necessidades do
usuário, são entendidas como problemas de localização de facilidades, onde,
“facilidades” se entende por postos de saúde, depósitos, escolas, fábricas etc., enquanto
clientes refere-se a bairros, unidades de vendas, pacientes etc. O processo decisório de
alocação é algo complexo de ser analisado, principalmente quando envolve um grande
número de possibilidades, onde às vezes se faz necessário efetuar cálculos enormes que
resultam em números exorbitantes, sendo necessário anos para efetuar tais cálculos. “A
maioria dos Problemas de Localização de Facilidades é considerada de difícil solução,
pertencendo alguns deles à classe NP-difícil.” (LOUREIRO, 2012, 1301).
Os problemas de localização são de natureza combinatória, pois consistem em
selecionar de um conjunto discreto e finito de dados o melhor subconjunto que satisfaça
determinados critérios.”(Arroyo, 2006, 1346) Este problema é chamado de p-medianas.
“O problema das p-medianas consiste em determinar a localização, em uma rede, de p
256
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Definição do Problema
Nesta seção apresenta-se a definição do problema de localização de facilidades,
abordado neste trabalho.
Notações:
P = {1,...,n}: conjunto de pontos de demanda (um ponto de demanda pode ser um
bairro ou um quarteirão de um bairro por exemplo);
C = {1,...,m}: conjunto de pontos potenciais onde podem ser alocadas as facilidades
(se no ponto j ∈ C é alocada uma facilidade, então é dito que a facilidade j é aberta,
caso contrário a facilidade j está fechada);
A={a1,...,ak | m ≥k ∈C} : conjunto de facilidades abertas.
B={b1,...,by | m ≥y ∈C} : conjunto de facilidades fechadas.
cj: variável de decisão ∈ {0,1}. Se a facilidade j é aberta tem-se aj = 1, caso contrário
aj = 0.
dij: distância (euclidiana) do ponto i ∈ P com coordenadas(xi,yi)ao ponto j ∈ A com
coordenadas(xj,yj);
S: constante de normalização que irá privilegiar mais ou menos o uso das facilidades
abertas, de acordo com o seu valor estipulado, devendo ser ajustada para cada tipo
de problema.
Formulação:
257
XXXVII Congresso da Sociedade Brasileira de Computação
4. Testes Computacionais.
Os testes computacionais consistiram na elaboração de instâncias de problemas de
pequeno à grande porte, sendo comparados o valor final da função objetivo apresentada
pelo Algoritmo Genético, com o valor final da função objetivo para o mesmo problema,
abordado pela Busca Local com a permuta All Pairs, que consiste na busca de melhores
soluções através da troca de pares, ou conjuntos de valores que trocam suas posições,
gerando uma nova solução. A Tabela 1 exibe os testes realizados para n pontos de
demanda e m locais candidatos à instalação dos k postos de saúde, locados pelo
problema. Em todas as instâncias foi adotada uma população contendo 500 indivíduos.
Tabela 1. Instâncias de problemas aleatórios
f(x)
Problema f(x) Algor. Problema f(x) Algor. f(x) Busca
Nº Busca Nº
n_m_k Genético n_m_k Genético Local
Local
1 10_10_1 13157 13157 5 300_300_5 95481 97858
2 20_20_1 15790 16850 6 400_400_6 104875 108954
3 40_40_1 20999 20999 7 700_700_6 158698 172462
4 200_200_3 64162 67458 8 1000_1000_7 208463 210240
258
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
5. Conclusão
Neste trabalho procurou-se locar um número desconhecido de facilidades posicionando-
as (alocando) de tal forma a minimizar ao máximo as distâncias envolvidas entre as
facilidades abertas e os pontos de demanda atendidos.
Esta solução objetiva auxiliar a tomada de decisões, quando por exemplo é
conhecido o custo da abertura de uma facilidade (custo para abrir e manter um posto de
saúde por exemplo) mas não é sabido quantos postos devem ser abertos e onde eles
devem ser posicionados.
De acordo com as instâncias de problemas gerados, o Algoritmo Genético
apresentou melhores resultados em praticamente todos os problemas. Devido a
complexidade do modelo tratado, uma vez que a população do Algoritmo Genético
apresentou indivíduos contendo um número diferente de genes, observou-se um tempo
computacional requerido pelo Algoritmo Genético em média 65% superior ao tempo
gasto pela busca local, considerando as mesmas instâncias de problemas e critérios de
parada.
Referências
Silva, Anderson Freitas, and AC De Oliveira. "Algoritmos genéticos: alguns
experimentos com os operadores de cruzamento (“Crossover”) para o problema do
caixeiro viajante assimétrico." Anais do XXVI ENEGEP–Encontro Nacional de
Engenharia de Produção, Fortaleza (2006).
Barsanulfo, Allan, et al. "Escalonamento De Horários Acadêmicos Utilizando
Algoritmos Genéticos." Jornal De Engenharia, Tecnologia E Meio Ambiente-
Jetma 1.1 (2016): 27-31.
Arroyo, José Elias Cláudio, and Tarcísio Barroso Marques. "Heurística Grasp Aplicado
ao Problema de Alocação de Antenas de Transmissão." XXXVIII Simpósio Brasileiro
de Pesquisa Operacional, Goiânia-GO (2006).
Loureiro, Sérgio Adriano, Christiane Lima Barbosa, and Orlando Fontes Lima Jr.
"Procedimento para localização e alocação de vagas de carga e descarga em centros
urbanos." Anais do XXVI ANPET (2012).
do Rosário, Raimundo Ronilson Leal, Celso Carnieri, and Maria Teresinha Arns
Steiner. "Proposta de solução para o problema das p-medianas na localização de
unidades de saúde 24 horas." XXII Encontro Nacional de Engenharia de Produção,
Curitiba (2002).
259
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Tecnologia Assistiva é um termo utilizado para identificar os recursos e serviços que
contribuem para proporcionar ou ampliar habilidades funcionais de pessoas com
deficiência e consequentemente promover independência e inclusão. Dessa forma, torna-
se possível a integração e o melhor aproveitamento do aluno com deficiência em sala de
aula, uma vez que o mesmo não pode ser segregado ou afastado do convívio dos outros
colegas levando em consideração o conceito de inclusão (COOK, 2005).
Atualmente o Brasil dispõe de diversas normas no que se diz respeito à
acessibilidade, sendo uma delas a NBR 9050 (ABNT, 2004), que define Acessibilidade
como "possibilidade e a condição de utilizar, com segurança e autonomia, os edifícios, o
espaço, o mobiliário e os equipamentos urbanos", além da Lei 10.098 (BRASIL, 2000),
que estabelece as normas gerais e critérios básicos para promoção da acessibilidade às
pessoas com deficiência.
260
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
2. Proposta
Com o objetivo de promover acessibilidade, inclusão e independência aos alunos
com deficiência visual, tem-se como proposta a construção de uma sala de aula pensada
no princípio do Desenho Universal (SASSAKI, 1997), na qual todos os alunos serão
contemplados com um ambiente acadêmico inteligente.
A sala de aula contará com recursos de automação residencial, que tornarão
automáticas atividades cotidianas, como: abrir/fechar portas e janelas; controle de
climatização; ligar/desligar luzes com base nas informações recebidas pelo sensor de
luminosidade; computadores e hardwares externos controlados por voz. Na Figura 1,
representamos esquematicamente a automação das portas (1), iluminação (2) e ar
condicionado (3).
261
XXXVII Congresso da Sociedade Brasileira de Computação
3. Aplicação
O sistema é aplicado na plataforma Arduino, mais especificamente no Arduino Uno R3,
que oferece uma interface de hardware proporcionando todo o circuito necessário para
funcionamento do micro controlador e uma interface e ambiente de desenvolvimento em
software para programação. Por ser uma plataforma de código aberto (open-source) há
uma grande comunidade de desenvolvedores do mundo inteiro que disponibilizam
bibliotecas de código para ser aplicado nessas plataformas, com funções específicas,
como, por exemplo, o controle de servo motores ou leitura de sensores analógicos.
(CARVALHO, 2011, p. 34).
As imagens a seguir (Figura 2), apresentam os testes feitos com a maquete do
ambiente que contém o sistema:
(a) (b)
Figura 2. - (a) Testes com a porta da sala de aula. (b) Teste com o sistema de
controle de temperatura e computadores.
A Figura 2 apresenta a maquete com os componentes ainda em fase de calibração
dos sensores, que está sendo utilizada para os ensaios iniciais. O sistema instalado na
maquete funciona da seguinte forma: o sensor de presença PIR, localizado ao lado da
porta (figura 2 (a)) irá detectar a presença do usuário em frente à sala, e, em seguida,
ativar o Servo Motor apensado à porta, que irá abri-la possibilitando a entrada do usuário,
e em seguida, fechá-la.
É também utilizado o Sensor de Luminosidade LDR, que é responsável pelo
controle de iluminação, variando sua resistência de acordo com a intensidade da luz
presente no ambiente, ligando ou desligando o LED (diodo emissor de luz) que representa
a iluminação de acordo com a necessidade. De forma semelhante funciona o controle do
ar condicionado, que utiliza o Sensor de Temperatura DHT11 para verificar a
temperatura, e de acordo com as necessidades do ambiente, liga ou desliga o LED que
representa o ar condicionado. O LED que nas imagens da maquete representa o
computador é ligado por meio de um botão localizado no protoboard do sistema, mas
posteriormente será ativado por meio de um sensor de reconhecimento de voz.
4. Trabalhos Futuros
As próximas etapas do projeto são integrar ao sistema de automação, recursos
relacionados a emergência, como no caso de incêndios, para que o deficiente visual possa
ser guiado para fora do ambiente em segurança, por meio de recursos sonoros.
262
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
5. Considerações Finais
O sistema em desenvolvimento tem como objetivo auxiliar alunos com deficiência visual,
possibilitando tanto a acessibilidade ao ambiente acadêmico, melhorando a execução de
suas atividades cotidianas, quanto melhorando a acessibilidade aos sistemas que irão
auxiliá-lo no processo de ensino-aprendizagem.
O ambiente que contém o sistema utiliza sensores e controladores que funcionam
por meio de uma placa programável, que possibilita a automação do ambiente,
proporcionando o fácil e instantâneo acesso às funcionalidades do ambiente propriamente
dito.
Referências
ABNT: ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. Norma NBR 9050,
Acessibilidade a Edificações, Mobiliário, Espaços e Equipamentos Urbanos. Rio de
Janeiro, 2004.
BRASIL. Lei n° 10.098, de 19 de dezembro de 2000. Estabelece normas gerais e critérios
básicos para a promoção da acessibilidade das pessoas com deficiência ou com
mobilidade reduzida e dá outras providências. Brasília, DF, Congresso Nacional, 2000.
CARVALHO, Mauricio Feo Pereira Rivello de. Automação e controle residencial via
internet utilizando arduino. In: SEMANA DE EXTENSÃO, 1., Rio de Janeiro. Anais...
Rio de Janeiro: [online], 2011.
COOK, A.M. & HUSSEY, S. M. (1995). Assistive Technologies: Principles and
Practices. St. Louis, Missouri. Mosby - Year Book, Inc.
GUEDES, Lucas et al. O papel social da automação: automação inclusiva e mais
sustentável. In: SEMINÁRIO NACIONAL DE CONSTRUÇÕES SUSTENTÁVEIS.
Passo Fundo, 2012
MOZER, M. The adaptive house. In: Intelligent Building Environments, 2005. The
IEESeminar on (Ref. No. 2005/11059). [S.l.: s.n.], 2005. p. 39-79. ISSN 0537-9989.
PERICO, A., SHINOHARA, C. S., SARMENTO, C. D. (2014). Sistema de
Reconhecimento De Voz Para Automação De Uma Plataforma Elevatória.
SASSAKI, Romeu Kazumi. Inclusão: construindo uma sociedade para todos. Vol. 174.
Rio de Janeiro: Wva, 1997.
TONIDANDEL, F., TAKIUCHI, M., MELO, E. (2004). Domótica Inteligente:
Automação baseada em comportamento. Congresso Brasileiro de Automática.
263
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The present work aims help people to have a better control of your
expenses with electric power using a low-cost product. The energy
consumption will be monitored in watts, to calculate how much energy is
spending and what will be your value in the next reading. We will use the
Arduino board, electronics prototyping platform, which will communicate
with the sensor TCS-013-020 that is of type "non-invasive" and a web server
where is stored the data and manage in real time which will contain
information of value and rate of consumption of the next invoice. It is expected
that there will be an awareness to reduce spending and preservation of nature.
Resumo. O presente trabalho tem com meta ajudar as pessoas ter um melhor
controle de seus gastos com energia elétrica usando um produto de baixo
custo. Será realizado o monitoramento do consumo de energia em watts para
poder calcular quanto de energia está gastando e qual será o valor na
próxima leitura do relógio. Será utilizada a placa Arduino, plataforma de
prototipagem eletrônica, que se comunicará com o sensor não invasivo SCT-
013-020 e um servidor web aonde será armazenada os dados e os gerenciará
em tempo real que vai conter informações do valor e índice de consumo da
próxima fatura. Espera-se que haja uma conscientização quanto à redução
dos gastos e preservação da natureza.
1. Introdução
O trabalho tem como objetivo desenvolver um sistema de monitoramento e cálculo do
consumo de energia elétrica. O controle da energia gasta nas residências do Brasil vai
afetar diretamente a economia, pois o consumidor terá consciência do que está
consumindo e poderá reduzir os gastos. Além disso, ajuda na preservação da natureza,
já que os recursos que utilizamos hoje em dia não são renováveis, um dia irão se esgotar
[CUNHA, 2015].
Existem equipamentos no mercado que fazem o monitoramento e o cálculo de
gastos com a energia elétrica, são conhecidos como Multimedidor ou Analisador
elétrico e seus preços variam entre dois mil a três mil reais. A diante pode ser ver a
Tabela 1 a comparação das características de especificações dos equipamentos.
[FLUKE, 2016].
Neste trabalho utilizaremos a placa Arduino, open-source de protótipos
eletrônicos baseados em hardware, de fácil uso, destinado a qualquer pessoa interessada
264
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
em criar objetos ou ambientes. Serão conectados sensores não invasivos, ou seja, não
necessita fazer nenhuma alteração na rede elétrica da residência.
A vantagem de se usar Arduino está no seu custo/benefício, por ser uma placa
que possui vários recursos a um custo totalmente acessível [MCROBERTS, 2015].
2. Metodologia
Para o desenvolvimento do sistema de monitoramento, foram adquiridos os seguintes
materiais: 1 Arduino UNO, 2 resistores de 10KΩ, 1 capacitor de 100 uF, 1 Display LCD
16×2, 1 Potenciômetro de 10K, 1 sensor SCT-013-020 e um Shield Wifi (ESP8266).
Equipamentos estes exibidos na Figura 1.
O monitoramento da rede elétrica vai ser feito pela placa Arduino, para isso, o
fio de energia – a ser monitorado – será envolvido de forma não invasiva pelo sensor
SCT-013-020 que estará conectado esta placa.
Serão coletados dados como potência e intensidade e serão enviados utilizando o
Wifi Shield-ESP8266 para a página via web, assim fazer monitoramento e coleta de
dados em tempo real para ter uma melhor eficiência de fluxos de informações. E essas
informações vai ser possível ser visualizada pelo usuário tanto em forma de valores
estimando a conta da fatura de energia, como um gráfico com o índice de consumo por
período que vai ser estipulado pelo o usuário. Esses dados visam promover tomadas de
decisões para um melhor controle de gastos excessivos em paralelo à conscientização
ambiental.
Para validação do protótipo titulado como EPA (Electric Power Analyzer), serão
realizados testes em algumas redes domésticas. Após a validação, pretende-se implantar
o sistema no mercado.
3.Considerações Finais
Esse sistema está sendo desenvolvido de forma modular para que novos
componentes e outros sensores possam ser facilmente adicionados ao projeto, por
exemplo: placa de rede e placa bluetooth.
265
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Cunha, J. (2015). “Desperdício consome 10% da energia elétrica no país, diz
associação”, http://www1.folha.uol.com.br/mercado/2015/02/1586778-desperdicio-
consome-10-da-energia-eletrica-no-pais-diz-associacao.shtml, Fevereiro.
Fluke. (2016). http://www.fluke.com, Fevereiro.
Mcroberts, M. (2015). “Arduino Básico”. 2ª edição. São Paulo. Novatec.
266
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
1. Introdução
O estudo e projeto integrado de hardware e software tem se tornado ainda mais
relevante devido aos grandes avanços tecnológicos, que têm disseminado uma vasta
quantidade de plataformas computacionais para atender diferentes requisitos
tecnológicos, tais como computação paralela, sistemas embarcados, internet das coisas
(IoT) e automação [Ecker, 2009] [Atzori, 2010]. Esse contexto implica em um grande
desafio para o ensino e pesquisa em ambientes acadêmicos devido à complexidade
inerente à alta escala de integração, o que dificulta a percepção de conceitos e
funcionalidades presentes em arquiteturas e plataformas modernas.
Portanto, o uso de ambientes virtuais de simulação como abordagem de ensino e
pesquisa tem sido fortemente recomendado, pois permitem simplificar e dinamizar a
criação e a simulação de novos sistemas computacionais em cenários próximos aos
reais. Assim, o objetivo desse trabalho é propor uma ferramenta de simulação para
apoiar o projeto e a aprendizagem em arquitetura e organização de computadores. A
ferramenta proposta, chamada de CompSim, suporta uma abordagem para projeto e
267
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
Os ambientes de simulação como o HADES (Hamburg Design System) [Hendrich,
2002] e o DEEDS (Digital Electronic Education Design Suite) [Donzellini; Ponta,
2013] possibilitam o estudo desde portas lógicas a sistemas microprocessados
completos, em diferentes níveis de abstração. No entanto, a configuração e
parametrização de componentes específicos não é algo tão simples, devido à
complexidade do ambiente proposto. Abordagens como CPUSIm [Skrien, 2001] e
SimuS [Silva; Borges, 2016] incluem interfaces gráficas que permitem a configuração e
interação com os componentes de hardware e o ambiente de simulação, e focam
essencialmente na exploração da programação em baixo nível. Esses simuladores, no
entanto, por não incluírem suporte a alguns tipos de modelos de componentes ou
ocultarem detalhes importantes para abstração da simulação, tornam-se ambientes de
simulação distantes dos reais. Já os ambientes de simulação, como o VisiMips, são
fortemente baseados no processo de animação da simulação em interface gráfica,
vinculando a programação de baixo e médio nível com o comportamento dinâmico das
unidades funcionais do processador [Kabir; Bari; Haque, 2011]. No entanto, esse
simulador só dá suporte a um único tipo de processador. Por outro lado, simuladores
como o MPSoCBench [Duenha; Azevedo, 2016], que apresentam componentes de
hardware modelados seguindo todas as características de componentes reais, se tornam
muito complexos de configurar e interagir.
Este trabalho apresenta o CompSim, um simulador gráfico que suporta o projeto
de diferentes modelos de componentes de hardware, os quais podem ser facilmente
configurados e simulados, além de trazer informações detalhadas e estatísticas de
simulação sobre eles. A seção a seguir traz mais detalhes do simulador proposto.
268
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
269
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Atzori, L.; Iera, A.; Morabito, G. (2010) The Internet of Things: A survey. Elsevier.
Donzellini, G.; Ponta, D. (2013) From Gates to FPGA: Learning Digital Design with
Deeds. In: Proceedings of the Third Interdisciplinary Engineering Design Education
Conference – IEDEC. pp.41-48.
Duenha, L.; Azevedo, R. Utilização dos Simuladores do MPSoCBench para o Ensino e
Aprendizagem de Arquitetura de Computadores. In: International Journal of
Computer Architecture Education (IJCAE), V. 5, n. 1, 2016. pp 26-31.
Ecker, W.; Müller. W., Dömer , R. (2009) Hardware-dependent Software Principles and
Practice. Springer.
Hendrich, N. (2002) From CMOS-Gates to Computer Architecture: Lessons Learned
from Five Years of Java-Applets. In: Proceedings of the 4th European Workshop on
Microelectronics Education, EWME. Pp 23-24.
Kabir, M. T.; Bari, M. T.; Haque, A. L. (2011) VisiMips: Visual Simulator of MIPS32
Pipelined Processor. In: International Conference on Computer Science & Education
(ICCSE). p. 788–793.
Silva, G. P; Borges, J. A. dos S. SimuS: Um Simulador para o Ensino de Arquitetura e
Organização de Computadores. In: International Journal of Computer Architecture
Education (IJCAE). V. 5, n. 1, 2016. pp 7-12.
Skrien, D. (2001). CPU Sim 3.1: A tool for simulating computer architectures for
computer organization classes. In: Journal on Educational Resources in Computing
(JERIC), 1(4), 46-59.
270
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
1. Introdução
A escolha de uma alimentação vegetariana em suas diversas formas tem sido adotada
por diferentes grupos de pessoas. No Brasil, cerca de 8% da população em capitais de
estados e regiões metropolitanas afirmam ser vegetarianos (IBOPE, 2012). Os motivos
que levam o indivíduo ao vegetarianismo são multidimensionais, entre eles estão a ética
e restrições alimentares. Partindo do momento desta escolha, o vegetariano possui
dificuldades em manter uma dieta que supra todas as necessidades de aspecto
nutricional que o organismo necessita, seja por falta de conhecimento de quais
alimentos consumir, ou por falta de organização pessoal e controle da alimentação. Por
isso, além de se situar no assunto, o adepto deve consultar profissionais da área da
nutrição para definir uma base alimentar que forneça todos estes nutrientes. Com o
crescimento da tecnologia em nossa sociedade, pode-se perceber um aumento de sites e
271
XXXVII Congresso da Sociedade Brasileira de Computação
2. Vegetarianismo e a Tecnologia
No ano de 2016, o total de aplicativos nas lojas virtuais Google Play Store e Apple
Store chegaram a dois milhões cada (STATISTA, 2016). O número alto de aplicações
se deve ao constante questionamento de pessoas sobre como automatizar ou simplificar
um processo diário. Em relação ao vegetarianismo não foi diferente, hoje é possível
encontrar diversos aplicativos, porém, ainda não encontra-se uma aplicação que
proporciona ao usuário controlar e visualizar a sua dieta dia a dia, que seja focado e
exclusivo para vegetarianos.
A tecnologia pode, e deve ser usada para apoiar comunidades que precisam de maior
visibilidade em nossa sociedade. Através de uma aplicação móvel, pode-se proporcionar
ao usuário um diário onde ele irá controlar a sua alimentação e terá a visibilidade dos
nutrientes que está consumindo, recebendo dicas sobre alimentos que deverá consumir
para manter sua dieta equilibrada e saudável.
Com o objetivo de estudar as soluções presentes, foi realizada uma pesquisa sobre
aplicações com temas e objetivos relacionados ao vegetarianismo. Foram selecionadas
três soluções. São elas:
¿EsVegan? – uma plataforma em espanhol que através da leitura do código de barras do
produto retorna a composição, informando se possui resquícios de animais
(DESDELOSALVAJE, 2016).
HappyCow – uma plataforma que disponibiliza um guia de restaurantes vegetarianos ao
redor do mundo, com informações de horários de funcionamento, contatos e endereços
(TIME HAPPYCOW, 1999).
DietBox – uma plataforma que faz a intermediação entre paciente e nutricionista,
disponibilizando um espaço para cadastramento de dietas (TIME DIETBOX, 2016).
Dentre as três soluções, nenhuma propõe as mesmas funcionalidades, de forma
exclusiva para vegetarianos. Com isso, foi possível identificar um diferencial para o
desenvolvimento de uma plataforma para este fim.
3. Metodologia
272
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
273
XXXVII Congresso da Sociedade Brasileira de Computação
3.2 Avaliação
A plataforma foi avaliada através de formulário, o qual obteve-se 120 respostas, a fim
de analisar a aceitação do projeto entre vegetarianos. Cerca de 97% dos entrevistados
afirmaram que usariam a aplicação e acham necessário o desenvolvimento de aplicações
voltadas para o vegetarianismo, como ilustrado na Figura 3.
Sim
Não
96,6 %
4. Conclusão
Este trabalho objetivou desenvolver uma plataforma para auxiliar pessoas a aderirem ao
vegetarianismo. Através de uma pesquisa de dados, desenvolvimento da plataforma e
pesquisa de aceitação, concluiu-se que o Vegeryday pode auxiliar seus usuários a
manter suas dietas equilibradas, e também auxiliar uma comunidade a ter uma maior
visibilidade dentro da sociedade
5. Referências
ALLEN, Grant e OWENS, Mike. (2011) “The Definitive Guide to SQLite”. Apress,
368p.
BAUER, Christian; KING, Gavin; GREGORY, Gary. (2015) “Java Persistence with
Hibernate”. Em: Manning Publications Company, 608p.
DESDELOSALVAJE. (2016) “¿EsVegan?”. Disponível em: <http://esvegan.com/>.
Acesso em: 19 mar. 2017.
DIETBOX. (2016) “DietBox”. Disponível em <https://dietbox.me/pt-BR/>. Acesso em:
19 mar. 2017.
HAPPYCOW. (1999) “HappyCow”. Disponível em: <https://www.happycow.net/about
-us>. Acesso em: 19 mar. 2017.
IBOPE. (2012) “IBOPE 2012: 15,2 milhões de brasileiros são vegetarianos”.
Disponível em: <https://www.vista-se.com.br/ibope-2012-152-milhoes-de-brasileiros
-sao-vegetarianos/>. Acesso em: 10 mar 2016.
LECHETA, Ricardo. (2015) “Web services RESTful: Aprenda a criar web services
RESTful em Java na nuvem do Google”. Novatec, 432p.
PIVOTAL Software Inc. (2016) “Spring for Android”. Packt Publishing, 126p.
STATISTA. Number of apps available in leading app stores as of June 2016. Disponível
em: <https://www.statista.com/statistics/276623/number-of-apps-available-in-
leading-app-stores/>. Acesso em: 04 dez. 2016.
274
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
jaline.mombach@iffarroupilha.edu.br
1. Introdução
O uso de jogos como recurso de ensino não é necessariamente algo inovador, porém um
novo termo tem sido discutido de forma progressiva: ”gamificação”. Conforme Kapp
(2012), os jogos digitais são excelentes ambientes de aprendizagem, principalmente por-
que permitem a falha, o tentar novamente, o senso de controle e a colaboração entre pares.
Dessa forma, gamificação é a aplicação de técnicas e metodologias de jogos digitais em
diferentes contextos.
Gee (2003) descreve que a gamificação aplicada na educação gera motivação nos
estudantes, que criam prioridades para atingir os objetivos propostos. A aplicação de um
ambiente gamificado no ensino resulta em benefı́cios, como o compartilhamento de co-
nhecimentos, experiência em grupo e uma melhor preparação para o mercado de trabalho,
devido aos objetivos que precisam ser alcançados.
No Instituto Federal de Educação, Ciência e Tecnologia Farroupilha, Campus Ale-
grete, percebeu-se que os alunos do último ano do curso Técnico em Informática Inte-
grado, isolavam-se durante a realização do Trabalho de Conclusão de Curso (TCC). Além
disso, a maioria dos discentes deste nı́vel de ensino são adolescentes e relatam dificuldade
para organização e cumprimento do cronograma de orientação. A desmotivação em al-
guns alunos era evidente e ao final do ano letivo um número expressivo de alunos ficava
em recuperação no TCC.
Diante deste contexto, o principal objetivo deste trabalho é relatar a experiência
obtida com uma metodologia baseada em gamificação para organização dos TCCs do em
um Curso Técnico em Informática Integrado.
275
XXXVII Congresso da Sociedade Brasileira de Computação
2. Gamificação na Educação
Gamificação pode ser considerada a aplicação de jogos apropriados para resolução de pro-
blemas e incentivo à aprendizagem e tem por meta aumentar a motivação e engajamento,
trabalhando quesitos como cooperativismo, competitividade, entre outras questões que
devem ser melhoradas, dependendo da área em que é aplicado o método (MUNTEAN,
2011).
Essa metodologia como apoio à disciplinas escolares tem sido aplicada frequente-
mente. Exemplifica-se como trabalhos relacionados as abordagens de Iosup e Epema
(2014) e Bitencourt (2014). Durante três anos de pesquisa em um projeto sobre a
eficiência da gamificação na educação, Iosup e Epema (2014) trabalharam com aproxi-
madamente 450 alunos. A partir da análise de resultados positivos e negativos durante o
perı́odo de aplicação, os autores concluı́ram que a gamificação auxiliou principalmente
no aumento da taxa de aprovação de estudantes, comparando com a porcentagem de
reprovação anterior. Já Bitencourt (2014) relata a experiência obtida na gamificação de
uma disciplina no Curso de Licenciatura em Computação em um Instituto Federal. Con-
forme o autor, um dos principais ganhos desta metodologia é a possibilidade de observar
os diferentes ritmos de trabalho dos alunos, bem como acompanhamento pessoal do pro-
gresso de cada aluno, algo que não é facilitado em sistemas tradicionais de ensino.
Quanto às metodologias empregadas, os autores mencionam sistemas próprios
para pontuação e nı́veis nas disciplinas. No entanto, Maclean-Blevins e Muilenburg
(2013) descreve o uso de uma plataforma livre e que oferece diferentes recursos, o Class
Dojo 1
3. Relato de Experiência
A turma de concluintes do Curso Técnico em Informática Integrado deve elaborar um
trabalho de conclusão, que consiste no desenvolvimento de um sistema e/ou outra ta-
refa prática e na escrita de um artigo completo. Porém, a turma de 2016, formada por
15 estudantes, com idades entre 16 e 19 anos apresentou baixo rendimento no primeiro
semestre e constatou-se que era necessário nova abordagem, visto que a turma anterior
(2015) também teve dificuldades para organização individual do trabalho. Dessa forma, a
metodologia adotada foi desenvolvida em quatro etapas:
1. Estudo do Contexto: dinâmica com os alunos e intervenção com o setor psi-
cológico para traçar as dificuldades encontradas e as metas individuais.
2. Plataforma de Gamificação: configuração da plataforma para gamificação junto
com os alunos
3. Acompanhamento: rotina semanal de acompanhamento das metas e desenvolvi-
mento do TCC, bem como distribuição de pontuações
4. Avaliação: avaliação com a equipe e alunos para verificação de questões positivas
e negativas da metodologia
Primeiramente, realizou-se uma dinâmica com os alunos para descobrir como a
turma estava se sentindo com a realização do TCC. As questões abordadas foram: O que
eu quero apresentar no TCC? O que eu já fiz? O que falta fazer? Como eu me sinto?
Quais as dificuldades? Do que eu preciso? . Após a dinâmica, verificou-se que muitos
1
Class Dojo. Disponı́vel em https://www.classdojo.com/pt-br/
276
4º ENCompIF - Encontro Nacional de Computação dos
Institutos Federais
alunos sentiam-se desmotivados com os estudos e principalmente com as tarefas que pre-
cisavam ser realizadas no TCC. Nas dificuldades, observou-se que muitos não procuravam
o professor orientador, não cumpriam o cronograma e alguns não ajudavam os colegas.
Solicitou-se aos alunos que criassem metas individuais, necessárias para conclusão do
trabalho. Logo, a segunda etapa foi a configuração da plataforma e acesso dos alunos.
A plataforma escolhida para trabalho foi Class Dojo, ferramenta que consiste em
um sistema de avaliação comportamental on-line. Os comportamentos a serem pontua-
dos são editados pelo professor e podem ser acompanhados por educandos e pais, se os
mesmos realizarem o cadastro. Os pontos podem ser agregados positivamente ou negati-
vamente e realizam um total para a turma, obtendo um montante da pontuação de todos
os alunos. A Tabela 1 apresenta as habilidades configuradas para a turma.
277
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
Inicialmente, observou-se certa estranheza dos alunos com a plataforma, principalmente
devido à aparência lúdica com personagens. Porém, todos os discentes demonstraram
entusiasmo com as pontuações e com os desafios semanais propostos.
A plataforma possibilita análise de progresso dos alunos, facilitando o acompa-
nhamento individual destes. Os alunos habituaram-se ao novo método avaliativo de seus
comportamentos, e a maioria, passou a cumprir o seu cronograma de tarefas individuais
do TCC, gerando pontos positivos para si e para a turma. Salienta-se também a apren-
dizagem colaborativa, pois quando um aluno não conseguia resolver algum erro em seu
código, outros tentavam auxiliá-lo. Em contraponto, alguns alunos do grupo não muda-
ram seu comportamento, mesmo diante da nova metodologia. Dessa forma, quatro alunos
reprovaram no TCC.
Percebe-se que a proposta é viável e que necessita de aplicação em outras turmas
para resultados mais objetivos. Porém, a docente, que também ministrou a disciplina no
ano anterior, relatou que percebeu mudança no comportamento dos alunos e a plataforma
está sendo adotada novamente na turma de 2017.
Referências
BITENCOURT, R. B. Experiência de gamificação do ensino na licenciatura
em computação no sertão pernambucano. XIII Simpósio Brasileiro de Games e
Entretenimento Digital (SBGames 2014), 2014.
GEE, J. P. What video games have to teach us about learning and literacy. Computers in
Entertainment (CIE), ACM, v. 1, n. 1, p. 20–20, 2003.
IOSUP, A.; EPEMA, D. An experience report on using gamification in technical higher
education. In: ACM. Proceedings of the 45th ACM technical symposium on Computer
science education. [S.l.], 2014. p. 27–32.
KAPP, K. M. The gamification of learning and instruction: game-based methods and
strategies for training and education. [S.l.]: John Wiley & Sons, 2012.
MACLEAN-BLEVINS, A.; MUILENBURG, L. Using class dojo to support student
self-regulation. In: Proceedings of World Conference on Educational Multimedia,
Hypermedia and Telecommunications. [S.l.: s.n.], 2013. p. 1684–1689.
MUNTEAN, C. I. Raising engagement in e-learning through gamification. In: Proc. 6th
International Conference on Virtual Learning ICVL. [S.l.: s.n.], 2011. p. 323–329.
278
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Apresentação
O Internet Engineering Task Force (IETF) é uma comunidade internacional de pessoas
interessadas em cumprir a missão de produzir padrões que influenciam a maneira como
as pessoas projetam, usam e gerenciam os recursos da Internet [RFC3935]. O processo
de estabelecer padrões para a Internet é longo, complexo e exige participação intensa,
sobretudo de estudantes e pesquisadores. Embora hajam pessoas do mundo inteiro
trabalhando ativamente, cada dia mais se verifica a necessidade de novas presenças. Além
disso, existem trabalhos e atividades associadas ao Internet Research Task Force (IRTF),
que promove pesquisas relevantes à evolução da Internet, através de grupos que trabalham
com foco de pesquisas de longo prazo, relacionados a protocolos, aplicações, arquitetura
e tecnologia da Internet.
Um grupo, que se reúne através do IETF-LAC, considerou importante a criação
de um workshop com o objetivo de expandir a presença Latino Americana no IETF. Além
da divulgação em si, considerou-se de extrema importância oferecer um ambiente para
que as habilidades de nossos técnicos, estudantes e pesquisadores fossem exibidas,
antecipando-se aos três encontros anuais do IETF. Nesse contexto, surgiu a proposta para
criar o Workshop Pré IETF/IRTF (WPIETFIRTF), em sua quarta edição em 2017.
A primeira edição ocorreu no CSBC 2014, em Brasília, a segunda edição ocorreu
no CSBC 2015, em Recife e a terceira edição ocorreu no CSBC 2016, em Porto Alegre.
Nesta edição, foram submetidos 8 artigos completos, sendo 7 aceitos.
279
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral
Alvaro Retana (Cisco - BR), Christian O'Flaherty (Internet Society - UY), Julião Braga
(Mackenzie - BR), Leandro Melo de Sales (UFAL - BR), Lisandro Zambenedetti
Granville (UFRGS - BR)
Coordenação da Premiação
Demi Getschco (Nic.br), Lisandro Zambenedetti Granville (UFRGS - BR), Patricia
Takako Endo (UPE - BR)
Coordenação do 4º Workshop
Leandro Melo de Sales (UFAL – BR), Rafael de Amorim Silva (UFAL – BR), Patricia
Takako Endo (UPE – BR)
Coordenação Local
Dirceu Matheus Junior (Mackenzie)
Comitê de Premiação
Alvaro Retana (Cisco - US), Christian O’Flaherty (Internet Society - UY), Jéferson
Campos Nobre (Unisinos - BR), Marcela Orbiscay (Universidad Tecnológica Nacional
Regional Mendoza - AR), Nizam Omar (Mackenzie - BR), Luciano Silva (Mackenzie -
BR), Paulo Batista Lopes (Mackenzie - BR), Carlos Alberto Afonso (Internet Society -
BR)
Comitê de Apoio
Ana Leda Moraes (Uninove - BR), Anna Paula Bezerra Soares de Andrade (UPE - BR),
Durval Pereira (UFAL), Jéssica Ribas (Mackenzie - BR), Luccas Augusto (UFAL),
Jorge Barbosa Cavalcanti (UPE - BR), Rômulo César Dias de Andrade (UPE - BR),
Vagner Silva (Unicsul - BR), Wylliams Barbosa Santos (UPE - BR)
Comitê de Programa
Ana Cristina Oliveira Dantas (Instituto Federal da Paraíba - BR), Cristian Perez Monte
(Universidad Tecnológica Nacional Regional Mendoza - AR), David Beserra
(Université Paris 1 Panthéon-Sorbonne - FR), Diego Dujovne (Universidad Diego
Portales - CH), Fernando Farias (Universidade Federal do Pará - BR), Gustavo Mercado
280
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
281
XXXVII Congresso da Sociedade Brasileira de Computação
Palestras
Uma introdução sobre YANG
Antonio Moreiras
282
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Trabalhos aceitos
Taking Open vSwitch to the Gym: An Automated Benchmarking Approach
Raphael Vicente Rosa, Christian Esteve Rothenberg
Dark Think Security: Enhancing the Security for the Autonomous Architecture
over a Restricted Domain
Julião Braga, Rafael de Amorim Silva, Patricia Takado Endo, Nizam Omar
283
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introduction
Our initial work on VNF Benchmarking as a Service (VBaaS) [Rosa et al. 2015a] intro-
duced the problem statement of VNF benchmarking based on ‘trust-but-verify’ princi-
ples towards standardized performance testing to evaluate candidate platforms and lo-
cations to host the (chains of) VNFs with respect to target Key Performance Indica-
tors (KPIs). Presented in Internet Research Task Force (IRTF) NFV Research Group
(NFVRG), [Rosa et al. 2015b] brought ideas towards the problem statement and initial
handling proposal for VBaaS. At that time, attention was given to VNF performance
profiles needed for Network Function Virtualization Orchestrator (NFVO) embedding al-
gorithms as well as parameters in support of business decisions including resource op-
timization objectives and Service Level Agreement (SLA) related aspects of NFV con-
tracts. In a more focused approached, our efforts moved to initiating a discussion to-
wards “VNF Benchmarking Methodology” [Rosa et al. 2016] inside the Benchmarking
Methodology Working Group (BMWG). However, there was no further traction due to
the lack of solid results that could assist the common relationship of Internet Engineering
Task Force (IETF) with rough consensus and running code.
Ongoing work at IETF BMWG under the umbrella of “Considerations for
Benchmarking Virtual Network Functions and Their Infrastructure” [Morton 2016],
brings important guidelines and initial directions for developing standardized VNF
benchmarking methodologies. Alongside, “Benchmarking Virtual Switches in OP-
NFV” [Tahhan et al. 2016] initiates the discussion on a methodology to bench-
mark software switches based on experiences in OPNFV VSperf project. Simi-
284
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
285
XXXVII Congresso da Sociedade Brasileira de Computação
286
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
2.2. Architecture
The main components of Gym are illustrated in Fig. 2.
Agent. Towards extensible (e.g., plug-and-play) tools’ interfaces (e.g., iperf, ping),
named probers, executes active probes to collect network and host-specific metrics. While
a single Agent is capable of performing localized tests (e.g., CPU and disk I/O bench-
marks), the interaction among distributed agents enables the collection of end-to-end net-
work metrics (e.g., frame loss rate, latency). Possibly, one end can be a VNF itself where,
for example, one-way throughput is evaluated. Agent’s APIs are open and modular for
flexible extensions. It receives from Manager procedure calls with instructions contain-
ing a set of actions to properly run probers, parse their results, and send back snapshots
containing the set of evaluations of those probers‘ actions.
Monitor. Designed for internal and external instrumentation of VNFs and their execu-
tion environment, aims to perform passive monitoring via tools’ interfaces (e.g., top, tcp-
dump), named listeners, for metrics collection according to Agents‘ workloads. For in-
stance, to monitor vCPU utilization of a VNF execution environment when Agents probe
traffic is sent (e.g., with particular packet length). Different from Agents’ active approach,
seen as generic VNF probers, Monitors observe particular properties according to capa-
bilities offered by VNFs and their respective execution environment. Similarly to Agents,
Monitors interact with Manager to receive instructions and then to reply snapshots.
Manager. Responsible for (a) keeping a coherent state of controlled components (e.g.,
Agents and Monitors) and their features; (b) interacting with Player to receive tasks and
decompose them into a coherent set of instructions (containing actions) for; (c) the syn-
chronous coordination of Agents and Monitors’ activities; and (d) processing snapshots
287
XXXVII Congresso da Sociedade Brasileira de Computação
288
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Manager. All sets of snapshots dependent on a specific task are received from
Agents/Monitors whom instructions were sent to. Evaluations contain timestamps
and identification of the originating probers and listeners, whereas snapshots re-
ceive Agents/Monitors unique identification and their environment hostname.
6. After processing all the instructions’ related tree of snapshots, the Manager com-
poses a report, as a reply to each task requested by the Player. The Manager can
sample snapshots in a diverse set of programmable methods. For instance, a task
may require cycles of repetition, so the correspondent snapshots can be parsed
and aggregated in a report through statistic operations (e.g., mean, deviation).
7. Finally, the Player processes the report following the profile metrics definition,
as established initially during the outline decomposition. While the profile con-
tains filtered evaluation metrics and parameters, the individual snapshots can be
aggregated/sampled into reports. Results can be exported in different file formats
(e.g., csv, json, yaml) or saved into databases for further analysis and visualiza-
tion. For instance, in our current Gym instantiation we integrate the well-known
open source Elasticsearch database and the Kibana visualization platform —tools
providing high flexibility in querying, filtering and creation of different visual rep-
resentations of the extracted profiles.
3.1. Scenario
Our testing environment (see Fig. 3) was designed as a initial prototype scenario to bench-
mark OVS. It consists of three Virtual Machines (VMs) in the same host. The first one,
named Source,contains an Agent triggering probers to generate traffic as benchmarking
stimulus in the second VM. There, OVS is the SUT attached to two interfaces intercon-
necting two isolated networks, between the first and third VMs. Alongside OVS, there is
a Monitor component executing the listeners that measure resources consumption in the
VM. In Destination, third VM, an Agent is placed, providing probers that might be used
to benchmark OVS. In the host, Player and Manager are executed, communicating with
all the other Gym components via an isolated management network.
Each VM has 1 core of CPU, 2048 MB of memory and 15 GB of disk allocated.
Ubuntu Server version 16.02TLS is the default operating system in all VMs, which also
only contain the necessary packages to run Gym components, with the exception of SUT,
where OVS version 2.5.0 is additionally installed. Proper configurations of routing and
ARP tables were done in Source and Destination to be pairwise reachable, and flow entries
were set in OVS to forward traffic in forth and back directions between the VMs based on
their attached ports, source and destination IP and MAC addresses.
289
XXXVII Congresso da Sociedade Brasileira de Computação
3.2. Methodology
Initially, a deep analysis on the literature gave us glimpses of OVS benchmarking, mean-
ing the approach we used to extend Gym and create a methodology for the experiments.
Being widely used and in high level of maturity, pktgen was our target tool to stimulate
OVS. We adopted a well-known interface in python language, known as psutil library, to
monitor OVS resources consumption, as an internal instrumentation method. For Gym,
it meant creating a new prober for pktgen and a new listener for psutil. Their parameters
and output metrics are presented in Table 1.
Along with such extensions, main design principles of Gym come to the scene,
where Sketches were composed to define the OVS testing Outline, presented in Fig. 4 in
YAML1 format. In details, a sketch contains unique a identifier and name, inputs that
will be used to fill the required parameters, requirements defining Gym components and
their respective probers/listeners type (unique identification in Gym tools catalog). In
addition, taking a uuid, internally unique identifier in the sketch, parameters can be set
by inputs that will represent the prober/listener or host configurations. For instance, in
1
http://www.yaml.org/
290
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
listener process sketch, the host input, if defined, can specify the hostname in which the
listener process is desired to be executed.
Open vSwitch composed Outline has a different structure. Besides, identifier,
name and inputs, it also contains: vars that might be used internally; groups that can
compose groupings of hosts to be used as inputs in sketches (e.g., when multiple agents in
different hosts are required to run the same prober(s)); sketches containing the reference
to filename of the sketch and its respective input fields; and cycles defining temporal
parameters to characterize the decomposition of the outline into tasks.
291
XXXVII Congresso da Sociedade Brasileira de Computação
every required host will attend the desired sketch requirements equally and, therefore,
execute in parallel the same set of probers/listeners.
292
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Figure 6(a) shows a correlation between the increase in the frame size and bits per second
(upper and lower standard deviation) registered by pktgen output metrics. In the resource
consumption perspective, ovs-vswitchd was monitored while pktgen generated traffic in
OVS SUT. Fig. 6(b), gives an indication of CPU consumption by ovs-vswitchd, showing
how much CPU times were consumed in different percentiles by each different stimulated
frame size traffic.
Figure 6(c) shows disk Input/Output read and write of bytes in different percentiles
according to the stimulated pktgen traffic frame sizes. Fig. 6(d) similarly shows how
different frame sizes trigger the usage of a different amount of threads used by the process
ovs-vswitchd. And in the last two Figures, 6(e) and 6(f), visually it is possible to notice
that different frame sizes did not incur in alterations in the levels of percentage of memory
and swap by ovs-vswitchd process.
(a) Frame size vs. bits per second (b) Frame size vs. CPU times
(c) Frame size vs. Disk I/O (d) Frame size vs. CPU system threads
(e) Frame size vs. Memory (f) Frame size vs. Swap
293
XXXVII Congresso da Sociedade Brasileira de Computação
4. Discussion
As an initial scenario of benchmarking testing, the prototype under evaluation presents
measurements exhibiting expected behaviors. An increased level of bandwidth was seen
as frame sizes were increased, not affecting the memory or swap consumption by the
main OVS process, however leading similar patterns of behavior in CPU and disk I/O
consumption, possibly triggered by internal OVS caching behaviors. A limitation of bits
per second was seen in frames with 1518 bytes, however further analysis is needed to ex-
plain if OVS could not handle such traffic workload or the Source VM was the bottleneck
due to the allocated resources hampering the pktgen prober to operate at full capacity.
294
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
5. Related Work
Existing open source projects sprint common abstractions for benchmarking VNFs and
their underlying infrastructure. In OPNFV, highlights go for three of them. Yardstick7
targets infrastructure compliance when running VNF applications. QTIP8 approaches
provides definitions towards platform performance benchmarking. Whereas Bottlenecks9
proposes a framework to execute automatic methods of benchmarks to validate VNFs
deployment during staging.
4
https://puppet.com/
5
https://www.chef.io/chef/
6
https://saltstack.com/
7
https://wiki.opnfv.org/yardstick
8
https://wiki.opnfv.org/display/qtip/Platform+Performance+Benchmarking
9
https://wiki.opnfv.org/display/bottlenecks
295
XXXVII Congresso da Sociedade Brasileira de Computação
7. Acknowledgements
This research was partially supported by the Innovation Center, Ericsson S.A., Brazil,
grant UNI.58.
10
https://wiki.opnfv.org/display/vsperf/VSperf+Home
11
http://benchmarking.juju.solutions/
12
https://github.com/toddproject/todd
296
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
References
Emmerich, P., Gallenmüller, S., Raumer, D., Wohlfart, F., and Carle, G. (2015). Moon-
gen: A scriptable high-speed packet generator. In Proceedings of the 2015 Internet
Measurement Conference, IMC ’15, pages 275–287, New York, NY, USA. ACM.
ETSI GS NFV-TST (2016). ETSI GS NFV-TST 002 V1.1.1 - Report on NFV Interoper-
ability Testing Methodology.
Jain, S., Kumar, A., Mandal, S., Ong, J., Poutievski, L., Singh, A., Venkata, S., Wanderer,
J., Zhou, J., Zhu, M., Zolla, J., Hölzle, U., Stuart, S., and Vahdat, A. (2013). B4: Expe-
rience with a globally-deployed software defined wan. SIGCOMM Comput. Commun.
Rev., 43(4):3–14.
Molnár, L., Pongrácz, G., Enyedi, G., Kis, Z. L., Csikor, L., Juhász, F., Kőrösi, A., and
Rétvári, G. (2016). Dataplane specialization for high-performance openflow software
switching. In Proceedings of the 2016 ACM SIGCOMM Conference, SIGCOMM ’16,
pages 539–552, New York, NY, USA. ACM.
Morton, A. (2016). Considerations for benchmarking virtual network functions and their
infrastructure. IETF BMWG: Internet draft.
Pfaff, B., Pettit, J., Koponen, T., Jackson, E., Zhou, A., Rajahalme, J., Gross, J., Wang,
A., Stringer, J., Shelar, P., Amidon, K., and Casado, M. (2015). The design and imple-
mentation of open vswitch. In 12th USENIX Symposium on Networked Systems Design
and Implementation (NSDI 15), pages 117–130, Oakland, CA. USENIX Association.
Raumer, D., Gallenmüller, S., Wohlfart, F., Emmerich, P., Werneck, P., and Carle, G.
(2016). Revisiting benchmarking methodology for interconnect devices. In Proceed-
ings of the 2016 Applied Networking Research Workshop, ANRW ’16, pages 55–61,
New York, NY, USA. ACM.
Rosa, R. V., Rothenberg, C. E., and Szabo, R. (2015a). VBaaS: VNF Benchmark-as-a-
Service. In 2015 Fourth European Workshop on Software Defined Networks, pages
79–84.
Rosa, R. V., Rothenberg, C. E., and Szabo, R. (2015b). VNF Benchmark-as-a-Service.
IRTF NFVRG: Internet draft.
Rosa, R. V., Rothenberg, C. E., and Szabo, R. (2016). VNF Benchmarking Methodology.
IETF BMWG: Internet draft.
Tahhan, M., O’Mahony, B., and Morton, A. (2016). Benchmarking virtual switches in
opnfv. IETF BMWG: Internet draft.
297
XXXVII Congresso da Sociedade Brasileira de Computação
nizam.omar@mackenzie.br
Abstract. This paper describes a security scheme called Dark Thing Security, to
be used in the autonomous architecture model over a restricted domains. Such a
scheme provides strong security due to its ability to hide intelligent agents from
the implementation of the model. Several intelligent agents are distributed in
the environment of an Autonomous System, being accessed only through agents
of the upper layer. Such upper layer agents, called controllers, are replaced by
more enabled agents, over time, making it difficult for unauthorized agents to
gain access from other domains.
1. Introduction
Paul Horn, in 2001, inspired by the living system physiology presented an IBM proposal
for the future of computer systems [Horn 2001]. His work argued that the efforts of spe-
cialists in the maintenance, control and operation of computer systems could be minimi-
zed and consequently have their costs reduced dramatically. The community, composed
mainly of researchers continued to advance in the researches of this knowledge domain
becoming a paradigm named by Horn as Autonomic Computation.
298
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
299
XXXVII Congresso da Sociedade Brasileira de Computação
when affirming that the IE Controller is IEx:0. Thus, if AS5 is the host domain of the
model, then the controlling element is IE5:0. No IE of the lower layers can exist, without
the prior consent of the IE Controller. It has the property of keeping oneself organized
(self-organization) and ensuring the self-organization of any IE of the lower layers.
The second layer is represented by the so-called Specialized IEs. These ele-
ments are identified by suffixes that can range from 1 to 9999. The specialized elements
support the IE Controller, in specific activities and necessary to the respective functio-
nalities. These activities range from ensuring the interoperability of the entire system of
implemented IEs to the establishment of specific functionalities, such as servers with end-
to-end characteristics [Saltzer et al. 1984], database access functionalities and semantic
repositories, proprietary software (similar to Southern SDN APIs), features required for
lower-layer IEs, and many others. However, support for the IE Controller is the primary
objective of the Specialized IEs. This objective determines the functionalities of the se-
cond layer. It is assumed that some Specialized IEs may be Autonomic Elements or
intelligent elements that execute automatic processes, such as proprietary software and
procedures associated with legacy systems, among others. A Specialized IE can be crea-
ted as a function that only concerns the IE Controller, especially when it depends on the
functionalities of IEs of the third layer.
In the third layer lies the largest IEs agglomeration, which is why it is called the
Colonies of IEs. Elements of this layer can be autonomous, autonomic or automatic, ex-
cept legacy and are directly responsible for the most important activities of the application,
including software reuse. They act under the influence of a high degree of interoperability
and cooperation between them and between IEs of other layers and other domains / sub-
domains. They do not directly participate in interconnections or exchange messages with
300
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
other IEs outside the domain, but they do so through the IEs of the upper layers. There
is intense semantic interoperability activity by these IEs, which have a high capacity for
self-learning due to continuous interactions with the domain environment, and produce
improvement effects on the knowledge of other IEs of the colony itself and the IEs of
the upper layers, IE Controller. In other words, these IEs favor the learning of the entire
cluster of IEs of the layer model, which hour is being described. The IEs of the colonies
receive an identification with numeric suffixes, ranging from 10000 to 4294967295.
The fourth layer is composed of Auxiliary IEs. This layer exists to allow the
transfer of computing demands to a new set of IEs (successiveness of the model). It
reproduces, successively, the first, second, third and a new fourth layers. This new IEs
sequence has an additional suffix :j:0 for a new IE Controller responsible for the following
four new layers. In the new second, third and fourth layers, the IDs of the IEs are post
fixed with :j:id, where j is a colony IE number that originated the new fourth layer and
the id is a number with the above specifications. A typical application for the fourth layer
are sub domains, such as home networks (home net).
The Figure 2 is the A2RD implementation model, where the small and colored
rectangles are IEs. The IEs are arranged and distributed among the layers, similar to
the abstract model. As an example, IEs are implemented in the domain of an AS whose
number is x. In the same figure, one can observe that the IEs functionally is important for
the inter-domain operations reside into the upper layers.
Figure 2. A2RD Implementation Model. Source: [Braga 2015a] [Braga et al. 2015]
301
XXXVII Congresso da Sociedade Brasileira de Computação
The IE X:0, as well as any IE can replicate itself in the dark environment of the
figure. At any time, X:0 can replace itself or be replaced by some other IE whenever
necessary, such as if a Cyclic Redundancy Check (CRC) is used on the IE code and, in
the event of an undesirable interference.
To illustrate the behavior of DTS, we will assume a scenario in which IE X:0 must
deal with the problem of source validation. In other words, IE X:0 should ensure that an
IE from another domain wants, for some reason, to bring an IE enabled in the creation
2
http://www.lacnic.net/en/web/lacnic/informacion-general-rpki
3
http://www.lacnic.net/en/web/lacnic/certificacion-de-recursos-rpki
302
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
of the route4 object to any Internet Routing Registry (IRR) server. Some considerations
should be taken into consideration for understanding what will be said:
• RPKI is one of the alternatives to the origin validation problem, but not the only
one.
• When an A2RD model is implemented it announces the IP block (preferably IPv6)
for all existing A2RD implementations.
• For the purpose of the example that illustrates the DTS operation, the local ASN
is the AS64512 and the remote ASN is the AS64513, both private AS numbers.
• When used the notation 64512:n or 64513:n for any n, it is the same as IE
64512:n or IE 64513:n.
• The word bootstrapping can refer to the development of successively more com-
plex, faster programming environments5 . So, the word will be used in the sense of
self-replacing the code of an IE by other specialized IE code. The bootstrapping
activity happens systematically into the DTS model.
The Figure 4 displays the activities within the DTS. The only IE that accepts a
request for external interconnection to the domain or even from some component of the
local domain is 64152:0. Any IE is highly specialized and contains the minimum required
code to meet the demand of your expertise.
Figure 4. IE bootstrapping
This algorithm refers to Figure 5, which illustrates the relationship of the boots-
trapping process of the involved IEs.
4. Concluding Remarks
There are many challenges to the progress of the project. Among them is the construction
of the vocabulary (set of words and their meanings) that can meet the demand of the
construction of ontologies in the area of Internet Infrastructure. The development of this
4
http://bit.ly/2nRP9IH
5
https://en.wikipedia.org/wiki/Bootstrapping
303
XXXVII Congresso da Sociedade Brasileira de Computação
vocabulary should be cooperative and, although there are initiatives of researchers in the
area of Internet of Things (IoT) [Hachem et al. 2011], and by those interested in the Inter-
netware paradigm of the Context Aware Supporting Environment for Internetware6 (CA-
SEi), the authors find to have a central coordination, such as the Internet Research Task
Force (IRTF), through a multi-stakeholder group. As future work the authors recommend
analyzing the performance of the proposed methodology.
Without exhausting other proposals it is necessary to develop methodologies for
the construction of IEs, in this case, identified as Intelligent Objects (IOs). IO is an
intelligent element built with quality, reusable and preserving the knowledge of its life
cycle, in the context of A2RD model applications, strengthening the security environment
proposed by the DTS model and other related models. Construction of IOs, in an adequate
and standardized manner induces interdisciplinary cooperation and rapid development of
IEs. One proposal would be to use the methodology INTERA [Braga 2015b], adapted to
the construction of IOs. INTERA is a successful methodology used in Learning Objects.
References
Braga, J. (2015a). Modelo para Implementação de Elementos Inteligentes em Domı́nios
Restritos da Infraestrutura da Internet. Master’s thesis, Universidade Presbiteriana
6
https://code.google.com/p/casei/
304
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
305
XXXVII Congresso da Sociedade Brasileira de Computação
1
Centro de Informática (CIn) – Universidade Federal de Pernambuco (UFPE)
Recife – PE – Brasil
{pgst,mabs,sflf}@cin.ufpe.br
306
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
1. Introdução
A Internet cresceu de forma surpreendente desde sua criação há quase 50 anos anos atrás.
O número de dispositivos conectados à rede cresceu de algumas dezenas para alguns
bilhões. Estimativas apontam que até 2020 o número de dispositivos conectados poderá
chegar a 50 bilhões1 . Nesse contexto, o crescimento da rede provocou um aumento de
sua complexidade, criando desafios de escalabilidade, manutenção, gerência de políticas
e otimização do uso de recursos disponíveis. É natural que nesse ambiente coexistam
dispositivos heterogêneos com diferentes capacidades e de diferentes fabricantes, o que
torna ainda mais difícil a gerência de forma eficiente da rede. Estudos apontam que os
custos de gerenciamento da infraestrutura já superam há algum tempo o custo com o
hardware e software [Agoulmine 2011].
A revolução tecnológica que contribui para o número de dispositivos conectados
à rede é conhecida como Internet das Coisas (IoT) [Atzori et al. 2010]. Dispositivos no
ambiente de IoT possuem diferentes requisitos e causarão um grande impacto na forma
como as pessoas irão interagir com as coisas ao seu redor. Atualmente, estima-se que
a quantidade de dispositivos conectados é da ordem de 8 bilhões2 . À medida que estes
sistemas crescem, o seu gerenciamento também passa a ser um elemento impactante,
portanto um fator que vem recebendo atenção da academia e indústria.
Diversos trabalhos destacam heterogeneidade e a escalabilidade como as
principais características da IoT [Atzori et al. 2010, Borgia 2014, Gama et al. 2012,
Li et al. 2015]. Desta forma, o número crescente de dispositivos na IoT exige que sua
infraestrutura seja escalável, ou seja, tenha a habilidade de lidar com variações de carga
enquanto faz o bom uso dos recursos disponíveis, mantendo um bom desempenho (ex:
baixo tempo de resposta, baixo consumo de CPU e memória) sob diferentes situações
de estresse da rede. [Borgia 2014] afirma que dispositivos na IoT serão extremamente
heterogêneos em termos de suas capacidades, expectativa de vida e tecnologias de comu-
nicação. De fato, a variedade de tecnologias e protocolos de comunicação com diferentes
larguras de banda, modulação, tamanho de pacote, frequência, entre outros, torna o de-
senvolvimento da arquitetura para IoT um desafio. É necessário que ela seja capaz de
prover interligação segura e eficiente entre os dispositivos e os diferentes tipos de redes.
Nesse contexto, Cidades Inteligentes (CIs) surgem como uma integração entre a
tecnologia de informação (TI) e IoT, cujo o objetivo é tornar o espaço urbano palco de
experiências de uso intensivo de tecnologias de comunicação e informação sensíveis ao
contexto. Assim, é possível realizar, por exemplo, o monitoramento em tempo real de
diversas atividades cotidianas, automatização de tarefas, criação de soluções sustentá-
veis e consequentemente a melhoria da qualidade de vida de uma população. Em outras
palavras, IoT é considerada uma das tecnologias que possibilitará a realização das Ci-
dades Inteligentes [Zanella et al. 2014]. Deste modo, como as CIs utilizam a IoT como
tecnologia fundamental para seu desenvolvimento, elas irão compartilhar um conjunto se-
melhante de desafios, entre eles o gerenciamento de dispositivos e de sua infraestrutura.
No entanto, nas CIs o administrador de rede terá um desafio ainda maior, pois terá que
administrar um domínio, em geral, muito grande de dispositivos e tecnologias que fazem
1
http://spectrum.ieee.org/tech-talk/telecom/internet/popular-internet-of-things-forecast-of-50-billion-
devices-by-2020-is-outdated - acessado em 07/04/2017
2
http://www.gartner.com/newsroom/id/3598917 - acessado em 07/04/2017
307
XXXVII Congresso da Sociedade Brasileira de Computação
parte de um mesmo conjunto de aplicações para CI. Assim, dado a complexidade da rede
e heterogeneidade dos dispositivos, gerenciar manualmente a rede é uma tarefa custosa,
passível de erros e enviável na maioria dos cenários de larga escala.
Uma abordagem bastante estudada que visa diminuir esses problemas na ad-
ministração de redes é a gerência autonômica de infraestrutura de redes (ANM)
[Dobson et al. 2006]. Essa abordagem advém do termo computação autonômica des-
crita no manifesto escrito por [Horn 2001]. Ele aponta que o aumento da complexi-
dade em sistemas computacionais é o principal problema a ser atacado pela computação
autonômica. Posteriormente, [Kephart and Chess 2003] detalham a computação autonô-
mica como um sistema que possui a capacidade de se auto-gerenciar de acordo com os
objetivos definidos pelos administradores. O ponto fundamental dos sistemas autônomos
é o auto-gerenciamento, que pode ser dividido em quatro aspectos: autoconfiguração,
auto-otimização, autocura e autoproteção [Kephart and Chess 2003]. Essas funções au-
tonômicas são mantidas através de uma estrutura conhecida como ciclo de controle que
são configurados através de políticas criadas pelo administrador do sistema. Essas carac-
terísticas, associadas à administração da infraestrutura de redes simplificam o processo de
gerência, diminuem custo, reduzem a intervenção e desta forma miniminizam a ocorrên-
cia de erros humanos.
O auto-gerenciamento busca justamente melhorar a capacidade de gerência da
rede para lidar, por exemplo, com diferentes demandas de acordo com as regras de ne-
gócio especificadas pelo administrador da rede. Isto possibilita a redução de custo, mu-
dando o foco do administrador do processo de configuração manual de dispositivos de
baixo nível, para definir apenas regras de negócio. Neste sentido, a Força de Tarefa de
Engenharia da Internet (IETF) juntamente com a Força Tarefa de Pesquisa da Internet
(IRTF) possuem alguns grupos de trabalho ativos em busca de avanços científicos e pa-
dronização nessa área. Podemos destacar o grupo de pesquisa em gerenciamento de redes
(NMRG3 ) que trabalha na discussão de problemas de gerenciamneto de serviços de redes
de alto nível. Um outro exemplo é o grupo Anima (Autonomic Networking Integrated
Model and Approach) que surgiu com base em uma discussão na IRTF com o objetivo
de desenvolver um protocolo para o auto-gerenciamento de uma rede através de funções
autonômicas [Behringer et al. 2015]. Atualmente, este grupo de trabalho possui vários
rascunhos (Internet-Drafts ID) com os detalhes funcionais de propostas de uma arquite-
tura autonômica. Dentre eles, se destacam o plano de controle, o protocolo genérico de
sinalização autonômico (GRASP), a infraestrutura de bootstrapping (BRSKI) e o plano
de controle autonômico (ACP). Outro grupo de trabalho que está relacionado com este
tema é o SUPA4 (Simplified Use of Policy Abstractions) que tem o objetivo de definir um
modelo de dados para ser utilizado na representação de políticas de alto nível com função
de gerenciamento de rede.
Assim, a contribuição desse artigo é propor uma arquitetura chamada AutoMan-
IoT, uma solução arquitetural de gerenciamento autonômico de rede e de dispositivos
para o cenário de IoT e CIs. Nesta perspectiva, este trabalho se assemelha em vários pon-
tos da proposta do grupo Anima. Além disso, ele busca propor mecanismos para que o
funcionamento autonômico da rede se adeque às características dinâmicas, heterogêneas
3
https://irtf.org/nmrg
4
https://trac.ietf.org/trac/supa/
308
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
2. Trabalhos Relacionados
Os trabalhos que utilizam o conceito de gerência autonômica associado à IoT em geral
abordam a gerência de serviços para IoT através de middlewares, sem se preocupar com
problemas de baixo nível da rede [Savaglio and Fortino 2015].
Os trabalhos que utilizam a estratégia ANM com SDN e NFV
[Chaparadza et al. 2014, Wendong et al. 2012, Qi et al. 2014] possuem abordagens
ligeiramente diferentes e visam propor soluções através de arquiteturas genéricas, sem se
preocupar com os desdobramentos que elas podem gerar na infraestrutura de rede . Esses
trabalhos também não apresentam detalhamentos importantes como a representação de
conhecimento, como as políticas de gerenciamento são implementadas na rede e como as
camadas de controle se comunicam. Além disso, pouco esforço foi feito para validar e
testar o desempenho e a escalabilidade das soluções.
Este trabalho avança o estado da arte propondo um novo framework para suportar
o auto-gerenciamento de dispositivos de rede e nós da IoT e CI utilizando SDN e NFV
como infraestrutura de implantação.
309
XXXVII Congresso da Sociedade Brasileira de Computação
Recursos Naturais
Monitoramento
do Ambiente
Transporte e
Edificações
Mobilidade
Assistência
Segurança/
Vigilância
Energia e
Serviços
Médica
Domínio √ √ √
Pouca/Nenhuma Mobilidade √
Baixa Latência √
Comunicação
Requisitos de
Prioridade √ √
Baixo Consumo de Energia √
Monitoramento e Segurança √ √
Confiabilidade √ √ √
Pouca Rajada de Dados √ √ √
Transmissão em Massa
complexo e dinâmico que é a IoT [Borgia 2014]. Para lidar com esses requisitos é neces-
sária uma solução que contemple todas as camadas. A Tabela 1 apresenta alguns destes
requisitos de comunicação de acordo com um domínio específico.
Ademais, a IoT deve funcionar com pouca ou nenhuma intervenção humana. Para
isso, os objetos e a infraestrutura devem ter capacidades autonômicas como autoconfi-
guração, auto-organização, auto-gerenciamento, dentre outros. Além disso, a IoT deve
prover um ambiente seguro e com QoS para garantir os requisitos específicos das apli-
cações. Esses desafios listados, podem ser compreendidos como requisitos gerais da IoT
[Borgia 2014].
Há atualmente um grande esforço da academia e da indústria em busca da padroni-
zação das tecnologias envolvidas na IoT. Tecnologias não padronizadas geram fragmenta-
ção das soluções e dificultam a interação entre elas. Muitos autores evidenciam como um
dos principais desafios, a necessidade de uma padronização para que a IoT possa prover
melhor serviço para os usuários [Gama et al. 2012, Li et al. 2012, Borgia 2014].
Desta forma, apesar do grande número de iniciativas de padronização do para-
digma IoT, ele ainda está bastante fragmentado. Para que a IoT possa ser utilizada em
larga escala é necessário um esforço de colaboração entre as organizações de padroni-
zação (SDOs) para que essas soluções sejam unificadas ou que elas possam interoperar.
Uma das soluções neste sentido é a oneM2M5 . Ela é uma iniciativa conjunta entre sete
SDOs (p.e., ARIB, ATIS, CCSA, ETSI, TIA, TTA, e TTC) com o objetivo principal de
criar uma camada de serviço que funcione com diferentes hardwares e softwares e assim
possa se conectar com vários dispositivos da IoT.
É importante observar que soluções como a oneM2M, apesar de criarem uma ca-
mada de integração para que as diferentes tecnologias possam interoperar, ainda deixam
em aberto um grande desafio na área de gerenciamento de infraestrutura de rede e de dis-
positivos. Em relação aos dispositivos, eles possuem em sua grande maioria, restrições
de processamento, armazenamento e bateria. A configuração e gerenciamento desses
dispositivos é, em geral, executado manualmente e individualmente. O gerenciamento
da rede também é um desafio, devido ao tamanho e diversidade de tecnologias envolvi-
5
http://www.onem2m.org
310
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
das. Isto faz com que a utilização de protocolos convencionais de monitoramento como
SNMP [Case et al. 1990], RMON [Waldbusser 2006], NETCONF [Enns et al. 2011] seja
complexa ou inviável. [Sehgal et al. 2012] testaram os protocolos SNMP e NETCONF
em dispositivos da IoT e verificam sua viabilidade. Mas, identificam que a grande carga
de controle, como estabelecimento e segurança comprometem a utilização. Nesta pers-
pectiva, os autores identificaram uma sobrecarga na ordem de segundos para a iniciali-
zação de uma conexão segura, considerando que grande parte dos dispositivos da IoT
não suporta criptografia por hardware. Além disso, esses mecanismos de gerenciamento
consomem em torno de 15% de memória RAM e 30% de memória ROM. OMA Device
Management é uma solução proposta para gerência de dispositivos, no entanto é restrita
a dispositivos móveis. Recentemente ela foi adaptada para M2M [Klas et al. 2014] utili-
zando as arquitetura COAP e REST. Uma solução de gerenciamento autonômico trata e
resolve grande parte desses problemas. Este tipo de solução é um dos fundamentos deste
trabalho.
311
XXXVII Congresso da Sociedade Brasileira de Computação
em tempo real.
Um dos grandes desafios das CIs, além dos já apresentados para a IoT, está cen-
trado na camada de aplicação que deve integrar um grande conjunto de dados providos
pelos dispositivos, deve minerar esses dados com técnicas como classificação, regressão
dentre outras, e deve funcionar de acordo com as políticas definidas pelo gestor da cidade
em conjunto com a sociedade [Rathore et al. 2016, Pan et al. 2013]. Porém, muitos sis-
temas de IoT implantados são incapazes de interoperar, mesmo estando na mesma rede
física (silos) [Clayman and Galis 2011]. Isto dificulta a integração e/ou o compartilha-
mento de dados nas CIs.
Outro desafio, é o gerenciamento dos dispositivos de rede e dos dispositivos. Ape-
sar de já ter sido tratado no contexto de IoT, o gerenciamento nas CIs possui mais alguns
níveis de complexidade. Devido à variedade de áreas de atuação, a quantidade e a di-
versidade de dispositivos tende a ser maior que na IoT. As tecnologias de comunicação
envolvidas também são diversas. Além disso, em geral, os dispositivos e a infraestru-
tura devem ficar sob o domínio administrativo de uma entidade central, a administração
pública da cidade.
312
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
fases: (i) monitoramento, (ii) análise, (iii) planejamento e (iv) execução. Essas fases do
modelo MAPE-K funcionam em um ciclo contínuo de gerência autonômica denominado
IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014
ciclo de controle (Autonomic Control Loop (ACL)).
De forma similar à computação autonômica, que busca desenvolver computadores
que auto-gerencie, as pesquisas na área de redes autonômicas estudam novas arquiteturas
de redes e protocolos a fim de desenvolvê-las para que se comportem com um certo nível
de liberdade e se adaptem de forma eficiente a novas situações, sem intervenção humana
work Autonomic Management:
direta [Agoulmine 2011]. Desde que o gerenciamento de redes se torna cada vez mais
distribuído, a computação autonômica é essencial para manter esses sistemas gerenciáveis
rial with Conceptual, Functional
[Movahedi et al. 2012]. Os mecanismos de gerenciamento de redes tradicionais mesmo
com algumas estratégias de automação, possuem uma natureza estática na tomada de
and Practical Issues
decisões de gerenciamento, tornando-os ineficientes em redes grandes e complexas. A
Figura 1 apresenta os cinco níveis de evolução de gerência, onde o último nível, a gerência
Bezerra, Member,autonômica
IEEE andprovê
J. S. B. Martins, Senior Member,
a auto-configuração IEEE
em resposta a mudanças ou falhas, de acordo com
os objetivos e políticas pré-estabelecidas.
IoT App 1
...
IoT App n
Políticas
Plano de Conhecimento, Controle e Gerenciamento Global da CI
ciclo de controle
. V de
fra te
.
irt
In ren
...
Ge
Plano de Infraestrutura
314
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
ção. Ao utilizar esses conceitos, os componentes: (i) controlador SDN, (ii) orquestrador,
gerente VNF e gerente de infraestrutura virtualizada devem fazer parte da arquitetura.
No contexto do gerenciamento autonômico, independentemente da estratégia de
autonomia utilizada, a arquitetura deve ser composta pelo (iii) ciclo de controle autonô-
mico para a gerência dos recursos de rede e dispositivos. Quando se trata do gerencia-
mento autonômico é necessário ainda um (iv) elemento de gerência de políticas de rede.
Baseado nas discussões no grupo Anima da IETF, a adoção da API GRASP7 (Ge-
neric Autonomic Signaling Protocol Application Program Interface) é utilizada como nor-
teadora para definir a troca de mensagens entre agentes de serviços autonômicos. Além
disso, o draft "An Autonomic Control Plane8 ", pertencente também ao grupo Anima,
surge como base para o desenvolvimento do Plano de Gerência Autonômica da arquite-
tura proposta.
Por fim, para possibilitar a integração entre as aplicações IoT, independente da
tecnologia utilizada e também para permitir a orquestração da rede de acordo com os
requisitos das aplicações foi introduzido o modelo centrado em dados DDS (Data Distri-
bution Service9 )
A arquitetura é apresentada em uma visão de camadas/planos descritos a seguir:
• Plano de Infraestrutura: Provê os recursos físicos necessários para a instanciação
das funções virtuais.
• Plano de Rede Virtual: Este plano representa a instanciação da infraestrutura de
rede virtual, atividade que será implementada no framework e que é controlada
pelo plano de orquestração NFV. O plano de gerência virtual é gerenciado pelo
gerente de infraestrutura virtual, semelhante ao modelo adotado na arquitetura
ETSI NFV.
• Plano de Orquestração NFV: Esta camada é responsável por orquestrar as VNFs
e gerenciar a infraestrutura virtualizada.
• Plano de Controle: Este plano provê os mecanismos de controle das funções de
rede virtualizadas situadas no plano de rede virtual.
• Plano de Gerência Autonômica: Esta camada provê os mecanismos de auto-ge-
renciamento da rede. Ele monitora os dispositivos de rede virtual através da coleta
de informações pertinentes à rede, processa através do ciclo autonômico e por fim
aplica as devidas alterações na rede virtual.
• Plano de Conhecimento, Controle e Gerenciamento Global da CI: Por fim, o plano
de conhecimento, controle e gerenciamento global da CI é responsável por manter
e distribuir as políticas globais de gerenciamento das redes.
315
XXXVII Congresso da Sociedade Brasileira de Computação
quitetura NFV permanece inalterada sendo gerenciada pelo gerente de infraestrutura vir-
tualizada. As alteração ocorrem nas funções de rede virtualizadas que passam a ser con-
troladas pelo controlador SDN na camada de controle. O orquestrador também passa a
ser controlado pelo controlador SDN.
Gerenciamento
Conhecimento,
Controle e
Plano de
Pub/Sub
IoT Apps Políticas
Middelware
Gerenciamento
Plano de
Autonômico
Orquestração NFV Plano de
Plano de
Controle Controlador
FOCALE
SDN
Orquestrador
Plano de Rede
Gerente de Subcamada de
Virtual
Subcamada de
Plano de
Virtualização
Subcamada Física
316
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Gerenciador
Gerenciador de Políticas
de Contexto
distribuição de políticas
não
ciclo de
sim Disposito reconfiguração Define Nova
não
Comporta? Configuração
IoT é possível através do mecanismo de partição provido pelo DDS. Desta forma, cada
domínio da IoT pertence a uma determinada partição DDS que terá uma programação
específica do controlador SDN.
Pub/Sub Middelware
Requisição de
Notificação de Requisição de programação de
chegada de pacote saída de pacote fluxo
Subscribe Subscribe
Publish DW listener
DR listener DDS condition
5. Conclusão
Este trabalho propõem a arquitetura AutoManIoT para gerenciamento autonômico de rede
no contexto da IoT e das CIs. Esta arquitetura é construída empregando os recursos de
SDN e NFV e considera a disposição eficiente dos dispositivos de controle e gerência
autonômica, observando a natureza distribuída e de grande escala da IoT e CIs. A arqui-
tetura se encontra na etapa de validação com a elaboração de experimentos com conjuntos
de dados reais, simulando o comportamento da IoT e CIs, e verificação da eficiência da
gerência autonômica considerando a utilização dessas tecnologias.
317
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Agoulmine, N. (2011). Autonomic Network Management Principles: From Concepts to
Applications. Elsevier, Burlington, MA.
Angelidou, M. (2014). Smart city policies: A spatial approach. Cities, 41, Supplement
1:S3 – S11. Current Research on Cities.
Ashton, K. (2009). That ’internet of things’ thing. http://www.rfidjournal.
com/articles/view?4986. Accessed: 2016-03-20.
Atzori, L., Iera, A., and Morabito, G. (2010). The internet of things: A survey. Computer
Networks, 54(15):2787 – 2805.
Behringer, M., Pritikin, M., Bjarnason, S., Clemm, A., Carpenter, B., Jiang, S., and Ci-
avaglia, L. (2015). Autonomic networking: Definitions and design goals. Technical
Report 7575, IETF.
Borgia, E. (2014). The internet of things vision: Key features, applications and open
issues. Computer Communications, 54:1 – 31.
Case, J., Fedor, M., Schoffstall, M., and Davin, J. (1990). Simple network management
protocol (snmp). Technical Report 1157, IETF.
Chaparadza, R., Menem, T. B., Strassner, J., Radier, B., Soulhi, S., Ding, J., and Yan,
Z. (2014). Industry harmonization for unified standards on autonomic management
318
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
amp; control (amc) of networks and services, sdn and nfv. In 2014 IEEE Globecom
Workshops (GC Wkshps), pages 155–160.
Clayman, S. and Galis, A. (2011). Inox: A managed service platform for inter-connected
smart objects. In Proceedings of the Workshop on Internet of Things and Service
Platforms, IoTSP ’11, pages 2:1–2:8, New York, NY, USA. ACM.
Dobson, S., Denazis, S., Fernández, A., Gaïti, D., Gelenbe, E., Massacci, F., Nixon, P.,
Saffre, F., Schmidt, N., and Zambonelli, F. (2006). A survey of autonomic communi-
cations. ACM Trans. Auton. Adapt. Syst., 1(2):223–259.
Enns, R., Bjorklund, M., Schoenwaelder, J., and Bierman, A. (2011). Network configu-
ration protocol (netconf). Technical Report 6241, IETF. Updated by RFC 7803.
ETSI (2013). Network functions virtualization (nfv); architecture framework. Technical
report, ETSI GS NFV 002 v1.1.1.
Farhady, H., Lee, H., and Nakao, A. (2015). Software-defined networking: A survey.
Computer Networks, 81:79 – 95.
Gama, K., Touseau, L., and Donsez, D. (2012). Combining heterogeneous service tech-
nologies for building an internet of things middleware. Comput. Commun., 35(4):405–
417.
Hakiri, A., Berthou, P., Gokhale, A., and Abdellatif, S. (2015). Publish/subscribe-enabled
software defined networking for efficient and scalable iot communications. IEEE Com-
munications Magazine, 53(9):48–54.
Han, B., Gopalakrishnan, V., Ji, L., and Lee, S. (2015). Network function virtualiza-
tion: Challenges and opportunities for innovations. IEEE Communications Magazine,
53(2):90–97.
Horn, P. (2001). Autonomic computing: Ibm\’s perspective on the state of information
technology. Manifesto.
Kephart, J. O. and Chess, D. M. (2003). The vision of autonomic computing. Computer,
36(1):41–50.
Klas, G., Rodermund, F., Shelby, Z., Akhouri, S., and Höller, J. (2014). Lightweight
m2m: Enabling device management and applications for the internet of things. Tech-
nical report, White Paper.
Li, S., Xu, L., Wang, X., and Wang, J. (2012). Integration of hybrid wireless networks
in cloud services oriented enterprise information systems. Enterprise Information Sys-
tems, 6(2):165–187.
Li, S., Xu, L. D., and Zhao, S. (2015). The internet of things: A survey. Information
Systems Frontiers, 17(2):243–259.
McKeown, N., Anderson, T., Balakrishnan, H., Parulkar, G., Peterson, L., Rexford,
J., Shenker, S., and Turner, J. (2008). Openflow: Enabling innovation in campus
networks. SIGCOMM Comput. Commun. Rev., 38(2):69–74.
Movahedi, Z., Ayari, M., Langar, R., and Pujolle, G. (2012). A survey of autonomic
network architectures and evaluation criteria. IEEE Communications Surveys Tutori-
als, 14(2):464–490.
319
XXXVII Congresso da Sociedade Brasileira de Computação
Nam, T. and Pardo, T. A. (2011). Conceptualizing smart city with dimensions of techno-
logy, people, and institutions. In Proceedings of the 12th Annual International Digital
Government Research Conference: Digital Government Innovation in Challenging Ti-
mes, dg.o ’11, pages 282–291, New York, NY, USA. ACM.
Naphade, M., Banavar, G., Harrison, C., Paraszczak, J., and Morris, R. (2011). Smarter
cities and their innovation challenges. Computer, 44(6):32–39.
Nunes, B. A. A., Mendonca, M., Nguyen, X. N., Obraczka, K., and Turletti, T. (2014).
A survey of software-defined networking: Past, present, and future of programmable
networks. IEEE Communications Surveys Tutorials, 16(3):1617–1634.
Pan, G., Qi, G., Zhang, W., Li, S., Wu, Z., and Yang, L. T. (2013). Trace analysis and
mining for smart cities: issues, methods, and applications. IEEE Communications
Magazine, 51(6):120–126.
Qi, Q., Wang, W., Gong, X., and Que, X. (2014). A sdn-based network virtualization
architecture with autonomie management. In 2014 IEEE Globecom Workshops (GC
Wkshps), pages 178–182.
Rathore, M. M., Ahmad, A., Paul, A., and Rho, S. (2016). Urban planning and buil-
ding smart cities based on the internet of things using big data analytics. Computer
Networks, 101:63 – 80. Industrial Technologies and Applications for the Internet of
Things.
Savaglio, C. and Fortino, G. (2015). Autonomic and Cognitive Architectures for the In-
ternet of Things, chapter 1, pages 39–47. Springer International Publishing, Cham.
Sehgal, A., Perelman, V., Kuryla, S., and Schonwalder, J. (2012). Management of re-
source constrained devices in the internet of things. IEEE Communications Magazine,
50(12):144–149.
Sezer, S., Scott-Hayward, S., Chouhan, P. K., Fraser, B., Lake, D., Finnegan, J., Viljoen,
N., Miller, M., and Rao, N. (2013). Are we ready for sdn? implementation challenges
for software-defined networks. IEEE Communications Magazine, 51(7):36–43.
Strassner, J., Agoulmine, N., and Lehtihet, E. (2006). Focale: A novel autonomic networ-
king architecture. In Latin American Autonomic Computing Symposium (LAACS),
Campo Grande, MS, Brazil.
Waldbusser, S. (2006). Remote network monitoring management information base ver-
sion 2. Technical Report 4502, IETF.
Wendong, W., Yannan, H. U., Que, X., and Xiangyang, G. (2012). Autonomicity design
in openflow based software defined networking. In 2012 IEEE Globecom Workshops,
pages 818–823.
Yovanof, G. S. and Hazapis, G. N. (2009). An architectural framework and enabling wire-
less technologies for digital cities & intelligent urban environments. Wireless Personal
Communications, 49(3):445–463.
Zanella, A., Bui, N., Castellani, A., Vangelista, L., and Zorzi, M. (2014). Internet of
things for smart cities. IEEE Internet of Things Journal, 1(1):22–32.
320
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
1. Introdução
A virtualização emergiu como uma paradigma que permite virtualizar funções de redes
que executavam em hardwares dedicados em máquinas de propósito geral através do uso
de tecnologias já aplicadas em computação em nuvem e data center. Dessa forma, é
possı́vel, por exemplo, realizar a automatização de processos, com redução de custos
operacionais (Operational Expenditure - OPEX) e melhor eficiência nos gastos de capi-
tal (Capital Expenditure - CAPEX). Nessa perspectiva, surgiram as redes definidas por
software (Software Defined Networking - SDN) que permitem desacoplar o plano de
321
XXXVII Congresso da Sociedade Brasileira de Computação
controle (lógico) do plano de dados, propiciando um cenário evolutivo das redes atu-
ais [Feamster et al. 2013], bem como a Virtualização de Funções de Redes (Network
Function Virtualization - NFV) que foi criada pelo Instituto Europeu de Normas de
Telecomunicações (ETSI) [Schaffrath et al. 2009] [Chiosi et al. 2012]. Ambas as tecno-
logias vem sendo utilizadas para dinamicidade e flexibilidade do gerenciamento de redes
no data center.
Poder criar funções de rede virtualizadas (Virtualized Network Function - VNF)
permite uma maior flexibilidade de uma rede baseada em software sobre uma infraestru-
tura fı́sica. A ideia de arquitetura NFV permite virtualizar funções de rede como, por
exemplo, firewall e balanceadores de carga. Além disso, NFV permite organizar os re-
cursos fı́sicos e virtuais otimizando o provisionamento, configuração de rede, alocação
de largura de banda, automação de operações, monitoramento, segurança e polı́ticas de
controle. A capacidade de virtualização permite ainda trabalhar com arquitetura de rede
tradicional para reduzir os custos da empresa na aquisição de novo hardware de rede.
Estudos mostram ainda que NFV poderá reduzir as despesas de energia e espaço para
alocação de novas máquinas [Rosa et al. 2015].
Uma pesquisa realizada em 2015 pela IHS Markit sobre o crescimento do NFV
em 2015-2019, projetou um investimento próximo de US $11,6 bilhões. O mesmo estudo
afirma que 100% dos prestadores de serviços consultados pretendem adaptar suas infra-
estruturas para suportar NFV. Desses, 81% esperam fazê-lo até 2017 [IHS Markit 2015].
No cenário especı́fico de data centers (data centers), a adoção do NFV transfere funções
de rede para um hardware comercial off-the-shelf (COTS), em vez de dispositivos pro-
prietários especializados. Nesse cenário, a padronização de protocolos permite que o
hardware de propósito geral seja utilizado para reduzir custos, ganhando simultaneamente
flexibilidade através da interoperabilidade de diferentes sistemas.
A infraestrutura de data center é um serviço especializado de valor agregado,
que fornece capacidades de processamento e armazenamento de dados escaláveis para
organizações de qualquer tamanho, como Amazon, Google, Facebook e Yahoo. Essas
organizações investem profundamente no planejamento de data center para evitar, por
exemplo, picos de inatividade ou sobrecarga inesperados. Além dos custos diretos do
tempo de inatividade do sistema, há mais custos intangı́veis, como reputação danificada,
menor satisfação dos funcionários e redução da retenção de clientes. Um estudo con-
duzido pelo Instituto Ponemon descobriu que o custo médio do tempo de inatividade do
data center está perto de US $9.000 por minuto [Ponemon Institute 2016]. Assim, é im-
portante fornecer serviços e capacidades analı́ticas com atrasos mı́nimos. Dessa forma,
o design e o desempenho de data center em larga escala, bem como o gerenciamento de
ativos de TI, não podem ser negligenciados. Assim, uma revisão da literatura de NFV
em data center torna-se necessária para identificar os avanços e desafios, bem como quais
técnicas de outras áreas podem ser aplicadas em NFV no cenário de um data center.
No cenário de NFV e data center, a maioria das abordagens atuais enfo-
cam o gerenciamento do data center para interconectar os recursos virtuais com
a estrutura fı́sica [Maini and Manzalini 2014] [Riccobene et al. 2014][Shen et al. 2014]
[Clayman et al. 2014]. Outras pesquisas, estão relacionadas com o desempenho do NFV
[Schaffrath et al. 2009] [Wang et al. 2014]. Considerando o desempenho, os requisitos
de gestão no ambiente NFV devem ter a capacidade de suportar variações de carga de
322
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
trabalho. Assim, um dos desafios da gestão no NFV no data center em computação nas
nuvens é a demanda que varia de um dia para outro ou mesmo por hora. Essa flutuação
torna difı́cil gerenciar o processo manualmente. Uma possı́vel solução é dividir Máquinas
Virtuais (Virtual Machine - VM) em diferentes nós ou clusters. Há muitos aspectos do
NFV a analisar, desde os mais concretos até os mais abstratos, como máquinas virtuais e
links virtuais. Assim, este trabalho está interessado em investigar os esforços especı́ficos
na alocação de recurso de NFV em arquiteturas de data center.
Dentro da IETF/IRTF, o Network Function Virtualization (NFVRG) investiga
NFV sob várias perspectivas com o objetivo de identificar as abordagens que podem
ser definidas, implementadas e utilizadas no curto prazo, além de também identificar
os futuros desafios de pesquisa. Em particular, as principais áreas de interesse incluem
soluções: virtualização, alocação e recurso e encadeamento de funções de rede (Ser-
vice Function Chain - SFC), bem como identificação de futuros desafios de pesquisa
na área. Outro grupo relacionado com este trabalho é Benchmarking Methodology Wor-
king Group (BMWG), pesquisa por trabalhos relacionados também com melhorias de
desempenho, entre os quais verificam-se trabalhos com foco especı́fico em data cen-
ter [Samuel and Rapp 2017][Avramov and Rapp 2016]. Assim, acreditamos que os de-
safios de pesquisas encontradas podem ser uma contribuição para o grupo NFVRG, que
tem investigado, por exemplo, a performance de data center [Samuel and Rapp 2017]
[Avramov and Rapp 2016], virtualização de redes [Zúñiga et al. 2017], Alocações de Re-
cursos [Szabo et al. 2016], encadeamento de serviço [Do and Kim 2017], bem como
identificação de futuros desafios de pesquisa para a comunidade da IETF/IRTF. Dessa
forma, temos como contribuição a definição de desafios e possı́veis soluções de NFV
aplicadas ao ambiente de data center. Além disso, espera-se como resultado contribuir
para o Draft da Internet (I-D) entitulado ”Gap Analysis on Network Virtualization Activi-
ties 1 ”. A organização deste artigo é a seguinte: Fundamentos e Aspectos Teóricos (Seção
2), Desafios e Oportunidades seção (Seção 3), Considerações Finais (Seção 4).
323
XXXVII Congresso da Sociedade Brasileira de Computação
324
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
325
XXXVII Congresso da Sociedade Brasileira de Computação
326
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
rede de substrato, o que, por sua vez, leva à perda de dados, que pode interrom-
per serviços de comunicação. Alguns exemplos são a melhoria dos processos de
planejamento da rede, pois, para uma função de rede, o uso de tais técnicas é um
passo necessário para sistemas confiáveis [Salfner et al. 2010].
• Remoção de Defeitos: para remover as falhas durante o desenvolvimento do
sistema (por exemplo, verificação, validação) ou durante a sua utilização. Em
particular, a remoção de falhas durante o uso do sistema pode ser implementada
como manutenção corretiva, na qual as falhas são encontradas e corrigidas ou
manutenção preventiva, para descobrir falhas existentes antes que elas se transfor-
mem em erros.
• Previsão de Defeitos: analisa o comportamento do sistema de forma qualitativa
ou quantitativa, em relação à ocorrência ou ativação de falha. Na prática, o obje-
tivo é avaliar o comportamento do sistema a fim de estimar as consequências fu-
turas de uma falha usando modelagem de sistema ou teste de sistema. A predição
de falha é particularmente útil no contexto de falhas residuais, isto é, falhas que
escaparam ao processo de teste, e que não podem ser toleradas por outros meca-
nismos de tolerância a falhas [Vieira et al. 2009]. Um preditor de falhas on-line
prevê falhas de entrada em tempo de execução, principalmente usando dados pas-
sados do sistema, usados para treinar o preditor e informações sobre o estado atual
do sistema obtido por meio do monitoramento de variáveis do sistema.
327
XXXVII Congresso da Sociedade Brasileira de Computação
aspecto identificado por [Moens and De Turck 2014] é a criação de um algoritmo ILP,
através das ferramentas SCALA e CPLEX. O algoritmo ILP aloca recursos VNF em um
ambiente NFV. Por essa razão, considera-se um cenário hı́brido, no qual um hardware
fı́sico dedicado fornece parte dos serviços.
Para satisfazer o acordo de nı́vel de serviço (Service Level Agreement - SLA) dos
usuários em uma rede de data center definida por software, o estudo [Huang et al. 2015]
investiga os problemas das cadeias de serviços e da orquestração. O objetivo é
criar algoritmos ILP para avaliar o desempenho da orquestração de múltiplas ca-
deias de serviço NFV. O problema de escala foi investigado por [Xia et al. 2015]
[Soares and Sargento 2015] [Callegati et al. 2016]. Em [Xia et al. 2015], foca em maxi-
mizar a qualidade do desempenho do serviço, avaliou a percepção do usuário no tocante
à rede de ponta a ponta e desempenho lado a lado do sistema. A fim de investigar o
monitoramento de recursos em pequenas escalas de tempo, [Soares and Sargento 2015]
avaliou os requisitos de qualidade de experiência (Quality of Experience - QoE). Esta
análise foi baseada em opiniões de convidados e host sobre ”uso” e ”carga” para a análise
de variância. O estudo [Callegati et al. 2016], utilizou um cenário NFV para identificar
limites potenciais e reais do desempenho de virtualização de rede em infraestruturas em
nuvem OpenStack.
328
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
para um data center é composto de um serviço de rede fim a fim. O SFC é composto
pelo conjunto ordenado de VNFs que a rede de substrato executa para cumprir atributos
do serviço em quesitos de dependabilidade. No entanto, mesmo tendo-se o conhecimento
prévio de todas as requisições de redes virtuais, o mapeamento ótimo é um problema NP-
difı́cil [Amaldi et al. 2016], onde a maioria dos trabalhos realizados nessa área, tem se
concentrado no desenho de algoritmos heurı́sticos ou meta-heurı́sticos e no uso de redes
com complexidade mı́nima ao resolver modelos de ILP.
Neste contexto, a aplicação de estratégias de mapeamento de NFV em data cen-
ter, tendo como entrada o SFC para alocação de recurso, é uma lacuna de pesquisa para
alocação das funções de rede, isso porque a mudança de SFC é dinâmica e as topolo-
gias do data center são tipicamente homogêneas, o que significa que os servidores têm
a mesma capacidade de computação, armazenamento e comunicação. Para tal, podemos
projetar mecanismos que melhorem o desempenho do data center. Nesse sentido, o de-
sempenho da rede de substrato, será afetado pelo comportamento das diferentes funções
de composição e pela ordem em que as funções são processadas. Portanto, é primordial
conseguir um encadeamento de cadeia de serviços eficiente em relação aos objetivos do
design da rede. Entre as perguntas não respondidas, podemos citar:
• Como concatenar os diferentes VNFs eficientemente para compor uma rede fı́sica
do data center de maneira mais adequada?
• Como desenvolver algoritmos exatos e heurı́sticos, a fim de reduzir os atrasos na
rede devido ao congestionamento por meio de SFC no data center?
• Qual o nı́vel de confiabilidade, desempenho e sustentabilidade que NFV deve ga-
rantir no data center, com o mapeamento de SFC?
• Como o NFV ajudará o provedor de data centers a agregar e analisar ı́ndices de
redundância?
• Como otimizar um mapeamento de recuperação SFC em situação de desastres no
data centers?
• Como projetar o NFV em data center, com integração, granularidade, tempo de
implantação, gerenciamento, manutenção e operações sustentáveis?
• Como considerar a latência mı́nima do data center ao distribuir as VNF geografi-
camente?
• Como economizar energia em data center durante a replicação de rede VNF ao
mesmo tempo que maximiza a disponibilidade?
• Como construir, de forma eficiente, um SFC adequado em relação aos objetivos
do operador?
• Como mapear VNF na rede de substrato do data center, considerando o mapea-
mento de nós e links?
• Como fazer um mapeamento eficiente requisições de rede virtual em uma rede de
substrato compartilhada no data centers?
329
XXXVII Congresso da Sociedade Brasileira de Computação
o comportamento dos recursos, e é capaz de atribuir tarefas aos recursos, de acordo com
determinados requisitos de QoS, como a utilização de CPU, disponibilidade, confiabili-
dade, a fim de manter um nı́vel de qualidade de serviço necessário ou ainda minimizar
o tempo de conclusão da carga de trabalho. Assim, torna-se importante ter um efici-
ente mapeamento da carga de trabalho de recursos, antes do processo de escalonamento
[Singh and Chana 2016].
O problema de escalonamento em uma rede de data center tradicional têm mui-
tos aspectos especı́ficos ligados ao desenvolvimento de algoritmos, que são diferentes do
padrão router escalonamento. Por exemplo, em um roteador ou switch projetado para
operar em um chassi ou rack pode empregar um escalonamento centralizado para cal-
cular uma correspondência entre os módulos de entrada e de saı́da em cada intervalo de
tempo de transmissão [McKeown et al. 1999]. No entanto, em uma aplicação de NFV em
data center, o problema de escalonamento procura auxiliar na melhoria da execução de
cada função para minimizar o tempo de execução total sem degradar o desempenho do
serviço e respeitando todas as precedências e dependências entre os VNFs que compõem
a rede de substrato. Isso porque, normalmente, a execução VNFs deve ser realizada a
fim de minimizar o tempo total de execução dos serviços de rede e, assim, obter melhor
desempenho.
Na terminologia NFV, a economia de recursos é obtida por alocação de recur-
sos sob demanda. Além disso, para aumentar a utilização de recursos, é possı́vel usar
técnicas de programação para permitir que os VNFs compartilhem o recurso. Assim, o
problema escalonamento de recursos de NFV em data center é um trabalho desafiador,
pois, para cargas de trabalho em data center, depende-se dos requisitos de qualidade de
serviço (Quality of Service - QoS) da VNF. Os pesquisadores enfrentam problemas para
selecionar o eficiente e apropriado algoritmo de programação de recursos para uma carga
de trabalho especı́fica. Assim, partindo da observação de que o tráfego em um data center
é uma mistura de componentes relativamente estáticos e rapidamente flutuantes, acredita-
mos que seja interessante aplicar estratégias de escalonador para ambos os componentes
usando uma generalização do balanceamento de carga. Para tal, alguns dos desafios en-
trados são
• Como realizar escalonamento para executar cada função para minimizar o tempo
de execução total sem degradar o desempenho do serviço e respeitando todas as
precedências e dependências entre os VNFs que compõem a rede de substrato do
data center?
• Como realizar escalonamento no data center de forma rigorosa com despesas de
orçamento mı́nimo e aumenta o lucro global?
• Como reduzir o consumo de energia sem violação do SLA no escalonamento efe-
tivo de recursos em data center?
• Como realizar um balanceamento eficiente da carga através do escalonamento das
cargas de trabalho nos recursos disponı́veis no data center?
• Como planejar um escalonamento robusto para serviços heterogêneos, conside-
rando menos chances de falha não planejada em data center?
• Como reduzir o custo de execução e cumprir o prazo ao mesmo tempo na alocação
de VNF no data center?
• Como reduzir o consumo de energia e seu impacto para o meio ambiente por meio
de escalonamento no data center distribuı́do geograficamente?
330
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
• Qual a melhor técnica de algoritmo exato ou heurı́stico que devem ser considera-
das para um escalonamento eficiente dos recursos no data center?
• Como realizar o escalonamento de recursos de VNF dinamicamente no data cen-
ter?
• Como desenvolver um algoritmo de escalonamento de recursos através da
utilização eficaz de VNF e manutenção do SLA no data center?
• Qual o impacto de VNF na carga e distribuição de tráfego de rede entre os SFC
sobre o desempenho do data center?
331
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
Esta revisão da literatura foi conduzida com base no conhecimento atual do uso e desafios
de alocação de recurso para NFV em arquiteturas de data center. Os estudos referentes ao
uso da arquitetura NFV no data center estão relacionados a SFC, mapeamento, escalona-
mento e falhas da rede. A alocação de recurso de NFV em data center é um problema com
muitos desafios a serem resolvidos nessa implementação. O problema da computação de
soluções de alocação é NP-difı́cil. Por isso, existe uma forte demanda por algoritmos efi-
cientes para resolver o problema. Assim, resumimos a pesquisa disponı́vel com base em
trabalhos disponı́veis na web existente e apresentamos os desafios para pesquisa avançada
que influenciam a disponibilidade, o desempenho e a eficiência energética dos recursos
da rede do data center. Acreditamos que são grandes oportunidades de pesquisa no IETF
para esta área. Vale a pena notar que há pouca preocupação da literatura considerando
o mapeamento de SFC para o data center. Este é um ponto promissor para o trabalho
futuro, uma vez que abordagens centralizadas sofrem com problema de escalabilidade e
podem ser inviáveis em algumas situações, por exemplo, vários provedores.
Referências
Aldrin, S., Krishnan, R. R., Akiya, N., Pignataro, C., and Ghanwani, A. (2016). Service
Function Chaining Operation, Administration and Maintenance Framework. Internet-
Draft draft-ietf-sfc-oam-framework-01, Internet Engineering Task Force. Work in Pro-
gress.
Amaldi, E., Coniglio, S., Koster, A. M., and Tieves, M. (2016). On the computational
complexity of the virtual network embedding problem. Electronic Notes in Discrete
Mathematics, 52:213–220.
Arregoces, M. and Portolani, M. (2003). Data center fundamentals. Cisco Press.
Avizienis, A., Laprie, J.-C., Randell, B., and Landwehr, C. (2004). Basic concepts and
taxonomy of dependable and secure computing. IEEE transactions on dependable and
secure computing, 1(1):11–33.
332
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
333
XXXVII Congresso da Sociedade Brasileira de Computação
Liu, G. and Wood, T. (2015). Cloud-scale application performance monitoring with SDN
and NFV. In Cloud Engineering (IC2E), 2015 IEEE International Conference on,
pages 440–445. IEEE.
Maini, E. and Manzalini, A. (2014). Management and orchestration of virtualized network
functions. In IFIP International Conference on Autonomous Infrastructure, Manage-
ment and Security, pages 52–56. Springer.
McKeown, N., Mekkittikul, A., Anantharam, V., and Walrand, J. (1999). Achieving
100% throughput in an input-queued switch. IEEE Transactions on Communications,
47(8):1260–1267.
Miller, R. (2011). A look inside amazon’s data centers. Data Center Knowledge.
Moens, H. and De Turck, F. (2014). VNF-P: A model for efficient placement of virtu-
alized network functions. In Network and Service Management (CNSM), 2014 10th
International Conference on, pages 418–423. IEEE.
Natella, R., Cotroneo, D., and Madeira, H. S. (2016). Assessing dependability with soft-
ware fault injection: A survey. ACM Computing Surveys (CSUR), 48(3):44.
Ponemon Institute (2016). Cost of data center outages by emerson network power.
http://files.server-rack-online.com/2016-Cost-of-Data-Center-Outages.pdf.
Quinn, P. and Halpern, J. M. (2014). Service Function Chaining (SFC) Architecture.
Internet-Draft draft-quinn-sfc-arch-05, Internet Engineering Task Force. Work in Pro-
gress.
Radjenović, D., Heričko, M., Torkar, R., and Živkovič, A. (2013). Software fault pre-
diction metrics: A systematic literature review. Information and Software Technology,
55(8):1397–1418.
Rankothge, W., Ma, J., Le, F., Russo, A., and Lobo, J. (2015). Towards making network
function virtualization a cloud computing service. In Integrated Network Management
(IM), 2015 IFIP/IEEE International Symposium on, pages 89–97. IEEE.
Riccobene, V., Lombardo, A., Manzalini, A., and Schembra, G. (2014). Network functi-
ons at the edge (netfate): design and implementation issues. National Telecommunica-
tions and Information Theory Group (GTTI).
Rosa, R. V., Santos, M. A. S., and Rothenberg, C. E. (2015). MD2-NFV: The case
for multi-domain distributed network functions virtualization. In Networked Systems
(NetSys), 2015 International Conference and Workshops on, pages 1–5. IEEE.
Salfner, F., Lenk, M., and Malek, M. (2010). A survey of online failure prediction
methods. ACM Computing Surveys (CSUR), 42(3):10.
Samuel, K. and Rapp (2017). Considerations for Benchmarking Network Virtualiza-
tion Platforms. Internet-Draft draft-skommu-bmwg-nvp-00, Internet Engineering Task
Force. Work in Progress.
Schaffrath, G., Werle, C., Papadimitriou, P., Feldmann, A., Bless, R., Greenhalgh, A.,
Wundsam, A., Kind, M., Maennel, O., and Mathy, L. (2009). Network virtualization
architecture: proposal and initial prototype. In Proceedings of the 1st ACM workshop
on Virtualized infrastructure systems and architectures, pages 63–72. ACM.
334
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Shen, W., Yoshida, M., Kawabata, T., Minato, K., and Imajuku, W. (2014). vConductor:
An NFV management solution for realizing end-to-end virtual network services. In
Network Operations and Management Symposium (APNOMS), 2014 16th Asia-Pacific,
pages 1–6. IEEE.
Singh, S. and Chana, I. (2016). Qos-aware autonomic resource management in cloud
computing: a systematic review. ACM Computing Surveys (CSUR), 48(3):42.
Soares, J. and Sargento, S. (2015). Optimizing the embedding of virtualized cloud
network infrastructures across multiple domains. In Communications (ICC), 2015
IEEE International Conference on, pages 442–447. IEEE.
Szabo, R., Figueira, N., and Lee, S. (2016). Policy-Based Resource Management.
Internet-Draft draft-irtf-nfvrg-policy-based-resource-management-02, Internet Engi-
neering Task Force. Work in Progress.
Vieira, M., Madeira, H., Irrera, I., and Malek, M. (2009). Fault injection for failure
prediction methods validation. In 40th Int’l Conference on Dependable Systems and
Networks (5th Workshop on Hot Topics in System Dependability).
Wang, R., Hu, H., and Yang, X. (2014). Potentials and challenges of C-RAN supporting
multi-rats toward 5G mobile networks. IEEE Access, 2:1187–1195.
Xia, M., Shirazipour, M., Zhang, Y., Green, H., and Takacs, A. (2015). Optical ser-
vice chaining for network function virtualization. IEEE Communications Magazine,
53(4):152–158.
Xie, Y., Liu, Z., Wang, S., and Wang, Y. (2016). Service function chaining resource
allocation: A survey. arXiv preprint arXiv:1608.00095.
Zúñiga, J.-C., Bernardos, C. J., Rahman, A., Contreras, L. M., Lynch, P., and Aranda, P. A.
(2017). Network Virtualization Research Challenges. Internet-Draft draft-irtf-nfvrg-
gaps-network-virtualization-05, Internet Engineering Task Force. Work in Progress.
335
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Funções de rede têm sido implementadas por operadores e provedores de serviços
em diversos middleboxes dedicados proprietários há décadas. Como resultando, temos o
aumento de custos OPEX /CAPEX, dificuldade de implantação e gerenciamento de novas
funções e serviços. Do ponto de vista dos protocolos e infraestrutura atual da Internet,
336
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
temos ainda o problema conhecido como ossificação da internet, fator que tem dificultado
o avanço e o crescimento da rede. Neste contexto, a virtualização de funções de rede
(NFV - Network Function Virtualization) surge como uma solução para a infraestrutura
pouco flexível atual da rede que precisa atender as crescentes demandas dos usuários e
de novos serviços (JEON; LEE, 2015).
Atualmente, NFV e Redes definidas por software (SDN) são conceitos
complementares e estritamente relacionados e a integração entre esses dois paradigmas é
denominada de arquitetura NFV definida por software (LI; CHEN, 2015). SDN pode
beneficiar NFV fornecendo conectividade de rede programável entre funções virtuais e
direcionamento de tráfego otimizado no encadeamento de VNFs. Esta integração de
tecnologias possibilita maior domínio e agilidade no direcionamento de tráfego, sendo
utilizada principalmente em aplicações de encadeamento de serviços, fornecendo também
a capacidade de otimização de funções e recursos de rede. Como exemplo, nesse contexto,
um controlador SDN pode ser virtualizado como uma NF (Network Functions – funções
de rede), permitindo a criação e migração dinâmica destas para outros pontos da rede (LI;
CHEN, 2015).
Junto com os benefícios trazidos pela virtualização de funções de rede, surgem
preocupações com o desempenho, uma vez que fornecer desempenho equiparável as NF
implementadas em soluções dedicadas de hardware é um dos grandes desafios de NFV
(MIJUMBI et al., 2015), visto que investigações recentes demonstram a degradação de
desempenho imposta pelo uso de camadas de virtualização (EIRAS et al., 2016). Neste
contexto, em um cenário cuja integração entre SDN e NFV está sendo cada vez mais
intensificada, justifica-se a importância de avaliarmos um controlador SDN
implementado como uma função de rede virtual – VNF, verificando as implicações da
virtualização nos parâmetros de desempenho mais críticos. Questões relacionadas a
virtualização e desempenho em NFV são pontos discutidos em grupos da IETF/IRTF,
especialmente o grupo NFVRG. Especificamente o draft “Network Virtualization
Research Challenges” (IETF, 2017) traz uma discussão sobre alguns desses desafios.
Apresentamos neste artigo, uma avaliação de desempenho de um controlador
SDN implementado como uma função de rede virtualizada. Utilizamos a ferramenta
Cbench (LAISSAOUI et al., 2015) como gerador de fluxos e comparamos os resultados
obtidos com a execução do controlador diretamente sobre o hardware (sem uma camada
adicional de virtualização). O objetivo é mensurar a degradação de desempenho causada
pela virtualização nos hypervisores de código aberto KVM (KIVITY et al., 2007) e Xen
(BARHAM et al., 2003). Os testes se concentram em medir o desempenho de rede,
utilização de CPU total e memória do controlador SDN Floodlight (FLOODLIGHT,
2016). Mensurar o impacto das camadas de virtualização utilizadas sob o controlador
Floodlight é a principal contribuição deste trabalho.
O restante deste artigo está estruturado da seguinte forma: Na sessão 2
apresentamos o referencial teórico necessário para a compreensão dos principais
conceitos relacionados com este trabalho. Na sessão 3 apresentamos alguns trabalhos
relacionados mais relevantes, enquanto a metodologia utilizada nesta avaliação e o
ambiente de teste são apresentados na sessão 4. Na sessão 5, apresentamos e discutimos
os resultados obtidos. Alguns direcionamentos para trabalhos futuros serão abordados na
sessão 6 e finalmente, apresentaremos as principais conclusões sobre a investigação
realizada neste artigo na sessão 7.
337
XXXVII Congresso da Sociedade Brasileira de Computação
2. Referencial teórico
2.1. Virtualização
A virtualização possibilita o compartilhamento e a utilização eficiente de recursos
computacionais que eram subutilizados em cenários tradicionais, pautados no paradigma
servidor por carga de trabalho. Posteriormente, essas cargas de trabalho – que ocupavam
uma pequena fatia dos recursos de um servidor físico, passaram a ser hospedadas em
computadores virtuais com o devido isolamento e segurança, em um cenário idêntico a
um computador real (MANIK, 2016).
A virtualização possibilita o compartilhamento de cargas de trabalho distintas e
isoladas em várias instâncias de máquinas virtuais hospedadas em um único host físico.
Neste sentido, os recursos computacionais dos servidores são otimizados, proporcionando
a redução de custos com hardware e energia, eficiência, confiabilidade, disponibilidade,
flexibilidade e segurança (WANG; NG, 2010).
Em um cenário convencional, podemos entender virtualização como uma
tecnologia que possibilita a execução de várias instâncias de sistemas operacionais em
um único hardware através de uma camada de abstração de software inserida entre o
hardware e os sistemas operacionais virtualizados e suas aplicações. Em um ambiente
virtualizado temos dois tipos de sistemas: Hospedeiro e visitante. O hospedeiro – Host, é
o sistema operacional que é instalado de forma nativa na máquina, imediatamente sobre
o hardware. O sistema visitante – Guest, é instalado em uma máquina virtual – VM,
virtualizada pelo sistema hospedeiro (WANG; NG, 2010) (MANIK, 2016).
A camada de abstração comumente é denominada VMM – Monitor de máquina
virtual ou hypervisor, e tem a função de gerenciar os dispositivos físicos do computador,
permitindo que várias instâncias de computadores virtuais executem simultaneamente
através do compartilhamento de hardware, otimizando a utilização de recursos. Um
VMM gerencia os recursos de hardware, possibilita a criação de unidades lógicas
denominadas máquinas virtuais – VMs e garante o isolamento de recursos e segurança
(SAHOO, 2010) (SEMNANIAN et al., 2010) (SORIGA; BARBULESCU, 2013).
338
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
2.4. Xen
Xen (BARHAM et al., 2003) é um hypervisor de código aberto muito popular que
implementa a para-virtualização de máquinas, é baseado principalmente na plataforma
x86 e suporta vários sistemas operacionais, incluindo Linux, Solares, Windows e algumas
versões BSD. Xen apresenta um desempenho muito melhor do que a virtualização total
quando a máquina hospedeira não possui suporte a virtualização assistida por hardware,
mas é preciso que os sistemas convidados sejam alterados para dar suporte à para-
virtualização. Xen suporta para-virtualização desde a sua concepção e alcança um
desempenho muito próximo ao do host com o custo da modificação do kernel do sistema
operacional hospedeiro (SORIGA; BARBULESCU, 2013). Com o surgimento das
tecnologias de suporte a virtualização de hardware, Xen também passou a suportar a
virtualização total, não necessitando, portanto, da modificação dos sistemas operacionais
visitantes (BARHAM et al., 2003).
339
XXXVII Congresso da Sociedade Brasileira de Computação
3. Trabalhos relacionados
Desde o surgimento das redes SDN, muitas comparações entre controladores SDN
foram realizadas, abordando principalmente análises comparativas de throughput e
latência com a utilização de Cbench como em (LAISSAOUI et al., 2015) e (KHATTAK
et al., 2014). Esses trabalhos geralmente comparam vários controladores de código
aberto, apresentando uma análise quantitativa de rendimento e tempo de resposta. Os
cenários quase sempre compreendem a variação do número de switches e threads com o
propósito de avaliar a escalabilidade do controlador como em (TOOTOONCHIAN et al.,
2012), (SHALIMOV et al., 2013), (ERICKSON, 2013), (ZHAO et al., 2015) e
(SALMAN et al., 2016).
Tootoonchian et al. (2012) foi um dos pioneiros nos estudos comparativos de
controladores SDN, confrontando apenas NOX-MT, Beacon e Maestro. Em
(SHALIMOV et al., 2013), uma ferramenta de benchmark chamada hcprobe foi utilizada
em uma análise comparativa da eficácia dos controladores Beacon, NOX, POX,
Floodlight, MuL, Maestro e Ryu. Em (LAISSAOUI et al., 2015), Floodlight superou os
controladores populares de código aberto Beacon, Pox, Ryu em termos de throughput e
latência. Zhao et al.(2015) realizou uma avaliação de desempenho abrangente de
controladores SDN e concluiu que Beacon tem o melhor desempenho, enquanto Ryu é
melhor nos aspectos de usabilidade e popularidade (ZHAO et al., 2015). Salman et al.
(2016) realizou uma avaliação de desempenho e latência de controladores mais recentes
utilizando Cbench e concluiu que MuL, Beacon e Maestro tem o melhor tempo de
resposta (SALMAN et al., 2016). Outras investigações tiveram foco em ferramentas de
benchmark, como o trabalho desenvolvido por (JARSCHEL et al., 2012), que propôs uma
ferramenta de benchmark flexível de controladores OpenFlow capaz de criar switches
virtuais customizáveis. Por outro lado, (KHATTAK et al., 2014) ressaltou limitações
340
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
341
XXXVII Congresso da Sociedade Brasileira de Computação
4.2. Cbench
Cbench (LAISSAOUI et al., 2015) é uma ferramenta de benchmarking de
controladores SDN que utiliza o protocolo OpenFlow v1.0. Cbench emula um conjunto
configurável de switches que são conectados ao controlador a ser testado de modo que os
comutadores são conectados a um número variável de hosts virtuais que podem se
comunicar uns com os outros, gerando mensagens do plano de dados para o controlador
(SALMAN et al., 2016). A partir da interação entre os hosts virtuais conectados à rede de
comutadores, Cbench envia mensagens de solicitação de decisão de encaminhamento
(PACKET_IN) para o controlador e espera receber a resposta para a solicitação enviada
através de mensagens FLOW_MOD, sendo capaz de operar em dois modos: Latency e
Throughput. No modo latency, cada switch configurado envia uma única mensagem e
espera a resposta para obter o tempo necessário que o controlador utiliza para processar
e responder à mensagem, repetindo várias vezes o processo. Desta forma, Cbench calcula
a latência média a partir do número total de respostas recebidas no período de teste. No
modo throughput, Cbench envia o maior número possível de mensagens PACKET_IN
com o propósito de verificar a capacidade máxima de processamento do controlador
(ZHAO et al., 2015).
4.3. Metodologia
Durante a realização dos testes, Cbench foi configurado para emular um número
específico de switches capazes de enviar fluxos ao controlador instalado no servidor por
um período de tempo determinado. Ao término de cada teste, coletamos os dados gerados
pelo Cbench. Simultaneamente a execução de Cbench, os dados de CPU e memória RAM
das funções de rede física e virtuais foram registrados pela ferramenta Collectl
(COLLECTL, 2016) no servidor NFV.
Neste trabalho, consideramos 3 ambientes de testes: A função de rede física, VNF
virtualizada em KVM (VNF-KVM) e VNF em máquina virtual XEN (VNF-XEN),
342
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
5. Avaliação de desempenho
Nesta seção, descreveremos os resultados dos experimentos executados com as
funções de rede física e virtuais. Inicialmente, apresentaremos os dados de rendimento e
tempo de resposta das funções de rede, em seguida vamos expor os resultados da
utilização de CPU e por último, apresentaremos os resultados de alocação de memória.
343
XXXVII Congresso da Sociedade Brasileira de Computação
400 0,50
0,40
300
Respostas/ms
Latência (ms)
0,30
200
0,20
100
0,10
0 0,00
1 2 4 8 16 32 1 2 4 8 16 32
switches switches
Figura 3. Throughput do controlador (a) e latência (b) para um número variáveis de switches
344
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Latência. É importante ressaltar que a latência apresentada nos gráficos é a latência real
por comutador. Assim seu valor é determinado por 1/L, onde L é o número de respostas
por segundo. Conforme apresenta a Figura 3 (b), A curva de latência da função de rede
tem um comportamento diferente do esperado: A latência é praticamente constante até os
4 switches, decresce em 8 e 16 comutadores e depois aumenta quando a configuração tem
32. Esse comportamento da curva de latência apresentado é semelhante ao do controlador
floodlight nos resultados dos experimentos apresentados por (SALMAN et al., 2016).
Esse comportamento inesperado de Cbench também foi verificado em (KHATTAK et al.,
2014) nos testes de latência realizados com o controlador OpenDaylight, cujo tempo de
resposta também diminuiu com o número de switches emulados, sendo um
comportamento que precisa ser melhor investigado. A Figura 3 (b) mostra de forma clara
a diferença dos tempos de resposta do controlador para todos as funções de rede, sendo
possível visualizar a degradação de desempenho provocada pela virtualização dos
ambientes Xen e KVM. A VNF-KVM obteve o maior tempo de resposta porque utiliza
virtualização total, cuja emulação de dispositivos de rede realizada por QEMU no espaço
do usuário do host é onerosa e degrada o desempenho. A Tabela 3 mostra o throughput
e a latência do controlador normalizados para a função física.
345
XXXVII Congresso da Sociedade Brasileira de Computação
100 1400
1200
60 800
40 600
400
20
200
0 0
1 2 4 8 16 32 1 2 4 8 16 32
switches switches
Física VNF-KVM VNF-XEN Física VNF-KVM VNF-XEN
(a) (b)
Figura 4. Desempenho de CPU (a) e memória (b) das funções de rede
346
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
6. Conclusões
No presente trabalho, realizamos experimentos com um controlador SDN
implementado como funções virtuais nos ambientes KVM e XEN, e comparamos os
parâmetros de desempenho mais críticos em relação a um cenário nativo com o propósito
de mensurar a degradação de desempenho causada pela virtualização de funções de rede.
Conforme mostra a Tabela 3, a virtualização do controlador SDN resulta em
perdas significativas de desempenho, uma vez que as VNFs implementadas em KVM e
Xen atingiram apenas 71% e 74% do rendimento da função física. O tempo de resposta
do controlador também foi bastante prejudicado pela virtualização, sendo 22% maior no
ambiente KVM e 9% em Xen. O controlador virtualizado em Xen obteve melhor
rendimento e tempo de resposta porque utiliza para-virtualização enquanto KVM emula
dispositivos de E/S no espaço de usuário host com QEMU.
Referente ao desempenho de CPU, a VNF apresentou uma degradação de 25% no
ambiente Xen e 6% em KVM em relação a função física, o que nos permite concluir que
a VNF-XEN sobrecarregou a CPU porque processou uma maior quantidade de fluxos e
utilizou mais tempo de CPU no ambiente virtualizado. Acreditamos que a forte interação
inter domínio e o agendamento de máquinas virtuais de Xen contribuíram com a
sobrecarrega de CPU na VNF. Por outro lado, KVM – que é um hypervisor integrado ao
kernel Linux, insere uma pequena sobrecarga de processamento na VNF (6%) por que o
agendamento de CPU para as VMs é realizado pelo próprio kernel, sugerindo a emulação
de E/S como o grande responsável pela degradação de desempenho da VNF-KVM.
Os resultados dos experimentos mostram que a degradação de desempenho do
controlador resultou em uma menor utilização de memória RAM nas VNFs. A VNF
347
XXXVII Congresso da Sociedade Brasileira de Computação
alocou 24% da memória total em KVM e 22% em Xen representando, portanto, uma
utilização de 6% e 4% menor em relação a função física. As otimizações de acesso a
memória realizadas pelo hypervisor Xen podem ajudar a explicar a menor alocação de
RAM na respectiva VNF.
Apesar da significativa sobrecarga de CPU, concluímos que, quando comparado
a KVM, o hypervisor Xen é a melhor opção para a virtualização de controladores SDN.
Nossos resultados mostraram que, quando virtualizado no ambiente Xen, um controlador
SDN tem a menor degradação de desempenho, o melhor tempo de resposta e a menor
alocação de memória RAM. No entanto, mesmo com a paravirtualização do ambiente
Xen, a virtualização de um controlador SDN implica em uma considerável degradação de
desempenho, tornando-se necessário avaliar tecnologias de virtualização mais “leves” e
eficientes.
7. Trabalhos futuros
Futuramente, pretendemos avaliar o desempenho dos controladores baseado em
Kernel Linux (IVASHCHENKO et al., 2014) e Beacon (ERICKSON, 2013),
implementados como VNFs nos hypervisores Xen (virtualização total assistida por
Hardware – HVM), KVM com drivers paravirtualizados Virtio (RUSSELL, 2008) e
contêineres (FELTER et al., 2015), utilizando um maior número de comutadores
OpenFlow. Pretendemos também, demonstrar que Unikernels (XAVIER et al., 2016)
podem ser utilizados com tecnologias alternativas de implementação de dispositivos de
rede como Macvlan (HICUBE, 2017) e SR-IOV (ANDERSON et al., 2016) para
melhorar o desempenho de controladores SDN virtualizados.
Referencias
ANDERSON, J.; AGARWAL, U.; LI, H.; SOFTWARE, D. Performance Considerations
of Network Functions Virtualization using Containers. , p. 1–25, 2016.
BARHAM, P.; DRAGOVIC, B.; FRASER, K.; et al. Xen and the art of virtualization.
ACM SIGOPS Operating Systems Review, v. 37, n. 5, p. 164, 2003.
BELLARD, F. QEMU , a Fast and Portable Dynamic Translator. USENIX Annual
Technical Conference. Proceedings of the 2005 Conference on, p. 41–46, 2005.
BONAFIGLIA, R.; CERRATO, I.; CIACCIA, F.; NEMIROVSKY, M.; RISSO, F.
Assessing the Performance of Virtualization Technologies for NFV: a Preliminary
Benchmarking. , p. 67–72, 2015.
CHE, J.; YU, Y.; SHI, C.; LIN, W. A synthetical performance evaluation of OpenVZ,
Xen and KVM. Proceedings - 2010 IEEE Asia-Pacific Services Computing
Conference, APSCC 2010, p. 587–594, 2010.
COLLECTL. Collectl. Disponível em: <http://collectl.sourceforge.net/>. Acesso em:
2/2/2017.
EIRAS, R. S. V; COUTO, R. S.; RUBINSTEIN, M. G. Performance evaluation of a
virtualized HTTP proxy in KVM and Docker. 2016 7th International Conference on
the Network of the Future (NOF). Anais... . p.1–5, 2016. IEEE.
ERICKSON, D. The beacon openflow controller. Proceedings of the second ACM
SIGCOMM workshop …, p. 13–18, 2013. Disponível em:
348
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
<http://dl.acm.org/citation.cfm?id=2491189>. .
FELTER, W.; FERREIRA, A.; RAJAMONY, R.; RUBIO, J. An updated performance
comparison of virtual machines and Linux containers. 2015 IEEE International
Symposium on Performance Analysis of Systems and Software (ISPASS), p. 171–
172, 2015.
FLOODLIGHT, P. Project Floodlight: Open Source Software for Building Software-
Defined Networks. Disponível em: <http://www.projectfloodlight.org/>. Acesso em:
25/2/2017.
HICUBE. Bridge vs Macvlan. Disponível em: <http://hicu.be/bridge-vs-macvlan>.
Acesso em: 15/3/2017.
HUANG, L.; GU, R.; LIU, D.; et al. Benchmarking Methodology for Virtualization
Network Performance. Disponível em: <https://tools.ietf.org/html/draft-huang-bmwg-
virtual-network-performance-00>. Acesso em: 26/3/2017.
IETF. Network Virtualization Research Challenges. Disponível em:
<https://tools.ietf.org/html/draft-irtf-nfvrg-gaps-network-virtualization-02#page-15>.
Acesso em: 24/3/2017.
IVASHCHENKO, P.; SHALIMOV, A.; SMELIANSKY, R. High performance in-kernel
SDN/OpenFlow controller. Usenix.Org, p. 1–2, 2014.
JARSCHEL, M.; LEHRIEDER, F.; MAGYARI, Z.; PRIES, R. A flexible OpenFlow-
controller benchmark. Proceedings - European Workshop on Software Defined
Networks, EWSDN 2012, p. 48–53, 2012.
JEON, H.; LEE, B. Network Service Chaining Challenges for VNF Outsourcing in
Network Function Virtualization. , p. 819–821, 2015.
KHATTAK, Z. K.; AWAIS, M.; IQBAL, A. Performance evaluation of OpenDaylight
SDN controller. Proceedings of the International Conference on Parallel and
Distributed Systems - ICPADS, v. 2015–April, p. 671–676, 2014.
KIM, T.; KOO, T.; PAIK, E. SDN and NFV benchmarking for performance and
reliability. 2015 17th Asia-Pacific Network Operations and Management
Symposium (APNOMS), p. 600–603, 2015.
KIVITY, A.; LUBLIN, U.; LIGUORI, A.; KAMAY, Y.; LAOR, D. kvm: the Linux
virtual machine monitor. Proceedings of the Linux Symposium, v. 1, p. 225–230,
2007.
LAISSAOUI, C.; IDBOUFKER, N.; ELASSALI, R.; BAAMRANI, K. EL. A
measurement of the response times of various OpenFlow / SDN controllers with
CBench. , p. 0–1, 2015.
LI, Y.; CHEN, M. Software-Defined Network Function Virtualization: A Survey. IEEE
Access, v. 3, p. 2542–2553, 2015.
MANIK, V. K. Performance Comparison of Commercial VMM : , p. 1771–1775, 2016.
MAURICIO, L. A. F.; RUBINSTEIN, M. G.; DUARTE, O. C. M. B. Proposing and
evaluating the performance of a firewall implemented as a virtualized network
function. 2016 7th International Conference on the Network of the Future (NOF).
Anais... . p.1–3, 2016. IEEE.
349
XXXVII Congresso da Sociedade Brasileira de Computação
MIJUMBI, R.; SERRAT, J.; GORRICHO, J.-L.; et al. Network Function Virtualization:
State-of-the-art and Research Challenges. IEEE Communications Surveys &
Tutorials, , n. c, p. 1–1, 2015.
NUNES, B. A. A.; MENDONCA, M.; NGUYEN, X. N.; OBRACZKA, K.; TURLETTI,
T. A survey of software-defined networking: Past, present, and future of
programmable networks. IEEE Communications Surveys and Tutorials, v. 16, n.
3, p. 1617–1634, 2014.
RUSSELL, R. virtio: Towards a De-Facto Standard For Virtual I / O Devices. ACM
SIGOPS Operating Systems Review, v. 42, p. 95–103, 2008.
SAHOO, J. Virtualization : A Survey On Concepts , Taxonomy And Associated Security
Issues. IEEE Communications Surveys & Tutorials, 2010.
SALMAN, O.; ELHAJJ, I. H.; KAYSSI, A.; CHEHAB, A. SDN Controllers : A
Comparative Study. , , n. 978, p. 18–20, 2016.
SEMNANIAN, A. A.; PHAM, J.; ENGLERT, B.; WU, X. Virtualization technology and
its impact on computer hardware architecture. Proceedings - 2011 8th International
Conference on Information Technology: New Generations, ITNG 2011, p. 719–
724, 2010.
SHALIMOV, A.; ZIMARINA, D.; PASHKOV, V. Advanced Study of SDN / OpenFlow
controllers. Proceeding CEE-SECR ’13 Proceedings of the 9th Central & Eastern
European Software Engineering Conference in Russia, 2013.
SORIGA, S. G.; BARBULESCU, M. A comparison of the performance and scalability
of Xen and KVM hypervisors. Proceedings - RoEduNet IEEE International
Conference, 2013.
TOOTOONCHIAN, A.; GORBUNOV, S.; GANJALI, Y.; CASADO, M.; SHERWOOD,
R. On controller performance in software-defined networks. Proceeding Hot-ICE’12
Proceedings of the 2nd USENIX conference on Hot Topics in Management of
Internet, Cloud, and Enterprise Networks and Services, p. 10–10, 2012.
WANG, C. Toward High-Performance and Scalable Network Functions Virtualization. ,
2016.
WANG, G.; NG, T. S. E. The impact of virtualization on network performance of
Amazon EC2 Data Center. Proceedings - IEEE INFOCOM, 2010.
XAVIER, B.; FERRETO, T.; JERSAK, L. Time Provisioning Evaluation of KVM,
Docker and Unikernels in a Cloud Platform. Proceedings - 2016 16th IEEE/ACM
International Symposium on Cluster, Cloud, and Grid Computing, CCGrid 2016,
p. 277–280, 2016.
ZHAO, Y.; IANNONE, L.; RIGUIDEL, M. On the Performance of SDN Controllers : A
Reality Check. , p. 79–85, 2015.
350
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
marcelo.santos@ifsertao-pe.edu.br, jcnobre@unisinos.br
1. Introdução
O Internet Engineering Task Force (IETF) é uma comunidade internacional composta por
milhares de pessoas que trabalham, voluntariamente, no processo de padronização dos
protocolos da Internet. A forma como o IETF funciona, criando padrões abertos através
351
XXXVII Congresso da Sociedade Brasileira de Computação
do consenso, são fundamentais para que a Internet funcione de forma estável e eficiente.
Assim, através da colaboração de diversos membros organizados em grupos de trabalhos
(WG - working groups) temos, por exemplo, a padronização de protocolos como o TCP,
IPv4 e IPv6 que são fundamentais para o funcionamento de Internet. Nesse contexto
é importante a participação de membros brasileiros e da América Latina objetivando a
troca de conhecimento entre paı́ses emergentes, além de participação na construção de
uma rede cada vez melhor.
Este artigo tem como principal objetivo, analisar, sob a ótica da participação nas
reuniões do IETF, a efetividade das ações realizadas nos paı́ses da América Latina e Ca-
ribe na direção de identificar o que estimula a participação nestes encontros e também
delinear novas formas de fomentar a participação de novos membros. Para tanto, foram
analisados dados relacionados à inscrição nos encontros do IETF deste a segundo encon-
tro de 2008 (IETF 72) até o último de 2016 (IETF 97). Os resultados mostram que dentro
da América Latina, o Brasil tem se destacado pelo crescente número de participações nas
reuniões presenciais da IETF, sendo o paı́s com maior número de participantes.
O restante deste artigo está organizado da seguinte forma: na seção 2 é apre-
sentada uma descrição geral da ISOC, IETF, e outras organizações relacionadas ao tema
do trabalho. Na seção 3 estão descritos como e de onde os dados aqui utilizados fo-
ram obtidos e onde estão disponı́veis. Na seção 4 tem-se uma descrição sobre a área de
atuação do RIR que cuida dos recursos e facilidades da Internet na América Latia e Ca-
ribe. Na seção 6 serão tratados os resultados em forma de gráficos e tabelas. Na seção 7
estarão as considerações finais que concluem o trabalho adicionando, também, sugestões
e recomendações para uma participação mais efetiva tanto no IETF como no Internet
Research Task Force (IRTF).
352
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
353
XXXVII Congresso da Sociedade Brasileira de Computação
354
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
355
XXXVII Congresso da Sociedade Brasileira de Computação
Adicionalmente, o TAO da IETF [Hoffman and Harris 2006] fornece uma visão
de como o ecossistema da Internet funciona juntamente com o documento criado pela
ISOC 9 .
3. Metodologia
Como dito anteriormente, o IETF realiza três encontros presenciais anuais em dife-
rentes paı́ses. Desde o segundo encontro de 2008, o IETF vem disponibilizando na
web a relação dos inscritos em seus encontros. Um programa em PHP captura estas
informações e agrupa em um banco de dados todas as informações disponı́veis nas URLs
https://www.ietf.org/registration/ietfx/attendance.py, onde 72 ≤ x ≥ encontro atual.
Um outro programa exibe o conteúdo desta base10 .
Os encontros anteriores ao 72 estão disponı́veis em arquivos no formato PDF e
remontam desde o primeiro encontro. Foi feita uma coleta manual destes dados, restrita
ao número total de participantes e à participação brasileira. A Figura 3 exibe um gráfico
comparativo entre a participação global e a participação brasileira que somente começou
no encontro 36, o segundo encontro realizado no ano de 1996.
356
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Figura 4. Número de participantes nos encontros do IETF, dos paı́ses da América Latina
(encontros 72 a 97)
357
XXXVII Congresso da Sociedade Brasileira de Computação
11
https://pt.wikipedia.org/wiki/CcTLD
12
https://pt.wikipedia.org/wiki/Dom%C3%ADnio de topo
13
https://pt.wikipedia.org/wiki/Lista de territ%C3%B3rios dependentes
14
https://en.wikipedia.org/wiki/Dissolution of the Netherlands Antilles
15
http://www.nic.br/
16
http://www.nicmexico.mx/
358
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
359
XXXVII Congresso da Sociedade Brasileira de Computação
360
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
4. A região do LACNIC
O LACNIC é responsável pela designação e administração dos recursos de numeração
da Internet (IPv4, IPv6), Números Autônomos e Resolução Inversa, entre outros recursos
para a região da América Latina e o Caribe. É um dos cinco Registros Regionais da
Internet no mundo17 .
Complementarmente às Figuras 4 e ?? , a Figura 8 exibe um trecho do mapa
mundial com os territórios sob o controle do LACNIC em relação a seus recursos da
Internet. Detalhes sobre os paı́ses da América Latina e Caribe nos encontros do IETF
podem ser vistos na versão interativa do mapa18 .
Figura 8. Mapa interativo da participação dos paı́ses sob o controle dos recursos de Inter-
net, do LACNIC. Fonte e mapa interativo: https://goo.gl/V4cOvi
Cinco paı́ses nunca levaram participantes para reuniões do IETF: South Georgia
and The South Sandwich Islands, Honduras, Guiana, Guiana Francesa e Falkland Islands
(Malvinas). Honduras, coincidentemente está com duas participações no IETF 98. O
IETF 98 não foi considerado neste trabalho, e as participações da região do LACNIC
estão visı́veis na Tabela 1.
5. Participação do Brasil
A Figura 5 exibe a participação do Brasil nos encontros do IETF (cada coluna representa
a soma dos três encontros anuais), de 1996 até 2016. Como pode-se observar, a partir se
2009, o Brasil começou a aumentar a quantidade de participantes.
17
http://www.lacnic.net/pt/web/lacnic/acerca-lacnic
18
https://goo.gl/V4cOvi
361
XXXVII Congresso da Sociedade Brasileira de Computação
Na subseção 5.1, serão discutidas algumas ações realizadas no Brasil que con-
tribuı́ram para este resultado.
362
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
363
XXXVII Congresso da Sociedade Brasileira de Computação
pequena. Considerando o melhor conhecimento dos autores, podem ser citadas as se-
guintes participações em documentos para o IETF/IRTF: Antônio Moreiras (Núcleo de
Informação e Coordenação do Ponto BR - NIC.BR), Edwin Cordeiro (Technical Uni-
versity of Munich), Frederico Neves (NIC.BR), Julião Braga (Universidade Presbiteriana
Mackenzie e University of Saskatchewan).
Dificuldades financeiras podem ser citadas para esta escassez de participações, já
que as oportunidades de financiamento são menores do que aquelas oferecidas em outros
paı́ses. Neste contexto, a Chamada Pública 0001/2014, financiada pelo CGI.br, propor-
ciona um auxı́lio significativo para o desenvolvimento de atividades conjuntas entre o
IETF/IRTF e membros de instituições de pesquisa e fabricantes de equipamentos basea-
dos no Brasil.
Esta iniciativa selecionou 4 participações nas reuniões do IETF: o projeto
“Utilização de Tecnologia Par-a-Par para Controle Autonômico Distribuı́dos de Sondas
de Monitoramento em Redes de Computadores”, dos autores Jéferson Nobre e Lisan-
dro Granville, representando a Universidade Federal do Rio Grande do Sul (UFRGS);
o projeto “Metrologia e ciência de redes aplicadas à Internet”, dos autores Klaus Weh-
muth e Artur Ziviani, representando o Laboratório Nacional de Computação Cientı́fica
(LNCC/MCTI); e o projeto “Redes Definidas por Software considerando cenários com
Virtualização de Funções da Rede”, dos autores Marcelo Santos, Felipe Lopes, Leonidas
Lima e Stênio Fernandes, representando a Universidade Federal de Pernambuco (UFPE).
Além destes, também foi selecionado o apoio à participação de Denis Michellis, na moda-
lidade de profissionais vinculados à indústria de redes nacional, funcionário da instituição
Telefônica Brasil SA.
A participação dos pesquisadores dos projetos contemplados no IETF através
desta chamada foi benéfica para os próprios pesquisadores assim como para a inserção
brasileira no IETF. A experiência ganha em tal participação tem sido compartilhada nas
instituições dos pesquisadores, o que pode auxiliar no desenvolvimento e padronização
de protocolos para a Internet.
7. Considerações finais
Há diversas outras fontes de recursos para participações, além daquelas descritas acima. O
IV Workshop pré IETF, com apoio do capı́tulo brasileiro da ISOC Brasil está implemen-
tando pela primeira vez uma premiação que envolve a participação de autores de trabalhos
premiados, no próximo encontro do IETF, após a realização do Workshop. Além disso,
o Applied Networking Research Workshop (ANWR)26 , uma iniciativa do IRTF, é outro
exemplo de fonte de recursos que fomentam a dupla participação: no próprio ANWR e no
IETF que se realiza na sequência. No primeiro encontro do ANWR houve, pelo menos,
três participações brasileiras, sendo duas delas estudantes com bolsa do ANWR.
Tais oportunidades devem ser divulgadas sem restrições com o objetivo de in-
centivar estudantes, professores e profissionais que trabalham na área. Adicionalmente,
iniciativas como as da ISOC Brasil, CGI.br devem ser estimuladas e ampliadas para a
região do LACNIC. A experiência provocada por iniciativa do CGI.br, descrita na seção
(6) deve ser estimulada a se repetir, pois ela permitiu a ocupação de espaços importan-
26
https://irtf.org/anrw/
364
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
tes, de liderança, nas atividades que gravitam em torno do IETF, IRTF, ISOC e outras
instituições associadas27 .
Parece ter chegado o momento de provocar a efetiva participação de voluntários
brasileiros no desenvolvimento de documentos para o IETF e/ou IRTF. Neste sentido, a
Internet Academy28 (IA) reproduz propostas interessantes. Além de ações de atualização
da aprendizagem de redes de longa distância projeta-se um treinamento focado no vo-
luntariado efetivo, em particular, do IETF. Adicionalmente, a IA está propondo diversas
edições de ”hackathon”durante eventos importantes no Brasil e no restante da região do
LACNIC.
Referências
Alvestrand, H. (2004). A Mission Statement for the IETF. BCP 95, RFC Editor.
Bradner, S. O. (1996). The Internet Standards Process – Revision 3. BCP 9, RFC Editor.
http://www.rfc-editor.org/rfc/rfc2026.txt.
Braga, J., Granville, L. Z., O’Flaherty, C., and Moreiras, A. M. (2014). O Livro do IETF.
CGI.br, São Paulo, 1 edition.
Braga, J. and Omar, N. (2014). Semantic Repository in Internet Infrastructure Knowledge
Domain: Methodology. In Anais do CSBC 2014, pages 2179–2184, Brası́lia, DF.
Hoffman, P. and Harris, S. (2006). The Tao of IETF - A Novice’s Guide to the Internet
Engineering Task Force. RFC 4677, RFC Editor.
Huizer, E. (1996). Ietf-isoc relationship. RFC 2031, RFC Editor.
Leiner, B. M., Cerf, V. G., Clark, D. D., Kahn, R. E., Kleinrock, L., Lynch, D. C., Pos-
tel, J., Roberts, L. G., and Wolff, S. (2009). A brief history of the Internet. ACM
SIGCOMM Computer Communication Review, 39(5):22–31.
Postel, J. (1993). Instructions to RFC Authors. RFC 1543, RFC Editor.
Simonelis, A. (2005). A concise guide to the major internet bodies. Ubiquity,
2005(February):2–2.
Weinrib, A. and Postel, J. (1996). IRTF Research Group Guidelines and Procedures.
BCP 8, RFC Editor. http://www.rfc-editor.org/rfc/rfc2014.txt.
27
https://sites.google.com/site/internetresearchlabs/
28
http://www.internetacademy.org.br
365
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Ambientes desafiadores (Challenged Networks) apresentam dificuldades para o funcio-
namento de redes tradicionais, como a Internet. As condições encontradas nestes am-
bientes ocasionam alguns problemas em redes de computadores, como por exemplo
longos perı́odos de desconexões que dificultam a comunicação fim-a-fim. São exem-
plos de ambientes desafiadores a Internet Interplanetária (InterPlanetary Networking -
IPN), Redes em Campos de Batalha (Battlefield Networking), comunicações rurais e
comunicações submarinas. Essas redes são agrupadas pelo conceito de Redes Tolerantes à
Atrasos/Desconexões (Delay/Disruption Tolerant Networking - DTN) [Cerf et al. 2007].
O conceito de DTN tomou forma através dos estudos do Grupo de Pesquisa
de DTN (DTN Research Group - DTNRG) da IRTF (Internet Research Task Force)
[DTNRG 2016]. Esta equipe desenvolveu um framework para DTN com o objetivo de
auxiliar na resolução dos problemas encontrados nos ambientes desafiadores, e de tor-
nar viável a utilização efetiva de redes nestes ambientes. Considerando que seu objetivo
principal fora concluı́do, a equipe transferiu a responsabilidade de novas implementações
para o grupo de trabalho de DTN (DTN Working Group - DTNWG) da IETF (Internet
Engineering Task Force) [DTNWG 2016].
O DTNRG percebendo a necessidade de um mecanismo padrão para auxiliar na
comunicação entre nodos em DTNs, desenvolveu o protocolo Bundle (Bundle Protocol -
366
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
2. Fundamentação Teórica
O Protocolo Bundle (Bundle Protocol - BP) foi desenvolvido pelo DTNRG, e seu ob-
jetivo é tratar de alguns problemas encontrados em DTNs e abstrair a responsabilidade
de aplicações que rodam nestas redes de resolve-los. A sua arquitetura foi desenvol-
vida para atender as necessidades de uma grande variedade de classes de redes di-
vergentes, incluindo IPN, redes submarinas, redes de campos de batalha, entre outros.
[Wood et al. 2009].
A especificação descrita na RFC 5050, define que o BP trabalha na camada de
agregação, e se utiliza de interfaces com as camadas inferiores chamadas de Adaptado-
res da Camada de Convergência (Convergence Layers Adapters - CLAs) para realizar o
transporte de informações. Não é necessário instalar o BP em todos o nodos de uma rede,
apenas nos endpoints e em alguns nodos intermediários selecionados, geralmente locali-
zados nas bordas das partes homogêneas de uma rede heterogênea. A Figura 1 apresenta
a estrutura encontrada em uma rede DTN.
367
XXXVII Congresso da Sociedade Brasileira de Computação
Isto torna possı́vel que seja usado em cada pulo o melhor protocolo de transporte para
aquela situação. Esta possibilidade de juntar protocolos de acordo suas caracterı́sticas é
a primeira grande vantagem oferecida pela arquitetura do BP. Em particular, isto permite
o uso de variantes especializados do TCP, como o Hybla [Caini and Firrincieli 2004], em
links de GEO satélites, ou protocolos especializados como o Saratoga [Wood et al. 2007]
e o LTP (Licklider Transmission Protocol) [Ramadas et al. 2008], em satélites LEO (Low
Earth Orbit) e pulos no espaço livre [Rodrigues 2014].
A fragmentação do bundle é uma das caracterı́sticas mais distinguiveis de DTN.
Pode ser proativa para ajustar a dimensão de um bundle com a limitação de dados que po-
dem ser transferı́veis em um contato, ou reativa, para evitar retransmissão de informação
já recebida em caso de desconexão de um link. Com relação a fragmentação reativa, é
preciso notar que a possibilidade de reiniciar um download de um ponto intermediario
é muito comum em muitas aplicações de transferências de arquivos. Essa caracterı́stica
agora é oferecida a camadas superiores, por exemplo para aplicações DTN, como um
serviço do BP. Em contraste com aplicações TCP, as aplicações DTN não precisam in-
cluir qualquer código para implementar esta função.
368
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
369
XXXVII Congresso da Sociedade Brasileira de Computação
Um bundle pode ter múltiplos blocos de segurança e esses blocos podem ter di-
ferentes nodos de origem. Cada bloco de segurança em um bundle deve ser associado
com uma operação de segurança especı́fica. Todos os blocos de segurança que realizam a
mesma operação devem ter o mesmo nodo de origem.
Por fim, todos os nodos devem enviar os blocos na mesma ordem em que os re-
ceberam. Este requisito se aplica em toda a DTN, não apenas nos nodos que adicionam
blocos de segurança ou os processam.
Diferentes nodos em uma DTN podem ter diferentes capacidades de segurança.
Alguns nodos podem não ser cientes de segurança e não irão entender qualquer bloco de
extensão relacionado a segurança. Outros nodos podem ter polı́ticas de segurança que irão
requerer que os serviços de segurança sejam processados em nodos que não o de destino
do bundle (por exemplo, verificar assinaturas de integridade em nodos que se encontram
antes do destino). Alguns nodos podem ignorar o processamento de segurança se eles não
forem o destino no bundle.
370
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
de proteger os dados que estão sendo transportados no bundle e outros tipos de dados
(e.g. metadados), com diferentes chaves. Ambas destas caracterı́sticas são inovadores e
permitem proteger eficientemente o tráfego do bundle.
O BSP pode adicionar os seguintes blocos de segurança em um Bundle:
É importante citar que alguns aspectos definidos em [Symington et al. 2011] fo-
ram recentemente descobertos como dificilmente compatı́veis com a fragmentação do BP.
É muito provável que as caracterı́sticas do BSP sejam revisadas e simplificadas em um
futuro próximo para remediar este problema [Rodrigues 2014].
371
XXXVII Congresso da Sociedade Brasileira de Computação
5. Discussão
As três extensões para o BP citadas neste trabalho, apesar de serem consideradas dife-
rentes, são na verdade uma evolução de um mesmo conceito. O BSP sendo a primeira
extensão a ser desenvolvida, apresentou um grande problema em relação a complexidade
de implementação. O SBSP partiu da ideia do BSP e foi uma tentativa de simplificação
deste. Por fim a mais recente extensão chamada de BPSec, seria a versão definitiva de
segurança para o BP.
A maior diferença notável entre as extensões é a simplificação de seus blo-
cos de segurança, que com o tempo foram diminuindo de quantidade para facilitar sua
implementação. Com isso o ganho de performance do BPSec também é maior, pois com
menos blocos de segurança, mais rápido serão os processamentos de segurança em cada
nodo.
É importante citar que não existe uma comparação de performance testada entre
as extensões, mas com a diminuição de processamentos de segurança em cada nodo, se
espera que exista uma diferença.
372
4º WPIETFIRTF - Workshop Pré-IETF-IRTF
Referências
Birrane, E. (2014). Streamlined bundle security protocol specification. Technical report,
Delay-Tolerant Networking Research Group.
Caini, C. and Firrincieli, R. (2004). Tcp hybla: a tcp enhancement for heterogene-
ous networks. International journal of satellite communications and networking,
22(5):547–566.
Cerf, V., Burleigh, S., Hooke, A., Torgerson, L., Durst, R., Scott, K., Fall, K., and Weiss,
H. (2007). Rfc 4838. Delay-Tolerant Networking Architecture, IRTF DTN Research
Group, April.
DTNRG (2016). Delay-tolerant networking research group.
¡https://irtf.org/concluded/dtnrg¿. Acesso em: ago. 2016.
DTNWG (2016). Delay-tolerant networking working group.
¡https://datatracker.ietf.org/wg/dtn/charter/¿. Acesso em: set. 2016.
Ivancic, W. D. (2010). Security analysis of dtn architecture and bundle protocol specifi-
cation for space-based networks. In Aerospace Conference, 2010 IEEE, pages 1–12.
IEEE.
Ramadas, M., Burleigh, S., et al. (2008). Licklider transmission protocol-specification.
Rodrigues, J. (2014). Advances in delay-tolerant networks (dtns): Architecture and
enhanced performance.
Scott, K. and Burleigh, S. (2007). Bundle protocol (bp). ietf request for comments. Tech-
nical report, RFC 5050.
Symington, S., Farrell, S., Weiss, H., and Lovell, P. (2011). Bundle security protocol
specification. Technical report.
Wood, L., Eddy, W. M., and Holliday, P. (2009). A bundle of problems. In Aerospace
conference, 2009 IEEE, pages 1–17. IEEE.
Wood, L., Eddy, W. M., Ivancic, W., McKim, J., and Jackson, C. (2007). Saratoga: a
delay-tolerant networking convergence layer with efficient link utilization. In Satellite
and Space Communications, 2007. IWSSC’07. International Workshop on, pages 168–
172. IEEE.
373
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
O Workshop de Transparência em Sistemas é um fórum que visa agregar pesquisadores
de diferentes áreas com interesse no tema de transparência dentro de um contexto
computacional. Este tema está ligado à movimentos que registram uma forte tendência na
necessidade de considerar explicitamente a informação aberta em dados, processos e
software que são de interesse de uma organização e da sociedade.
No campo público, a Lei de Acesso à Informação brasileira é um reflexo desse
movimento e traz uma série de desafios para a evolução de sistemas que precisam lidar
com informação aberta. Porém, não só as organizações públicas estão neste movimento
mas também organizações privadas preocupadas em fornecer mais informações
internamente e externamente a seus clientes e acionistas. Esses desafios estão presentes
em diversas áreas de conhecimento, com forte impacto na Ciência da Computação que se
vê atualmente de frente com essa nova demanda.
Abertura de dados, usabilidade orientada à sociedade, qualidade e garantia de
entendimento da informação, proveniência e confiança na informação são algumas das
novas necessidades que a maioria das organizações, sociedade, pessoas e outros sistemas
terão que atender. Discuti-los num contexto de software, que apoiarão estes sistemas, é
importante para que se possa ter uma visão interdisciplinar para um desafio de tal
magnitude. O desafio aplica-se tanto na forma de uso de softwares para prover
transparência, como na própria transparência da arquitetura, componentes e métodos de
construção dos softwares em si. Discutir sob a ótica de pesquisa como tratar estes desafios
indicando de que forma a criação de métodos e tecnologias pode dar efetivo apoio à sua
adoção nas mais diversas áreas e segmentos de mercado é o objetivo central do V
Workshop de Transparência em Sistemas (WTranS).
374
5º WTranS - Workshop de Transparência em Sistemas
Comitê Organizador
Claudia Cappelli (UNIRIO), Vanessa Nunes (UnB)
375
XXXVII Congresso da Sociedade Brasileira de Computação
Palestras
Anonimização e proteção de informações pessoais na transparência passiva
Organização Transparência Brasil – Manoel Galdino (Diretor Executivo)
Iremos apresentar nossa experiência com acesso aos pedidos e respostas dos órgãos
governamentais, e como (não) funciona a proteção de dados pessoais. Além disso, iremos
discutir os desafios da anonimização após a coleta dos dados: como estão organizados os
dados e apontamentos de algoritmos de machine learning que poderiam ser úteis para
endereçar o problema
376
5º WTranS - Workshop de Transparência em Sistemas
Trabalhos aceitos
Transparência de Software Centrada na Análise de Sites
Luiz Paulo Carvalho, Claudia Cappelli, Flávia Maria Santoro
377
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O acesso às informações referentes às instituições públicas é garantido ao cidadão pela
Lei de Acesso à Informação (LAI) ou Lei 12.527 (Brasil, 2011), regulamentada pelo
decreto Nº 7.724 (Brasil, 2012) criando mecanismos que possibilitam, a qualquer
pessoa, física ou jurídica, sem necessidade de apresentar um motivo explícito de uso da
informação, o recebimento de informações públicas dos órgãos e entidades. Tais
informações podem ser apresentadas de forma ativa, por requerimento do cidadão, ou
passiva, disponibilizadas espontaneamente e voluntariamente pela organização.
A Corregedoria Geral da União (CGU), a partir do decreto regulamentado,
ordenou a operacionalização de iniciativas de transparência nos alvos previstos em lei,
entre eles as universidades federais de ensino superior. Estas instituições possuem
iniciativas e políticas próprias de transparência para garantir a execução da LAI e assim
estar em conformidade com a fiscalização e monitoramento da CGU. Analisando alguns
exemplos como a Universidade Federal Fluminense (UFF) 1 e Universidade Federal do
1
https://sistemas.uff.br/transparencia
378
5º WTranS - Workshop de Transparência em Sistemas
Estado do Rio de Janeiro (UNIRIO) 2, podemos ver que estas possuem sites
centralizados específicos para este fim. Neste trabalho serão apresentadas as
características da UNIRIO.
Para suprir esta demanda, a UNIRIO criou a Comissão Permanente de
Transparência Organizacional (CPTO) que tem como objetivo executar e implantar a
LAI na instituição. Este trabalho é regulado pela Ordem de Serviço 004, de 25 de maio
de 2012 3. Dois grupos de trabalho foram iniciados por Portarias determinadas, em 2012
e 2015 4. A iniciativa foi delegada desde seu início à Pró Reitoria de Planejamento
(PROPLAN), sendo responsável pela constituição e encarregada da CPTO atualmente
(Portaria n. º 925, de 10 de outubro de 2016) 5. A PROPLAN esteve à frente pois a ela é
subordinada a Diretoria de Avaliação e Informações Institucionais (DAINF) 6.
Todas as iniciativas usaram a Internet como meio para transparência ativa e
passiva (Fung et al. 2007), utilizando sites para este fim. Inicialmente, as informações
eram disponibilizadas em uma página específica, vinculada à página principal da
instituição. Posteriormente, passaram para um site específico, centralizando todas as
informações da organização que, como ordena lei, devem ser transparecidas. São
disponibilizados também formulários para transparência ativa, onde o cidadão pode,
sem motivo explícito, requerer informações (aquelas que a lei garante acesso).
Dentre os meios mais acessíveis e disponíveis de apresentar informação pública,
um deles é a Tecnologia da Informação e Comunicação (TIC) (Davies, 2015) como a
Internet, possibilitando mais alcance e acessibilidade. Na UNIRIO, todas as estruturas
que participam da arquitetura organizacional devem apresentar suas informações como
ordena a LAI, sendo uma missão não apenas centralizada, mas também fragmentada em
cada Unidade Administrativa, Centro, Escola e Programa. Centralizando as informações
ortogonais a todas unidades encontra-se um portal de transparência como indexador das
diversas estruturas.
Um dos desafios apresentados pela CPTO é padronizar e criar uma identidade
visual para os sites da organização, de forma que eles atendam aos requisitos e boas
práticas do Web Design, da arquitetura da informação e da LAI. Entretanto, surge um
desafio transversal a este: os três itens citados operacionalizados corretamente
objetivam conformidade mandatória a transparência, não cobrindo seus aspectos não-
funcionais. A disponibilidade dos dados não garante que, de fato, haja qualidade na
transparência, e.g. o website pode não ser interpretado pela maioria dos navegadores; as
informações podem estar em extensões impróprias de leitura e uso (como tabelas em
formato de imagem); os scripts e plug-ins podem não estar acessíveis; objetos de
impossível rastreamento; páginas desconexas do resto do mapa do site; informações
confusas e termos complexos; informações sem fontes confiáveis; etc. são exemplos em
conformidade com a LAI, mas que efetivamente limitam a transparência. A
transparência como objetivo, aplicada, deve também estar alinhada com seus atributos
não-funcionais, visando não apenas sua mera operacionalização como sua qualidade
efetiva, que garanta ao cidadão, de fato, a transparência (Cappelli, 2009).
2
http://www2.unirio.br/unirio/lai
3
http://www.unirio.br/proplan/ordem-de-servico-004-25-05-12-lai
4
http://www.unirio.br/proplan/transparencia-unirio
5
http://www.unirio.br/proplan/Portaria109209.12.2016NomeiaCPTO.pdf
6
http://www.unirio.br/proplan/dainf
379
XXXVII Congresso da Sociedade Brasileira de Computação
2. Transparência de Software
Transparência pode ser obtida através da implementação de um conjunto de
características (Cappelli, 2009). Cappelli (2009) utilizou um SIG (Chung et al. 2000)
para representar o conceito de transparência (Figura 1). Este conceito foi aplicado para o
domínio da Engenharia de Software, tendo como tópico o software (Leite, 2010).
380
5º WTranS - Workshop de Transparência em Sistemas
Descrição.
Características Tem capacidade de...
Portabilidade Ser utilizado em diversos ambientes.
Acessibilidade Disponibilidade Aceitar solicitações.
Publicidade Ser conhecido.
Uniformidade Manter uma única forma.
Intuitividade Ser utilizado sem aprendizado prévio.
Simplicidade Não apresentar dificuldades ou obstáculos.
Usabilidade
Amigabilidade Uso fácil.
Operabilidade Ser executado.
Desempenho Operar adequadamente.
Clareza Prover informações com nitidez.
Acurácia Ausência de erros.
Completeza Não faltar nada do que pode ou deve ter.
Corretude Ser isento de erros.
Informativo Resultar aproximadamente em várias medições
Consistência
de um mesmo item.
Integridade Ser preciso e rigoroso.
Ser confrontado com outro para lhe determinar
Comparabilidade
diferença, semelhança ou relação.
Atualidade Refletir a última informação ou mudança.
Construir ou formar a partir de diferentes
Compositividade
partes.
Concisão Ser resumido.
Entendimento
Divisibilidade Ser particionado.
Mudar de acordo com as circunstâncias e
Adaptabilidade
necessidades.
Explicável Explicar os dados, procedimentos e regras.
Seguir o desenvolvimento de um processo ou a
Rastreabilidade construção de uma informação, suas mudanças
e justificativas.
Auditabilidade Ser legitimado, identificar se o que está sendo
Verificabilidade
feito é o que deve ser feito.
Ser testado por experimentação ou observação,
Validade
identificar se o que está sendo feito é correto.
Controlabilidade Ser controlado.
Cada uma das características é implementada a partir de uma ou mais
operacionalizações. Elas têm como objetivo analisar e avaliar a prática das
características, e.g. a concisão pode ser alcançada fazendo uso de resumos ou opções de
expansão para visualizar “mais detalhes”; uniformidade é operacionalizada com
381
XXXVII Congresso da Sociedade Brasileira de Computação
consistência entre informações, páginas, layout, etc.; adaptabilidade pode ser alcançada
quando se permite ao usuário que utilize dados diferentes com o mesmo valor semântico
(se não tiver CPF, então o passaporte para identificá-lo); uma diagramação bem
arquitetada e implementada gera mais simplicidade, uma outra operacionalização da
simplicidade é o uso consciente e com boa prática das cores; etc.
Para um software ser dito totalmente transparente ele deve estar habilitado com
todas as características descritas na Tabela 1 através de operacionalizações específicas
para software. Um software é considerado transparente quando: (i) apresenta
informações de forma transparente (transparência de informações geradas pelo
software) e (ii) quando apresenta informações sobre si, como opera, o que faz e o
motivo (transparência do processo de desenvolvimento de software) (Leite e Cappelli,
2008). O Catálogo de Transparência de Software 7 apresenta características e
operacionalizações específicas para atender a estes dois tipos de transparência de
softwares em geral.
Como exemplos de transparência de software temos: o uso e manutenção dos
padrões de nomes (como variáveis, funções, módulos, etc.), podendo ser
operacionalizada também na Web com os seletores de id e classe no Cascade Style
Sheet (CSS) (uniformidade); resolução e aprimoramento do tempo de falha
(operabilidade); organização do tamanho dos módulos e das sentenças no código
(intuitividade); disponibilização do código de forma aberta (adaptabilidade); entre
outras. Estes tipos de operacionalizações de transparência de software se enquadram na
transparência do processo de desenvolvimento de software, não se relacionando
diretamente à LAI.
7
http://transparencia.inf.puc-rio.br/wiki/index.php/Catálogo_Transparência
8
http://pes.inf.puc-rio.br/questionario/index.html
382
5º WTranS - Workshop de Transparência em Sistemas
por parte dos usuários. Cada característica agrupadora foi definida como um critério de
avaliação e as demais foram definidas como subcritérios. Cada uma delas foi explicada
usando uma descrição acerca do seu significado. As descrições foram adaptadas a partir
das descrições da Tabela 1 para atenderem ao tópico de sites. Essas descrições ficam
disponíveis para consulta dos usuários. A Figura 2 apresenta a descrição para
“Acessibilidade” / “Portabilidade”.
Questão 1: O site pode ser acessado por diferentes browsers? Ex.: O site das lojas
Americanas pode ser acessado via Mozilla Firefox, Google Chrome, dentre outros.
❖ Objetivo: Investigar se o site está preparado para ser acessado usando qualquer
browser, seja através de plug-ins ou outras tecnologias apropriadas.
❖ Justificativa: Garantir a portabilidade em diferentes browsers para facilitar o
acesso aos conteúdos oferecidos pelo site.
383
XXXVII Congresso da Sociedade Brasileira de Computação
384
5º WTranS - Workshop de Transparência em Sistemas
5. Conclusão
Este trabalho buscou apresentar como avaliar a transparência centrada na análise de
sites. Seu principal objetivo foi buscar mecanismos que possam auxiliar a CPTO da
UNIRIO a habilitar a transparência em seus sites informacionais. Esse trabalho usou
como base uma primeira iniciativa de análise de transparência em sites apresentada na
Seção 3, onde foram determinadas as principais características que ajudam a analisar
transparência. Estas características foram usadas como critérios, de acordo com o SIG
de Transparência. Os critérios contemplados na análise são: acessibilidade, usabilidade,
informativo, entendimento e auditabilidade. Associados a esses critérios existem vários
385
XXXVII Congresso da Sociedade Brasileira de Computação
outros subcritérios (ex. portabilidade, clareza e validação) que também foram utilizados
visando uma análise mais refinada e modularizada. Como instrumento de avaliação de
sites sob a perspectiva da transparência, foi desenvolvido um questionário.
Atualmente, este questionário encontra-se desatualizado pois foi construído ao
longo do desenvolvimento do SIG de Transparência. A proposta deste trabalho foi
revisar este questionário já existente, verificando o que deve ser mantido e definindo
como este deve ser atualizado, incluindo também alguns novos elementos para melhoria
do mesmo.
Como trabalho futuro será implementada sua versão online, o Formulário
Transparência Online. Será também implementado um banco de dados e elaborados os
desenhos lógico e físico do mesmo. Buscar-se-ão voluntários para utilização do
formulário, armazenadas e analisadas suas respostas para averiguar a utilização do
artefato. Realização de estudos para que o artefato abranja também plataforma mobile.
Um dos desafios observados é que como a TIC, incluída nela a Web, está em
constante desenvolvimento e mudança, desta forma, o formulário online deve ser
atualizado constantemente, verificando se os exemplos ainda são reais e usáveis, se não
há necessidade de mais perguntas, mudanças nas perguntas atuais, etc.
6. Referências
Brasil, DECRETO Nº 7.724, DE 16 DE MAIO DE 2012. Disponível em:
http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2012/decreto/d7724.htm.
Acesso em: 03/03/2017.
Brasil, LEI Nº 12.527, DE 18 DE NOVEMBRO DE 2011. "Lei de Acesso à
Informação". Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-
2014/2011/lei/l12527.htm. Acesso em: 03/03/2017.
Cappelli, C. (2009) "Uma Abordagem Para Transparência Em Processos
Organizacionais Utilizando Aspectos". Tese de Doutorado, Pontifícia Universidade
Católica do Rio de Janeiro, Brasil.
Chung, L., Nixon, B. A., Yu, E., Mylopoulos, J. (2000) “Non-Functional Requirements
in Software Engineering.” Kluwer Academic Publishers, Londres.
Davies, R. (2015) "eGovernment: Using technology to improve public services and
democratic participation". Serviço de Pesquisa do Parlamento Europeu, União
Europeia.
Fung, A., Graham, M. e Weil, D. (2007) "Full Disclosure: The Perils and Promise of
Transparency". Cambridge University Press, Estados Unidos da América.
Henry, S., Arch, A. (2012) "Developing a Web Accessibility Business Case for Your
Organization". W3C. Disponível em: https://www.w3.org/WAI/bcase/ Acesso em:
03/03/2017.
Krug, S. (2014) "Don't Make Me Think, Revisited: A Common Sense Approach to Web
Usability". New Riders Publishing, Estados Unidos da América.
Leite, J. C. S. P. (2010) “Software Transparency”. Procedimentos do 13º Congresso
Iberoamericano em Engenharia de Software.
386
5º WTranS - Workshop de Transparência em Sistemas
387
XXXVII Congresso da Sociedade Brasileira de Computação
: Participação
do Cidadão e Organizações na Elaboração de Políticas
Públicas
Vladimir Fagundes, Jonice de Oliveira Sampaio
1. Introdução
O termo “gestão pública participativa”1 tornou-se corriqueiro nos discursos políticos dos
atores governamentais, porém sua prática não efetivada e o estimulo a participação do
1
Gestão Pública Participativa (co-gestão pública) - são às intervenções populares, constituídas pelo conjunto de cidadãos ou
associações representativas da comunidade, sobre a qual incidirão as políticas públicas, cujas demandas ganham visibilidade
através das consultas populares, audiências públicas ou concerto. Aquelas intervenções têm como fim influenciar o conteúdo da
388
5º WTranS - Workshop de Transparência em Sistemas
decisão administrativa de modo efetivo ou se constituírem na própria decisão administrativa definidora daquelas políticas.
[SOARES 1997]
389
XXXVII Congresso da Sociedade Brasileira de Computação
Esse artigo está estruturado da seguinte forma: além desta seção, que apresenta
cenário, motivação, especificação do problema, a pergunta de pesquisa e a organização
do estudo, existem outras três seções, organizadas conforme se descreve a seguir.
A Seção II apresenta a metodologia de pesquisa aplicada ao artigo, a forma de
coleta de dados, dando uma visão geral do que é a plataforma Participa.br e de como os
dados estão estruturados na mesma. Além disso, detalha como os dados da plataforma
foram transformados para elaboração do estudo. A Seção III apresenta quais métricas
foram utilizadas e as análises dos dados tomando como base tabelas e grafo gerados pela
ferramenta Gephi (ferramenta escolhida para dar suporte às análises da pesquisa). A
Seção IV oferece as conclusões desta pesquisa, demonstrando suas contribuições,
limitações e trabalhos futuros.
2. Metodologia de Pesquisa
Em função dos objetivos, esta pesquisa é classificada como descritiva, utilizando a
estratégia de estudo de caso. Neste estudo foi usada a pesquisa descritiva que, segundo
Vergara (2014), tem como objetivo a descrição das características de determinada
população, fenômeno ou o estabelecimento de relações entre as variáveis.
390
5º WTranS - Workshop de Transparência em Sistemas
391
XXXVII Congresso da Sociedade Brasileira de Computação
situação estava preenchida com “0” (não aceito) o atributo “Source” foi preenchido com
Identificador do Autor e o atributo “target” preenchido com Identificador da Consulta,
para o caso da situação igual a “1” (aceito) o atributo “Source” foi preenchido com
Identificador da Consulta e o atributo “target” preenchido com Identificador do Autor.
Para preencher a Tabela Nó utilizou-se Identificador do Autor e Nome da Organização.
A ferramenta Gephi2 foi o software escolhido para gerar a estrutura da rede, o grafo de
distribuição da rede e a visualização dos graus de entrada e saída. A Figura 4 mostra um
extrato das tabelas preenchidas.
2 A ferramenta para manipulação de grafos mais utilizada tem sido o Gephi, um software livre colaborativo mantido por
um sediado na França, com inúmeras aplicações em áreas como as ciências biológicas ou a economia – aqui, comentamos sua
utilização em projetos ligados à história e à análise textual.
3 Sistema de Administração dos Recursos de Tecnologia da Informação - SISP
4 Plano Diretor de Tecnologia da Informação e Comunicação - PDTIC
5 Padrões de Interoperabilidade de Governo Eletrônico - ePing
392
5º WTranS - Workshop de Transparência em Sistemas
3. Análise de Resultados
A primeira análise das consultas públicas do Participa.br é feita apresentando a
distribuição do grau de entrada e saída agrupando as sugestões enviadas pelos autores
por instituição vinculada, como pode ser observado na Figura 5 apresentada abaixo.
393
XXXVII Congresso da Sociedade Brasileira de Computação
Analisando com um pouco mais de detalhe é possível inferir outras variáveis que
corroboram para a participação de pessoas ligadas as instituições na construção de
políticas, primeiramente esses indivíduos, invariavelmente, estão engajados em projetos
que serão impactados por tais políticas e, como possuem conhecimentos sobre o tema,
têm interesse individual em externar suas sugestões, já o segundo ponto diz respeito aos
compromissos dessas instituições com a sociedade, visto que duas são empresas
públicas federais e a outra fundação federal.
A Figura 6 apresenta um grafo da rede da interação das organizações com as
políticas públicas.
394
5º WTranS - Workshop de Transparência em Sistemas
4. Conclusão
Este artigo apresentou a rede formada pelas Consultas Públicas do Guia de Governança
de TIC do SISP, Guia de PDTIC do SISP e e-Ping versão 2017 e os autores de sugestões
para essas consultas. Por meio de técnica de análise da rede social foi possível a
identificação de características de associação e a influências de empresas do ramo de TI
ou entidades governamentais de interesse comum em uma determinada política pública.
A primeira análise evidenciou que, mesmo as participações com sugestões e
comentários para uma determina consulta pública sendo uma iniciativa voluntária e
individual, o vínculo dos autores com organizações que, por força de sua linha de
negócio e seus projetos, naturalmente influenciam do indivíduo a externar sua opinião,
bem como indiretamente influenciam no debate sobre uma determinada política pública.
Outra forte evidencia encontrada na análise é o grande número de indivíduos
ligados a organizações como SERPRO, DATAPREV e ENAP que sentirem-se a
vontade para participar do debate sobre o tema. Esse conforto é gerado por tais
empregados estarem vinculados a projetos e ações que são impactadas direta ou
indiretamente pela política pública em questão, visto que o conhecimento adquirido por
esses indivíduos os levam a ter clareza sobre os impactos que a política pode gerar na
execução dos seus trabalhos e nas relações geradas por essa ação governamental. Desta
forma, seus comentários e sugestões têm maior probabilidade de serem aceitos pela
comunidade que avalia a contribuição.
Nesse contexto, outra leitura das relações geradas pelo Participa.br é a
constatação que SERPRO, DATAPREV e ENAP influenciam bastante as políticas
públicas voltadas para o segmento de governo eletrônico, visto que as três organizações
apresentaram grau de entrada e saída, o que detona viabilizar políticas que vão ao
encontro de seus interesses.
9
Secretaria de Logística e Tecnologia da Informação - SLTI
10 Instituto Nacional de Seguridade Social
395
XXXVII Congresso da Sociedade Brasileira de Computação
As constatações que esse estudo levou foco não fogem do senso comum antes
percebido, pois são instituições públicas que trabalham para agentes públicos e, muitas
vezes, beneficiam-se da boa relação para influenciar políticas e, consequentemente, o
mercado no que diz respeito a governo eletrônico.
Entretanto, outra evidência apresentada pela análise é o baixo número de
indivíduos com interesse em debater sobre políticas ligadas a TI, a oportunidade de
debater políticas públicas é um clamor social, porém quando existe um espaço essa
interação não acontece no volume desejável. Deve-se refletir sobre como o canal
comunicação foi aberto, quais mecanismos foram utilizados para facilitar a participação
popular, como viabilizar o desejo por um envolvimento do cidadão.
É louvável que um novo espaço seja criado para aproximar governo e sociedade,
porém esse espaço precisa evoluir para que o ambiente participativo seja bem
aproveitado gerando políticas eficazes, eficientes e efetivas.
De forma geral, a análise de rede social mostrou-se uma alternativa apropriada
para a investigação das relações de geradas pela plataforma Participa.br, podendo ser
aplicada em maior escala para estudos de comunicação científica, assunto de grande
interesse para a ciência da informação.
4.1. Limitações
Este estudo foi feito utilizando informações de apenas três consultas públicas o que
inviabilizou uma pesquisa mais aprofundada da rede do Participa.br. O volume de dados
disponibilizado para análise da pesquisa foi pequeno não permitindo analisar as
propriedades estruturais da rede tais como: coeficiente de agrupamento, geodesia
espacial, identificação de cliques, distribuição gráfica dos graus. Aliado a isso, o estudo
não verificou a rastreabilidade em prováveis decisões finais. Desta forma, o estudo se
ateve a responder a pergunta de pesquisa.
5. Referências
Brasil, Presidência da República (2013) “Lançamento do novo Portal Brasil”,
http://www.brasil.gov.br/governo/2013/09/dilma-anuncia-reformulacao-do-portal-
brasil, fevereiro.
Brasil (2014) “Portaria nº 36 de 11 de novembro de 2014’, Diário Oficial da União.
Brasília - DF, quarta-feira, 12 de novembro de 2014. Disponível em:
http://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?data=12/11/2014&jornal=1
&pagina=1&totalArquivos=92.
396
5º WTranS - Workshop de Transparência em Sistemas
BRASIL (2017) Portal de Participação Social, Consulta Pública ePing versão 2017.
Disponível em: http://www.participa.br/e-ping/consulta-publica-versao-2017/parte-i-
visao-geral-da-eping.
FAGUNDES, V. (2011) “PDGovTI Modelo de Plano Diretor de Tecnologia da
Informação Baseado em Arquitetura Corporativa e Governança de TI em Governo”,
Dissertação de Mestrado – Programa de Engenharia de Sistemas e Computação
UFRJ.
MEIRELLES, Paulo R. M. (2014) “Documento com proposta de extensão de ontologia
para o Portal de Participação Social, dados de Conferências Nacionais e Conselhos
Nacionais, incluindo propostras de articulação entre os dados desses instrumentos”.
Disponível em:
http://biblioteca.participa.br/jspui/bitstream/11451/1120/1/PRODUTO%2006%20PR
ODOC%20PNUD%20-
%20ONTOLOGIA%20PARA%20O%20PARTICIPA.BR.pdf.
MPOG, Ministério do Planejamento, Orçamento e Gestão (2015a) “Guia de
Governança de TIC do SISP MPOG”, Brasília.
MPOG, Ministério do Planejamento, Orçamento e Gestão (2015b) “Guia de PDTIC do
SISP MPOG”, Brasília.
MPOG, Ministério do Planejamento, Orçamento e Gestão. (2010) “Secretaria de
Logística e Tecnologia da Informação. Instrução Normativa SLTI n° 4, de 12 de
novembro de 2010”. Disponível em:
http://www.comprasgovernamentais.gov.br/paginas/instrucoes-normativas/instrucao-
normativa-no-04-de-12-de-novembro-de-2010.
TCU, Tribunal de Contas da União (2015) “TC 005.693/2015-2”. Disponível em:
www.tcu.gov.br/Consultas/Juris/Docs/judoc/Acord/.../AC_0716_10_16_P.doc.
SOARES, F. de M. (1997) “Direito Administrativo de Participação (Cidadania, Direito,
Estado e Município)”, Belo Horizonte: Del Rey.
VERGARA, S. C. (2004) “Projetos e relatórios de pesquisa em Administração”, São
Paulo: Atlas.
397
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This paper explores the use of systematic review in the area of
transparency, with a particular emphasis on software related transparency. It
lays out the overall steps of a systematic review according to the literature,
and presents initial results, of an exploratory nature. One of the results so far,
is the discovery of the lack secondary studies, which points out to novelty of
this presentation.
Resumo. Na Engenharia de Software, nos últimos anos, tem-se observado um
crescente interesse em conduzir estudos empíricos que ajudem a entender, sob
certas condições, um domínio ou tema de pesquisa. O objetivo deste artigo é
apresentar o protocolo seguido no intuito de desenvolver um Estudo de
Mapeamento Sistemático para o tema de transparência para trabalhos
publicados em Inglês. Além disso, já se apresentam os primeiros resultados da
abordagem, que objetiva identificar as pesquisas e os trabalhos que permitem
conhecer o que foi publicado sobre esse tema. Como limitações, encontramos
que na primeira busca automática identificou-se a falta de estudos
secundários no contexto da transparência. Para concluir, acredita-se que no
contexto da transparência estudos de mapeamento podem economizar tempo e
esforço dos pesquisadores, fornecer orientações, descrever lacunas e ajudar
nos novos esforços de pesquisa.
1. Introdução
Um mapeamento sistêmico de literatura ou Estudos de Mapeamento Sistemático (EMS)
como é explicado por Kitchenham e Charters (2007) e Petersen e outros (2008) é um
estudo que permite dar uma visão geral de uma área de pesquisa através da classificação
e contribuições a partir de estudos primários. Nesse contexto, EMS, um estudo
secundário, é o resultado de um mapeamento sistemático, que envolve buscas na
literatura para identificar que tópicos têm sido estudados numa área de pesquisa e quais
veículos publicam esses estudos primários.
Na engenharia de software os EMS são usados para estruturar áreas de pesquisa. Neste
trabalho foram estudadas as abordagens propostas por Kitchenham e Charters (2007) e
Levy e Ellis (2006) os quais propõem protocolos para guiar o mapeamento. Para nosso
398
5º WTranS - Workshop de Transparência em Sistemas
2. Trabalhos Relacionados
Ao longo dos últimos anos observa-se que Engenharia de Software (ES) como outras
áreas do conhecimento (ex: Ciências Sociais e a Medicina), tem mostrado interesse em
conduzir estudos empíricos. Segundo De Almeida Filho (2011) esse tipo estudo tem
evidenciado sua relevância para o avanço da ciência e servem como instrumento para o
desenvolvimento de uma área que é fortemente dependente das atividades humanas. A
motivação para desenvolver estudos empíricos é a identificação de lacunas, as quais são
importantes para propor estudos, construir o corpo de conhecimento e apoiar na tomada
de decisões por parte de profissionais e pesquisadores.
Kitchenham et al (2005) escreveram que o conceito prática baseada em evidência que
já era usada na medicina e adaptada em outras disciplinas como a economia, psicologia,
e ciências sociais, deveria ser adaptado na ES, para criar a Engenharia de Software
Baseada em Evidencias (ESBE); para isso deveriam ser usadas as revisões de literatura
como uma metodologia para obter resultados empíricos. Os mesmos autores explicam
que ESBE deveria aplicar quatro estágios.
Primeiro, construir uma pergunta de pesquisa, segundo, trazer os resultados conforme a
pergunta de pesquisa, terceiro, avaliar de forma critica as evidencias, e finalmente, usar
a evidencia para direcionar a pesquisa. Como foi mencionado EBSE é subjacente a
procedimentos de busca de literatura chamados Revisão Sistemática de Literatura (RSL)
e Estudos de Mapeamento Sistemático EMS, ambos procedimentos que usam
protocolos. No entanto, o primeiro possui uma pergunta especifica que direciona o
estudo, o segundo, revisa de forma ampla um tópico e classifica os estudos primários
para esse domínio especifico.
399
XXXVII Congresso da Sociedade Brasileira de Computação
4. Questões de Pesquisa
As perguntas de pesquisa foram elaboradas seguindo a abordagem proposta por Basili e
outros (2012), conhecida com Goal-Question-Metrics (GQM). Essa abordagem do tipo
de cima para baixo, tem como objetivo desenvolver métricas significativas através de
perguntas. Conforme é descrito por Yang e outros (2014) esta abordagem compreende:
1. O Objetivo está no nível conceptual, define o objeto e a variedade de ações,
variedade de modelos, pontos de vista, o relativo e o ambiente particular; 2. A Questão
está no nível operacional, as perguntas são usadas para definir o modelo do objeto de
estudo e assim focar esse objeto nas características da avaliação e objetivos específicos
a serem atingidos; finalmente, 3. A Métrica está no nível quantitativo, nele temos um
conjunto de métricas baseadas nos modelos as quais podemos associar a cada questão
visando a resposta medível de cada um.
O objetivo de alto nível neste estudo de mapeamento sistemático para transparência é
identificar as pesquisas relacionadas, para assim poder responder a pergunta O que nós
sabemos sobre o Tema Transparência? Para atingir esse objetivo, nós listamos quatro
sub-objetivos operacionalizáveis.
G1: Fornecer as informações básicas, delimitar o escopo desde a perspectiva
demográfica e permitir identificar as fontes pertinentes sobre informação de pesquisa na
área de Transparência.
G2: Ajudar pesquisadores e interessados sobre as propostas a nível de qualidade,
validação e processos usados nas abordagens dos autores selecionados.
G3: Identificar que propostas são mais maduras quanto aos resultados alcançados.
G4: Identificar as principais tendências de pesquisa, trabalhos futuros, trabalhos em
andamento relacionados a transparência.
As metas acima descritas em conjunto com as justificativas servem de guia nas questões
de pesquisa assim: 14 perguntas medíveis e/o respondíveis (RQ) na tabela 1 em
conjunto com as motivações Tabela 2. Em conjunto é possível mapear cada meta com a
sub-meta e a motivação.
400
5º WTranS - Workshop de Transparência em Sistemas
401
XXXVII Congresso da Sociedade Brasileira de Computação
uma pesquisa manual dos locais relacionados (onde foram publicados) para um
determinado período de tempo (período). Um QGS pode ser considerado um "padrão-
ouro" nas condições em que o período e o local se aplicam.
Continuando com a explicação dos autores, o QGS é útil no sentido de tornar mais
objetivo o processo desde a perspectiva do planejamento, teste manuais e Strings para
extração de dados. A ideia principal é evitar a falta de estudos relevantes na estratégia
de busca. Portanto, os resultados das pesquisas manuais e automatizadas são
comparados com o QGS para calcular a Sensibilidade (Número de estudos relevantes
recuperados / Número total de estudos relevantes) *100) e Precisão (Número de estudos
relevantes recuperados / Número de estudos recuperados) *100) dos resultados da
pesquisa. Alta sensibilidade e alta precisão são desejáveis, mas uma alta sensibilidade é
mais importante do que alta precisão. A sensibilidade acima de 80% é ideal para
melhores resultados, mas os resultados entre 70% e 80% também são aceitáveis de
acordo com Zhang et al. (2011).
Adicionalmente, o trabalho aqui apresentado também incorpora uma estratégia de
snowballing para trás e para a frente (backward and forward snowballing) para expandir
a cobertura de busca Wohlin (2014). Snowballing faz referência ao uso de listas de
referencia dos artigos selecionados ou as citações desses artigos. Isso dizer que é
possível achar ou refinar as buscas com os artigos que estão sendo citados ou identificar
novos artigos que estão citando um artigo selecionado.
402
5º WTranS - Workshop de Transparência em Sistemas
403
XXXVII Congresso da Sociedade Brasileira de Computação
404
5º WTranS - Workshop de Transparência em Sistemas
snowballing, porém o String acima descrito deve ser refinado conforme estas duas
estratégias e as iterações necessárias até achar os artigos que efetivamente respondam as
perguntas de pesquisa inicialmente propostas, ou seja, até achar o Quasi Gold Standard.
6 Resultados já Alcançados
Na Tabela 3 são mostrados os resultados preliminares produzidos pela Biblioteca
EAFIT com o String de busca acima descrito. Foram achados 36 artigos, dos quais foi
aplicado o critério de exclusão por titulo e são apresentados na Tabela 3, 29 artigos.
Desse primeiro piloto foi identificado que não existe estudos secundários nem do tipo
RSL ou EMS no contexto da Transparência ou mais especificamente Transparência de
Software. Porem é necessário para a construção do conhecimento usar este tipo de
estudos baseado em evidencias, mapas e trabalhos que permitam identificar de forma
agrupada o que foi feito ou quais são os desertos ou oportunidades de pesquisa para
direcionar trabalhos presentes e futuros na área.
Acreditamos que os artigos achados servem como ponto de partida para realizar a busca
manual sugerida por Zhang et al. (2011), o piloto também segue as sugestões propostas
por Wohlin (2014), que propõe o uso do Google Scholar, por exemplo, para identificar
artigos base. Isso evita distorcer a favor de qualquer autor. Wohlin também recomenda:
usar artigos relevantes de diferentes comunidades; o número de artigos no início deve
ser pequeno, aumentar e depois ir para o um foco mais especifico. Além disso, sugere
que desses artigos inicialmente identificados pode-se obter os termos de pesquisa para
refinar a própria, e assim evitar se guiar unicamente o uso da própria terminologia e
abranger mais trabalhos, bases de dados, autores, anos, entre outros. Em uma palavra
obter mais diversidade.
6.1 Discussão sobre os artigos achados:
Por questões de espaço e do alcance desse trabalho não serão analisadas uma a uma as
perguntas de pesquisa propostas para o EMS e que fazem parte do trabalho futuro
descrito a seguir.
Essa primeira aproximação nos leva a utilização da definição de transparência fornecida
pela Infopedia:1 “diz-se de um termo, de um contexto ou de um discurso que não é
opaco, que se percebe facilmente; evidente, claro e que revela claramente a sua
natureza; inequívoco”. Inspirados nessa definição os autores concordam em dizer que a
transparência está ligada a algo suficientemente aberto para permitir que coisas sejam
observadas em profundeza, através dela e por diferentes óticas. Quando é detalhado
esse elemento a ser observado geralmente faz referencia á informação, aquela que deve
informar sobre se mesma, como ela trabalha e seu rationale. Em outras palavras a
1
https://www.infopedia.pt/dicionarios/lingua-portuguesa/Transparente
405
XXXVII Congresso da Sociedade Brasileira de Computação
406
5º WTranS - Workshop de Transparência em Sistemas
falta de guias e estudos empíricos do tipo RLS e EMS no âmbito da transparência; iv)
estender o protocolo a outros pesquisadores bem como a diferentes a novos engenhos
de busca, na transparência; v) ampliar a busca manual a novas conferências e
periódicos; vi) pesquisar a literatura em Espanhol e Português.
Apresentamos as primeiras evidencias do uso do protocolo guia para realizar um EMS
apropriado para pesquisadores de engenharia de software, que tenham interesse no
tópico da transparência. A motivação principal é que o EMS serve como meio de avaliar
e interpretar as pesquisas disponíveis relevantes para uma pergunta de pesquisa. Um
EMS para transparência nos levaria a sintetizar a evidencia através da construção do
conhecimento dada pela combinação dos estudos primários achados. O protocolo usado
visa apresentar uma avaliação usando um método já estabelecido e auditável, ajudando
pesquisadores chegarem a uma compreensão conjunta do estado da transparência de
software como área de pesquisa.
Referências
Basili, V. R., Caldiera, G., and Rombach, H. D. (2012). The goal question metric approach, 1994. Citado,
3, 11.
Basili, V. R., Selby, R. W., and Hutchens, D. H. (1986). “Experimentation in software engineering”.
IEEE Transactions on software engineering, (7), 733-743.
De Almeida Filho, A, T (2011). Um Mapeamento Sistemático de Mecanismos para Guiar Estudos
Empíricos em Engenharia de Software. Dissertação de Mestrado. Universidade Federal de
Pernambuco.
Descubridor Universidad EAFIT (2017). http://www.eafit.edu.co/biblioteca3/recursos-electronicos/bases-
datos/Paginas/descubridor.aspx#.WMG1OhhDmHo ultimo acceso 9 de março 2017.
Keele, S. (2007). Guidelines for performing systematic literature reviews in software engineering. In
Technical report, Ver. 2.3 EBSE Technical Report. EBSE. sn.
Kitchenham B. and Charters S. (2007) “Guidelines for Performing Systematic Literature Reviews in
Software Engineering”, Tech. rep., Technical report, EBSE Technical Report EBSE-2007-01.
Kitchenham, B. A., Dyba, T., and Jorgensen, M. (2004). “Evidence-based software engineering”. In
Proceedings of the 26th international conference on software engineering (pp. 273-281). IEEE
Computer Society.
Levy, Y., and Ellis, T. J. (2006). “A systems approach to conduct an effective literature review in support
of information systems research”. Informing Science: International Journal of an Emerging
Transdiscipline, 9(1), 181-212.
Moura M (2008). Um benchmarking framework para avaliação da manutenibilidade de software
orientado a aspectos. Master’s thesis, University of Pernambuco, Recife, PE, Brasil. 1.1, 1.2.1, 2.2,
3.2.
Petersen, K., Feldt, R., Mujtaba, S., and Mattsson, M. (2008). “Systematic Mapping Studies in Software
Engineering”. In EASE (Vol. 8, pp. 68-77).
Serviço de Buscas Universidade EAFIT (2017),
http://www.eafit.edu.co/biblioteca/servicios/Paginas/busquedas-bibliograficas.aspx, último acesso 3
de maio de 17.
Wohlin, C. (2014). “Guidelines for snowballing in systematic literature studies and a replication in
software engineering”. In Proceedings of the 18th international conference on evaluation and
assessment in software engineering (p. 38). ACM.
Yang, Z., Li, Z., Jin, Z., and Chen, Y. (2014). “A systematic literature review of requirements modeling
and analysis for self-adaptive systems”. In International Working Conference on Requirements
Engineering: Foundation for Software Quality (pp. 55-71). Springer International Publishing.
Zhang, H., Babar, M. A., and Tell, P. (2011). “Identifying relevant studies in software engineering.
Information and Software Technology”, 53(6), 625-637.
407
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Transformações na economia, globalização, inovações tecnológicas, rápida difusão da
informação, demandas para redução do tempo e custo do ciclo de desenvolvimento, e
necessidade de fornecer mais transparência a processos e informações existentes,
levaram à mudança e adaptação das organizações para continuarem competitivas. Uma
nova abordagem das organizações tem sido investir no estabelecimento de parcerias
com outras organizações, rivais ou operando em segmento distinto aos seus, para
enfrentar um ambiente cada vez mais dinâmico, imprevisível, altamente competitivo e
desafiador [Corso e Fossá 2009][Fusco 2005][Mueller et al 2013][Ranaei et al
2010][Van Fenema et al 2014]. Em geral, essas organizações selecionam um tipo
específico de relacionamento, como alianças, redes, joint ventures, terceirizações etc.,
408
5º WTranS - Workshop de Transparência em Sistemas
409
XXXVII Congresso da Sociedade Brasileira de Computação
410
5º WTranS - Workshop de Transparência em Sistemas
411
XXXVII Congresso da Sociedade Brasileira de Computação
O próximo passo é mapear o que cada integrante da parceria pode fornecer para
atingir o objetivo compartilhado. Isso envolve a (a) caracterização de cultura, (b)
identificação de habilidades existentes e (c) identificação de processos, informações,
sistemas, tecnologia e recursos financeiros de cada uma das organizações envolvidas. A
Figura 3 apresenta como cada organização poderia apoiar o mapeamento apresentado na
Figura 2.
412
5º WTranS - Workshop de Transparência em Sistemas
413
XXXVII Congresso da Sociedade Brasileira de Computação
414
5º WTranS - Workshop de Transparência em Sistemas
5. Conclusão
A necessidade de continuarem competitivas em um ambiente cada vez mais dinâmico,
imprevisível e desafiador leva as organizações a estabelecerem parcerias para combinar
recursos, conhecimento e poder em benefício das organizações participantes. Tal
necessidade também cresce cada vez mais no âmbito governamental, com diferentes
agências interagindo em prol dos interesses da Sociedade. Contudo, se torna um desafio
fazer com que distintas organizações se integrem e trabalhem em uma dinâmica nova,
garantindo assim que o trabalho conjunto seja eficaz e bem-sucedido.
Este artigo explorou o desafio de gerir relacionamentos interorganizacionais,
especialmente os desafios relacionados à transparência pública. Para isso, descreveu
uma abordagem de apoio à gestão de relacionamentos interorganizacionais orientada aos
objetivos compartilhados. Argumenta-se que essa abordagem torna as organizações
parceiras mais integradas, transparentes, preparadas para interoperar seus processos e
informações e capazes de agir e alcançar objetivos mesmo com as diferenças existentes.
A parceria entre agências para combate à corrupção ilustrou a aplicação da
abordagem. Ele permitiu explorar a gestão de relacionamentos interorganizacionais,
além de oferecer uma possibilidade para diferentes agências planejarem e organizarem
seu trabalho conjunto para alcançar um objetivo compartilhado de forma transparente.
Contudo, é importante destacar alguns desafios que ainda precisam ser
superados. O primeiro deles diz respeito ao detalhamento do objetivo. A descrição do
objetivo compartilhado, além dos subobjetivos decorrentes dele, pode não ser tão clara
para os parceiros. Também é possível lidar com parceiros que, apesar de saberem atuar
em dadas circunstâncias, podem não ter processos internos descritos de uma forma
estruturada. Além disso, as organizações podem ter dificuldades em fornecer os insumos
inexistentes na parceria porque não conseguem identificar uma forma de fazer isso.
Finalmente, a negociação para atribuição de responsabilidades pode ser árdua.
Como trabalhos futuros, a especificação de um protótipo de apoio à abordagem
está em desenvolvimento. Além disso, visa-se avaliar a abordagem proposta em um
cenário real, além de aplicá-la em outros domínios que não o governamental.
Argumenta-se que os resultados obtidos fornecerão insumos para uma melhor
compreensão do impacto da aplicação da abordagem e ajudarão na sua melhoria e
evolução.
6. Agradecimentos
Os autores gostariam de agradecer à CAPES pelo financiamento que apoia a pesquisa.
7. Referências
Bocanegra, J.; Pena, J.; Ruiz-Cortes, A. (2011) “Interorganizational Business Modeling:
An Approach for Traceability of Goals, Organizational Models and Business
Processes”, IEEE Latin America Transactions, v. 9, n. 1, pp.847-854.
Bouchbout, K.; Alimazighi, Z. (2011) “Inter-Organizational Business Processes
Modelling Framework”, In Conference on Advances in Databases and Information
Systems, Vienna.
415
XXXVII Congresso da Sociedade Brasileira de Computação
416
5º WTranS - Workshop de Transparência em Sistemas
417
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
De acordo com a Lei de acesso à informação pública, Lei no 12.527/2011, qualquer
pessoa pode ter acesso a informações que estejam sob a guarda de órgãos públicos, em
todos os poderes. Assim sendo, garantir a acessibilidade em sı́tios governamentais é uma
tarefa de extrema importância, pois por meio dela todo indivı́duo, independente de suas
condições fı́sicas ou mentais, pode ter um acesso mais facilitado às informações prestadas
nesses sı́tios. Ao seguir as normas de acessibilidade, os websites tornam o processo de
acesso a informação mais facilitado e transparente para todo e qualquer cidadão.
A principal motivação deste trabalho decorre do fato de que apesar da acessi-
bilidade em websites ser uma questão do novo século, são poucos os trabalhos que
abordam a verificação deste quesito em sı́tios de instituições públicas de ensino, parti-
cularmente em Institutos Federais (IF’s). Em contrapartida, o Governo Federal Brasi-
leiro já promove a adoção do Modelo de Acessibilidade em Governo Eletrônico (eMAG)
[eMAG Governo Federal 2005] nos websites das instituições públicas. O eMAG tem o
Trabalho elaborado com o apoio do Programa de Educação Tutorial (PET/SESu/MEC).
418
5º WTranS - Workshop de Transparência em Sistemas
2. Referencial Teórico
Nesta seção é apresentado o referencial teórico necessário para a fundamentação deste tra-
balho. São discutidas seções sobre: a importância da acessibilidade na web, os principais
modelos de verificação, a transparência de informação e por fim a metodologia aplicada
no projeto.
419
XXXVII Congresso da Sociedade Brasileira de Computação
cegas ou com baixa visão, pessoas com deficiência auditiva ou com dificuldade em utilizar
o mouse, por exemplo, encontram barreiras de acessibilidade, que dificultam ou impos-
sibilitam o acesso aos seus conteúdos [eMAG Governo Federal 2005]. Muitas pessoas
também apresentam outras limitações relacionadas à memória, resolução de problemas,
atenção, compreensão verbal, leitura e linguı́stica, compreensão matemática e compre-
ensão visual. Uma pessoa com dislexia, por exemplo, pode apresentar dificuldade de
leitura de uma página devido a um desenho inadequado. Por isso, um sı́tio desenvol-
vido considerando a acessibilidade deve englobar os diferentes nı́veis de escolaridade, de
faixa etária e a possibilidade de pouca experiência na utilização do computador, além
de ser compatı́vel com as diversas tecnologias utilizadas para acessar uma página da
internet[eMAG Governo Federal 2005].
420
5º WTranS - Workshop de Transparência em Sistemas
421
XXXVII Congresso da Sociedade Brasileira de Computação
isso seja possı́vel, é necessário que os criadores de páginas e sistemas web, assim como
seus mantenedores, estejam atentos às recomendações de acessibilidade [Melo 2009].
Nesta seção são apresentados alguns trabalhos relacionados com este tema e que serviram
de inspiração para este projeto, são eles:
• O trabalho de [Pereira et al. 2013] realizou uma análise sobre o grau de acessibi-
lidade em sı́tios eletrônicos de instituições de ensino de nı́vel superior do paı́s. Os
resultados obtidos foram utilizados em conclusões acerca dos erros de acessibili-
dade mais frequentes nos websites das instituições. Mostrou-se que as instituições
analisadas muitas vezes não estavam em conformidade com o modelo eMAG, que
foi o utilizado no trabalho.
• O trabalho de [Mota et al. 2014] efetuou uma análise sobre o grau de acessi-
bilidade nos portais eletrônicos dos institutos federais localizados no estado de
Minas Gerais. Foi realizada uma medição da acessibilidade por meio das ferra-
mentas online ASES (Avaliador e Simulador de Acessibilidade de Sı́tios) e da-
Silva.org.br [ASES - Governo Federal 2015, Acessibilidade Brasil 2006]. Neste
caso, verificou-se que os websites apurados continham inconformidades com o
eMAG. Como conclusão principal, constatou-se que um dos principais motivos
era o número reduzido de funcionários de tecnologia da informação especializa-
dos sobre o assunto dentro das instituições.
• O trabalho [de Almeida et al. 2016] buscou propor recomendações acerca da
inserção da acessibilidade em websites. O trabalho utilizou o método automático
de avaliação de acessibilidade TAW. O TAW é uma ferramenta do W3C (World
Wide Web Consortium) e foi utilizado para verificar os websites de diversas
instituições federais de ensino superior. De acordo com os erros coletados du-
rante a avaliação, foram fornecidas sugestões para evitá-los.
• Em seu trabalho [DE ABREU et al. 2014] realizou uma análise sobre quatorze
portais de informação das prefeituras de cidades do estado de Rio de Janeiro, mais
especificamente, da região Sul Fluminense do estado. Ele constatou que apenas
um dos sı́tios analisados estava em conformidade com as diretrizes especificadas
pelo eMAG. Em sua conclusão ele descreveu sobre a necessidade e a importância
do vı́nculo entre transparência de informações e acessibilidade.
• Com enfoque na acessibilidade de analfabetos funcionais, [Capra et al. 2013] re-
alizou um levantamento aplicado em dois websites: um do Ministério do Tra-
balho e Emprego (MTE) e outro do Ministério da Previdência Social (MPS). A
análise utilizou a fórmula de inteligibilidade Flesch Reading Ease e a ferramenta
CohMetrix-Port [Scarton and Aluı́sio 2010]. De acordo com os resultados obtidos
concluiu-se que tanto a acessibilidade dos websites, quanto os testes de usabili-
dade foram insatisfatórios. Os verificadores apontaram falhas no desenvolvimento
das aplicações.
3. Metodologia e Desenvolvimento
Para a tarefa de avaliação de acessibilidade em websites de Institutos Federais Brasileiros
da região Centro-Oeste, o processo de desenvolvimento deste trabalho foi dividido em
etapas, são elas:
1. Análise de trabalhos correlatos: verificação de trabalhos similares na literatura
realizando uma análise de suas perspectivas e resultados.
422
5º WTranS - Workshop de Transparência em Sistemas
4. Resultados
Como já descrito, para a verificação de acessibilidade utilizou-se a ferramenta de
avaliação DaSilva. Foram pesquisados os sı́tios eletrônicos das unidades dos Institutos
Federais presentes nos estados e no distrito federal da região Centro-Oeste do Brasil. Os
resultados desta análise foram compilados na Tabela 1.
423
XXXVII Congresso da Sociedade Brasileira de Computação
• Conteúdo Não Textual: Diretriz 1.1.1 do eMAG e 3.6 do WCAG. Descreve que
todo conteúdo não textual que é apresentado ao usuário deve ter uma alternativa
424
5º WTranS - Workshop de Transparência em Sistemas
em texto que sirva para um propósito equivalente. Possui uma relevância consi-
derada alta, visto que o não cumprimento da recomendação impede a acessibili-
dade para pessoas com algum grau de deficiência visual. A diretriz descreve que
todo o acesso a informação disposto como imagens, tabelas e gráficos possua uma
tradução em texto. Esta ação é bastante útil para diversas aplicações de acessi-
bilidade, como os leitores de tela, por exemplo, que se baseiam nas informações
contidas nos códigos do site, para realizar a tradução do conteúdo para linguagem
natural. A forma para garantir a validade da diretriz consiste em garantir a inserção
de rótulos e descrições nos elementos não textuais existentes, por meio dos recur-
sos disponibilizados pela linguagem de programação utilizada na estruturação do
conteúdo.
• Informações e Relações: Diretriz 1.7 do eMAG 1.3.1 e do WCAG. Descreve que
as informações, a estrutura e as relações transmitidas através da apresentação pos-
sam ser determinadas de forma programática ou estejam disponı́veis no texto. A
diretriz consiste em garantir que a estrutura do website seja lógica e coerente, para
que, caso a forma de apresentação do conteúdo mude, no caso de transformação
para linguagem de voz, por exemplo, o contexto não seja alterado e o usuário
consiga receber a informação de forma correta. A forma para garantir a vali-
dade da diretriz consiste da utilização de marcadores semânticos nas estruturas do
conteúdo.
• Etiquetas ou Instruções: Diretriz 3.3.2 do WCAG. Descreve que as etiquetas
ou instruções do website sejam fornecidas sempre que o conteúdo deste exigir a
entrada de dados por parte do usuário. Essa recomendação procura garantir que
o usuário saiba que determinado elemento do website requer entrada de dados e
especifica o tipo de dado esperado, juntamente com informações relevantes sobre
o uso que se dará com a informação recebida. A forma para garantir a validade
da diretriz descreve que existam rótulos que associem textos a formulários, na
estrutura do website.
• Nome, Função, Valor: Diretriz 4.1.2 do WCAG. Descreve que todos os com-
ponentes da interface de utilizador (incluindo, mas não se limitando a: elemen-
tos de formulário, hiperligações e componentes gerados por scripts), o nome e
a função possam ser determinados de forma programática. Além disto os esta-
dos, as propriedades e os valores, que podem ser parametrizados pelo utilizador,
também possam ser definidos de forma programática. A notificação das alterações
a estes elementos deve estar disponı́vel para consulta pelos agentes de utilizador,
incluindo as tecnologias de apoio. A forma para garantir a validade da diretriz des-
creve, que caso seja utilizado alguma aplicação de interface no website, deve-se
implementar medidas para garantir que os aplicativos de acessibilidade recebam
as notificações corretamente.
• Teclado: Diretriz 2.1.1 do WCAG e 2.2 e 2.1 do eMAG. Descreve que é preciso
permitir que todas as funcionalidades do website também possam ser desenvolvi-
das via interação com o teclado. Ou seja, se a única forma de o usuário interagir
com o site for por meio de teclados, então é preciso garantir que as funcionalida-
des do website consigam ser adaptadas para operar nesta situação. A forma para
garantir a validade da diretriz descreve que as aplicações sejam adaptáveis para
funcionarem tanto da forma original, quanto em uma opção genérica, operável
pelo teclado e isto sem mudança no possı́vel resultado final.
425
XXXVII Congresso da Sociedade Brasileira de Computação
5. Conclusão
A pesquisa deste trabalho destaca que os websites dos IF’s da região Centro-Oeste do
paı́s não estão em plena conformidade com as diretrizes de acessibilidade reconhecidas
e aceitas. Pode-se inferir que ainda há muito trabalho a ser feito, para que as diretrizes
sejam cumpridas, e consequentemente, que a informação seja acessada por todo tipo de
usuário. Assim sendo, pode-se concluir que a transparência das informações nos websi-
tes dos Institutos Federais da região Centro-Oeste do Brasil também não está está sendo
ofertada em totalidade, já que uma parcela dos receptores dos dados pode não estar con-
seguindo ter acesso aos mesmos. Percebe-se que apesar da existência de documentos
com recomendações de acessibilidade para internet, os desenvolvedores da estrutura do
conteúdo web destas instituições podem não estar familiarizados com as normas e leis
ou não estão sendo informados sobre a necessidade de realizar adaptações necessárias
para garantir a acessibilidade e assim facilitar a transparência de acesso a informação nos
websites.
6. Trabalhos Futuros
Um trabalho futuro, que é motivação de continuidade, consiste em realizar novos expe-
rimentos sobre a acessibilidade em websites dos IF’S da região Centro-Oeste. A partir
destes novos experimentos a proposta é desenvolver uma aplicação web, que seja capaz
de auxiliar na correção dos erros de acessibilidade que forem encontrados, de forma a
apresentar aos desenvolvedores como o código deveria estar organizado para garantir o
acesso de todos os usuários.
Referências
Acessibilidade Brasil (2006). Avaliador de Acessibilidade. http://www.dasilva.
org.br/, note = Online; accessed 19 march 2017.
Araújo, R. M., Cappelli, C., and Leite, J. (2010). A importância de um modelo de estágios
para avaliar transparência. Revista TCMRJ, setembro, (45):97.
426
5º WTranS - Workshop de Transparência em Sistemas
427
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. In 2014, Engiel et al. manually verified the demand for transparency
on the Votenaweb site for the bills of the year 2013. In 2016, Engiel et al. used
text mining in the existing bills at the site (5011) with the same goal. There
were 131 bills rated as 10+ voted and 10+ transparent. Of the 10 +
transparent, this work extracted its comments to check if there was any
tendency or demand for transparency. As a result, six bills have been
identified for having comments that demand transparency. For those
comments a qualitative analysis is presented.
1. Introdução
O estudo de transparência como umbilicalmente ligada a sociedades democráticas tem
tido um forte interesse da comunidade de pesquisa: tanto o WTranS como a Global
Conference on Transparency Research demonstram esse fato. No entanto, é importante
saber de que maneira os cidadãos demonstram uma demanda por transparência.
Nesse artigo exploramos uma estratégia de entendimento da demanda através do
sítio Votenaweb (http://www.votenaweb.com.br/), uma iniciativa que reúne projetos de lei.
O Votenaweb disponibiliza o resumo de projetos de lei, e possibilita que a população
avalie se concorda ou não, podendo comentar sobre esses.
428
5º WTranS - Workshop de Transparência em Sistemas
429
XXXVII Congresso da Sociedade Brasileira de Computação
Figura. 1. Palavras mais frequentes em comentários Figura. 2. Palavras mais frequentes em comentários
de votação negativa de votação positiva
430
5º WTranS - Workshop de Transparência em Sistemas
431
XXXVII Congresso da Sociedade Brasileira de Computação
432
5º WTranS - Workshop de Transparência em Sistemas
433
XXXVII Congresso da Sociedade Brasileira de Computação
434
5º WTranS - Workshop de Transparência em Sistemas
3.1. Discussão
Analisando os comentários verificamos uma tendência dos cidadãos a serem a favor da
transparência. Podemos observar principalmente um incentivo a divulgação de
informações, com objetivo de acompanhamento dos gastos públicos – uma maior
participação da sociedade que através desses dados pode cobrar posturas do governo e
assim contribuir para a diminuição da corrupção. Podemos observar que a maior parte
dos comentários é relacionado ao nível 1 da transparência (Cappelli et al., 2010),
divulgação da informação, acessibilidade. Os comentários contrários a transparência
identificados são relacionados a privacidade, em uma discussão de quais dados devem
ser divulgados e quais protegidos. Quando relacionados a gastos públicos a tendência
dos comentários é solicitar a abertura, mas quando é citado dados privados, pesquisa,
essa questão precisa ser mais analisada e discutida.
Uma característica saliente, é a população querendo ter uma participação maior,
ficando mais engajada. A participação através do portal, votando os projetos e
discutindo através dos comentários já é um passo para essa sociedade mais participativa,
e com certeza a transparência ajuda atingir uma maior participação uma vez que dados e
informações são fornecidas e a população pode acompanhar e cobrar por mudanças.
4. Trabalhos relacionados
Baia & Braga (2013) verificaram a presença de atributos de transparência em modelos
de requisitos que foram representadas utilizando o framework iStar. No entanto, como
existem atributos que não puderam ser mapeados, para esses atributos foram buscados
sinônimos que foram extraídos do WordNet1, um banco de dados lexical, ele agrupa
palavras em inglês em grupos de sinônimos, prove definições curtas e exemplos de uso.
Pode ser visto como uma combinação de dicionário e thesaurus. Essa estratégia é similar
a nossa no sentido de que se procura mais palavras que possam ser uteis com palavras-
chave. Contudo, não foram reusadas tais palavras-chave para a nossa estratégia dado que
elas estão em inglês.
1 http://wordnetweb.princeton.edu/perl/webwn
435
XXXVII Congresso da Sociedade Brasileira de Computação
5. Conclusão
Este trabalho verificou a demanda por transparência através de mineração de textos e
análise qualitativa de comentários relacionados a projetos de lei. A mineração dos textos
foi feita de forma automática utilizando ferramentas. Já a análise dos comentários
minerados, foi realizada manualmente por um dos autores do trabalho. Os trabalhos
anteriores focaram em filtrar os projetos de lei e fazer uma análise deles. Esse trabalho
expandiu os estudos para os comentários sobre os projetos, analisando o que os cidadãos
comentam sobre a transparência e quais são as suas estatísticas.
Foram minerados 67 comentários relacionados a transparência dos 138
comentários presentes para os 9 projetos de lei (já desconsiderando o projeto que foi
minerado incorretamente), isso representa 48,5% dos comentários. Analisando que
existiam diversos comentários parabenizando o projeto, ou apenas concordando ou
discordando de opiniões em muitos argumentos, podemos considerar esse resultado
promissor, mostrando um interesse crescente da população pelo tema.
Sabemos que a amostragem de comentários do site, representa uma pequena
parte da população, mas de qualquer forma a amostra examinada nos permite crer que
população está engajada para uma sociedade mais transparente. Os cidadãos apoiam
projetos relacionados a divulgação de informações, principalmente de gastos públicos e
tem o objetivo e intuito de acompanhar esses dados, tornando uma sociedade mais
participativa. A ideia de controle social sobre gastos públicos e a abertura de
informações é um passo para que os cidadãos sejam mais participativos e assim possam
demandar mudanças.
Um trabalho futuro é verificar manualmente os comentários e classificar os que
são transparentes e comparar com os filtrados automaticamente para verificar a eficácia
do processo de mineração e verificar possíveis melhorias. Outro trabalho futuro é
realizar mineração de projetos utilizando outras fontes de palavras-chave que não seja o
catálogo de transparência, uma possível fonte é o léxico de transparência de Engiel et
al., 2015.
436
5º WTranS - Workshop de Transparência em Sistemas
Referências
Engiel, P., do Prado Leite, J. C. S., and Cappelli, C. Confirmando a Demanda por
Transparência: Um Estudo Inicial sobre um Sistema de Avaliação de Projetos de Lei.
II Workshop de Transparência em Sistemas, Londrina, Brasil. (2014)
Engiel, P., Pivatelli, J., Moura, P., Portugal, R., Cesar, J., & do Prado Leite, S. (2015).
Um processo colaborativo para a construção de léxicos: o caso da divulgação de
transparência. In 18th Workshop on Requirements Engineering-WER.
Engiel, P., Portugal, R.L.Q., do Prado Leite, J. C. S. Descobrindo projetos de lei
relacionados a transparência. IV Workshop de Transparência em Sistemas, Rio de
Janeiro - RJ, Brasil. (2016)
Cappelli C, Leite J.C.S.P, Araujo R. M., . A Importância de um Modelo de Estágios
para Avaliar Transparência. Revista do Tribunal de Contas do Município do Rio de
Janeiro 45, 2010.
ER – PUC-Rio, 2013. Disponível em (http://transparencia.inf.puc-
rio.br/wiki/index.php/Catálogo_Transparência). Acessado em 20/03/2017.
Baía, J. W., & Braga, J. L. (2013). Uso de sinônimos na identificação de atributos de
transparência. In 16th WER-Workshop em Engenharia de Requisitos (15th CibSE-
Congresso Ibero-Americano em Engenharia de Software) (pp. 94-104).
Forte Neto, F. B., Vilain, P., & de Macedo, F. F. (2015, May). A Customized Checklist
for Analyzing Software Transparency in Websites. In Proceedings of the annual
conference on Brazilian Symposium on Information Systems: Information Systems:
A Computer Socio-Technical Perspective-Volume 1 (p. 47). Brazilian Computer
Society.
Paiva, E., and Kate Revoredo. "Big Data e Transparência: Utilizando Funções de
Mapreduce para incrementar a transparência dos Gastos Públicos." XII Simpósio
Brasileiro de Sistemas de Informação (2016).
437
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Diversos projetos para implantação de soluções em Cidades Inteligentes (CIs) têm sido
executados ao redor do mundo. Em muitos deles, é possível observar que não é clara a
participação popular na tomada de decisão quanto a que aspectos devem ser tratados. A
participação popular pode ocorrer por diversos mecanismos, mas só é efetiva se a
população tiver ao menos acesso a informações. Segundo [ALÓ 2009], o primeiro
degrau da transparência está na acessibilidade à informação. Em cidades, isso se obtém
inicialmente por meio da disponibilização de dados abertos em portais públicos. No
entanto, em diversos municípios brasileiros, incluindo Rio das Ostras, tal portal não
existe. Outros mecanismos de acesso podem ser utilizados, como sessões públicas,
questionários virtuais, living labs, dentre outros. A dificuldade de quaisquer desses
mecanismos é permitir a ampla participação da população em uma cidade. No entanto,
iniciativas pilotos também são importantes.
Para promover as diversas práticas de transparência, bem como diversas outras
práticas consideradas importantes, do ponto de vista das definições de CIs apresentadas
na literatura, foi criada no Brasil a Rede Brasileira de Cidades Inteligentes e Humanas
(RBCIH)1 em 2014, e Rio das Ostras faz parte dessa rede. A intenção do governo
1
Mais informações sobre a Rede Brasileira de Cidades Inteligentes e Humanas podem ser encontradas em
http://www.redebrasileira.org/.
438
5º WTranS - Workshop de Transparência em Sistemas
municipal foi executar um projeto no município com soluções que vão ao encontro do
conceito de CI definido pela RBCIH. Para permitir que a população pudesse se
manifestar quanto ao projeto, um grupo de pessoas, capitaneado pela Secretaria de
Ciência e Tecnologia (SECTI) do município, e formado por representantes do governo
municipal, da Instituição de Ciência e Tecnologia (ICT) local (a UFF), da iniciativa
privada local, e da população em geral, planejaram um evento para lançamento do
projeto, o III Encontro da Cidade com a Ciência (III ENCIC), em junho de 2016. O
evento também objetivou apresentar a definição de CI da RBCIH, e criar um espaço
público para discussão e acesso à população quanto suas intenções.
O objetivo deste trabalho é apresentar um estudo de caso que avalia o
mecanismo de acesso às informações da população para definição dos rumos do projeto
de CIs para o município de Rio das Ostras, utilizado no evento. Para embasar a
discussão, são apresentados, na Seção 2, conceitos e definições de CIs nos quais esse
trabalho se embasa e conceitos de transparência utilizados; e na Seção 3, uma revisão da
literatura quanto a métodos utilizados em diversas cidades do mundo, para permitir o
acesso à informação, fornecida pelos cidadãos. Para o desenvolvimento do estudo de
caso, descrito na Seção 4, é apresentado como o evento foi planejado e executado, e ao
final é apresentada uma análise dos resultados obtidos. Na Seção 5, são apresentadas as
conclusões deste trabalho e trabalhos futuros.
2. Conceitos e Definições
439
XXXVII Congresso da Sociedade Brasileira de Computação
centrais, que devem ser considerados em uma cidade para ser dita mais inteligente –
terreno, infraestrutura, pessoas e governo. Esses componentes devem ser abordados sob
três aspectos: (i) eficácia, relacionada à capacidade da cidade de suprir efetivamente
serviços públicos e privados para os diferentes órgãos da sociedade (cidadãos,
companhias e organizações sem fins lucrativos); e para diferentes categorias de cidadãos
(estudantes, trabalhadores, idosos, etc); (ii) considerações ambientais, relacionadas à
capacidade de medir o impacto do crescimento da cidade na qualidade do ambiente nas
áreas urbanas; e (iii) inovação, que sinaliza que uma CI deve usar todas as mais atuais
tecnologias para melhorar a qualidade dos seus componentes principais, para entregar
melhores serviços e reduzir os impactos ambientais. É importante observar que o
trabalho ainda aponta que, em eficácia, deve ser incluído o papel subjetivo de cada parte
interessada na definição de inteligente, ou seja, a cidade não é inteligente por si mesma,
mas sim deve ser criado valor público para os cidadãos. Também, no aspecto Inovação,
deve-se considerar que a tecnologia é um aspecto central da CI, usada no serviço das
iniciativas inteligentes para a qualidade de vida na cidade.
Assim, a partir desses conceitos e das características regionais descritas, é
necessário escolher uma definição de CI para especificar sua própria visão de estratégia
de CI e construir seu próprio modelo de CI, para que o valor agregado aos cidadãos seja
discutido e definido. Em [LOMBARDI et al. 2011] foi definido um framework baseado
no modelo de Hélice Tríplice, para conectar todos os projetos e iniciativas ligados ao
conceito de CIs. O modelo de Hélice Tríplice emergiu como um quadro de referência
para a análise dos sistemas de inovação baseada no conhecimento, e relaciona as
relações múltiplas e recíprocas entre os três principais agentes no processo de criação de
conhecimento e capitalização: universidade, indústria e governo. Os autores evoluem o
modelo de hélice tríplice para embasar o desenvolvimento de CIs em termos de seus
papéis tradicionais e contemporâneos, inicialmente como geradoras de capital
intelectual, criadoras de riqueza e reguladoras de normas, com participação da
universidade, indústria e governo, respectivamente; para, logo em seguida, definir como
cidades que usam tais atributos devem ser inteligentes no apoio ao aprendizado social,
capacidades empresariais baseadas no mercado e habilidades de transferência de
conhecimentos, necessários para satisfazer as exigências dos seus sistemas de inovação
regionais. Uma evolução do conceito de tríplice hélice para inovação em cidades é o
modelo de hélice quádrupla [CARAYANNIS e CAMPBELL 2009], e referem-se a
novas configurações sociais para a organização da inovação onde o governo, indústria,
academia e participantes civis trabalham juntos para cocriar o futuro e conduzir
mudanças estruturais muito além do escopo do que qualquer organização ou pessoa
poderia fazer individualmente. Uma das maneiras de garantir a implementação do
modelo de hélice quádrupla é por meio de living labs, ou laboratórios vivos. Living labs
são apontados no Horizonte 2020 – Programa-Quadro de Investigação e Inovação
[EUROPEAN COMMISSION 2011] como o mecanismo que pode abranger dimensões
sociais e tecnológicas, simultaneamente, em PPPPs – Parcerias-Pessoais-Público-
Privadas. Em [SILVA e BITTENCOURT 2015], os autores revisitam conceitos de
living lab, e apresentam uma sugestão de definição, condensando diversas definições da
literatura. Living labs podem ser percebidos como uma arena para a inovação, uma
estrutura e uma comunidade de longo prazo relacionada a um único projeto, onde
experiências, rotinas e condições são construídos para transformar ideias em inovações.
440
5º WTranS - Workshop de Transparência em Sistemas
441
XXXVII Congresso da Sociedade Brasileira de Computação
442
5º WTranS - Workshop de Transparência em Sistemas
permitir uma maior participação popular, seria interessante que o lançamento do projeto
ocorreria em uma sexta-feira à noite, e que atividades envolvendo a população ocorreria
no sábado.
Quanto ao item (i), a secretária da SECTI, juntamente com a comissão, decidiu
que deveria haver a participação do presidente e vice-presidente da RBCIH, além dos
representantes do governo municipal, para fortalecer o lançamento do projeto. Quanto
ao item (ii), o levantamento foi realizado pelos membros da comissão. Quanto ao item
(iii), a comissão fez diversas reuniões, somente entre os membros, para alinhamento do
método de acesso à população. Inicialmente, a equipe entendeu que, para as atividades
com a população no sábado, seria interessante criar Grupos de Trabalho (GT) para
discussão dos diversos temas inerentes a CIs. Foi definido ainda que os GTs iriam se
reunir no sábado, na parte da manhã, em paralelo, e que, na parte da tarde, os resultados
dos trabalhos dos GTs seriam consolidados numa reunião conjunta. Ao final das
atividades no sábado, seria redigida uma carta de intenções para assinatura por parte do
prefeito do município. Para agrupar os temas inerentes a CIs, foram utilizadas as
dimensões definidas por [GIFFINGER e GUDRUN 2010] – economia, mobilidade,
ambiente, pessoas, vida e governança inteligentes. Ainda, foi de entendimento comum
que um GT seria formado para a dimensão economia, coordenado por um especialista
em inovação; outro GT seria formado para englobar as dimensões governança, pessoa e
vida inteligentes, coordenado por uma pesquisadora em cultura, uma pesquisadora em
tecnologia, e a secretária de saúde do município; outro GT seria formado para a
dimensão ambiente, para discutir, inclusive, questões de sustentabilidade, coordenado
por um especialista em meio-ambiente; e outro GT para a dimensão mobilidade,
coordenador por um pesquisador da área de logística e otimização. Participaram do
evento 154 pessoas no lançamento do projeto, e 115 pessoas na execução dos GTs.
Após reunião dos GTs, cada GT apontou as ações que devem ser realizadas no âmbito
do projeto de CIs:
GT1 – Economia inteligente (8 ações): incentivo às escolas e aos professores
para iniciativas em educação, para mudança de consciência em relação à transparência e
o papel do cidadão nos processos transformadores da cidade; criação de canais de
comunicação eficientes (p.ex., desenvolvimento de apps) para interagir com o cidadão,
para amenizar a falta de comunicação; alteração das leis para agilizar os processos de
criação de novas empresas; criação de um portal de transparência do município para
tornar o acesso às informações eficiente e eficaz; criação de espaços para diálogo entre
governo e população, com o objetivo de elaboração de políticas públicas; construção de
um conselho de CI, fortalecendo e viabilizando as ações com o poder público; incentivo
ao crescimento da economia local, por meio de ações que viabilizem startups e
empreendedores, por meio de incubação, qualificação e desenvolvimento; continuação
do trabalho desenvolvido no evento.
GT2 – Vida, Pessoa e Governança Inteligente (8 ações): o projeto deve ser
iniciado com ações voltadas para transparência, com o governo e a governança como
eixo central do projeto; ações em cultura e educação devem ter prioridade, pois as outras
iniciativas só terão efetividade se o cidadão estiver consciente e apto para a participação;
permissão de acesso à informação e à cultura, pois espaços de pronunciamento por parte
e para a população é importante; execução de uma caravana cultural, por meio de
linguagem lúdica, para mostrar a importância desses processos; desenvolvimento de
443
XXXVII Congresso da Sociedade Brasileira de Computação
444
5º WTranS - Workshop de Transparência em Sistemas
445
XXXVII Congresso da Sociedade Brasileira de Computação
446
5º WTranS - Workshop de Transparência em Sistemas
Agradecimentos
A autora agradece à SECTI de Rio das Ostras, pelo fornecimento dos dados para o
estudo de caso apresentado; e aos avaliadores do evento, por apontar pontos importantes
para a melhoria deste trabalho.
Referências
Aló, C.C. (2009). Uma Abordagem para Transparência em Processos Organizacionais.
Tese de Doutorado, PUC-Rio, Brasil.
Bakici, T.; Almirall, E.; Wareham, J. (2013) A Smart City Initiative: the Case of
Barcelona. J. Knowledge in Economics, vol. 4, p. 135-148.
Carayannis, E. G.; Campbell, D. F. J. (2009). ‘Mode 3’ and ‘Quadruple Helix’: toward a
21st century fractal innovation ecosystem. International Journal of Technology
Management, vol. 46, n. 3, p. 201-234.
Cocchia, A (2014). Smart and Digital City: A Systematic Literature Review. Chapter 2.
In: DAMERI; ROSENTHAL-SABROUX, 2014.
Dameri, R. P.; Rosenthal-Sabroux, C. (2014). Smart City and Value Creation. Chapter
1. In: DAMERI; ROSENTHAL-SABROUX, 2014.
Dameri, R. P.; Rosenthal-Sabroux, C. (eds.) (2014). Smart City: How to Create Public
and Economic Value with High Technology in Urban Space, Springer Verlag.
European Commission. (2011) A renewed EU strategy 2011-14 for Corporate Social
Responsibility. Disponível em: ec.europa.eu/social/BlobServlet?docId=9470.
Acessado em 30/03/2017.
Giffinger, R.; Gudrun, H. (2010) Smart cities ranking: an effective instrument for the
positioning of cities? ACE: Architecture, City & Environ., vol. 4, n. 12, p. 7-25.
Lombardi, P. et al. (2011) An Advanced Triple-Helix Network Model for Smart Cities
Performance. Green and Ecological Technologies for Urban Planning: Creating
Smart Cities. IGI Global, p. 59-73.
Mechant, P. et al. (2012) E-deliberation 2.0 for smart cities: a critical assessment of two
‘idea generation’ cases. Int. J. Electronic Governance, vol. 5, n. 1, 2012.
Schuurman, D. et al (2012) Smart Ideas for Smart Cities: Investigating Crowdsourcing
for Generating and Selecting Ideas for ICT Innovation in a City Context. Journal of
Theoretical and Applied Electronic Commerce Research, vol. 7, n. 3, p. 49-62.
Silva, S.B.; Bittencourt, C.C. (2015) Living Labs: Rumo a um Quadro Conceitual. In:
XVI Congresso Latino-Iberoamericano de Gestão da Tecnologia – ALTEC 2015.
Terán, L.; Kashina, A.; Meier, A. (2016) Maturity Model for Cognitive Cities: Three
Case Studies. Chapter 3. In: PORTMANE, E.; FINGER, M. (eds.). Towards
Cognitive Cities: Advances in Cognitive Computing and its Application to the
Governance of Large Urban Systems
447
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
No âmbito acadêmico, a avalição de currı́culos é utilizada para selecionar e compor o
corpo docente de cursos e programas, para destinar bolsas e recursos para projetos, no
processo seletivo para o ingresso de alunos em programas de mestrado e doutorado, e pela
Capes na hora de avaliar programas brasileiros de pós-graduação [CAPES 2013b]. Tendo
em vistas a importância da avaliação de currı́culos, o CNPq desenvolveu a Plataforma
Lattes, com o objetivo de armazanar, centralizar e divulgar os chamados Currı́culos Lattes.
Estes por sua vez, se tornaram um padrão nacional no registro da vida pregressa
de estudantes e pesquisadores de todas as áreas do conhecimento [CNPq 2016]. Embora
448
5º WTranS - Workshop de Transparência em Sistemas
a Plataforma Lattes padronize e disponibilize os currı́culos, ela por si só, não é capaz de
atender a todas as demandas e necessidades de pesquisadores e instituições, como por
exemplo, identificação do conceito Qualis das publicações de cada indivı́duo, geração de
gráficos e estáticas e uma avaliação automatizada de grupo de currı́culos.
Desta forma surgiram ferramentas como o ScriptLattes
[Mena-Chalco et al. 2009], que tenta suprir partes destas necessidades. Este por
sua vez consiste em um sistema de prospecção de dados do Currı́culo Lattes, com o
objetivo facilitar a análise e avaliação de um ou mais currı́culos. Porém ele não fornece
meios de avaliar de maneira rápida e direta o desempenho dos pesquisadores, fazendo
com que este trabalho seja realizada de maneira manual.
Tendo em vista as necessidades apresentadas, este trabalho descreve o SWAP-BR,
que trata-se de um sistema, que possibilita a análise e avaliação automática do Currı́culo
Lattes de pesquisadores da diversas áreas do conhecimento. A principal vantagem em sua
utilização em relação às demais ferramentas existentes no mercado, é a implementação do
Rep-Index como métrica de avaliação. Que ao contrário de outras métrica como, H-Index
[Hirsch 2005], G-Index [Egghe 2006] e fator de impacto do JCR [Garfield 2010], ele tem
por objetivo avaliar os diversos aspectos da vida profissional de um pesquisador, como
orientações, titulação, bancas e publicações [Cervi et al. 2011].
Outra vantagem oferecida pelo SWAP-BR é a transaparência proporcionada nas
avaliações dos currı́culos, nos processos seletivos de candidados a discentes ou docentes
de programas de pós-graduação, para distribuição de bolsas de produtividade fornecidas
pelo CNPq, e na avalição de programas de pós-graduação realizado pela CAPES. Isto
porque além do sistema mostrar de forma detalhada a nota de cada um dos aspectos ava-
liados, é possı́vel compartilhar as informações de forma a torná-las públicas.
449
XXXVII Congresso da Sociedade Brasileira de Computação
2.2. Rep-Model
O Rep-Model foi criado de forma a mapear as diversas atividades inerentes a trajetória
acadêmica de pesquisadores das diferentes áreas do conhecimento [Cervi et al. 2013a].
Para isso ele identifica e mapeia um total de 17 elementos, divididos em 5 categorias.
Todos eles presentes no cotidiano da maioria dos pesquisadores e facilmente identificáveis
no Currı́culo Lattes. A Tabela 2 mostra os elementos e categorias do Rep-Model.
450
5º WTranS - Workshop de Transparência em Sistemas
2.3. Rep-Index
O Rep-Index consiste em um ı́ndice que quantifica a qualidade ou a reputação do trabalho
de um pesquisador. Para isso ele utiliza o Rep-Model e seu sistema de pesos para saber
quais elementos deverão ser considerados durantes os cálculos e a relevância que cada um
deles possui para a área do conhecimento [Cervi et al. 2012].
Sendo assim o cálculo para se chegar ao valor do Rep-Index, é realizado a partir
da somatória do valor de cada elemento presente no Rep-Model, multiplicado por seus
respectivos pesos, juntamente com a somatória de cada categoria, também considerando
seus pesos. A Equação 1 exemplifica os cálculos realizados para se alcançar o Rep-Index.
X
c X
ei
vj ∗ wj
Rep − Index(R) = (1)
i=1 j=1 max (vj )
3. SWAP-BR
O SWAP-BR consiste em um sistema web, com o objetivo de automatizar o processo de
avaliação de Currı́culos Lattes. Para isso ele utiliza-se de modelos e métricas que reflitem
de maneira quantitativa a qualidade e reputação do trabalho de um pesquisador, ao longo
de sua carreira ou em um determinado perı́odo de tempo.
451
XXXVII Congresso da Sociedade Brasileira de Computação
Ele foi criado para ser um sistema modular, de forma que módulos possam
ser acrescentados ou removidos, sem a necessidade de grandes alterações no sis-
tema [Khaliluzzaman and Chowdhury 2016]. Ele consiste em um sistema com 8 (oito)
módulos e 35 (trinta e cinco) funcionalidades distintas relacionadas a eles. O diagrama
mostrado na Figura 1, consiste no diagrama de caso de uso de alto nı́vel do SWAP-BR.
Nele são mostrados módulos e funcionalidades presentes no sistema.
452
5º WTranS - Workshop de Transparência em Sistemas
453
XXXVII Congresso da Sociedade Brasileira de Computação
454
5º WTranS - Workshop de Transparência em Sistemas
Analisando os gráficos das Figuras 4 e 5, fica claro que quanto maior o conceito do
programa, maior a média da Pontuação Qualis e do Rep-index de seus docentes. Porém
455
XXXVII Congresso da Sociedade Brasileira de Computação
embora a produtividade dos docentes estejam diretamente ligado ao conceito de seus pro-
gramas, este não é o único fator determinante. Como pode ser observado analisando as
notas de cada um dos 12 programas, como é mostrado na Tabela 3.
5. Conclusão
A proposta de desenvolver uma ferramenta capaz de mapear e avaliar os currı́culos cadas-
trados na Plataforma Lattes, de forma transparente, rápida e ampla, idependente da área
de conhecimento, foi realizada com sucesso, com a criação do SWAP-BR. Neste trabalho
foram apresentados suas funcionalidades, caracteristica e resultados obtidos através de
sua utilização.
Através dos testes e experimentos foi possı́vel realizar uma análise completa dos
docentes de cada um dos programas de pós-graduação. E verificar que a qualidade do
trabalho de um pesquisador é fundamental para a definição dos conceitos dos programas,
junto a Capes.
Como trabalhos futuros pretende-se automatizar o processo de download e upload
do Currı́culo Lattes para o SWAP-BR, agilizando ainda mais o processo de avaliação.
Utilizar algoritmos de inteligência artificial, para definir os elementos do Rep-Model que
serão avaliados em cada área e também a fim de definir os pesos de cada um dos elementos
de forma automática.
456
5º WTranS - Workshop de Transparência em Sistemas
Referências
CAPES, C. d. A. d. P. d. N. S. (2013a). Documento de Área 2013 - ciência da computação.
CAPES, C. d. A. d. P. d. N. S. (2013b). Regulamento para a avaliação trienal 2013 (2010-
2012).
CAPES, C. d. A. d. P. d. N. S. (2016a). Documento de Área 2016 - ciência da computação.
CAPES, C. d. A. d. P. d. N. S. (2016b). Plataforma sucupira.
Cervi, C. R. (2013). Rep-index : uma abordagem abrangente e adaptável para identificar
reputação acadêmica. UFRGS Lume Repositorio Digital.
Cervi, C. R., Galante, R., and de Oliveira, J. P. M. (2011). Identificando a reputação de
pesquisadores usando um modelo de perfil adaptativo. In CONGRESSO DA SOCIE-
DADE BRASILEIRA DE COMPUTACAO, volume 31.
Cervi, C. R., Galante, R., and De Oliveira, J. P. M. (2013a). Comparing the reputation
of researchers using a profile model and scientific metrics. In Computational Science
and Engineering (CSE), 2013 IEEE 16th International Conference on, pages 353–359.
IEEE.
Cervi, C. R., Galante, R., and Oliveira, J. (2012). An adaptive approach for identifying
reputation of researchers. In IADIS International Conference on WWW/Internet, Ma-
rid.
Cervi, C. R., Galante, R., and Oliveira, J. d. (2013b). Application of scientific metrics to
evaluate academic reputation in different research areas. World Academy of Science,
Engineering and Technology, International Journal of Social, Behavioral, Educatio-
nal, Economic, Business and Industrial Engineering, 7(10):2778–2788.
CNPq, C. N. d. D. C. e. T. (2016). Sobre a plataforma lattes.
Egghe, L. (2006). An improvement of the h-index: The g-index. ISSI newsletter, 2(1):8–
9.
Garfield, E. (2010). The evolution of the science citation index. International microbio-
logy, 10(1):65–69.
Google (2004). Google acadêmico.
Hirsch, J. E. (2005). An index to quantify an individual’s scientific research output. Pro-
ceedings of the National academy of Sciences of the United States of America, pages
16569–16572.
Khaliluzzaman, M. and Chowdhury, I. I. (2016). Pre and post controller based mvc ar-
chitecture for web application. In 2016 5th International Conference on Informatics,
Electronics and Vision (ICIEV), pages 552–557.
Mena-Chalco, J. P., Junior, C., and Marcondes, R. (2009). Scriptlattes: an open-source
knowledge extraction system from the lattes platform. Journal of the Brazilian Com-
puter Society, 15(4):31–39.
Microsoft (2012). Microsoft academic.
Page, L., Brin, S., Motwani, R., and Winograd, T. (1999). The pagerank citation ranking:
Bringing order to the web. Technical report, Stanford InfoLab.
457
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
No Brasil, o controle social dos atos do administrador público está previsto em vários
dispositivos constitucionais. Conforme Art. 5º, inciso XXXIII da Constituição Federal
do Brasil (1988), “todos têm o direito de receber informações das esferas públicas para o
seu uso particular e/ou coletivo, observando-se a legislação vigente e o caráter sigiloso
das informações em relação à segurança da sociedade e do Estado brasileiro”. Deste
modo, Rek (2013) declara que a sociedade deve estar ciente da subordinação da
Administração Pública aos princípios que a regem, atuando inclusive como fiscais da
“res” pública, utilizando-se dos meios legais e alternativos disponíveis para denúncias e
repúdios de corrupção, fraudes e abusos.
458
5º WTranS - Workshop de Transparência em Sistemas
459
XXXVII Congresso da Sociedade Brasileira de Computação
sistemas de informações internas dos órgãos de governo, a fim de viabilizar o uso destas
por outros órgãos governamentais ou outros segmentos da sociedade, de modo
transparente, dinâmico, distribuído e integrado.
2. Metodologia
A metodologia empregada nesta pesquisa teve início com uma revisão bibliográfica, a
fim de responder a questão de pesquisa “Quais são os protocolos e principais
tecnologias disponíveis que estabelecem um ambiente propício para divulgação e
reutilização das informações públicas?”. A revisão bibliográfica foi realizada aplicando-
se strings de busca, combinadas a partir das palavras-chave definidas, nas bases de
dados IEEE, ACM, Google Scholar e em anais de conferências da área.
Na sequência, foi elaborado um Mapa Mental, com os principais aspectos do
problema. O Mapa Mental buscou compreender quais são as dificuldades e necessidades
dos órgãos governamentais e dos ambientes externos em relação à transparência dos
conteúdos disponibilizados. O Mapa Mental proporciona benefícios, os quais se
sobressaem a organização das ideias e conceitos, pois destacam-se palavras-chave
relevantes, agrupam ideias e estimulam a criatividade e inovação [Batista; Silva 2015].
Considerando a importância da integração entre o órgão governamental e o
ambiente externo, foi desenvolvido o método TRADIN, suportado por uma ferramenta
com o mesmo nome, fazendo uso de diferentes tecnologias. Definiu-se a estruturação
das saídas em HTML (HyperText Markup Language), RDF (Resource Description
Framework) e JSON (JavaScript Object Notation), como os principais formatos de
saída gerados pelos sistemas.
O método de pesquisa qualitativo abordado por Stake (2011) foi adotado para
descrever como os objetivos propostos foram alcançados, descrevendo a arquitetura do
ambiente, as técnicas de padronização na manutenção dos registros e a comunicação
entre os ambientes, de forma integrada.
460
5º WTranS - Workshop de Transparência em Sistemas
461
XXXVII Congresso da Sociedade Brasileira de Computação
462
5º WTranS - Workshop de Transparência em Sistemas
4. Método TRADIN
O método proposto neste trabalho está embasado na arquitetura de solução de integração
proposta por Paiva, Revoredo e Baião (2016), conforme mostra a Figura 1, buscando
uma publicação dos dados primários de forma direta, originados dos sistemas utilizados
internamente pelo órgão governamental, eliminando etapas para publicação e
distribuindo a responsabilidade na busca pela transparência.
463
XXXVII Congresso da Sociedade Brasileira de Computação
464
5º WTranS - Workshop de Transparência em Sistemas
de mensagens é definida pelo sítio de origem (Portal Transparência) que deste modo não
necessita ter conhecimento sobre os sítios de destino (clientes), bastando apenas
comunicá-los.
O protocolo Websocket foi escolhido para a comunicação por tratar-se de um
protocolo simplificado e ter uma camada sobre o TCP (Transmission Control Protocol),
na qual se adicionou um modelo de segurança web baseada na origem e um esquema de
nomenclaturas e endereços, que suportam a multiplicidade de serviços na mesma porta
de comunicação e vários hosts no mesmo endereço IP [Varela e Loh 2012].
Registros de páginas, elementos e mídias HTML são mantidos no banco de
dados, estabelecendo-se o vínculo das últimas com os elementos, em cadastros básicos
que irão retornar, após o processamento por linguagem de programação, a saída do
HTML no navegador web e dos arquivos RDF e JSON.
Ao gerar todos os formatos de saída (HTML, RDF e JSON), o sítio de origem
captura o JSON gerado na publicação da página e envia para os sítios de destino
cadastrados para receberem notificações da página específica. Para o envio da
mensagem, abre-se uma porta de comunicação entre os servidores de aplicação por meio
do protocolo Websocket usando a URI do sítio de destino, informada no momento do
cadastro de marcação da página no sítio de origem.
A comunicação entre sítios é necessária e vai ao encontro dos anseios do cidadão
e dos órgãos governamentais na administração dos recursos públicos. Trata-se de uma
metodologia de compartilhamento, fiscalização e processamento de dados realizada por
meio de diversos sítios, sejam eles públicos ou privados, obedecendo a um padrão de
compartilhamento de conteúdo e dados para análise de forma direcionada. Deste modo,
os diferentes segmentos da sociedade poderão acompanhar os dados publicados, com a
possibilidade de seleção e registro para recebimento dos dados que são de interesse do
cidadão, podendo replicar as informações em seus próprios sítios se assim desejarem.
O protocolo Websocket permite a abertura de um canal de comunicação sem
depender da abertura de várias conexões HTTP, possibilitando a comunicação em duas
vias entre um agente usuário e um host remoto, assim é possível prover um mecanismo
pelo qual aplicações web possam se comunicar de forma bidirecional [Varela; Loh,
2012]. A cada atualização de página, o sítio de origem notifica o(s) sítio(s) de destino
por meio do Websocket, o qual decide se incorpora a informação em seus registros,
podendo optar pela plenitude ou parcialidade da informação, que vem por meio do
JSON do sítio de origem.
5. Conclusões
Este estudo apresentou a concepção do método TRADIN como meio de propiciar
ambiente adequado para publicação de informações na internet, com alta
disponibilidade ao cidadão, escalabilidade de compartilhamento por meio do protocolo
de comunicação escolhido, bem como pelos formatos de padronização da estrutura de
publicação de informações.
Para validar o método proposto, foram realizados experimentos a partir da
prospecção de cenários, a fim de medir o alcance e eficiência do método proposto neste
465
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Araújo, C. L. B. e Maia, L. C. G. (2014) Gestão Pública e Governo Eletrônico: Estudo
sobre Sítios institucionais de Prefeituras no Estado de Minas Gerais. Democracia
Digital e Governo Eletrônico, Florianópolis/SC.
Bargh, M. S., Choenni, S., e Meijer, R. (2015) Privacy and Information Sharing in a
Judicial Setting: A Wicked Problem. Proceedings of the 16th Annual International
Conference on Digital Government Research, Arizona State University.
Batista, C. e Silva, C. (2015) Um Processo Criativo de Elicitação de Contextos para
Sistemas Sensíveis ao Contexto. XI Simpósio Brasileiro de Sistemas de Informação
(SBSI), Goiás.
Brasil. Constituição (1988). Constituição da República Federativa do Brasil. Texto
consolidado até a Emenda Constitucional nº 93 de 08 de setembro de 2016. Brasília,
DF: Senado Federal, 2016. DOI:
http://www.senado.gov.br/atividade/const/con1988/con1988_08.09.2016/CON1988.
pdf. Acesso em 19 de out 2016.
Cappelli, C., Engiel, P., Leite, J., Asteriotanaka, V., Santos, G. e Benjamim, K. (2014)
A Evolução do Modelo de Maturidade em Transparência Organizacional. Simpósio
Brasileiro de Sistemas de Informação (SBSI).
Collins-Williams, T. e Wolfe, R. (2010) Transparency as a trade policy tool: the WTO’s
cloudy windows. World Trade Review. University of Cambridge, United Kingdom.
466
5º WTranS - Workshop de Transparência em Sistemas
467
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
É um prazer anunciar o VI Brazilian Workshop on Social Network Analysis and Mining
(BraSNAM). O workshop acontecerá juntamente com o 37o Congresso da Sociedade
Brasileira de Computação (CSBC) o qual é o evento oficial da Sociedade Brasileira de
Computação. O objetivo do encontro é discutir avanços recentes em mineração e análise
de redes sociais. A conferência será realizada em São Paulo (SP), nos dias 04 e 05 de
julho de 2017.
O estudo sobre redes sociais tem suas origens em comunidades sociais,
educacionais e empresariais. O interesse acadêmico nessa área tem crescido desde a
metade do século 20. O crescente aumento no número de usuários Web estimula a
interação entre pessoas, disseminação de dados, troca de informação e também aumenta
significativamente os dados disponíveis. A partir da mineração e análise de redes sociais,
podemos criar ou enriquecer soluções aplicadas à identificação de grupos, identificação
de influência, detecção de necessidades, propagação de informações, fluxo da
informação, identificação de rumores, etc. Tais soluções podem ser aplicadas a vários
cenários como ecossistemas, marketing, segurança, emergência, gestão de equipes,
cidades inteligentes e outros totalmente relacionados a “Computação para Tudo e Tod*s”,
tema do CSBC 2017. Além disso, este evento tem como objetivo servir como um
facilitador na troca de conhecimento e colaboração entre academia e empresas, ligando
pesquisadores e profissionais que trabalham na área.
Em sua sexta edição, o BraSNAM recebeu um número significativo de
submissões, totalizando 50 artigos submetidos, dos quais foram aceitos 16 artigos
completos e 3 artigos resumidos. O processo de revisão foi double blind review e os
autores dos melhores artigos serão convidados a submeterem versões estendidas ao
Journal of Internet Services and Applications (JISA). Além disso, contaremos com um
artigo convidado de coautoria de palestrante dessa sexta edição do BraSNAM.
O BraSNAM oferecerá uma palestra intitulada “Visualização de Software e
Interação com Redes Sociais” proferida pela Prof. Claudia Maria Lima Werner (UFRJ).
Além disso, teremos o painel “O social em rede: os grandes desafios que a Computação
ainda não resolveu” composto por Prof. Altigran Soares da Silva (UFAM, Moderador),
Sr. Claudio Pinhanez (IBM Research), Sr. Marcio Gadaleta (Oracle), Sr. Rodrigo Padula
(Wiki Educação Brasil) e Sr. Rodrigo Ramalho (Red Hat). Promovendo uma maior
discussão e troca de ideias, teremos os seguintes “Bate Papos”: “A Matemática das Redes
Sociais” a ser proferido por Prof. Daniel Ratton Figueiredo (UFRJ), “Tie Strength
Analysis: New Metrics and Open Problems” a ser proferido por Prof. Michele A. Brandão
(UFMG), “Iniciação ao uso de redes sociais via dispositivos móveis por adultos mais
velhos” a ser proferido por Prof. Maria da Graça Campos Pimentel (USP) e “Sistemas de
Informação na Terceira Plataforma Computacional” a ser proferido por Prof. Clodis
Boscarioli (UNIOESTE).
468
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
469
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral / Coordenação do Comitê de Programa
Giseli Rabello Lopes (UFRJ), Rodrigo Pereira dos Santos (UNIRIO)
Coordenação Local
Leandro Augusto da Silva (Mackenzie)
Comitê Diretivo
Daniel Figueiredo (UFRJ), Jano Moreira de Souza (UFRJ), Jonice Oliveira (UFRJ),
Juliana Valério (UFRJ), Mirella Moro (UFMG), Renata Galante (UFRGS), Roberto
Imbuzeiro Oliveira (IMPA), Fabrício Benevenuto (UFMG), Li Weigang (UnB), Giseli
Lopes (UFRJ)
Comitê de Programa
Adriano César Pereira (UFMG), Ana Paula Appel (IBM Research - Brazil), Ana Paula
Couto da Silva (UFMG), Artur Ziviani (LNCC), Bernardo Pereira Nunes (PUC-Rio),
Carla Delgado (UFRJ), Claudio de Farias (UFRJ), Claudio Pinhanez (IBM Research -
Brazil), Daniel Figueiredo (UFRJ), Daniel Menasché (UFRJ), Davi Viana (UFMA),
Eduardo Borges (FURG), Elisa Hatsue Moriya Huzita (UEM), Elizeu Santos-Neto
(Google), Giseli Lopes (UFRJ), Gislaine Camila Leal (UEM), Gustavo Paiva Guedes
(CEFET/RJ), Hernane Pereira (SENAI CIMATEC), Humberto Marques (PUC Minas),
Igor Wiese (UTFPR), Isabela Gasparini (UDESC), Jairo Souza (UFJF), João Paixão
(UFRJ), Jonice Oliveira (UFRJ), José Palazzo Moreira de Oliveira (UFRGS), Juliana
Valério (UFRJ), Leandro Silva (Mackenzie), Li Weigang (UnB), Luciana Romani
(Embrapa Informática Agropecuária), Luciano Digiampietri (USP), Luiz André Paes
Leme (UFF), Marcio Miranda (UFRRJ), Mirella Moro (UFMG), Nazareno Andrade
(UFCG), Pedro Olmo Vaz de Melo (UFMG), Renata Galante (UFRGS), Rodrigo Santos
(UNIRIO), Sergio Manuel Serra da Cruz (UFRRJ)
Revisores Externos
Mariele Lanes (FURG), Michele Brandao (UFMG)
470
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Palestras
Visualização de Software e Interação com Redes Sociais
Claudia Maria Lima Werner (UFRJ)
Bio: Cláudia Maria Lima Werner é doutora pela COPPE/UFRJ (1992) e desde 1994 é
professora titular do Programa Engenharia de Sistemas e Computação, na COPPE/UFRJ.
É também pesquisadora do CNPq e atua na área de Engenharia de Software há mais de
20 anos, com ênfase nos temas Reutilização de Software, Ensino de Engenharia de
Software, Visualização e Ecossistemas de Software. Tem atuado na área de visualização
desde 2008 e coordena o Laboratório de Realidade Virtual da COPPE (Lab3D). Possui
mais de 300 artigos publicados em conferências e periódicos nacionais e internacionais,
além de capítulos de livro. É membro da SBC e do comitê de programa de várias
conferências nacionais e internacionais, além de co-editora-chefe do Journal of Software
Engineering Research and Development (JSERD) da Springer. Atualmente é Diretora de
Assuntos Acadêmicos da COPPE/UFRJ.
471
XXXVII Congresso da Sociedade Brasileira de Computação
A explosão de dados coletados por sistemas de redes sociais online vem permitindo um
estudo empírico de diversos aspectos da interação humana que nunca antes foi possível.
Entretanto, para melhor compreender os fenômenos que regem a dinâmica das redes
sociais online, modelos matemáticos são necessários. Neste sentido, diferentes aspectos
de redes sociais online vem sendo representados por modelos matemáticos que são
capazes de explicar e prever o comportamento humano. Neste bate-papo iremos
apresentar alguns destes modelos mais recentes, discutir resultados, e apresentar alguns
desafios em modelar matematicamente o comportamento humano.
472
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
The study of social ties has lead to building rigorous models that reveal the evolution of
social networks and their dynamism. In this context, a central aspect is the strength of
ties, which allows the study of the roles of relationships. Here, besides analyzing the
strength of co-authorship ties, we also present a set of metrics and algorithms to measure
such strength.
473
XXXVII Congresso da Sociedade Brasileira de Computação
Iniciação ao uso de redes sociais via dispositivos móveis por adultos mais velhos
Prof. Maria da Graça Campos Pimentel (USP)
474
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
A forma como executávamos costumes tão arraigados em nossa sociedade tem se alterado
significativamente em ciclos cada vez mais curtos e de intensa migração, principalmente
pelo uso de tecnologias computacionais. Estamos vivendo a chamada Terceira Plataforma
Computacional, embasada em quatro pilares principais: computação em nuvem, web
social, big data e mobilidade. Os Sistemas de Informação nesse contexto ganham
complexidade maior, pois além dos componentes analíticos e móveis, não podem estar
desarticulados de interação e comunicação entre colaboradores internos e externos,
inclusive por meio de redes sociais. Neste bate-papo a ideia é discutir Redes Sociais como
um sistema de informação da Terceira Plataforma e seus desafios para a análise e
interação com dados.
475
XXXVII Congresso da Sociedade Brasileira de Computação
Nos últimos anos, as áreas de Mineração e Análise de Redes Sociais vêm ganhando um
maior destaque devido à quantidade e diversidade de dados que podem ser analisados, à
capacidade de processar e resolver análises complexas de uma maneira mais eficiente, ao
desenvolvimento de novas soluções para visualizar redes cada vez mais complexas e à
aplicação de seus conceitos em outras soluções. Com o subsídio dessas áreas, podemos
aperfeiçoar métodos ou técnicas de apoio à contextualização, filtragem, recomendação,
identificação de pares, análise de cenários, personalização da informação – questões que
os sistemas computacionais atuais, independente do cenário onde são aplicados, precisam
lidar. Neste painel, discutiremos os desafios e problemas da mineração e análise de redes
sociais no Brasil, reunindo pesquisadores de universidades, empresas e instituições que
atuam na área de redes sociais e computação social.
476
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
477
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Utilizando Análise de Sentimentos para Definição da Homofilia Política dos
Usuários do Twitter durante a Eleição Presidencial Americana de 2016
Josemar Alves Caetano, Hélder Seixas Lima, Mateus Freira dos Santos, Humberto Torres
Marques-Neto
Métricas para análise de poder em redes sociais e sua aplicação nas doações de
campanha para o Senado Federal brasileiro
Letícia Verona, Jonice Oliveira, Maria Luiza Machado Campos
478
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
479
XXXVII Congresso da Sociedade Brasileira de Computação
humberto@pucminas.br
Abstract. This paper proposes a political homophily analysis among Twitter users
during the 2016 US presidential election. We collected tweets, user profiles, and
their network for this study over 122 days (08/01/2016 to 11/30/2016). Based on our
dataset we considered the sentiment related to the candidates Donald Trump and Hil-
lary Clinton for homophily analysis. The results showed that exist greater homophily
among users that share negative sentiment associated with both candidates, higher
in the case of candidate Donald Trump. The results also revealed that exists higher
heterophily among users that did not express sentiment related to both candidates.
Resumo. Este trabalho propõe uma análise da homofilia polı́tica entre usuários
do Twitter durante a eleição presidencial americana de 2016. Os tweets, perfis de
usuários e suas redes de contatos foram coletados para este estudo ao longo de
122 dias (01/08/2016 até 30/11/2016). Considerando a base de dados coletada,
o sentimento em relação aos candidatos Donald Trump e Hillary Clinton foi
utilizado para a análise da homofilia. Os resultados mostraram que existe maior
homofilia entre usuários que compartilham sentimento negativo em relação a ambos
candidatos, sendo mais evidente no caso do candidato Donald Trump. Os resultados
também mostraram que existe maior heterofilia entre usuários que não manifestaram
sentimento em relação aos dois candidatos.
1. Introdução
As redes sociais online são hoje um dos principais ambientes de debate, discussão e troca de
informações entre as pessoas. A homofilia, tendência dos indivı́duos possuı́rem caracterı́sticas
e comportamento similares aos dos seus pares, é um fenômeno já percebido nas redes sociais
há algum tempo [Easley and Kleinberg 2010]. As caracterı́sticas que os pares, por exemplo
amigos, têm em comum vão desde questões não mutáveis como a etnia, até caracterı́sticas
mutáveis como crenças, profissão [McPherson et al. 2001] e sentimentos a respeito de um
assunto [Yuan et al. 2014].
Percebe-se que a polı́tica é um assunto recorrente em debates nas redes sociais, o que
pode transformar essas redes em um ambiente de forte confronto ideológico e de opiniões
[Wang et al. 2012]. A eleição presidencial americana do ano de 2016 caracterizou-se por uma
480
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
disputa acirrada, especialmente após as primárias partidárias que resultaram na disputa entre
Donald Trump, representante do Partido Republicano, e Hillary Clinton, representante do
Partido Democrata1. Os embates polı́ticos e ideológicos entre os dois candidatos refletiram
nas discussões entre seus apoiadores nas redes sociais2.
O objetivo deste trabalho é identificar e analisar a homofilia polı́tica entre os usuários do
Twitter ao longo da campanha presidencial americana de 2016. O discurso polı́tico dos usuários
foi caracterizado através da análise de sentimentos de tweets publicados ao longo do perı́odo de
coleta. A ferramenta SentiStrength [Thelwall et al. 2010] foi utilizada para extrair o sentimento
dos tweets. Dessa forma, foi possı́vel analisar se um usuário tem um sentimento favorável
(positivo), desfavorável (negativo) ou neutro em relação a cada candidato. Enfim, a principal
contribuição deste trabalho é propor uma nova abordagem para a análise da homofilia polı́tica no
Twitter utilizando a análise de sentimentos como caracterı́stica para a classificação dos usuários.
Os tweets, perfis de usuário e sua rede de contatos foram coletados ao longo de 122 dias
(01/08/2016 até 30/11/2016). A coleta teve como ponto de partida a identificação de usuários
sementes, ou seja, pessoas que estavam comentando sobre a eleição presidencial americana
no Twitter em tempo real. Ao todo foram coletados aproximadamente 3,6 milhões de tweets
de 18.450 usuários distintos do Twitter.
Os resultados obtidos indicaram que a homofilia é um fenômeno presente na base de
dados analisada e que ela é mais evidente quando se considera apenas as conexões recı́procas
entre os usuários. A homofilia entre usuários que manifestaram sentimento negativo aos
candidatos é alta, sendo mais considerável no caso do candidato Donald Trump. Também
ocorreu homofilia entre usuários com sentimento positivo em relação aos dois candidatos,
entretanto, em menor intensidade. Os resultados mostraram a existência do inverso da homofilia
(heterofilia) entre os usuários que não manifestaram opinião em relação aos candidatos.
O trabalho está dividido da seguinte maneira. Na Seção 2 serão apresentados os
conceitos básicos para compreensão deste trabalho. Os trabalhos que já propuseram estudar
homofilia relacionada ao posicionamento polı́tico de usuários de redes sociais online são
apresentados na Seção 3. A metodologia aplicada na análise de homofilia é explicada na Seção
4 e os resultados obtidos são apresentados e discutidos na Seção 5. Por fim, as conclusões e
trabalhos futuros são apresentados na Seção 6.
2. Referencial Teórico
Nesta seção serão apresentados e discutidos os conceitos necessários para o entendimento da
metodologia aplicada no presente trabalho. Na Seção 2.1, será apresentado o funcionamento
da rede social Twitter e contextualizado seu uso na eleição presidencial americana de 2016. Em
seguida, na Seção 2.2 será definido o fenômeno da homofilia e também como são calculados
os indicadores necessários para avaliar sua ocorrência.
481
XXXVII Congresso da Sociedade Brasileira de Computação
possui, em maio de 2017, cerca de 320 milhões de usuários ativos e é uma das redes sociais
mais populares do mundo3.
No Twitter, quando um usuário A cria um vı́nculo com um usuário B, diz-se que A
está seguindo (following) B, ou que B tem A como seguidor (follower). Diferente de outras
redes sociais, no Twitter as conexões entre usuários não são obrigatoriamente recı́procas, ou
seja, mesmo que A siga B, isso não implica que B siga A.
O perfil de um usuário no Twitter é composto basicamente pelos seguintes atributos:
nome, descrição do perfil, foto e sua localização. A timeline de um usuário é o conjunto de
tweets que ele publicou. Os dois candidatos à presidência nos EUA possuem contas no Twitter
e fizeram uso constante da rede durante a eleição de 2016. O candidato republicano Donald
Trump é identificado no Twitter pelo nome de usuário @realDonaldTrump e em novembro
de 2016 tinha cerca de 17,1 milhões de seguidores, enquanto que a democrata Hillary Clinton,
identificada pelo usuário @HillaryClinton, era seguida por aproximadamente 11,6 milhões
usuários em novembro de 2016.
Um retweet é um tweet publicado por um usuário A que foi compartilhado por um
usuário B. Um dos recursos mais utilizados pelos usuários do Twitter são as hashtags, que
consistem em expressões iniciadas pelo caractere “#” e tem a função de rotular ou resumir um
tema em discussão [DeMasi et al. 2016]. Por exemplo, apoiadores de Donald Trump utilizaram
as hashtags #VoteTrump e #TrumpWon, enquanto que apoiadores da Hillary Clinton utilizaram
as hashtags #VoteHillary e #NeverTrump.
2.2. Homofilia
O princı́pio da homofilia é um tema muito estudado pela sociologia [McPherson et al. 2001].
Vários estudos observam o fenômeno da homofilia por caracterı́sticas como etnia, idade, gênero,
lugares onde viveu, profissão, entre outros [McPherson et al. 2001, Currarini et al. 2009,
Easley and Kleinberg 2010]. [Ribeiro and Bastos 2014] propôs um estudo sobre a homofilia
entre alunos cotistas e alunos não cotistas de uma Universidade Federal brasileira.
De acordo com [Colleoni et al. 2014] o indicador de homofilia de indivı́duos do tipo
i é dado por:
si
Hi = (1)
si +di
Onde H i é o indicador de homofilia, si representa o número conexões que ligam
indivı́duos do tipo i (conexões homogêneas) e di representa o número conexões que ligam
indivı́duos do tipo i com indivı́duos de outros tipos (conexões heterogêneas).
[Currarini et al. 2009] utilizam a Equação 1 para o cálculo da homofilia. Porém, eles
ressaltam a dificuldade de medir a homofilia simplesmente considerando H i. Os autores
apresentam o seguinte exemplo: seja um grupo A que corresponde a 95% de uma população
de uma rede e um grupo B que corresponde aos 5% restantes. Considere que cada grupo tenha
um percentual de 96% de amizades homogêneas (H i = 0,96). Comparando o grupo A com
o grupo B, embora ambos tenham o mesmo H i, a homofilia entre os membros do grupo B é
maior que a do grupo A, pois a probabilidade de amizades entre membros do grupo B é menor
que do a probabilidade de A.
3
http://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users
482
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
H i −wi
IH i = (2)
1−wi
Onde IH i é o indicador de inbreeding homophily, H i é o indicador de homofilia
definido na Equação 1 e wi é probabilidade da ocorrência de indivı́duos do tipo i, que consiste
no total de indivı́duos do tipo i dividido pelo total de indivı́duos de uma rede T . Caso H i seja
maior que wi, então há homofilia.
Retornando ao exemplo anterior, o valor de IH i para os grupos A e B, são 0,2 e 0,96,
respectivamente. Esse resultado demonstra que a métrica inbreeding homophily pode ser
utilizada para comparar a homofilia relativa entre diferentes populações. Sendo que, quanto
maior o valor de IH i, mais forte é a ocorrência da homofilia.
Ao se analisar o IH i, o valor zero corresponde a linha de base determinante da
homofilia. O inverso da homofilia é chamado de heterofilia, ou seja, quando há predominância
de relacionamento entre indivı́duos de tipos diferentes. Portanto, neste trabalho a ocorrência
de homofilia ou heterofilia é dada pela seguinte condição:
(
IH i >0 homofilia
IH i <0 heterofilia
3. Trabalhos Relacionados
Alguns trabalhos já propuseram análises da homofilia polı́tica no Twitter. [Colleoni et al. 2014]
investigaram a homofilia polı́tica em uma base de dados de eleitores americanos democratas e re-
publicanos. Utilizou-se aprendizado de máquina e análise da rede social para fazer a classificação
da preferência partidária dos usuários. Nesse trabalho foi percebido que em geral os democratas
apresentam maior nı́vel de homofilia polı́tica quando comparado com os republicanos. Também
foi constatado que os nı́veis de homofilia são maiores quando se considera conexões recı́procas.
[Halberstam and Knight 2016] investigaram como a homofilia polı́tica interfere na
difusão de informações nas redes sociais. Esse estudo foi desenvolvido utilizando uma base
de dados de usuários do Twitter politicamente engajados. Os autores identificaram que
usuários ligados a grupos polı́ticos majoritários, quando comparados com usuários de grupos
minoritários, têm mais conexões, estão expostos a um maior número de informações e estas
informações são recebidas mais rapidamente.
Esses trabalhos demonstraram que a homofilia polı́tica é um fenômeno presente no
Twitter. Em geral, esses trabalhos consideraram métodos de classificação para caracterizar
os usuários como adeptos do Partido Democrata ou Partido Republicano, ou classificaram
os usuários de acordo com a orientação polı́tica conservadora ou liberal. Diferentemente,
neste trabalho, os usuários foram classificados conforme o sentimento que eles expressaram
nos tweets que eles publicaram a respeito dos candidatos. Portanto, a aplicação da análise de
sentimentos é o principal diferencial deste trabalho em relação aos trabalhos anteriores que
investigaram o tema da homofilia polı́tica no Twitter.
483
XXXVII Congresso da Sociedade Brasileira de Computação
4. Metodologia
Nesta seção, as etapas da metodologia aplicada no presente trabalho serão apresentadas.
Primeiramente, a coleta dos dados do Twitter será descrita. Em seguida, o cálculo do sentimento
dos tweets e os critérios de identificação dos sujeitos de cada tweet serão explicados. Por fim,
o cálculo da homofilia entre os usuários analisados será apresentado.
484
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
sentimento agregado de valor 0. Para resolver esse problema, foi utilizado o Stanford Parser5,
que é uma biblioteca para análise de linguagem natural desenvolvida pelo grupo de estudos
sobre processamento de linguagem natural da Universidade de Stanford [Klein et al. 2003].
Essa ferramenta permitiu identificar os sujeitos do tweet e os lexemas associados a eles para
fazer o cálculo do sentimento associado a cada sujeito do texto.
A média do sentimento em relação aos candidatos foi calculada para cada um dos 18.450
usuários. O cálculo consistiu na seleção de cada frase dos tweets que o usuário havia escrito e que
possuı́am sujeitos referentes a um dos candidatos. Os candidatos foram identificados por nomes
e pronomes associados a eles conforme apresentado na Tabela 1, pois observou-se que existiam
vários termos utilizados para se referir aos candidatos além do nome de usuário no Twitter.
Os pronomes somente foram considerados quando no tweet em análise também era
feita menção a um dos nomes dos candidatos. Por exemplo, se o tweet possuı́a o nome
“@realDonaldTrump” e o pronome “He”, então considerou-se que “He” estava associado com
“@realDonalTrump”.
Para simplificar a análise dos resultados deste trabalho decidiu-se discretizar os valores
numéricos dos sentimentos em relação aos candidatos em valores categóricos (Tabela 3).
Usuários com média de sentimento maior que 1 ou com média de sentimento menor que 1
representaram apenas 0,87% dos usuários analisados.
5
http://nlp.stanford.edu/software/lex-parser.shtml
485
XXXVII Congresso da Sociedade Brasileira de Computação
486
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
A classe “Não manifestado” contém 53,18% dos usuários. Isso mostra que mais da
metade dos usuários não publicaram nenhum tweet em relação a ambos candidatos e fazem
parte da rede de contatos dos usuários sementes (conforme definido na Seção 4.1). A classe
“Neutro” contém 12,35% do total de usuários. Essa classe corresponde aos usuários que tiveram
sentimento neutro em relação a ambos candidatos.
A classe “Crı́tico ambos” representa os usuários com sentimento negativo em relação
a ambos candidatos e contém 9,49% do total de usuários. A classe “Pró Trump” consistiu de
487
XXXVII Congresso da Sociedade Brasileira de Computação
usuários com sentimento que favorece o candidato Donald Trump e desfavorece a candidata
Hillary Clinton. Essa classe contém 5,43% do total de usuários. A classe “Pró Hillary” contém
19,00% dos usuários. Essa classe contém usuários que têm sentimento que favorece a candidata
Hillary Clinton e desfavorece o candidato Donald Trump. A classe “Favorável ambos” consistiu
de usuários com sentimento positivo em relação a ambos candidatos e compreendeu 0,55%
dos usuários.
Para cada cenário analisado, dois valores de IH i foram calculados. No primeiro cálculo
considerou-se todos os tipos de conexões entre os usuários (conexões gerais). No segundo
cálculo considerou-se somente as conexões recı́procas entre os usuários conforme definido
na Seção 2.1. A escolha de utilizar os dois valores de IHi foi motivada pelo resultado obtido
por [Colleoni et al. 2014], onde percebeu-se que a homofilia entre usuários com conexões
recı́procas é maior quando comparada com a homofilia de conexões gerais.
5. Resultados e Discussão
Nesta seção os resultados dos cálculos da homofilia obtidos através da metodologia explicada na
Seção anterior serão apresentados e discutidos. As subseções seguintes apresentam discussões
dos resultados nos dois cenários considerados neste trabalho e as possı́veis limitações da
metodologia aplicada.
O maior grau de homofilia ocorreu entre usuários que publicaram tweets com sentimento
negativo em relação ao Donald Trump (possı́veis apoiadores da Hillary). Entre usuários que
publicaram tweets com sentimento negativo em relação à Hillary Clinton (possı́veis apoiadores
do Trump) ocorreu o segundo maior grau de homofilia. Isso indica que a rede de usuários com
sentimento negativo em relação a um candidato é formada por usuários mais conectados entre si.
488
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
489
XXXVII Congresso da Sociedade Brasileira de Computação
6. Conclusão
Neste trabalho foi realizado um estudo sobre a ocorrência do fenômeno da homofilia polı́tica
considerando o sentimento manifestado por usuários do Twitter em relação aos candidatos
Donald Trump e Hillary Clinton na eleição americana de 2016. Os tweets, perfis de usuário
e redes de contatos foram coletados ao longo de 122 dias (01/08/2016 até 30/11/2016). O
discurso polı́tico de um usuário foi caracterizado a partir do sentimento expresso em relação
aos dois candidatos a partir de seus tweets coletados.
A análise da homofilia foi realizada em dois cenários. O primeiro cenário considerou as
classes de sentimento “Negativo”, “Neutro” e “Positivo” de forma separada para cada candidato.
O segundo cenário considerou a classificação do discurso do usuário como “Neutro”, “Crı́tico
ambos”, “Pró Trump”, “Pró Hillary” e “Favorável ambos”. Nos dois cenários também foi
considerado aqueles usuários que não manifestaram sentimento em relação aos candidatos.
No primeiro cenário, o maior grau de homofilia ocorreu entre usuários que publicaram
tweets com sentimento negativo em relação ao Donald Trump (possı́veis apoiadores da Hillary).
Entre usuários que publicaram tweets com sentimento negativo em relação à Hillary Clinton
(possı́veis apoiadores do Trump) ocorreu o segundo maior grau de homofilia. Nas demais
classes (“Não manisfestado” e “Neutro”), houve a ocorrência de heterofilia.
No segundo cenário houve homofilia entre usuários que são crı́ticos dos dois candidato,
apoiadores do Donald Trump e apoiadores da Hillary Clinton. O fenômeno da heterofilia
ocorreu entre usuários que não manifestaram seu sentimento, que tiveram sentimento neutro
e sentimento favorável a ambos candidatos. Ressalta-se que houve maior grau de heterofilia
entre usuários com sentimento não manifestado nos dois cenários analisados.
Uma vez que mais da metade dos usuários nos dois cenários analisados foram classifica-
dos com sentimento “Não manifestado”, sugere-se, como trabalho futuro, que sejam acrescidas
novas caracterı́sticas para classificação do discurso polı́tico dos usuários no Twitter. Por exemplo,
caracterı́sticas sintáticas do tweet como hashtags e menções além de caracterı́sticas da rede
de contatos do usuário como por exemplo se um usuário segue ou é seguido por um candidato.
7. Agradecimentos
Este trabalho foi financiado pela FAPEMIG, CAPES, CNPq, e FAPEMIG-PRONEX-MASWeb
– Modelos, Algoritmos e Sistemas para a Web (processo APQ-01400-14).
Referências
Colleoni, E., Rozza, A., and Arvidsson, A. (2014). Echo chamber or public sphere? predicting
political orientation and measuring political homophily in twitter using big data. Journal
of Communication, 64(2):317–332.
Currarini, S., Jackson, M. O., and Pin, P. (2009). An economic model of friendship: Homophily,
minorities, and segregation. Econometrica, 77(4):1003–1045.
DeMasi, O., Mason, D., and Ma, J. (2016). Understanding communities via hashtag
engagement: A clustering based approach. In Tenth International AAAI Conference on Web
and Social Media.
Easley, D. and Kleinberg, J. (2010). Networks, crowds, and markets: Reasoning about a highly
connected world. Cambridge University Press.
490
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Ferrara, E. and Yang, Z. (2015). Measuring emotional contagion in social media. PLOS ONE,
10(11):1–14.
Giachanou, A. and Crestani, F. (2016). Like it or not: A survey of twitter sentiment analysis
methods. ACM Comput. Surv., 49(2):28:1–28:41.
Halberstam, Y. and Knight, B. (2016). Homophily, group size, and the diffusion of political infor-
mation in social networks: Evidence from twitter. Journal of Public Economics, 143:73–88.
Klein, D., Manning, C. D., et al. (2003). Fast exact inference with a factored model for natural
language parsing. Advances in neural information processing systems, pages 3–10.
McPherson, M., Smith-Lovin, L., and Cook, J. M. (2001). Birds of a feather: Homophily in
social networks. Annual review of sociology, pages 415–444.
Ribeiro, E. M. B. and Bastos, A. V. B. (2014). A homofilia por cotas em cursos de alta e baixa
concorrência na universidade federal da bahia. In XXIV Congresso da Sociedade Brasileira
de Computação. III Brazilian Workshop on Social Network Analysis and Mining.
Thelwall, M., Buckley, K., Paltoglou, G., Cai, D., and Kappas, A. (2010). Sentiment in short
strength detection informal text. J. Am. Soc. Inf. Sci. Technol., 61(12):2544–2558.
Wang, H., Can, D., Kazemzadeh, A., Bar, F., and Narayanan, S. (2012). A system for real-time
twitter sentiment analysis of 2012 u.s. presidential election cycle. In Proceedings of the ACL
2012 System Demonstrations, ACL ’12, pages 115–120, Stroudsburg, PA, USA. Association
for Computational Linguistics.
Yuan, G., Murukannaiah, P. K., Zhang, Z., and Singh, M. P. (2014). Exploiting sentiment
homophily for link prediction. In Proceedings of the 8th ACM Conference on Recommender
Systems, RecSys ’14, pages 17–24, New York, NY, USA. ACM.
491
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A mineração e análise de redes sociais é uma área interdisciplinar que atualmente envolve
principalmente as áreas de ciências sociais aplicadas e ciência da computação.
Uma rede social é uma estrutura composta por indivı́duos que são conectados
por relações. O conceito de redes sociais existe há séculos nas áreas de sociologia
e antropologia social, mas ganhou muito destaque nas últimas décadas com o desen-
volvimento de métodos computacionais para a análise de redes, bem como a grande
disponibilização de informações na web e, em especial, com o surgimento das redes soci-
ais online [Lemieux and Ouimet 2008].
A análise de redes sociais pode ser utilizada para uma grande gama de
aplicações, desde a caracterização de comunidades, recomendação de itens, sugestão
de relacionamentos, predição de tendências, análise de influências, entre tantas ou-
tras [Wasserman and Galaskiewicz 1994, Wasserman and Faust 2009].
492
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
2. Materiais e Métodos
Neste trabalho foram utilizadas informações de duas fontes diferentes. A primeira cor-
responde aos sı́tios web das cinco primeiras realizações do BraSNAM (de 2012 a 2016).
Destes sı́tios foram copiadas as listas de trabalhos longos e curtos que foram apresentados
em cada uma das edições do evento. Para o presente trabalho, foram utilizados, para cada
1
BraSNAM: http://www.imago.ufpr.br/csbc2012/anais csbc/eventos/brasnam. Último acesso em 5 de
março de 2017
493
XXXVII Congresso da Sociedade Brasileira de Computação
artigo: o tı́tulo, a lista de autores e o ano em que foi apresentado. Este processo resultou
na identificação de 149 trabalhos e 335 autores.
A segunda fonte de informação foi o Google Acadêmico2 , utilizado para a
obtenção do número de citações recebidas por todos os trabalhos apresentados no
BraSNAM. Esta obtenção foi realizada por meio de uma ferramenta desenvolvida para
consultar o tı́tulo de cada artigo no Google Acadêmico e verificar se o tı́tulo encon-
trado corresponde ao tı́tulo procurado. Ao todo, esta abordagem permitiu encontrar 226
citações a trabalhos apresentados no BraSNAM.
Com base nessas informações, foram realizados dois tipos de análise: (i) A
análise da produção bibliográfica relacionada com a quantidade de artigos publicados,
distribuição dos artigos por autores, distribuição dos autores por artigo, citações recebi-
das pelos artigos e pelos autores e ı́ndices g e h do evento. (ii) A análise de redes sociais
através de redes de coautoria criadas para cada ano do evento e também redes acumu-
ladas contendo os dois, os três, os quatro e os cinco primeiros anos do BraSNAM. Para
estas redes foram analisadas 14 métricas [Wasserman and Faust 2009] que serviram tanto
para caracterizar as redes quando para analisar a evolução da coautoria ao longo dos anos.
Adicionalmente, os tı́tulos das publicações foram analisados e foi gerada uma nuvem de
palavras e expressões e uma rede de palavras. A discussão dos resultados é descrita na
próxima seção.
3. Resultados
Ao longo de suas cinco primeiras edições, 149 trabalhos foram apresentados no
BraSNAM, sendo 40 trabalhos em 2012, 28 em 2013, 31 em 2014, 32 em 2015 e 18
em 2016.
Dos 149 trabalhos apresentados no evento, 59 receberam uma ou mais citações3 ,
totalizando 226 citações. Segundo estes dados, o ı́ndice-h do BraSNAM é igual a 7 e o
ı́ndice-g é igual a 11 [Egghe 2006]. A Figura 1 apresenta o número de artigos de acordo
com as citações recebidas. Observa-se que cinco artigos receberam mais de 10 citações,
enquanto que 90 ainda não receberam nenhuma e 26 foram citados uma única vez.
2
Google Acadêmico: scholar.google.com.br. Último acesso em 5 de março de 2017.
3
Dados obtidos do Google Acadêmico em 24/02/2017.
494
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
495
XXXVII Congresso da Sociedade Brasileira de Computação
cinco artigos ao longo da história do evento. Destaca-se que o Autor1 é o que participou da
maior quantidade de trabalhos apresentados no BraSNAM (10% do total) e que recebeu
a maior quantidade de citações (41% do total de citações). Já o Autor2 foi aquele que
colaborou com a maior quantidade de autores (cerca de 8,7% do total de autores).
496
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
redes sociais de coautorias. Nestas redes, cada autor corresponde a um nó e as arestas
representam a relação de colaboração na produção de ao menos um artigo no BraSNAM.
Dessa forma, a coautoria de cada artigo gera uma clique entre os nós coautores.
Ao todo foram geradas nove redes de coautorias, uma para cada ano do BraSNAM
(de 2012 a 2016) e as redes com as coautorias acumuladas 2012-2013, 2012-2014, 2012-
2015 e 2012-2016). Apenas para facilitar a visualização das figuras e tabelas a seguir,
também é apresentada uma rede com a coautoria “acumulada” de 2012 a 2012, que, de
fato, é a própria rede de 2012. Assim, são apresentadas cinco redes anuais e cinco com as
coautorias acumuladas.
A Figura 4 apresenta todas as coautorias ocorridas nos trabalhos apresentados no
BraSNAM de 2012 a 2016. Cada um dos 335 autores está representado como um nó e
as relações de coautorias são representadas por arestas (ao todo, 653 arestas). O tamanho
dos nós é proporcional à centralidade de grau.
O Autor2 da tabela 2 corresponde ao maior nó da rede, no componente conexo
verde na esquerda superior da Figura 4. Já o Autor1 é o maior nó do componente gigante
que está no centro da rede.
A rede da Figura 4 é composta por 53 componentes conexos. Há 4 autores indivi-
duais (que não estão ligados a nenhum outro). O tamanho do componente mais frequente é
497
XXXVII Congresso da Sociedade Brasileira de Computação
498
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
499
XXXVII Congresso da Sociedade Brasileira de Computação
500
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
isoladas o valor da assortatividade de grau é máxima, isto é, 1,0, pois todos os autores têm
o mesmo grau). A rede de coautorias de 2016 apresentou o maior valor de assortatividade
(0,551), já as redes acumuladas de 2012 a 2015 e 2012 a 2016 apresentaram valores muito
próximos de zero, indicando que não há uma tendência de autores com mesmo grau de se
relacionarem.
As medidas de centralização medem o quão central o nó mais central da rede é em
relação aos demais. As três medidas de centralização adotadas, baseadas no grau, na pro-
ximidade e na intermediação apresentaram valores não muito elevados o que é positivo por
indicar que nenhum autor é extremamente central nestas redes. O maior valor encontrado
para a centralização de grau ocorreu em 2014 (0,133). Já a maior centralização de proxi-
midade e de intermediação ocorreram em 2012 (respectivamente, 0,005 e 0,048). A rede
acumulada de 2012 a 2016 foi a que apresentou os menores valores de centralização indi-
cando que no conjunto de autores e relações de coautoria de toda a história do BraSNAM
a importância dos autores está dividida na rede.
A Figura 7(a) contém a nuvem de palavras e expressões4 dos tı́tulos dos 149 tra-
balhos apresentados no BraSNAM. Aqui, destacam-se inicialmente os termos “redes so-
ciais”, “análise redes” e algumas de suas variações. Observam-se também algumas fontes
de dados utilizadas como “Twitter” e “Plataforma Lattes”. É possı́vel também observar
termos relativos ao domı́nio acadêmico, como “redes coautoria”, “pós graduação” e “ar-
tigos cientı́ficos”. Por fim, observa-se alguns termos relacionados ao tipo de problema
tratado nos artigos, como “análise sentimentos” e “predição”.
Já a Figura 7(b) contém a rede das palavras presentes nos tı́tulos. Nesta rede,
cada palavra que apareceu ao menos três vezes nos tı́tulos dos trabalhos apresentados no
BraSNAM é representada por um nó e uma aresta indica que duas palavras apareceram
de forma consecutiva nos tı́tulos ao menos duas vezes. Aqui, destacam-se os sete com-
ponentes conexos. Os seis menores são compostos por “ecossistemas software”, “pesqui-
sadores ciência computação Brasil polı́ticas”, “ferramenta mineração”, “programas pós
4
Nuvem gerada pela ferramenta Word Cloud Generator: https://www.jasondavies.com/wordcloud/
501
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
A mineração e análise de redes sociais é uma área interdisciplinar que ganhou muito des-
taque nos últimos anos com a grande disponibilização de dados na web e, especialmente,
dados oriundos de redes sociais online.
A importância do tema e a visão dos organizadores do BraSNAM em perceber que
pesquisas na área estavam tomando corpo no Brasil, mas em iniciativas ainda bastante
espalhadas, justificou a criação do Brazilian Workshop on Social Network Analysis and
Mining.
Este artigo analisou a rede social formada pelos autores dos trabalhos apresenta-
dos nos primeiros cinco anos do BraSNAM, além de realizar uma análise da produção
bibliográfica sobre estes trabalho. Observou-se uma evolução do evento que anualmente
tem atraı́do novos pesquisadores para apresentar seus trabalhos, ao mesmo tempo em que
os grupos de pesquisadores envolvidos no evento têm se consolidado e expandido.
O evento cumpre assim seus objetivos, abordando diferentes temas ligados à
mineração e análise de redes sociais, aplicados a variados domı́nios e usando informações
de diferentes fontes.
Agradecimentos
Este trabalho foi parcialmente financiado por CAPES, CNPq e FAPESP.
Referências
[Digiampietri et al. 2013] Digiampietri, L., Santiago, C., and Alves, C. (2013). Predição de coau-
torias em redes sociais acadêmicas: um estudo exploratório em Ciência da Computação. In
II Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2013) - Anais do
XXXIII Congresso da Sociedade Brasileira de Computação (CSBC 2013), page 12, Maceió,
AL, Brasil.
[Digiampietri et al. 2012a] Digiampietri, L. A., Mena-Chalco, J., Perez-Alcazar, J. J., Tuesta, E. F.,
Delgado, K., and Mugnaini, R. (2012a). Minerando e Caracterizando Dados de Currı́culos
Lattes. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2012) -
Anais do XXXII Congresso da Sociedade Brasileira de Computação (CSBC 2012), page 12,
Curitiba, PR, Brasil.
[Digiampietri et al. 2012b] Digiampietri, L. A., Mena-Chalco, J., Silva, G. S., Oliveira, L., Ma-
lheiro, A., and Meira, D. (2012b). Dinâmica das Relações de Coautoria nos Programas de
pós-Graduação em Computação no Brasil. In Brazilian Workshop on Social Network Analy-
sis and Mining (BraSNAM 2012) - Anais do XXXII Congresso da Sociedade Brasileira de
Computação (CSBC 2012), page 12, Curitiba, PR, Brasil.
[do Vale Cunha et al. 2013] do Vale Cunha, M., Rosa, M. G., de Sousa Fadigas, I., Miranda, J. G. V.,
and de Barros Pereira, H. B. (2013). Redes de tı́tulos de artigos cientı́ficos variáveis no tempo.
502
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
In II Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2013) - Anais do
XXXIII Congresso da Sociedade Brasileira de Computação (CSBC 2013), page 12, Maceió,
AL, Brasil.
[Egghe 2006] Egghe, L. (2006). Theory and practise of the g-index. Scientometrics, 69(1):131–152.
[Gonçalves et al. 2013] Gonçalves, P., Benevenuto, F., and de Almeida, V. A. F. (2013). O que
Tweets Contendo Emoticons Podem Revelar Sobre Sentimentos Coletivos? In II Brazilian
Workshop on Social Network Analysis and Mining (BraSNAM 2013) - Anais do XXXIII Con-
gresso da Sociedade Brasileira de Computação (CSBC 2013), page 12, Maceió, AL, Brasil.
[Jeong and Kim 2010] Jeong, S. and Kim, H.-G. (2010). Intellectual structure of biomedical infor-
matics reflected in scholarly events. Scientometrics, 85(2):541–551.
[Lemieux and Ouimet 2008] Lemieux, V. and Ouimet, M. (2008). Análise Estrutural das Redes
Sociais. Instituto Piaget.
[Mena-Chalco et al. 2012] Mena-Chalco, J., Digiampietri, L., and Jr., R. C. (2012). Caracterizando
as redes de coautoria de currı́culos Lattes. In Brazilian Workshop on Social Network Analy-
sis and Mining (BraSNAM 2012) - Anais do XXXII Congresso da Sociedade Brasileira de
Computação (CSBC 2012), page 12, Curitiba, PR, Brasil.
[Nascimento et al. 2012] Nascimento, P., Aguas, R., de Lima, D., Kong, X., Osiek, B., Xexéo, G.,
and de Souza, J. (2012). Anĺise de sentimento de tweets com foco em notı́cias. In Brazilian
Workshop on Social Network Analysis and Mining (BraSNAM 2012) - Anais do XXXII Con-
gresso da Sociedade Brasileira de Computação (CSBC 2012), page 12, Curitiba, PR, Brasil.
[Oliveira et al. 2012] Oliveira, R. F., Araújo, J., Medeiros, F. P., and Brito, A. V. (2012). Monito-
ramento das Interações dos Aprendizes na Rede Social Twitter como Apoio ao Processo de
Mediação Docente. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM
2012) - Anais do XXXII Congresso da Sociedade Brasileira de Computação (CSBC 2012),
page 12, Curitiba, PR, Brasil.
[Ströele et al. 2012] Ströele, V., ao, G. Z., and Souza, J. M. (2012). Análise de Redes Sociais
Cientı́ficas: Modelagem. In Brazilian Workshop on Social Network Analysis and Mining
(BraSNAM 2012) - Anais do XXXII Congresso da Sociedade Brasileira de Computação (CSBC
2012), page 12, Curitiba, PR, Brasil.
[Tuesta et al. 2012] Tuesta, E. F., Delgado, K. V., Digiampietri, L. A., Alcazar, J. J. P., Mugnaini,
R., and Mena-Chalco, J. (2012). Análise temporal da relação orientador-orientado: um estudo
de caso sobre a produtividade dos pesquisadores doutores da área de Ciência da Computação.
In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM 2012) - Anais do
XXXII Congresso da Sociedade Brasileira de Computação (CSBC 2012), page 12, Curitiba,
PR, Brasil.
[Wasserman and Faust 2009] Wasserman, S. and Faust, K. (2009). Social network analysis: methods
and applications. Structural analysis in the social sciences. Cambridge University Press, 19
edition.
[Wasserman and Galaskiewicz 1994] Wasserman, S. and Galaskiewicz, J. (1994). Advances in social
network analysis research in the social and behavioral sciences. SAGE Focus Editions. SAGE
Publications.
503
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This paper aims to discuss social capital inequalities between post-
graduate students enrolled in a social sciences program in a Brazilian univer-
sity. I analyze data from 47 postgraduate students using linear models, stochas-
tic blockmodelling and the Social Selection Model (SSM). The analysis shows
that social formations occur mainly from participation in research groups and
from methodological perceived habilities.
Keywords: Social Capital; Social Network Analysis; Social Selection Model.
1. Introduction
The idea of a fully egalitarian world is an impossible abstraction. As [Lin 1999] shows,
people are born in an already stratified social space where individuals in different posi-
tions have different access, and therefore, different mobilizing capacities of their social
capital. This is due to individual positioning in social structures, family socioeconomic
background, and other person related attributes. This is no news to sociologists. How-
ever, the social selection processes, i.e., the processes by which people make ties with
each other forming groups, are not so acknowledged yet although they are central to un-
derstand how the access to social resources is achieved. This has only recently been
investigated.
This paper aims to discuss the inequalities that are held within the academic sys-
tem, specifically within a social sciences postgraduate program in a Brazilian university.
To do this, I will focus our investigation in two main aspects: academic productivity and
social selection/tie formation. I used data collected online from 47 social sciences post-
graduate students (masters and doctoral). To perform the analysis, I used linear models,
social network analysis, stochastic blockmodelling and the highly modern social selection
model (SSM).
[Lin 1999, p. 35] defines social capital as “resources embedded in a social struc-
ture which are accessed and/or mobilized in purposive actions”. This standpoint leads to
three other findings: first, there are resources embedded in a social structure. Second, in-
dividuals have different accessibility to these resources and, third, they can mobilize this
resources in purposive actions. For the purposes of this paper, this definition is sufficient
as it accounts for the inequalities that I aim to investigate.
504
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
( )
1 X
P r(Y = y) = exp ηA gA (y) (1)
k A
P
where Y is the theoretical estimated graph, y is the observed graph, A is the sum-
mation of all configurations A, ηA is the estimated parameter corresponding to the configu-
ration A, gA (y) is the network statistic corresponding to the configuration A of the graph y
and k is a constant which ensures the proper probability distribution [Robins et al. 2007].
Here, I use an extension of the p* models known as Social Selection Model (SSM).
The SSM was proposed by [Robins et al. 2001] with the goal of accounting for hetero-
geneity within the social structures using nodal attributes as exogenous covariates. So,
in addition to modelling endogenous variables, i.e., network configurations that explain
self-organizing processes, the SSM accounts for exogenous variables that also have an
effect of structure emergence [Wang et al. 2016]. Beyond that, I also analyze the effect of
dyadic covariates, i.e., the effect of the existence of an i–j tie in another relation network
on the existence of an i–j tie in the modelled network [Robins and Daraganova 2013].
3. Results
1
The questions used were: (1) With which of these colleagues did you write or publish a scientific
work?; (2) To which of these colleagues did you ask to revise a paper?; (3) If you had a theoretical doubt,
whom would you ask for help?; (4) If you had a methodological doubt, whom would you ask for help?; (5)
Which of these colleagues do you get together on social occasions?; (6) If you knew about a job vacancy in
your acting field, which of these colleagues would you indicate?
505
XXXVII Congresso da Sociedade Brasileira de Computação
d
P roductivity = β0 +β1 ResearchGroup+β2 Gender+β3 W hite+β4 Self Eval(P ub)+
β5 Age(centralized) + β6 W ork + β7 Income + β8 Scholarship + (2)
The results are presented in Table 1. A Likelihood test showed that model 2 has a
better adjust to the data. What first comes to attention is the big effect that participating
in a research group has over productivity. This is the second biggest effect found on the
model and, therefore, a central variable to understand academic productivity. At first,
men seem to be more productive than women. A t test showed this relation. However,
in the GLM, when controlling for the other available variables we find that womem are
more productive, ceteris paribus. This is very interesting although not possible to deal
with here. I intend to deepen into the academic production mechanisms in another work.
Also white people seem to be more productive than non-white in this network. Self-
evaluation regarding publishing has a big positive effect on productivity. This shows us
that students tend to be honest about their own academic performance, nothing more. We
can be tented to take hasty conclusions about expectations and productivity but it is very
difficult to talk about causality in this case since we have no further information on the
mechanisms that involve these variables. All I can affirm is that students expectations are
highly correlated with their academic performance. To be working on a formal job seems
to reduce productivity which is somewhat obvious. Age and Income have very low effects
and, curiously, scholarship has a negative effect. This is also very interesting because it
is expected that scholarship students have more time to dedicate to their research projects
and, therefore, a higher productivity performance which is not the case.
3.1. Collaboration and association among postgraduate students
3.1.1. Stochastic Blockmodel
One of the most important concepts of social network analysis is structural equiva-
lence. Two individuals are considered structurally equivalent when they present the same
relational profile, i.e., the same tie patterns [Lazega and Higgins 2014, De et al. 2011,
Wasserman and Faust 1994].
I looked after blocks of structurally equivalent nodes within the Review network.
I used the Erdös-Rényi mixture model, a special case of binary stochastic blockmodels.
It was fit with the algorithm presented by [Daudin et al. 2008].
The algorithm got a best result with 4 blocks. Blocks 1 (two students) and 2
(seven students) are constituted by individuals who are affiliated to two very close re-
search groups. These groups deal with quantitative sociology and social network analysis.
Block 3 (five students) shows people who belong to other research group that focus on
sociology of crime. The remaining students were allocated to Block 4. The model shows
that people within strong research groups tend to be structurally equivalent regarding re-
quests for review.
The blockmodel clustered nodes according to some strong research groups within
the program. This shows us that being in a group shapes your relational pattern and,
therefore, it is an important feature of social reality. Now, I will focus on the Collaboration
network seeking an statistical explanation for its emergence.
506
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
In Table 2 are presented the results for the p* models estimated to analyze the Collabora-
tion Network. First I estimated a model only with edges and controlling for the covariate
network effects. Then, I inserted three more structure configurations, namely, isolates,
triangulation and connectivity to estimate model 2. Model 3 was fit inserting five attribute
related statistics, namely, being in the same research group, being of the same sex, being
white, the productivity score and income. Statistical significance is measured here by
Wald test, i.e., the coefficient will be statistic significant if it is bigger than two times the
standard error [Lusher et al. 2013, Lazega and Higgins 2014].
The adjustment measures suggest that model 3 is the one best suited for the net-
work I want to explain. We will focus on it. The edges parameter is often compared to the
intercep of a regular regression model. It indicates that this network has a lot less edges
than it would be expected in a “random world”. The isolates and the connectivity coeffi-
cients were not significant which indicates us that these are not important configurations
for the emergence of this network. Triangulation coefficient indicates that this network
has a tendency for group formation. The estimates for the covariate network effects show
that all other measured relations have influence on how postgraduate students collaborate.
The effect of the Review net is the biggest one which shows us that students who ask for
paper review have a lot more probability to actually write or publish in partnership. The
second biggest effect is found in Methodological net. This result tell us that students tend
to collaborate more with people they see as methodological competent than with they see
as theoretically competent. The positive and significative coefficient for Professional Indi-
507
XXXVII Congresso da Sociedade Brasileira de Computação
cation net explicits a different and more generic kind of prestige. The Friendship net had a
negative and significant estimate showing that these postgraduate students build different
relations with regard to friendship and academic work. They tend to write and publish
with some people and develop friendship relations with different people, i.e., these two
social features do not coincide.
The SSM shows that, again, participating in a research group is a very important
variable to understand academic collaboration. The research group big effect tells us that
the students have greater probabilities of writing and publishing together within groups. I
also tested gender and race homophily; both were refused by model results. Students in
this program tend to collaborate with people of different race and gender. I did not find
any significant estimates for productivity score and income which shows these are not
important variables to explain collaboration ties formation.
4. Discussion
[Moody 2004, p. 213] stated that the scientific collaboration network in social sciences is
moved by research specialty and that “quantitative work is more likely to be coauthored
than non-quantitative work”. In this research I found the same pattern with the difference
that it was not the research specialty itself that connects students but, essencialy, the re-
search groups. The SSM showed that methodological habilities lead to collaboration more
than theoretical ones. This is in consonance with [Moody 2004]’s findings about quan-
508
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
titative work. In fact, the research groups that appear in the blockmodel are essentially
quantitative researchers.
References
Daudin, J.-J., Picard, F., and Robin, S. (2008). A mixture model for random graphs.
Statistics and computing, 18(2):173–183.
De, Nooy, W., Mrvar, A., and Batagelj, V. (2011). Exploratory social network analysis
with Pajek. Cambridge University Press, Cambridge.
Erickson, B. H. (2001). Good networks and good jobs: The value of social capital to
employers and employees. In Lin, N., Cook, K., and Burt, R., editors, Social capital:
Theory and research, pages 127–158. Aldine De Gruyter, New York.
Granovetter, M. S. (1973). The strength of weak ties. American journal of sociology,
pages 1360–1380.
Granovetter, M. S. (1995). Getting a job. University of Chicago Press, Chicago.
Higgins, S. S. (2005). Fundamentos teóricos do capital social. Argos, Chapecó.
Lazega, E. and Higgins, S. S. (2014). Redes sociais e estruturas relacionais. Fino Traço,
Belo Horizonte.
Lin, N. (1999). Building a network theory of social capital. Connections, 22(1):28–51.
Lusher, D., Koskinen, J., and Robins, G., editors (2013). Exponential random graph
models for social networks. Cambridge University Press, Cambridge.
Moody, J. (2004). The structure of a social science collaboration network: Disciplinary
cohesion from 1963 to 1999. American sociological review, 69(2):213–238.
Portes, A. (1998). Social capital: Its origins and applications in modern sociology. Annual
Review of Sociology, pages 1–24.
Portes, A. (2000). The two meanings of social capital. In Sociological forum, volume 15,
pages 1–12. Springer.
Robins, G. and Daraganova, G. (2013). Social selection, dyadic covariates, and geospatial
effects. In Lusher, D., Koskinen, J., and Robins, G., editors, Exponential random graph
models for social networks. Cambridge University Press, Cambridge.
Robins, G., Elliott, P., and Pattison, P. (2001). Network models for social selection pro-
cesses. Social networks, 23(1):1–30.
Robins, G., Pattison, P., Kalish, Y., and Lusher, D. (2007). An introduction to exponential
random graph (p*) models for social networks. Social networks, 29(2):173–191.
Wang, P., Robins, G., Pattison, P., and Lazega, E. (2016). Social selection models for
multilevel networks. Social Networks, 44:346–362.
Wasserman, S. and Faust, K. (1994). Social network analysis, volume 8. Cambridge
university press, Cambridge.
509
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. Brazilian Web users are among the most active in social networks
and very keen on interacting with others. Offensive comments, known as hate
speech, have been plaguing online media and originating a number of law-
suits against companies which publish Web content. Given the massive number
of user generated text published on a daily basis, manually filtering offensive
comments becomes infeasible. The identification of offensive comments can be
treated as a supervised classification task. In order to obtain a model to clas-
sify comments, an annotated dataset containing positive and negative examples
is necessary. The lack of such a dataset in Portuguese, limits the development
of detection approaches for this language. In this paper, we describe how we
created annotated datasets of offensive comments for Portuguese by collecting
news comments on the Brazilian Web. In addition, we provide classification re-
sults achieved by standard classification algorithms on these datasets which can
serve as baseline for future work on this topic.
1. Introduction
Hate speech is defined as “any communication that disparages a person or a group on
the basis of some characteristic such as race, color, ethnicity, gender, sexual orientation,
nationality, religion or other characteristic” [Nockleby, 2000]. Recently, companies like
Facebook, Twitter, and YouTube have been facing legal action for allowing users to post
texts that are considered offensive1 . Since there is a massive number of posts every day,
there is a need for automatically identifying and filtering such posts.
In Brazil, there have been prominent cases of racist texts posted in social networks
targeting black celebrities23 . Reports say that Brazilians spend the most time on social
media and estimate that 96% of all Brazilian Internet users have at least one social network
account [Webcertain, 2015]. Facebook alone has over 100 million Brazilian accounts4 .
The country ranks at third place in number of Facebook users and fifth in the number of
Twitter users5 .
Hate speech is not limited to social networks. In a preliminary analysis, we took a
sample of 145 news published on a single day (7-Jun-2016) by the biggest news site in the
1
http://www.bbc.com/news/technology-36301772
2
http://glo.bo/1Hl0HaB
3
http://glo.bo/1UiV3i0
4
http://www.internetworldstats.com/south.htm
5
http://www.forbes.com/sites/victorlipman/2014/05/24/
top-twitter-trends-what-countries-are-most-active-whos-most-popular
510
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
country6 and identified that 90% had at least one hateful comment. In most cases, users
start discussing the news and end up engaging in arguments using abusive language. Even
though companies have mechanisms for preventing the publication of offensive texts, they
still are not able to prevent cases such as the aforementioned ones.
In Brazil, the company Agência Nova/SB7 carried out a study on intolerance in so-
cial networks. During three months, they monitored Facebook, Twitter, Instagram, and a
number of blogs and websites. They recorded every time a subject such as racism and ho-
mophobia was mentioned, collecting a total of 542,781 mentions. Their findings, reported
in [NoavaS/B, 2016], state that 84% of the comments on these subjects are negative.
Identifying offensive comments is not easy because authors tend to disguise of-
fensive words by inserting asteriscs, spaces, or replacing characters by others with similar
sounds. Thus, simply checking for the presence of terms that are in a precomputed list of
offenses (i.e., a blacklist) would miss many such comments. A better solution would be
modeling this task as a text classification problem and generate models that would learn
automatically how to identify offensive comments. This approach requires an annotated
dataset with positive and negative examples (i.e., offensive and non-offensive comments).
A number of recent works addressed the detection of hate speech on the Web fo-
cusing on different aspects, such as identifying racist tweets [Kwok and Wang, 2013, Silva
et al., 2016] or blogs [Chau and Xu, 2007, Warner and Hirschberg, 2012], filtering pages
with hate and violence [Liu and Forss, 2015], detecting hate groups [Ting et al., 2013],
identifying flames [Razavi et al., 2010], and offensive news comments [Sood et al., 2012,
Djuric et al., 2015]. To the best of our knowledge, none of such works have addressed the
Brazilian Web or Portuguese texts.
The contributions of this work are: (i) an annotated dataset containing offensive
(and non-offensive) comments collected from the Brazilian Web. We call it O FF C OM B R
and make it available to the research community; (ii) baseline results of standard classifi-
cation algorithms applied to the dataset, which may serve as reference for future works on
this topic; and (iii) as a byproduct of the annotation process, we made available a system
to help judges annotate sentences. We believe our contributions represent an initial step
to enable the development of the identification of hate speech in Portuguese.
This paper is organized as follows. Section 2 presents the related literature on
hate speech identification. Section 3 describes the process used to create O FF C OM B R
and presents statistics on the dataset. Section 4 reports on experimental results on the
datasets. Section 5 discusses our main findings; and Section 6 concludes the paper.
2. Related Work
The high volumes of hate speech on the Web has motivated the research community to
come up with approaches to identify such offenses. Recent work have addressed different
platforms such as web pages, social networks, blogs, and tweets.
Supervised classifiers have been used in a number of approaches for hate speech
detection in different platforms: Xiang et al. [2012] applied them to a dataset of tweets
looking for profane language; Kwok and Wang [2013] also worked with tweets but to
6
www.g1.globo.com
7
http://www.novasb.com.br
511
XXXVII Congresso da Sociedade Brasileira de Computação
detect racist posts; Razavi et al. [2010] used them for flame detection on newsgroup mes-
sages; Warner and Hirschberg [2012] tackled anti-semitic comments from Yahoo! groups;
and, while Sood et al. [2012] focused on detecting profanity, Djuric et al. [2015] addressed
the broad category of hate speech in news comments.
Works that created annotated datasets. Supervised learning depends on the existence
of annotated datasets containing instances with and without hate speech. A few studies
report having created annotated datasets using human judges. Sood et al. [2012] used
crowdsourcing to annotate 6,500 news comments. A total of 221 annotators identified
9,4% as containing profanity with at least 66% consensus. Warner and Hirschberg [2012]
had three judges label 1,000 paragraphs extracted from web pages that might contain anti-
semitic contents. Djuric et al. [2015] reports working with over 800K comments extracted
from the Yahoo! Finance website, but the annotation process is not clear. Nobata et al.
[2016] assembled a corpus with over 2 million comments from Yahoo! Finance and News.
The annotations were carried out by trained employees. Chen et al. [2012] asked judges
to assess whether 249 YouTube users were being offensive in their posts. Unfortunately,
we found that none of the aforementioned datasets are readily available.
Available Datasets. Despite the research on hate speech detection dating back to 20
years, only in 2016 did the first datasets become publicly available. Ross et al. [2016]8 has
470 tweets in German classified as to whether they contain hate speech against refugees.
Wulczyn et al. [2016]9 contains 115,737 Wikipedia discussion comments in English. The
annotations indicate whether the comment has a personal attack. Waseem [2016]10 has
6,909 tweets in English annotated for hate speech through a crowdsourcing effort. We also
found a dataset with about 4K English tweets classified as offensive and non-offensive on
the Kaggle website11 .
None of the datasets available are in Portuguese. Thus, the dataset we describe in
the next Section is, to the best of our knowledge, the first initiative in this direction.
3. Dataset Creation
In this section, we detail how the dataset was collected, the annotation process, and the
statistics of our datasets.
3.1. Data collection
The source of the data was the news site g1.globo.com. This is the most accessed
news site in Brazil12 and, as a result, it has many comments. Although the comments on
this site go through moderation, we found a considerable number of offensive contents.
About 90% of the news we analyzed had at least one offensive comment. After a prelim-
inary analysis, we noticed that the news categories with the most offensive comments are
politics and sports. Thus, our data collection was limited to those sections.
We implemented a webscraper which sends requests to the web site on the sections
of interest. The HTML pages of the news are then downloaded and parsed to extract the
8
https://github.com/UCSM-DUE/IWG_hatespeech_public
9
https://figshare.com/articles/Wikipedia_Detox_Data/4054689
10
https://github.com/zeerakw/hatespeech
11
https://www.kaggle.com/c/detecting-insults-in-social-commentary/
data
12
http://www.alexa.com/topsites/countries/BR
512
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
text of the news and the link where all comments for a given news can be obtained in
the JSON format. All comments for a given news were extracted. Comments that were
composed only of emojis or other non-alphabetical characters were discarded. To help
preserve the anonymity of the authors, whenever a comment mentioned the full name of
the author of another comment, we kept only the first name. At the end of this process,
we obtained 10,336 comments posted for 115 news.
513
XXXVII Congresso da Sociedade Brasileira de Computação
514
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
• Tokenization. The text of the comments is tokenized and the tokens are used as
features by the classification algorithms. This is known as bag-of-words approach.
Three options of extracting n-gram (sequences of n tokens) features from the texts
were tested: (i) using unigrams (1G), (ii) using unigrams and bigrams (1G+2G),
(iii) using unigrams, bigrams and trigrams as features (1G+2G+3G). The idea is
that by using longer n-grams, we could capture better the structure of the dis-
course.
• Feature selection. we compared the use of all n-grams as features against using
only the features selected by Information Gain. Information Gain measures how
correlated each feature is with respect to the class we wish to predict. We wanted
to keep only features that had a positive correlation with the class, thus the thresh-
old of zero was applied to the InfoGainAttributeEval method in Weka.
Combining all possibilities for case folding, tokenization, and feature selection
across both datasets yielded 24 files to be processed by the classification algorithms.
Statistics for these files are shown in Table 2.
We tested two algorithms that are widely used for text classification: Naive Bayes
and SVM (called SMO in Weka’s implementation). A 10-fold-cross-validation approach
was followed and the results we report on the next section are the averages of the ten
executions of each algorithm over the 24 data files.
4.2. Results
Our analysis of the results is based on the macro weighted average F-measure (i.e.,, the
weight is given by the class size). For each class, the F-measure is the harmonic mean
between recall and precision. In order to test whether the different performances were
statistically significant, we used paired T-tests with the F-measures of the executions with
the standard threshold of statistical significance of α = 0.05.
Classification results are shown in Figure 2. The columns reflect the average F-
measure across all executions for a given parameter (i.e., choices for preprocessing and
515
XXXVII Congresso da Sociedade Brasileira de Computação
0.75 0.76
0.74 0.74 0.74
0.75 0.73 0.72 0.71
0.70
0.65
Yes
No
Yes
No
1G
1G+2G
1G+2G+3G
SMO
1G
1G+2G
1G+2G+3G
SMO
lower
original
NB
lower
default
NB
Case FS Tokenizer Classifier Case FS Tokenizer Classifier
OFFComBr-2 OFFComBr-3
classification algorithm). For example, the first column shows the average of the weighted
F-measure in all executions in which the text of the comments was converted to lowercase
considering both classification algorithms. Absolute values for F-measure ranged from
.69 to .85. The configuration with the best result, in both O FF C OM B R-2 and O FF C OM B R-
3, was achieved by SMO over the files in which the comments converted to lowercase and
when feature selection was applied. The only difference was regarding the tokenization
options – 1G+2G was the best in O FF C OM B R-2 and 1G was the best in O FF C OM B R-3,
however, the differences were very small.
Regarding the results for each of the preprocessing tasks we found that:
• Case folding. Converting the text of the comments to lowercase brought signifi-
cant improvements, with the F-measure for lower being statistically superior to
the results for original. This suggests that the loss of information incurred by
case folding is compensated by a gain of generality in the classification model.
• Tokenization. We found no statistical difference among the three tokenization op-
tions. Considering bigrams increases features by a factor of three, and considering
trigrams increases the number further by a factor of two. Given the similar results
that the three alternatives yield and the additional cost in processing this many
more features, using unigrams only is preferable.
• Feature selection. Feature selection had a positive impact on the classifiers. Not
only did the F-measure get significantly better but also processing time was dras-
tically reduced by the use of much fewer features. The number of features was
reduced to a maximum of 489 in O FF C OM B R-2 and 196 in O FF C OM B R-3. This
represents a dramatic reduction as the selected features account for 0.8% to 4.8%
of the total features.
With respect to the classifiers, SMO performed significantly better than Naive
Bayes. The average F-measure for SMO was 0.80, while for Naive Bayes the average
was 0.75. Besides the difference in the scores, an important difference between the two
algorithms appears when we look at the misclassified instances. While SMO has more
false negatives (i.e., 188 offensive comments that were classified as non-offensive) and
only a few false positives (i.e., 15 non-offensive comments that were classified as offen-
sive), Naive Bayes has fewer false negatives (154) and many more false positives (184).
Although these results cannot be directly compared to other works that used su-
pervised classification algorithms for hate speech detection (since the datasets were dif-
516
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
ferent), we found that we have reached similar scores. Warner and Hirschberg [2012] and
Sood et al. [2012] report achieving 0.63, while Chen et al. [2012] and Nobata et al. [2016]
report scores of 0.8 and 0.83, respectively.
As expected, the classifiers performed better with O FF C OM B R-3 than with O FF -
C OM B R-2, since the difference between the yes and no classes are clearer in the former.
5. Discussion
In this Section we describe the main findings of this study and their implications.
Prevalence of cursing. Insults including vulgar language were the most frequent cate-
gory of offensive comments. They were present in almost 70% of the comments found
offensive. The targets of the insults were either people mentioned in the news (politicians
or soccer players) or authors of other comments.
The importance of context. In many cases, we found that the same words present in
offensive comments could also be used in non-offensive text. The distinction is the context
in which they are used. For example, in all the words in the comments “a minha mãe há
anos esta no céu mas a sua tá na zona” and “voce nasceu assim ou bateu a cabeca
quando era crianca” are also very common in non-offensive comments. This means that
one needs to know the context in which the words appear to be able to accurately classify
them. In our experiments, we tested the use brigrams and trigrams as features hoping
that they would provide more context and thus achieve better classification performance.
Our results, however, did not improve with the use of longer n-grams. This suggests
that other forms of providing context, such as considering sentence structure, should be
investigated.
Language is constantly changing. The language on the Web is full of jargon, mis-
spellings, and abbreviations. With the increase on the number of users, the evolution of
the language becomes faster. New words are created and old words gain new meanings.
This makes the use of static black-lists of offensive words inadequate. Also, if machine
learning classifiers are to be used, they need to be capable of adapting and continue to
learn new patterns.
Size of the comments. We observed a tendency that longer comments tended to contain
fewer offenses. This suggests that longer comments require more careful elaboration and
present fewer insults compared to shorter comments.
Freedom of speech. There is a fine balance between filtering offensive comments and
interfering with people’s freedom of speech. This calls for careful consideration in the
implementation of automatic methods which should aim to minimize false positives.
Limitations. Given that the availability of human judges to annotate the instances is
the bottleneck in the creation of datasets, O FF C OM B R is limited to 1,250 instances. We
feel that many more comments are needed to allow for a better coverage of the offensive
language identified on the Web. A larger dataset would also help classifiers distinguish
between the categories. In addition, the low prevalence of comments with racism, sexism,
homophobia, xenophobia, and religious intolerance makes O FF C OM B R not suitable for
research that focuses on these categories. Furthermore, since we did not evaluate every
comment for a given news article, we are unable to analyze whether articles with more
comments tend to have more offensive comments.
517
XXXVII Congresso da Sociedade Brasileira de Computação
6. Conclusion
Methods for hate speech detection that rely on supervised machine learning require anno-
tated datasets. Although a number of studies have been conducted in this topic, there are
only a handful of datasets available, most of them in English.
This paper addresses the lack of hate speech datasets in Portuguese by describing
the creation of annotated datasets of offensive posts collected from news comments. The
datasets, called O FF C OM B R-2 and O FF C OM B R-3, are freely available to the research
community.
We have also run standard classification algorithms on the datasets to provide
baseline results. The F-measure scores we obtained are within the range found in other
work that addressed hate speech identification in English.
Out future work will include enlarging our datasets through a crowdsourcing ef-
fort using a larger number of volunteer annotators. In addition, we plan on adding an
(anonymized) userId to each comment in the dataset. This will enable finding out the
prevalence of offensive comments by user. This could be used as additional evidence by
automatic methods for filtering offensive text.
References
Michael Chau and Jennifer Xu. Mining communities and their relationships in blogs: A
study of online hate groups. International Journal of Human-Computer Studies, 65(1):
57–70, 2007.
Ying Chen, Yilu Zhou, Sencun Zhu, and Heng Xu. Detecting offensive language in
social media to protect adolescent online safety. In Privacy, Security, Risk and Trust
(PASSAT), 2012 International Conference on and 2012 International Confernece on
Social Computing (SocialCom), pages 71–80, 2012.
Nemanja Djuric, Jing Zhou, Robin Morris, Mihajlo Grbovic, Vladan Radosavljevic, and
Narayan Bhamidipati. Hate speech detection with comment embeddings. In Proceed-
ings of the 24th International Conference on World Wide Web Companion, pages 29–
30, 2015.
J.L. Fleiss. Measuring nominal scale agreement among many raters. Psychological Bul-
letin, 76(5):378–382, 1971.
Irene Kwok and Yuzhou Wang. Locate the hate: Detecting tweets against blacks. In
Twenty-Seventh AAAI Conference on Artificial Intelligence, 2013.
Shuhua Liu and Thomas Forss. Text classification models for web content filtering and
online safety. In 2015 IEEE International Conference on Data Mining Workshop
(ICDMW), pages 961–968, 2015.
NoavaS/B. The Webcertain Global Search & Social Report, 2016.
URL http://www.comunicaquemuda.com.br/dossie/
quando-intolerancia-chega-as-redes/.
518
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Chikashi Nobata, Joel Tetreault, Achint Thomas, Yashar Mehdad, and Yi Chang. Abusive
language detection in online user content. In Proceedings of the 25th International
Conference on World Wide Web, pages 145–153, 2016.
John T. Nockleby. Hate speech. In Encyclopedia of the American Constitution (2nd
ed.,edited by Leonard W. Levy, Kenneth L. Karst et al., New York: Macmillan, 2000),
pages 1277–1279, 2000.
Amir H Razavi, Diana Inkpen, Sasha Uritsky, and Stan Matwin. Offensive language
detection using multi-level classification. In Advances in Artificial Intelligence, pages
16–27. 2010.
Björn Ross, Michael Rist, Guillermo Carbonell, Benjamin Cabrera, Nils Kurowsky, and
Michael Wojatzki. Measuring the Reliability of Hate Speech Annotations: The Case
of the European Refugee Crisis. In Proceedings of NLP4CMC III: 3rd Workshop on
Natural Language Processing for Computer-Mediated Communication, volume 17 of
Bochumer Linguistische Arbeitsberichte, pages 6–9, 2016.
Leandro Araújo Silva, Mainack Mondal, Denzil Correa, Fabrı́cio Benevenuto, and Ingmar
Weber. Analyzing the targets of hate in online social media. In Proceedings of the Tenth
International Conference on Web and Social Media, pages 687–690, 2016.
Sara Owsley Sood, Judd Antin, and Elizabeth F Churchill. Using crowdsourcing to im-
prove profanity detection. In AAAI Spring Symposium: Wisdom of the Crowds, vol-
ume 12, pages 69–74, 2012.
I Ting, Shyue-Liang Wang, Hsing-Miao Chi, Jyun-Sing Wu, et al. Content matters: A
study of hate groups detection based on social networks analysis and web mining. In
Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social
Networks Analysis and Mining, pages 1196–1201, 2013.
William Warner and Julia Hirschberg. Detecting hate speech on the world wide web.
In Proceedings of the Second Workshop on Language in Social Media, pages 19–26,
2012.
Zeerak Waseem. Are you a racist or am i seeing things? annotator influence on hate
speech detection on twitter. In Proceedings of the First Workshop on NLP and Compu-
tational Social Science, pages 138–142, November 2016.
Webcertain. The Webcertain Global Search & Social Report, 2015. URL
http://internationaldigitalhub.com/en/publications/
the-webcertain-global-search-and-social-report-2015.
Ellery Wulczyn, Nithum Thain, and Lucas Dixon. Ex machina: Personal attacks seen at
scale. CoRR, abs/1610.08914, 2016.
Guang Xiang, Bin Fan, Ling Wang, Jason Hong, and Carolyn Rose. Detecting offensive
tweets via topical feature discovery over a large scale twitter corpus. In Proceedings of
the 21st ACM International Conference on Information and Knowledge Management,
CIKM ’12, pages 1980–1984, 2012.
519
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The empirical study based on network theory has greatly contributed
as a methodology of financial market visualization and analysis. In this work,
we propose to apply multidimensional scaling technique on network elements
of a minimum spanning tree type as a technique for financial networks analy-
sis and visualization. The method was applied in Brazilian stock market data.
The analysis of the results showed that the use of multidimensional scaling on
minimum spanning tree elements succeeded at simplifying the visualization of
information in the data, beyond what would be obtained only processing the
minimum spanning tree. On the observed dimensions (factors) of the market,
we were able to identify some special segments of the Brazilian economy. In
addition, the analysis of the minimum spanning tree showed that central stocks
in the network followed more closely the behavior of the local general market
index, while the more peripheral ones had a quite different behavior. This dy-
namic seems to be related to the so-called volatility paths, visual structures in
which cascading effects might appears in stock returns. This study may be use-
ful for investors and managers interested in network techniques for viewing and
analysing stock market properties.
Resumo. O estudo empı́rico baseado em teoria de redes tem contribuı́do muito
como metodologia de visualização e análise do comportamento do mercado fi-
nanceiro. Neste trabalho propõe-se aplicar técnica de escalonamento multidi-
mensional sobre elementos de redes do tipo árvore geradora mı́nima como me-
todologia de análise e visualização de redes financeiras. O método foi aplicado
em dados do mercado brasileiro de ações. A análise dos resultados mostrou que
a utilização do escalonamento sobre os elementos da árvore geradora mı́nima
conseguiu ainda simplificar a visualização de informação nos dados, além do
que seria obtido somente pelo processamento desta árvore. Nas dimensões ob-
servadas do mercado pudemos identificar alguns segmentos especiais da eco-
nomia brasileira. Além disso, a análise da árvore geradora mı́nima mostrou
que as ações mais centrais na rede seguiram mais de perto o comportamento
do ı́ndice geral do mercado local, enquanto que, as ações mais periféricas, tive-
ram comportamento bastante distinto. Essa dinâmica parece ter relação com os
520
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
1. Introdução
Uma rede (ou grafo) é uma representação da estrutura de ligação de objetos conectados
por algum tipo de relação, sendo que esse tipo de representação é útil para mapear e
compreender o comportamento de sistemas complexos [Barabasi 2016]. Em particular, a
teoria de redes tem ajudado a caracterizar interdependências no estudo de vários compo-
nentes do mercado financeiro, em especial o acionário. Estudos de redes obtidas a partir
da correlação entre ações apontam diferentes estruturas para cada cenário do mercado, e
neste caso, indicam que seria possı́vel antever eventos extremos a partir da composição
destas redes [Bonanno et al. 2001].
Já os retornos de diferentes ações no mercado financeiro têm sido estudados
como medida de informação econômica, evidenciando os diversos setores da economia
[Mantegna 1999, Miccichè et al. 2003, Bonanno et al. 2004]. Com alguma medida de si-
milaridade entre dois objetos (neste caso, ações), consegue-se obter uma representação
visual por algumas metodologias de visualização e análise de dados, tais como o esca-
lonamento multidimensional (EMD), a análise de agrupamentos, e mais recentemente, a
análise de redes.
Estudos usando técnicas de redes procurando entender a estrutura do mercado
de ações têm atraı́do pesquisadores das mais diversas áreas como fı́sicos, cientistas da
computação, economistas e administradores, na busca em saber qual a estrutura empı́rica
do mercado de ações, especialmente para o desenvolvimento de novos modelos, em
geral, de risco financeiro [Mantegna 1999, Miccichè et al. 2003, Bonanno et al. 2004,
Sensoy and Tabak 2014]. Um dos caminhos para tratar de redes financeiras é a procura
por arranjos hierárquicos que podem estar relacionados aos movimentos dos preços dos
ativos, pois as séries temporais dos ativos financeiros carregavam valiosas informações
econômicas [Mantegna 1999]. Outros estudos evidenciaram que as ligações entre os
ativos estavam longe de serem árvores randômicas, e que era possı́vel que os ar-
ranjos hierárquicos encontrados pudessem se repetir em diversas janelas de tempo
[Brida and Risso 2008]. Concluiu-se que deveria haver uma regra mais profunda que
controlasse as propriedades estatı́sticas do sistema financeiro global tanto em dias tı́picos
como durante eventos extremos [Bonanno et al. 2001, p. 26]. Tais estudos contribuı́ram
para que as pesquisas em redes no mercado de ações fossem intensificadas.
Os estudos em análise de redes no mercado de ações usam técnicas e estatı́sticas
de redes na análise da topologia (arranjos) de diferentes mercados [Mantegna 1999,
Coelho et al. 2007, Dias 2013, Gilmore et al. 2010, Sensoy and Tabak 2014], e na
aplicação de diferentes métricas de similaridade e informação entre as ações
[Tumminello et al. 2010, Yang et al. 2014, Fiedor 2014].
Os primeiros estudos em redes financeiras datam de 1999, com o surgimento
do artigo Hierarchical structure in financial markets [Mantegna 1999], que, utilizando
uma medida de distância baseada na correlação de Pearson, mostrou pela técnica
de árvore geradora mı́nima que as ações se arranjavam de maneira hierárquica, for-
521
XXXVII Congresso da Sociedade Brasileira de Computação
2. Métodos
Nossa base de dados é composta por séries temporais de 99 ações durante 386 pregões
(negociações de perı́odo de um dia). Para entrar na base, uma ação deve ter pelo menos
uma vez participado do Ibovespa (Índice Bovespa) no perı́odo em análise, que variou de
janeiro de 2014 a dezembro de 2014 (perı́odo de baixa) e de janeiro de 2015 a julho de
2015 (perı́odo de alta). O perı́odo escolhido foi selecionado para evitar viés de alta ou
baixa do mercado. Foram calculados os log retorno, Rt , das ações da seguinte maneira
pt
Rt = ln , (1)
pt−1
522
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
em que rij é a correlação de Pearson entre os retornos Rt das ações i e j. Dessa maneira, se
a correlação for -1, devemos obter distância igual a 2 (máxima), já no caso da correlação
ser igual a 1, a distância é 0 (mı́nima). Penaliza-se, assim, ações com intercorrelações
negativas, isolando-as das comunidades.
523
XXXVII Congresso da Sociedade Brasileira de Computação
3. Resultados e discussões
Esta seção dedica-se a explorar os resultados obtidos pela estrutura da AGM e pela pos-
terior análise por EMD via AGM.
524
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
e ITUB4 (em vermelho, Banco Itaú S/A), onde também, neste caso, várias outras ações
possuem ligações bastante próximas àquelas principais. Assim, podemos dizer que este é
um ‘caminho de volatilidade’, quando, por exemplo, ITUB4 ou BBDC4 for afetado por
algum evento extremo, rapidamente as ações mais próximas sofrerão impacto mais imedi-
ato, num efeito tı́pico em cascata. Já em relação a VALE5 (em roxo), o mesmo não pode
525
XXXVII Congresso da Sociedade Brasileira de Computação
ser dito. Movimentações nesta ação não costuma ter como consequência muitos destes
efeitos, ao menos no mercado como um todo.
Nesse sentido, vemos que a AGM pode estabelecer uma alternativa à visualização
tradicional, eliminando ligações fracas. Além disso, pode-se adotar medidas da rede como
importantes caracterı́sticas da estrutura do mercado acionário. A medida de centralidade
baseada em autovetores parece ser bastante importante para se verificar quais ativos ‘se
parecem’ mais com o mercado como um todo. Os ativos BBDC4, ITSA4, ITUB4, CPFE3
e PETR4, nesta ordem, são os mais centrais da análise. Um investidor que gostaria de re-
plicar o desempenho do mercado em geral pode utilizar desse conceito para se investir
nestas ações que possuem as maiores centralidades, evidenciadas pela Tabela 1 (ativos 1-
10). De modo contrário, um investidor que gostaria de se proteger contra possı́veis efeitos
‘cascata’ no mercado geral poderia se proteger investindo em ações mais periféricas (ati-
vos 90-99), como Embraer e Suzano Papel.
526
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
12
X
S(x1 , x2 , xn ) = (dij − kxi − xj k)2 , (5)
i6=j=1,...N
onde dij são as distâncias originais e kxi − xj k, as novas distâncias calculadas pelo algo-
ritmo de EMD para uma n-dimensão, chamadas de disparidades. Quando o EMD produz
um mapa perfeito, então dij − kxi − xj k é zero para qualquer i e j, e neste caso, o stress
é zero.
A Figura 2 mostra o mapa pela tradicional técnica de escalonamento multidimen-
sional, com a distância definida pela equação (2), sem o uso da árvore geradora mı́nima
como entrada. Desse modo, o mapa dessa representação apresenta o escalonamento com
todas as distâncias possı́veis incluı́das. Já a Figura 3 mostra o mapa obtido pelo esca-
lonamento realizado somente com as distâncias da AGM. A medida de stress S é igual
a 0,049. Neste caso, como S 6= 0, a utilização do EMD sobre a AGM ainda conseguiu
simplificar a visualização de informação nos dados, além do que seria obtido somente via
AGM. Se o stress S fosse igual a zero, não haveria diferenças entre a AGM e o escalona-
mento em termos de mapeamento. Pelo fato de S 6= 0, o EMD e a AGM diferem, e nesse
sentido, faz-se interessante a utilização do EMD via AGM.
O EMD baseado AGM (Figura 3) tem boa adequabilidade, uma vez que podemos
separar numa primeira dimensão, uma medida de risco, representada pelas ações mais vol-
tadas ao mercado interno e geralmente com contratos de concessão, neste caso, os grupos
em azul claro e rosa claro, em relação às mais industriais, de materiais pesados ou mesmo
exportadoras de materiais primários, em azul escuro. Na comparação dos métodos, al-
guns comentários devem ser feitos. Não há como comparar o EMD tradicional com a
EMD baseado em redes de árvore geradora mı́nima de maneira imediata, pois a primeira
utiliza todas as dissimilaridades para formação do mapa dimensional, enquanto que na
segunda, a MST reduz o número de ligações, reduzindo a medida de stress (representa
perda de informação) deste mapa. Assim, tratamos a visualização de EMD por meio de
redes como uma alternativa à visualização por EMD tradicional sem utilização de redes.
O fato de S 6= 0, quando implementado o EMD sobre a AGM, corrobora esta ideia central
desenvolvida neste trabalho.
527
XXXVII Congresso da Sociedade Brasileira de Computação
Figura 2. O EMD representado pela distância adotada pela equação (2), sem a
utilização da metodologia baseada em rede. A representação do escalonamento
baseada em todas as distâncias é pouco ilustrativa em termos de setores da
economia, já que a medida de stress ficou em 0,27, representando uma razoável
perda das informações das distâncias originais.
4. Conclusões
O artigo explorou, pela metodologia baseada em redes, algumas das caracterı́sticas to-
pológicas dessas estruturas no mercado brasileiro de ações. A análise foi baseada nas
metodologias de algoritmos de redução dimensional, análise de agrupamentos e centra-
lidade. A visualização da rede pela árvore geradora mı́nima e a construção do escalo-
namento multidimensional por métricas baseada em grafos e sua posterior visualização
bidimensional mostra-se uma possibilidade interessante para o estudo de redes. Veri-
ficamos que este ilustrou satisfatoriamente a estrutura do mercado acionário brasileiro,
evidenciando uma dimensão tradicional do mercado, o risco setorial. Ainda, foi mostrado
como a medida de centralidade baseada em autovetores se aplica ao mercado como me-
dida de risco geral de dependência que uma ação deve ter em relação às demais que estão
ligadas àquela. À este conceito, demos o nome de ’caminhos de volatilidade’.
Alguns autores ponderam a existência de um pequeno número de fatores di-
recionando as dinâmicas estocásticas dos retornos dos ativos no mercado financeiro
[Mantegna and Stanley 1999, Bonanno et al. 2001]. Assim, a abordagem via escalona-
mento multidimensional, a partir das estatı́sticas da rede de correlação de ativos parece
ser boa alternativa à visualização de tais dimensões ou fatores.
Concluindo, a proposta aqui apresentada precisa de estudos mais profundos para
528
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
validar de forma mais precisa os resultados obtidos pela análise de centralidade, como
a correlação entre centralidade e o retorno das ações, bem como estudar possı́veis di-
mensões encontradas a partir do uso do escalonamento multidimensional. Também faz-se
interessante o uso de outras medidas de dependência, particularmente medidas que in-
cluam dependências não lineares, a fim de encontrar outros padrões que possam carac-
terizar o comportamento do mercado financeiro. Estes e outros temas estão em fase de
desenvolvimento por estes autores. Por fim, esperamos que este trabalho contribua para
que pesquisadores, investidores e gestores possam usar tais métodos para auxiliar na to-
mada de decisão de investimentos, dessa forma, interligando caracterı́sticas estatı́sticas da
rede com fatores econômico-financeiros das ações.
529
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Barabasi, A.-L. (2016). Network Science. Cambridge University Press, Cambridge CB2
8BS, United Kingdom.
Bonanno, G., Caldarelli, G., Lillo, F., Micciche, S., Vandewalle, N., and Mantegna, R. N.
(2004). Networks of equities in financial markets. The European Physical Journal B -
Condensed Matter, 38(2):363–371.
Bonanno, G., Lillo, F., and Mantegna, R. N. (2001). Levels of complexity in financial
markets. Physica A: Statistical Mechanics and its Applications, 299(1-2):16–27.
Brida, J. G. and Risso, W. A. (2008). Multidimensional minimal spanning tree: The dow
jones case. Physica A: Statistical Mechanics and its Applications, 387(21):5205–5210.
Coelho, R., Gilmore, C. G., Lucey, B., Richmond, P., and Hutzler, S. (2007). The evolu-
tion of interdependence in world equity marketsfrom minimum spanning trees. Physica
A: Statistical Mechanics and its Applications, 376:455–466.
Cormen, T., Leiserson, C., Rivest, R., and Stein, C. (2001). Introduction to Algorithms,
Second Edition. Cambridge , Massachusetts London, England.
Di Matteo, T., Pozzi, F., and Aste, T. (2010). The use of dynamical networks to detect the
hierarchical organization of financial market sectors. Eur. Phys. J. B, 73(1):3–11.
Dias, J. (2013). Spanning trees and the eurozone crisis. Physica A: Statistical Mechanics
and its Applications, 392(23):5974–5984.
Dionisio, A., Menezes, R., and Mendes, D. A. (2004). Mutual information: a measure
of dependency for nonlinear time series. Physica A: Statistical Mechanics and its
Applications, 344(1-2):326–329.
Fiedor, P. (2014). Networks in financial markets based on the mutual information rate.
Phys Rev E Stat Nonlin Soft Matter Phys, 89(5):052801.
Gilmore, C. G., Lucey, B. M., and Boscia, M. W. (2010). Comovements in government
bond markets: A minimum spanning tree analysis. Physica A: Statistical Mechanics
and its Applications, 389(21):4875–4886.
Jacomy, M., Venturini, T., Heymann, S., and Bastian, M. (2014). Forceatlas2, a conti-
nuous graph layout algorithm for handy network visualization designed for the gephi
software. PLoS ONE, 9(6):e98679.
Kruskal, J. B. (1956). On the shortest spanning subtree of a graph and the traveling
salesman problem. Proc. Amer. Math. Soc., 7(1):48–48.
Kruskal, J. B. (1964). Multidimensional scaling by optimizing goodness of fit to a non-
metric hypothesis. Psychometrika, 29(1):1–27.
Manly, B. (2004). Multivariate Statistical Methods: A Primer, Third Edition. Taylor &
Francis.
Mantegna, R. (1999). Hierarchical structure in financial markets. Eur. Phys. J. B,
11(1):193–197.
530
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
531
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. Recently it was found that the most part of the population of the world
is in large metropolises. This population growth brings with it a series of
challenges and public transport appears as a recurrent solution to tackle
mobility problems in these big cities. In this work, we carried out a case study
to help to understand the shortcomings of public transportation in a city via the
mining of complex networks representing the supply and demand of public
transport. A process of characterization of the supply and demand networks of
the bus system of a large Brazilian metropolis was conducted and it also shed
light on the potential overload of demand and waste in the supply of resources
that can be mitigated through strategies of supply and demand balance.
1. Introdução
A era da informação digital trouxe a necessidade de, a partir de dados diversos e
volumosos, criar meios para gerar conhecimento e aplicá-lo com eficácia. Uma das áreas
que melhor exemplificam esse contexto é a mobilidade urbana. Sensores e meios digitais
registram informações diárias sobre trilhas de pessoas, tornando-se uma entrada rica para
a realização de estudos para a compreensão da mobilidade humana e seu impacto no
transporte público.
Um exemplo de sistema largamente sensoriado é o sistema de ônibus de uma
grande metrópole. Com sensores como GPS (Global Positioning System), que registram
por onde os veículos trafegam, e sistema de bilhetagem, que registram o pagamento e
tarifas por parte dos passageiros, são gerados diariamente imensos bancos de dados e um
grande desafio é extrair informações que tenham potencial de identificar falhas que
deixam usuários do sistema insatisfeitos, como por exemplo a superlotação de veículos.
532
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
533
XXXVII Congresso da Sociedade Brasileira de Computação
Além desta introdução, este artigo é divido em cinco seções. Na seção dois são
descritos os conjuntos de dados utilizados. Na seção três são detalhadas as estratégias
utilizadas para encontrar desequilíbrios globais nas redes de oferta e demanda. Na seção
quatro é descrito como foram utilizadas técnicas de detecção de comunidades para
encontrar pontos da rede onde potencialmente existem gargalos ou desperdício de
recursos. Por fim, na seção cinco, são feitas as considerações finais acerca deste trabalho.
2. Conjunto de dados
A rede de oferta pode ser definida como um grafo dirigido, G (V, E), com vértices, v (∈
V), representando as paradas e arestas de ônibus, e (∈ E), entre dois pontos de ônibus.
Formalmente o peso da aresta, 𝑤𝑣𝑖 →𝑣𝑗 , representa a oferta de ônibus entre duas paradas
de ônibus vi e vj (∈ V). Esta oferta foi calculada a partir do somatório do peso das linhas
de ônibus, 𝑤𝐿𝑖 , que passam por dois pontos de ônibus. Formalmente 𝑤𝑣𝑖 →𝑣𝑗 = ∑𝑁 𝑖=1 𝑤𝐿𝑖 ,
onde N é o número total de linhas de ônibus que visitam, em sequência, vi e vj. Por sua
vez, o peso das linhas de ônibus, é calculado a partir do produto da quantidade de veículos
alocados na linha 𝐿𝑖, 𝑉𝐿𝑖 , pelo número de viagens que cada veículo faz em um dia em 𝐿𝑖,
𝐶𝐿𝑖 . Ou seja, 𝑤𝐿𝑖 = 𝑉𝑖 𝐶𝑖 . Ao todo, essa rede possui 4783 vértices e 5876 arestas e foi
produzida em [Caminha et. al. 2016].
A rede de demanda foi produzida em [Caminha et al. 2017]. No processo de
reconstrução dos caminhos dos usuários foi suposto que as trajetórias dos usuários de
ônibus são definidas pela composição das rotas dos ônibus que os levam entre seu pares
origem-destino. Neste contexto, foram reconstruídas as trajetórias de usuários de ônibus
como um grafo dirigido G (V, E), onde V e E são o conjunto de vértices v e arestas e,
respectivamente. Uma aresta e entre os vértices vi e vj é definida pelo par ordenado (vi,
vj). Nessa rede, os vértices representam paradas de ônibus e as arestas representam a
demanda de usuários de ônibus entre dois pontos de ônibus consecutivos. Para cada
aresta, e, que liga um par ordenado (vi, vi) é definido um peso, 𝑤𝐸𝑖𝑗 , que soma o total de
usuários que passaram por e. Ao todo, essa rede possui os mesmos 4783 vértices e 5876
arestas existentes na rede de oferta. O único aspecto que difere as redes é o peso das
arestas, na rede de oferta esse peso é mensurado em quantidade de veículos que ofertam
rotas e na rede de demanda o mesmo é mensurada em quantidade de pessoas que passaram
dentro dos ônibus. Vale ainda ressaltar que a rede de demanda representa apenas uma
amostra da necessidade da população, mesmo assim [Caminha et al. 2017] argumentam
que sua amostra representa 40% da demanda de ônibus da cidade, uma das maiores
amostras de demanda de sistema de ônibus que se tem notícia.
Tanto a rede de oferta quanto a rede de demanda possuem dados do dia 11 de
março de 2015. Uma quarta-feira, dia útil na cidade. A Figura 1 ilustra a disposição
geográfica das paradas de ônibus e suas conexões.
534
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Nesta seção será descrito o processo de caracterização das redes oferta e demanda do
sistema de ônibus de Fortaleza. Para permitir comparações, os pesos das arestas das duas
redes foram normalizados. Na rede de demanda, para cada aresta, 𝒆𝒅 ,o peso, 𝒘𝒅 , que
descreve a demanda de passageiros entre dois pontos de ônibus, foi normalizado pela
razão 𝒘𝒅 /𝒘𝒅𝒎𝒂𝒙 onde 𝒘𝒅𝒎𝒂𝒙 é o maior peso registrado na rede. Para a rede de oferta
utilizou-se a mesma estratégia para calcular o peso que, nesse caso, representa a
quantidade de ônibus disponíveis. Note-se que ambas as redes têm a mesma distribuição
de graus, isto é, para cada aresta na rede de oferta há uma aresta correspondente na rede
de demanda, essas redes diferem somente em relação aos seus pesos de arestas.
A Figura 2 ilustra a distribuição de pesos das arestas para as duas redes. E (a)
observa-se uma lei de potência [Barabási et al. 2000] [Clauset et al. 2009] com exponente
α = -2.90 para a rede de oferta. Este resultado sugere que esta rede foi projetada para
oferecer um elevado número de recursos em poucos lugares e poucos recursos em vários
locais. Da mesma forma, uma lei de potência pode ser observada para a rede de demanda
na Figura 2 (b). O exponente α = -1.97 indica que há poucos lugares com alta demanda e
vários lugares com baixa demanda. Em (a), a linha verde mostra a regressão aplicada aos
dados da rede de oferta. Em (b) a regressão é representada pela linha laranja para os dados
da demanda. As linhas tracejadas azuis representam os intervalos de confiança estimados
com o método de Nadaraya Watson [Nadaraya 1964] [Watson 1964]. As distribuições
foram geradas usando 50 beans logarítmicos.
535
XXXVII Congresso da Sociedade Brasileira de Computação
536
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Figura 4. Distribuições cumulativas dos pesos das arestas nas redes estudadas.
A Figura 5 ilustra o aumento da modularidade quando a rede é dividida em mais
comunidades. A linha verde ilustra a modularidade da rede de oferta na medida em que a
537
XXXVII Congresso da Sociedade Brasileira de Computação
538
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
representa uma aresta. O eixo x representa o peso de arestas na rede de oferta e o eixo y
o peso de arestas na rede de demanda. A linha vermelha é a regressão aplicada aos dados.
As linhas tracejadas a azul ilustram os intervalos de confiança estimados com o método
Nadaraya Watson. Os dados são mostrados em escala logarítmica. A baixa correlação, R²
= 0,53, revela um crescimento não correlacionado, indicando mais uma vez desequilíbrio
entre oferta e demanda. O valor de β = 1.24, para uma equação do tipo 𝑌 = 𝑎𝑋𝛽 , não
revela qualquer relação isométrica [Kleiber 1961]. Acima da reta vermelha (regressão
linear) estão as arestas (ou trechos da rede), onde a demanda é proporcionalmente maior
que a oferta. No entanto, chama a atenção para a maior concentração de pontos abaixo da
linha de regressão, indicando que há partes da cidade em que os recursos oferecidos são,
proporcionalmente, maiores do que a demanda existente na região. Isso sinaliza que se
pode melhor atender a demanda da rede sem a necessidade de aumentar o custo
operacional da mesma, apenas tentando equilibrar a oferta em algumas partes da cidade.
539
XXXVII Congresso da Sociedade Brasileira de Computação
e potencialmente onde estão os gargalos. Observou-se ainda que as linhas de ônibus que
possuem gargalo normalmente levam pessoas ao centro da cidade (destacado pelo círculo
vermelho).
Na Figura 7 (b) são ilustrados trechos da rede onde potencialmente os ocorrem
desperdício de recursos, ou seja, ônibus vazios. Esses trechos foram identificados a partir
das arestas removidas pelo método de detecção de comunidades, agora na rede de
demanda. Métodos de detecção de comunidades removem conexões fracas entre
componentes com alto coeficiente de agrupamento, que no caso da rede de demanda são
sub-regiões de fluxo intenso de passageiros. Nesse contexto, as arestas eliminadas pelo
método em questão representam trechos da rede de baixo fluxo de passageiros, onde
potencialmente podem ocorrer desperdícios de recursos. De forma similar ao que foi feito
na oferta, calculamos o índice de desperdício 𝐼𝐷 = 𝑤𝑑 /𝑤𝑑𝑚𝑎𝑥 − 𝑤𝑠 /𝑤𝑠𝑚𝑎𝑥 , onde
arestas com 𝐼𝐷 < 0 representam trechos onde proporcionalmente a demanda e maior que
a oferta, e por consequência onde estão sendo desperdiçados recursos.
540
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
5. Considerações finais
Este trabalho explorou a oferta e a demanda do sistema de ônibus de Fortaleza, uma
grande metrópole brasileira. Algoritmos e métricas de redes complexas foram usados para
explorar o desequilíbrio entre o que o poder público oferece e o que a população necessita.
Em nível macro, as diferenças entre as redes de oferta e demanda em suas respectivas
distribuições de densidade de pesos das arestas, distribuições cumuladas de peso das
arestas e nível de modularidade, revelaram um desequilíbrio global no sistema. Em nível
micro, foi desenvolvido um modelo que faz uso de técnicas de detecção de comunidades
para identificar onde estão os gargalos e onde estão sendo desperdiçados recursos. Esse
modelo se mostrou promissor mesmo em situações onde não é possível ter informações
completas a respeito da demanda de passageiros.
Como trabalhos futuros, foi identificada a necessidade de construir um simulador capaz
de reproduzir a dinâmica da mobilidade humana, através do sistema de ônibus, em uma
grande metrópole, fazendo uso de mineração de dados para estimar funções de
probabilidade que representem a demanda real de um sistema de ônibus. De posse desse
simulador, será possível validar a aplicação de técnicas de balanceamento da rede de
oferta, testando o seu equilíbrio com a rede de demanda. Paralelamente será possível
também alterar sinteticamente a demanda a fim de enquadrá-la na oferta, em um cenário
real, a alteração da demanda pode ser alcançada através da execução políticas públicas,
como criação de terminais em pontos ótimos de baldeação, campanhas de educação no
uso do sistema e micro intervenções no espaço urbano (e.g. incentivo fiscal para criação
de oportunidades de emprego em áreas em que a oferta é subutilizada).
References
Banavar, J. R., Damuth, J., Maritan, A., and Rinaldo, A. (2002). Supply–demand balance
and metabolic scaling. Proceedings of the National Academy of Sciences, 99(16),
10506-10509.
Barabási, A. L., Albert, R., and Jeong, H. (2000). Scale-free characteristics of random
networks: the topology of the world-wide web. Physica A: statistical mechanics and
its applications, 281(1), 69-77.
Blondel, V. D., Guillaume, J. L., Lambiotte, R., and Lefebvre, E. (2008). Fast unfolding
of communities in large networks. Journal of statistical mechanics: theory and
experiment, 2008(10), P10008.
Caminha, C., Furtado, F., Pinheiro, V., and Ponte, P. (2016) Micro-interventions in urban
transportation from pattern discovery on the flow of passengers and on the bus
network. In Smart Cities Conference (ISC2), 2016 IEEE International, pp. 1–6, IEEE.
Caminha C, Furtado V, Pequeno THC, Ponte C, Melo HPM, Oliveira EA, et al. (2017)
Human mobility in large cities as a proxy for crime. PLoS ONE 12(2): e0171609.
doi:10.1371/journal.pone.0171609
Chang, S. K., and Schonfeld, P. M. (1991). Multiple period optimization of bus transit
systems. Transportation Research Part B: Methodological, 25(6), 453-478.
541
XXXVII Congresso da Sociedade Brasileira de Computação
542
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
543
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The analysis of how much one actor has over another is crucial to un-
derstanding what interests their actions are subordinate to. This paper presents
metrics based on the theoretical bases of sociology that reflect the imbalance
between relationships, the main source of power in a social network. These me-
trics are applyed to the relationship between each pair of nodes, and are compu-
ted to accomplish the entire power structure of the network. As an instrument of
empirical validation, a case study was made with the electoral donations recei-
ved by parties and senators in the campaigns of 2010 and 2014. The application
of the metrics allowed to highlight some corporate and party interests existing
today in the Brazilian Federal Senate.
1. Introdução
Poder é a capacidade de um agente de impor a sua vontade sobre a de outro, baseando-se
em forças de dominação intrı́nsecas à sociedade [Castells 2011]. Um dos aspectos evi-
denciado por teorias sociológicas, como em [Emerson 1976] é que o poder em uma rede
social é um processo dinâmico, um embate entre forças que competem para obter mais
influência em seu favor. O controle e a troca de recursos são pontos pivotais na obtenção
de poder. Sejam recursos financeiros, controle de disseminação de mı́dia, regulamentação
de leis ou qualquer outro recurso de valor para a rede, quem controla e negocia estes re-
cursos se fortalece. Para realizar essas trocas são necessárias habilidades especı́ficas para
a sociedade em rede: fazer conexões com outras redes, proteger seus parceiros de outros
competidores, e se possı́vel, controlar os protocolos de negociação e comunicação. Bus-
camos através destas bases teóricas analisar o poder estabelecido em uma rede onde a
544
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
545
XXXVII Congresso da Sociedade Brasileira de Computação
546
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
nas eleições para deputado federal em 2010 são usados para indicar quais são os partidos
mais dependentes das corporações em geral dentro do espectro polı́tico brasileiro. No es-
tudo [Boas et al. 2014] é explicitada a relação entre as doações de campanha e contratos
firmados com o poder público. Também é destacada a longeva relação entre polı́ticos de
carreira e determinadas empresas, mostrando uma relação de benefı́cio mútuo, frequen-
temente desvinculada dos interesses da população. O presente estudo difere dos citados
pois se propõe calcular o grau de dependência/independência que cada partido ou senador
possui.
547
XXXVII Congresso da Sociedade Brasileira de Computação
cálculo seguindo este método, podemos examinar uma rede de troca de recursos simples
como a exibida na Figura 1. Queremos responder sobre quais interesses se dá a atuação do
nó D. Para fazer isto medimos a relação deste nó com os vizinhos que transferem recursos
para ele, como pode ser visto nos cálculos a seguir.
Como o peso das arestas vindas de A e F são iguais, a influência polı́tica destes nós
sobre D é idêntica. Porém como A possui outras opções de troca, o poder de barganha de
D com este nó é menor do que com F, que só troca com ele e isto interfere decisivamente
no poder exercido sobre D.
Ψad = 0, 5 − 0, 33 = 0, 17 (8)
Ψf d = 0, 5 − 1 = −0, 5 (9)
548
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
a população. Para tal, as doações recebidas pelos atuais senadores e seus partidos são o
objeto desta análise. O objetivo é determinar o poder que as doações de cada empresa
geram.
A rede social dos senadores, partidos e doadores construı́da sobre estes dados e
baseada no valor das doações busca responder às seguintes questões: (i) quais são as
empresas que mais doam e como distribuem suas doações; (ii) qual é o papel dos partidos
e das suas lideranças na distribuição das doações; (iii) qual o grau de poder que cada
empresa possui sobre cada senador.
Para discutirmos como as métricas se aplicam neste caso: uma empresa tem in-
fluência polı́tica sobre o partido ou o senador que recebe os seus recursos. Um partido
pode ter influência polı́tica sobre o outro, através da transferência de doações. A in-
fluência polı́tica, conforme discutido na Seção 3, é calculada usando a relação entre o
peso da aresta em questão e o total de doações recebidas por este nó, considerando que
os nós competem entre si. Simetricamente, se a empresa doa para somente um senador, o
mesmo ganha poder de barganha com a empresa em questão.
Um senador pode ter muito poder de barganha sobre uma empresa, pois a mesma
concentra suas doações nele. Entretanto se o senador depende dessas doações de maneira
significativa, temos um equilı́brio na relação e portanto o nı́vel de poder da empresa sobre
o senador é pequeno. Um senador que depende exclusivamente do seu partido está em
uma situação de poder em relação ao partido muito diferente daquele que financia sua
própria campanha. Um senador que tem muitos grandes financiadores tem uma posição
mais empoderada em relação a cada empresa do que aquele que depende exclusivamente
de uma empresa para viabilizar seus gastos de campanha.
4.2. Resultados
A rede construı́da pode ser visualizada na Figura 2. Para efeitos de visualização, a cor
do nó indica o tipo de nó (partido, senador ou doador) e o tamanho do nó é calculado
549
XXXVII Congresso da Sociedade Brasileira de Computação
com base no grau ponderado do mesmo, que neste caso significa também o montante em
dinheiro que trafegou por aquele nó.
A visualização da rede gerada está disponı́vel1 , bem como os dados que geram o
grafo representando a rede gerada em formato .gephi2 .
5. Análise de Resultados
Antes de aplicar as métricas de poder, analisamos a rede do Senado em relação a algumas
métricas tradicionais de análise de redes sociais. Primeiro, foram verificadas as maiores
empresas doadoras. A presença de duas empresas de alimentos na lista das dez maiores
empresas doadoras chamou a atenção, além do já esperado maciço volume de dinheiro
vindo de empreiteiras.
Em relação às métricas, notamos que em alguns casos o volume de dinheiro doado
(grau ponderado de saı́da) não tem uma relação direta com a métrica de hub do nó. Um
exemplo é mostrado na Tabela 1: a Construtora Andrade Gutierrez S.A., apesar de ter
efetuado quase o dobro de doações em volume de dinheiro possui um ı́ndice hub menor
que a Construtora Norberto Odebrecht S.A..
1
http://bit.ly/2pDFPtd
2
http://bit.ly/2ppIk6H
550
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Outro item curioso que a rede nos mostra é que os grandes partidos (PMDB, PSDB
e PT) atuam como financiadores de campanha dos partidos menores, atuando como in-
termediários entre os mesmos e as grandes empresas. Claramente podemos ver aqui um
esforço para obter o que Castells chamou de poder de switching, onde o nó que faz a
conexão entre redes ganha força e protege seus interesses. Na Tabela 3 podemos ver que
entre os 10 maiores destinos dos grandes partidos estão outros partidos.
A análise descrita até aqui permitiu responder a duas das perguntas formuladas
neste estudo: (i) quais são as empresas que mais doam e como distribuem suas doações e
(ii) qual é o papel dos partidos e das suas lideranças na distribuição das doações. A terceira
pergunta - qual o grau de poder que cada empresa possui sobre cada partido e senador -
551
XXXVII Congresso da Sociedade Brasileira de Computação
será respondida avaliando cada aresta ligada aos 81 senadores, formando uma matriz que
pode ser considerada um mapa de intenções do Senado Brasileiro. Por limitações de
espaço deste artigo apresentaremos essa matriz apenas para alguns relacionamentos entre
empresas-partidos e empresas-senadores.
Na Tabela 4 podemos ver que a empresa JBS S.A. possui poder (métrica posi-
tiva) sobre quase todos os partidos, com exceção do PSDB e PMDB, com uma diferença
significativa em relação às outras duas empresas apresentadas.
552
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
É possı́vel avaliar ainda o poder que os partidos exercem uns sobre os outros, uma
vez que identificamos que grandes partidos agem neste sentido. A Tabela 8 mostra como
os principais partidos atuam sobre os demais. A disputa de poder é bastante evidente pelos
valores praticamente em equilı́brio da métrica, com alguns destaques: PSDB, PMDB e PT
distribuem recursos principalmente para partidos cujo alinhamento não é claro, como PR,
PTB e PDT. Partidos com uma posição mais alinhada com determinado ator não recebem
recursos de seus adversários. É o caso do DEM e Solidariedade, que não recebem recursos
do PT, assim como o PC do B, que não recebe recursos do PSDB e PMDB.
Referências
Anttiroiko, A. (2015). Castells’ network concept and its connections to social, economic
and political network analyses. Journal of Social Structure, 16(11):1–18.
553
XXXVII Congresso da Sociedade Brasileira de Computação
Boas, T. C., Hidalgo, F. D., and Richardson, N. P. (2014). The spoils of victory: campaign
donations and government contracts in brazil. The Journal of Politics, 76(02):415–429.
Castells, M. (1996a). The network society. Backwell, Oxford.
Castells, M. (1996b). The Rise of the Network Society. The information age: Economy,
society, and culture. Backwell, Oxford.
Castells, M. (2011). Network theory— a network theory of power. International Journal
of Communication, 5:15.
Easley, D. and Kleinberg, J. (2010). Networks, crowds, and markets: Reasoning about a
highly connected world. Cambridge University Press, Cambridge.
Emerson, R. M. (1976). Social exchange theory. Annual review of sociology, 2(1):335–
362.
French, J. R., Raven, B., and Cartwright, D. (1959). The bases of social power. In Studies
in social power, volume 7. Institute for Social Research, The University of Michigan.
Hindess, B. (1996). Discourses of power from Hobbes to Foucault. Backwell, Oxford.
MacLuhan, M., Fiore, Q., and Agel, J. (1967). The medium is the massage. Random
House, New York.
Mancuso, W. P., Figueiredo Filho, D. B., Speck, B. W., Silva, L. E. O., and Rocha, E. C. d.
(2016). Corporate dependence in brazil’s 2010 elections for federal deputy. Brazilian
Political Science Review, 10(3).
Marx, K. and Engels, F. (1968). Karl Marx and Frederick Engels: selected works in one
volume, volume 184. International Publishers, New York.
Tribunal Superior Eleitoral (2016). Repositório de dados eleitorais. Disponı́vel em
http://divulgacandcontas.tse.jus.br. Acessado em 01 novembro de 2016.
Willer, D. (1999). Network exchange theory. Greenwood Publishing Group.
554
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
cfigueiredo@uea.edu.br
555
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Uma rede social é composta por conjuntos de pessoas ou grupos com algum padrão de
contato ou interação entre si [Atefeh and Khreich, 2013]. Uma forma de instanciar o con-
ceito de redes sociais para a interação entre usuários a partir de uma ferramenta online é
a Rede Social Online (RSO). Os usuários das RSOs costumam compartilhar informações
relacionadas ao contexto no qual estão inseridos, como por exemplo, informações de
trânsito, negócios, relatos pessoais e acontecimentos diários [Ramos et al., 2016]. Isso
possibilita que as RSOs funcionem como sensores para identificação de dados do mundo
real, devido à quantidade de informações que são produzidas diariamente e diversidade
dos dados, como: localização, horário, fotos e vı́deos [Sakaki et al., 2010].
Um exemplo de Rede Social Online que disponibiliza informações compartilhadas
de usuários é o Twitter1 . Segundo um levantamento feito em 2016, o Twitter contabilizou
aproximadamente 313 milhões de usuários que produziram mais de 400 milhões de tweets
por dia2 . O Twitter permite que os usuários façam atualizações (tweets) com até 140
caracteres, onde o intuito é compartilhar informações curtas e de rápida leitura. Com isso,
é possı́vel monitorar essa rede social para descobrir eventos de grande escala, onde esses
acontecimentos dentro do ambiente de RSO são considerados como assuntos importantes
e com grande repercussão, que servem para caracterizar fenômenos sociais (seja na esfera
econômica, cultural ou polı́tica), como por exemplo, ações sobre o impeachment no Brasil
[Souza et al., 2016] e os terremotos no Japão [Sakaki et al., 2010].
Outra aplicação em descoberta de eventos nas redes sociais, é a possibilidade de
se monitorar um determinado acontecimento como, por exemplo, as fases da Operação
Lava Jato da Polı́cia Federal, e descobrir quais são os tópicos mais relevantes de um deter-
minado dia ou perı́odo, a fim de quantificar as pessoas envolvidas e os impactos gerados.
Neste contexto, este trabalho tem como objetivo comparar técnicas não-supervisionadas
de aprendizagem de máquina na tarefa de detecção de tópicos em Redes Sociais Online,
com o intuito de propor uma abordagem que permita extrair informações e demonstrar a
viabilidade de se utilizar o Twitter para descobrir relatos relevantes de um evento.
Partindo do cenário discutido, as principais contribuições deste artigo são: (a)
avaliação de técnicas de aprendizagem de máquina (K-means, Non-negative Matrix Fac-
torization e Latent Dirichlet Allocation) na tarefa de extração de tópicos em textos em
português; (b) análise de duas abordagens de pré-processamento para textos, buscando
eliminar ruı́dos existentes nos dados; (c) estudo de caso considerando os tweets compar-
tilhados sobre as fases da Operação Lava Jato; e (d) a utilização da técnica de Silhouette
para estimar a quantidade de agrupamentos em uma amostra de dados, a fim de obter um
valor de cluster que melhor represente esse conjunto, pois como a maioria dos trabalhos
estima altos valores para a extração, este processo acaba se tornando lento e custoso.
O restante deste trabalho está dividido da seguinte forma: na Seção 2 são apre-
sentados os trabalhos relacionados à extração de tópicos em redes sociais; na Seção 3 é
descrita a metodologia utilizada na condução deste trabalho; na Seção 4 são apresenta-
dos os experimentos e os resultados obtidos. Por fim, a Seção 5 apresenta a conclusão e
trabalhos futuros.
1
https://www.twitter.com
2
https://www.statista.com/statistics/272014/global-social-networks-
ranked-by-number-of-users/
556
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
2. Trabalhos Relacionados
Os estudos sobre o problema de detecção de eventos tiveram inı́cio em 1998, sendo tra-
tado como um problema de descoberta de tópicos, onde o objetivo é o agrupamento de
informações de maneira contextualizada [Allan et al., 1998]. Portanto, dado um conjunto
A de textos, existe uma quantidade B de contextos (temas) associados a estes textos.
Neste caso, B é menor ou igual a A, visto que mais de um texto pode discorrer sobre o
mesmo tema.
Em redes sociais, a detecção de tópicos enfrenta desafios adicionais, tais como:
(i) o processamento da quantidade de informações geradas; e (ii) os ruı́dos existentes,
visto que nem todas as informações compartilhadas sobre um determinado tema são rele-
vantes. Buscando solucionar estes desafios, diversos trabalhos que propõem abordagens
de seleção de tópicos relevantes por palavras-chave têm surgido [Zhao et al., 2011; Diao
et al., 2012; Cataldi et al., 2010; Suh et al., 2016; Katragadda et al., 2016].
Esses métodos utilizam palavras-chave para criar um agrupamento de termos e
realizam a detecção de tópicos usando modelos probabilı́sticos, como por exemplo, o
Latent Dirichlet Allocation (LDA), que é utilizado no trabalho de Bolelli et al. [2009]
como forma de identificar tópicos relevantes. Diao et al. [2012] aplicam o LDA para
identificar tópicos de acontecimentos passados em dados do Twitter. Os autores assumem
que os tópicos são constituı́dos de palavras-chave de múltiplos tweets, onde o principal
objetivo de sua abordagem consiste em, simultaneamente, capturar duas observações: (1)
tweets publicados que tenham o mesmo tópico; e (2) tweets publicados por um mesmo
usuário referentes ao mesmo tópico. Com isso, os autores demonstram uma abordagem
diferente dos trabalhos que se limitam a apenas reconhecer a informação.
No trabalho de Xu et al. [2003], os autores apresentam uma adaptação do Non-
negative Matrix Factorization (NMF) para demonstrar a eficiência do método em extrair
tópicos. O estudo mostrou que em comparação aos métodos LSI e SC, a adaptação reali-
zada no NMF para extrair tópicos apresenta um rendimento superior de 1.16% em relação
aos demais. No trabalho de Suh et al. [2016], os autores capturaram tópicos locais de sua
região, a fim de detectar informações relevantes. Os autores compararam o NMF com
suas variantes e o LDA. Desta forma, concluı́ram que o modelo utilizando o NMF supe-
rava os demais, tanto na captura de tópicos relevantes, como também na velocidade de
processamento, tornando o método viável para captura de tópicos em tempo real e em
larga-escala.
A partir dos desafios citados anteriormente e das técnicas utilizadas para detecção
de informações relevantes, nossa abordagem foca em analisar uma amostra de dados e
poder definir qual a quantidade de clusters que melhor a representam, a fim de reduzir a
quantidade de interações que os métodos executam para extrair tópicos. Outro fator que
pode ser destacado, é a aplicação de uma arquitetura de pré-processamento e extração
de tópicos que seja capaz de manipular a larga quantidade de dados capturados sobre
um determinado evento, a fim de caracterizar os relatos mais significativos. Além disso,
aplicamos as técnicas de extração de tópicos baseadas nos trabalhos anteriores com o
intuito de validar a abordagem feita neste trabalho.
557
XXXVII Congresso da Sociedade Brasileira de Computação
3. Método Proposto
O método proposto na elaboração deste trabalho consiste das seguintes etapas (ilustradas
na Figura 1): (i) coleta de dados provenientes do Twitter para construção da base de
dados; (ii) pré-processamento dos dados, a fim de retirar possı́veis ruı́dos dos tweets; e
(iii) seleção da melhor quantidade e extração de tópicos utilizando a técnica de Silhouette
combinada com os métodos de aprendizagem de máquina. Nas subseções que seguem,
detalhamos cada uma destas etapas.
NER K-MEANS
Tradicional LDA
Coleta NMF
Seleção dos
valores de K
3.2. Pré-processamento
Após a etapa de coleta dos dados, os tweets foram pré-processados para remoção de
possı́veis ruı́dos e redução do número de atributos dos vetores de caracterı́sticas dos
métodos não-supervisionados, detalhados na próxima subseção. Para tanto, utilizamos o
framework Apache Spark4 que facilita a manipulação de dados em larga escala (Big Data).
O framework Apache Spark baseia-se em duas das principais abstrações de programação
paralela [M. Zaharia and Stoica, 2010]: Resilient Distributed Datasets (uma coleção de
objetos particionados entre um conjunto de máquinas que podem ser reconstituı́dos caso
uma partição seja perdida) e operações paralelas (e.g., reduce, collect, foreach).
3
https://www.twitter.com
4
http://spark.apache.org/
558
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
135000
120000
105000
Número de tweets
90000
75000
60000
45000
30000
15000
01 −0
2 03 −0
4
−0
5 06 07 08 09 −1
0
−1
1
16− 16 16− 16 16 16
−
16− 16
−
16
−
16 16
20 20 20 20 20 20 20 20 20 20 20
Meses
SPARK
SPARK
559
XXXVII Congresso da Sociedade Brasileira de Computação
560
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
0.8
4
2
0.4
1
0.2
Cluster label
0.0
0.2
0
0.4
0.6
0.8
0.1 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8
Valores dos coeficientes do Silhouette Espaco de caracteristicas (primeira caracteristica)
4. Experimentos e Resultados
Durante esta fase conduzimos os nossos experimentos em dois cenários, onde o primeiro
cenário consiste em demonstrar a utilização das técnicas de extração de tópicos, tendo
como entrada uma matriz de termos que foi processada com uma arquitetura tradicional
(Figura 3). O segundo cenário descreve a utilização de pré-processamento através do reco-
nhecimento de entidades (Figura 4), onde a matriz de termos gerada, consiste unicamente
de termos reconhecidos como entidades em cada tweet.
Para validarmos nossa arquitetura de extração de tópicos, ilustrada na Figura
1, realizamos uma comparação dos tópicos extraı́dos por cada algoritmo com canais
de notı́cias, e verificamos se as informações compartilhadas nas redes sociais sobre
561
XXXVII Congresso da Sociedade Brasileira de Computação
562
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
4.1. Cenário I
Neste cenário, para uma melhor compreensão de como as avaliações foram realizadas,
selecionamos o mês de setembro que teve maior divergência entre os tópicos extraı́dos
em relação as informações compartilhadas em outros canais, onde ocorreram a 34a e a
35a fase da Operação Lava Jato com uma amostra de 80.577 tweets.
Neste perı́odo, os acontecimentos de maior impacto segundo as fontes de
informação (Paraná Portal 6 , O Globo 7 , Estadão8 e site da Polı́cia Federal9 ) que mais
detalhavam os acontecimentos da Operação Lava jato foram:
563
XXXVII Congresso da Sociedade Brasileira de Computação
80 80
Percentual de acerto (%)
60 60
50 50
40 40
30 30
20 20
LDA
10 10 NMF
KMEANS
0 0
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
Meses do Ano (JAN - NOV) Meses do Ano (JAN - NOV)
4.2. Cenário II
Neste cenário, para fins de avaliação, será apresentado o mesmo mês analisado no cenário
1. Aplicamos como pré-processamento o reconhecimento de entidade nomeada, onde
para documento (tweet) pode existir uma ou mais entidades, conforme exemplo: “Tribu-
nais Superiores derrubam 18 erros de Sérgio Moro.”, tendo como resultado o reconheci-
mento da entidade “Sérgio Moro”. Com isso, nossa bag-of-words pode ser considerada
como uma bag-of-entities, visto que essa regra foi aplicada a toda base de dados, com o
objetivo de reconhecer quais foram as entidades mais citadas em um determinado mês.
Como as notı́cias ou relatos estão atreladas a uma determinada pessoa, grupos, empresas
ou locais, a utilização dessa estratégia torna-se viável.
564
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
6. Referências
Aisopos, F., Papadakis, G., Tserpes, K., and Varvarigou, T. (2012). Content vs. context
for sentiment analysis: a comparative analysis over microblogs. In Proceedings of the
23rd ACM Conference on Hypertext and Social Media, pages 187–196. ACM.
Al-Rfou, R., Kulkarni, V., Perozzi, B., and Skiena, S. (2015). Polyglot-ner: Massive
multilingual named entity recognition. In Proceedings of the 2015 SIAM International
Conference on Data Mining, Vancouver, British Columbia, Canada. SIAM.
Allan, J., Carbonell, J. G., Doddington, G., Yamron, J., and Yang, Y. (1998). Topic
detection and tracking pilot study final report.
Atefeh, F. and Khreich, W. (2013). A survey of techniques for event detection in twitter.
Computational Intelligence.
Bolelli, L., Ertekin, Ş., and Giles, C. L. (2009). Topic and trend detection in text collec-
tions using latent dirichlet allocation. In Proceedings of the European Conference on
Information Retrieval, pages 776–780. Springer.
565
XXXVII Congresso da Sociedade Brasileira de Computação
Cataldi, M., Di Caro, L., and Schifanella, C. (2010). Emerging topic detection on twitter
based on temporal and social terms evaluation. In Proceedings of the Tenth Internatio-
nal Workshop on Multimedia Data Mining, page 4. ACM.
Diao, Q., Jiang, J., Zhu, F., and Lim, E.-P. (2012). Finding bursty topics from micro-
blogs. In Proceedings of the 50th Annual Meeting of the Association for Computatio-
nal Linguistics: Long Papers-Volume 1, pages 536–544. Association for Computational
Linguistics.
Katragadda, S., Virani, S., Benton, R., and Raghavan, V. (2016). Detection of event
onset using twitter. In Proceedings of 2016 International Joint Conference on Neural
Networks (IJCNN), pages 1539–1546. IEEE.
M. Zaharia, M. Chowdhury, M. J. F. S. S. and Stoica, I. (2010). Spark: cluster computing
with working sets. In Proceedings of the 2nd USENIX Conference on Hot Topics in
Cloud Computing.
Ramos, P., Reis, J., and Benevenuto, F. (2016). Uma analise da polaridade expressa nas
manchetes de notıcias brasileiras.
Sakaki, T., Okazaki, M., and Matsuo, Y. (2010). Earthquake shakes twitter users: real-
time event detection by social sensors. In Proceedings of the 19th international confe-
rence on World wide web, pages 851–860. ACM.
Shahnaz, F., Berry, M. W., Pauca, V. P., and Plemmons, R. J. (2006). Document clustering
using nonnegative matrix factorization. In Proceedings of the Information Processing
& Management, volume 42, pages 373–386. Elsevier.
Souza, B. A., Almeida, T. G., Menezes, A. A., Nakamura, F. G., Figueiredo, C. M., and
Nakamura, E. F. (2016). For or against?: Polarity analysis in tweets about impeach-
ment process of brazil president. In Proceedings of the 22Nd Brazilian Symposium on
Multimedia and the Web, Webmedia ’16, pages 335–338, New York, NY, USA. ACM.
Stiilpen Junior, M. and Merschmann, L. H. C. (2016). A methodology to handle social
media posts in brazilian portuguese for text mining applications. In Proceedings of the
22nd Brazilian Symposium on Multimedia and the Web, pages 239–246. ACM.
Suh, S., Choo, J., Lee, J., and Reddy, C. K. (2016). L-ensnmf: Boosted local topic
discovery via ensemble of nonnegative matrix factorization.
Xu, W., Liu, X., and Gong, Y. (2003). Document clustering based on non-negative matrix
factorization. In Proceedings of the 26th annual international ACM SIGIR conference
on Research and development in informaion retrieval, pages 267–273. ACM.
Zhao, W. X., Jiang, J., Weng, J., He, J., Lim, E.-P., Yan, H., and Li, X. (2011). Com-
paring twitter and traditional media using topic models. In European Conference on
Information Retrieval, pages 338–349. Springer.
566
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
1. Introdução
Predadores sexuais online são definidos como adultos que utilizam a internet para ex-
plorar crianças ou adolescentes com propósitos abusivos ou sexuais [Potha et al. 2016].
Estudos indicam que a maioria dos predadores sexuais (i.e., 75%) é constituı́da por in-
divı́duos do sexo masculino [Kipane, A. 2014], de cor branca e com idade entre 25 e 45
anos [Plasencia 2000]. O Brasil ocupou o quarto lugar no ranking mundial da pornografia
infantil em 2003. Esse número alarmante envolve redes internacionais de crime organi-
zado, que financiam o sequestro de crianças com o intuito de utilizá-las em filmagens
obscenas [Felipe 2006].
Os predadores sexuais de crianças (i.e., pedófilos) utilizam ambientes como salas
de bate-papo e redes sociais para acessar vı́timas potenciais [Jackson 2008].
567
XXXVII Congresso da Sociedade Brasileira de Computação
Muitas vezes os pedófilos fornecem perfis falsos, se fazendo passar por crianças ou
adolescentes, o que facilita o acesso às suas vı́timas [Peersman et al. 2011]. Entretanto,
diversos estudos apontam que a expressão de certas emoções nos textos pode auxiliar
na detecção do perfil desses predadores [Bogdanova et al. 2012, Clarke 2011]. É impor-
tante destacar que esses indivı́duos estão, cada vez mais, utilizando a internet (e.g., salas
de bate-papo, redes sociais) para atrair e explorar sexualmente crianças e adolescentes
[Dowdell et al. 2011].
Com a grande expansão das redes sociais online, surgiram diversos estudos a
respeito do comportamento humano [Jin et al. 2013]. Tais estudos envolvem fatores de
interesse no mundo inteiro, como: comunicação, segurança, comércio e privacidade
[Campos et al. ]. Nesse cenário também é possı́vel destacar a relevância de estudos sobre
o comportamento de pedófilos [Bogdanova et al. 2012]. Esses indivı́duos possuem carac-
terı́sticas distintas (e.g., idade, sexo, nı́vel de escolaridade) que podem influenciar o estilo
da escrita dos textos publicados nessas redes. A identificação dessas influências mostrou-
se possı́vel em diversos trabalhos encontrados na literatura, dentre os quais podemos citar
[Barbieri 2008, Nagarajan and Hearst 2009].
Grande parte dos estudos supracitados utiliza como base uma ferramenta deno-
minada LIWC (Linguistic Inquiry and Word Count) [Pennebaker et al. 2001]. Essa fer-
ramenta possibilita a extração de padrões psicolinguı́sticos de textos, o que pode auxiliar
na busca por predadores sexuais [Parapar et al. 2012]. Dado que esses predadores podem
fornecer perfis falsos, o estudo proposto em [Peersman et al. 2011] identifica esses perfis
em redes sociais inferindo a idade e o sexo dos usuários a partir de seus textos. A litera-
tura apresenta uma diversidade de estudos que inferem a idade a partir de textos utilizando
o LIWC [Schwartz et al. 2013, Marquardt et al. 2014], entretanto não foram encontrados
trabalhos utilizando o LIWC em português do Brasil1 . Esse estudo se insere nesse pa-
norama: inferir a idade dos usuários de redes sociais brasileiras utilizando o LIWC em
português do Brasil, com o intuito de identificar potenciais predadores sexuais. Como
objeto de estudo, foi utilizada a rede social online brasileira denominada Meu Querido
Diário2 (MQD). Essa rede social possui ampla quantidade de adolescentes3 e funciona
como um diário online.
O restante desse trabalho está organizado da seguinte forma: Na Seção 2, são
apresentados os trabalhos relacionados. Na Seção 3, o processo de extração das carac-
terı́sticas das entradas do MQD é descrito. Na Seção 4, os resultados experimentais são
analisados. Por fim, na Seção 5, há uma discussão sobre as conclusões e cenários futuros
de expansão do referido trabalho.
2. Trabalhos Relacionados
O trabalho realizado em [Nguyen et al. 2011] analisa o conteúdo das entradas de um blog
que permite ao autor anexar, a cada uma dessas entradas, uma dentre 132 etiquetas de
humor que podem evidenciar aspectos positivos (e.g., alegre, feliz e grato) ou negati-
vos (e.g., descontente, triste e desconfortável). Desta forma, torna-se possı́vel identificar
1
A versão do LIWC em português do Brasil pode ser encontrada em [Filho 2013].
2
http://www.meuqueridodiario.com.br
3
Aqui são considerados como adolescentes os indivı́duos com idade entre 12 anos completos e 18 anos,
conforme estabelece o Estatuto da Criança e Adolescente no Brasil. O MQD possui 13.105 usuários nessa
faixa de idade, o que corresponde a 22% dos usuários.
568
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
idade, estado de humor e conectividade social dos autores. Esse trabalho utiliza o LIWC
para categorizar as palavras contidas nas entradas e considera que os fatores supracita-
dos podem influenciar tanto no assunto escolhido quanto no estilo de escrita. O referido
trabalho aponta, ainda, que enquanto a idade se mostra determinante para a escolha do
assunto, o estado de humor influencia, de forma significativa, no estilo de escrita.
O estudo apresentado em [Peersman et al. 2011] evidencia a importância de se
analisar a idade dos usuários de redes sociais para identificar perfis falsos e, consequen-
temente, pedófilos que se fazem passar por adolescentes. Os experimentos utilizam uma
rede social belga para inferir a idade, adotando duas faixas etárias: menos de 16 anos e
mais de 18 anos. Os resultados alcançaram precisão de 80.8%.
O estudo produzido em [Filho et al. 2014] visa inferir sexo e idade de usuários
do Twitter, baseando-se na coleta e análise das 200 últimas entradas de um grupo de
usuários. Foram separados os atributos considerados mais relevantes e, em seguida, foram
aplicados alguns algoritmos de classificação. Foram obtidos bons resultados. Os autores
consideram a inferência de faixa etária uma tarefa mais complexa e citam, ainda, que
não foram encontrados trabalhos que visassem inferir idade para usuários que postam
conteúdos em português.
É importante destacar que o presente trabalho se difere dos demais encontrados
na literatura devido ao fato de utilizar o LIWC em português do Brasil para inferir a
idade dos usuários, além de concentrar-se especificamente na identificação de potenciais
predadores sexuais. Conforme mencionado anteriormente, o Brasil ocupou o quarto lugar
no ranking mundial da pornografia infantil em 2003. Por essa razão foi utilizada uma rede
social brasileira como objeto de estudo.
569
XXXVII Congresso da Sociedade Brasileira de Computação
x0 x1 x2 x3 x4 x5 x6 x7 x63
1 12 15 8 4 22 3 7 ... 13
n = 64
x0 x1 x2 x3 x 4 x5 x6 x7 x63
0.01 0.14 0.17 0.09 0.04 0.25 0.03 0.08 ... 0.15
n = 64
4. Resultados experimentais
Nesta seção são apresentados os resultados experimentais encontrados na inferência da
faixa etária de usuários da rede social brasileira MQD utilizando o LIWC em português do
Brasil. Para geração desses resultados, foram utilizados alguns algoritmos de classificação
conhecidos na literatura: ZeroR, Random Forest (RF), Naive Bayes (NB), NB Multi-
nomial (NBM), SMO e LMT. Os 5 primeiros algoritmos também foram utilizados em
[Filho et al. 2014]. Para produção dos experimentos foi utilizado a ferramenta Weka
[Hall et al. 2009]. Cada um dos algoritmos foi utilizado com sua configuração padrão.
Os experimentos foram executados utilizando a técnica de validação cruzada denominada
k-fold validation com dez partições. A medida F1-score foi utilizada para a avaliação dos
resultados obtidos.
A Tabela 1 descreve os resultados obtidos. Os valores em negrito indicam os
melhores F1 para os algoritmos apresentados. O algoritmo ZeroR foi utilizado como
baseline. Os algoritmos RF e LMT apresentaram melhor F1 para o conjunto de dados
MQD-AGE-2-LIWC-PT, com o LMT sendo um pouco superior ao RF. Para o conjunto
MQD-AGE-2-LIWC-PT-N, os algoritmos SMO e LMT apresentaram os melhores re-
sultados, com o LMT apresentando uma pequena melhoria com relação ao SMO.
Vale destacar que todos os algoritmos apresentaram resultados superiores ao ba-
seline, indicando que a utilização do LIWC em Português do Brasil pode auxiliar na
inferência da idade de usuários de redes sociais brasileiras.
570
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Referências
[Barbieri 2008] Barbieri, F. (2008). Patterns of age-based linguistic variation in american
english. Journal of Sociolinguistics, 12(1):58–88.
[Bogdanova et al. 2012] Bogdanova, D., Rosso, P., and Solorio, T. (2012). On the im-
pact of sentiment and emotion based features in detecting online sexual predators. In
Proceedings of the 3rd Workshop in Computational Approaches to Subjectivity and
Sentiment Analysis, pages 110–118. Association for Computational Linguistics.
[Campos et al. ] Campos, G. E., Costa, H., and Monlevade-MG-Brasil, J. Caracterização
dos perfis comerciais na rede social instagram.
[Clarke 2011] Clarke, R. (2011). Antisocial Behavior: Causes, Correlations and Tre-
atments. Psychology of emotions, motivations, and actions series. Nova Science Pu-
blishers.
[Dowdell et al. 2011] Dowdell, E. B., Burgess, A. W., and Flores, J. R. (2011). Origi-
nal research: online social networking patterns among adolescents, young adults, and
sexual offenders. AJN The American Journal of Nursing, 111(7):28–36.
571
XXXVII Congresso da Sociedade Brasileira de Computação
[Felipe 2006] Felipe, J. (2006). Afinal, quem é mesmo pedófilo. Cadernos Pagu, 26:201–
223.
[Filho et al. 2014] Filho, R. M., Carvalho, A. I., and Pappa, G. L. (2014). Inferência de
sexo e idade de usuários no twitter.
[Filho 2013] Filho, Pedro P. Balage;Pardo, T. A. S. R. M. A. (2013). An evaluation of
the brazilian portuguese liwc dictionary for sentiment analysis.
[Hall et al. 2009] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and
Witten, I. H. (2009). The weka data mining software: An update. SIGKDD Explor.
Newsl., 11(1):10–18.
[Jackson 2008] Jackson, L. A. (2008). Adolescents and the internet. The changing por-
trayal of American youth in popular media, pages 377–410.
[Jin et al. 2013] Jin, L., Chen, Y., Wang, T., Hui, P., and Vasilakos, A. V. (2013). Un-
derstanding user behavior in online social networks: A survey. IEEE Communications
Magazine, 51(9):144–150.
[Kipane, A. 2014] Kipane, A. (2014). Woman as a sexual offender – reality or myths?
SHS Web of Conferences, 10:00016.
[Marquardt et al. 2014] Marquardt, J., Farnadi, G., Vasudevan, G., Moens, M.-F., Dava-
los, S., Teredesai, A., and De Cock, M. (2014). Age and gender identification in social
media. In Proceedings of CLEF 2014 Evaluation Labs, pages 1129–1136.
[Nagarajan and Hearst 2009] Nagarajan, M. and Hearst, M. A. (2009). An examination
of language use in online dating profiles. In ICWSM.
[Nguyen et al. 2011] Nguyen, T., Phung, D., Adams, B., and Venkatesh, S. (2011). Pre-
diction of age, sentiment, and connectivity from social media text. In International
Conference on Web Information Systems Engineering, pages 227–240. Springer.
[Parapar et al. 2012] Parapar, J., Losada, D., and Barreiro, A. (2012). A learning-based
approach for the identification of sexual predators in chat logs. In Conference and
Labs of the Evaluation Forum: PAN 2012 Lab Uncovering Plagiarism, Authorship,
and Social Software Misuse.
[Peersman et al. 2011] Peersman, C., Daelemans, W., and Van Vaerenbergh, L. (2011).
Predicting age and gender in online social networks. In Proceedings of the 3rd interna-
tional workshop on Search and mining user-generated contents, pages 37–44. ACM.
[Pennebaker et al. 2001] Pennebaker, J. W., Francis, M. E., and Booth, R. J. (2001). Lin-
guistic Inquiry and Word Count. Lawerence Erlbaum Associates, Mahwah, NJ.
[Plasencia 2000] Plasencia, M. M. (2000). Internet sexual predators: Protecting children
in the global community. J. Gender Race & Just., 4:15.
[Potha et al. 2016] Potha, N., Maragoudakis, M., and Lyras, D. (2016). A biology-
inspired, data mining framework for extracting patterns in sexual cyberbullying data.
Knowledge-Based Systems, 96:134–155.
[Schwartz et al. 2013] Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L.,
Ramones, S. M., Agrawal, M., Shah, A., Kosinski, M., Stillwell, D., Seligman, M. E.,
et al. (2013). Personality, gender, and age in the language of social media: The open-
vocabulary approach. PloS one, 8(9):e73791.
572
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
rian.tavares@gmail.com,gustavo.guedes@cefet-rj.br
1. Introdução
A Computação Afetiva (CA) é uma área de pesquisa que compreende a criação de sis-
temas capazes de reconhecer, interpretar e simular emoções [Picard 1997]. É uma área
multidisciplinar que envolve conceitos provenientes da Ciência da Computação, Psico-
logia e Ciências Cognitivas. Na Psicologia, por exemplo, sabe-se que escrever sobre as
emoções em experiências pessoais pode trazer melhorias na saúde mental e psicológica
[Pennebaker and Seagal 1999]. Na área da computação, estudos estão auxiliando usuários
de redes sociais a selecionar documentos com base em suas emoções [Bao et al. 2012].
No âmbito da Ciência da Computação, a CA engloba dois tópicos de pes-
quisa distintos: Análise de Sentimentos (AS) e Reconhecimento de Emoções (RE)
[Poria et al. 2017]. Já se sabe pela neurociência que sentimentos e emoções representam
um papel importante na forma que os indivı́duos se comportam [Marg 1995]. Isso pode
ser evidenciado por alguns trabalhos que desenvolvem pesquisas relacionadas a esses
tópicos, por exemplo auxiliando aos usuários no entendimento de sentimentos, opiniões e
emoções expressos em textos [Nascimento et al. 2012].
Outro cenário que abrange a detecção de emoções e sentimentos é proveniente da
indústria cinematográfica. Conforme descrito em [Oliveira et al. 2011], os filmes são,
por excelência, uma forma de arte que envolve atividade afetiva. Nesse aspecto, os
filmes têm sido bastante explorados na área da psicologia para a indução de emoções
[Ashby et al. 2002]. Isso também ocorre na área da computação, em que alguns trabalhos
utilizam as legendas dos filmes para encontrar o gênero dos filmes [Wortman 2010].
573
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
O trabalho proposto em [Ye et al. 2006] se enquadra na área de mineração de opiniões em
filmes, em que são utilizados os textos de avaliações realizadas por usuários. Esse trabalho
desenvolve uma abordagem de orientação semântica para o chinês. Dessa maneira, o
maior objetivo é realizar a classificação de filmes nas classes excelente e ruim. Vale
ressaltar que a orientação semântica das palavras é calculada de acordo com a distância
semântica entre as palavras dos textos das avaliações e um conjunto de dados padrão.
[Mullen and Collier 2004] utilizam uma abordagem semelhante à supracitada.
O objetivo principal também consiste em atribuir valores semânticos aos textos de
avaliações de filmes. De forma análoga, os autores buscam classificar filmes nas clas-
ses excelente e ruim. No entanto, os autores desenvolvem uma abordagem baseada
em Máquina de Vetores de Suporte (MVS).
O estudo desenvolvido por [Wortman 2010] utiliza legendas de filmes para a
classificação de gênero (e.g. drama, suspense, terror). A abordagem proposta pelo au-
tor também utiliza o LIWC para produzir vetores representando as legendas dos filmes.
Em seguida, é calculada a similaridade entre esses vetores e modelos de gêneros de filmes
propostos pelo autor. Os resultados alcançados nesse trabalho são bastante satisfatórios.
Diversos trabalhos existentes na literatura estudam a classificação de filmes. En-
tretanto, não foram encontrados estudos que utilizem o LIWC para realizar a classificação
da qualidade dos filmes. Dessa maneira, o presente trabalho utiliza conceitos de alguns
trabalhos existentes na literatura para propor uma metodologia que envolve a utilização
do LIWC, as legendas dos filmes e informações provenientes do Facebook para classificar
os filmes nas classes excelente e ruim.
3. Metodologia
A metodologia proposta para esse trabalho é descrita em 4 fases: extração dos dados,
seleção dos dados, integração/transformação dos dados e seleção de atributos.
574
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
575
XXXVII Congresso da Sociedade Brasileira de Computação
x0 x1 x2 x3 x4 x5 x6 x7 x75
19 11 12 3 9 7 15 23 ... 170
n = 76
4. Resultados experimentais
Os resultados experimentais desse trabalho foram produzidos com a utilização do con-
junto de dados FILM-172-76 e FILM-172-15, descritos na Seção 3. Para realizar os
experimentos foi utilizada a plataforma WEKA [Hall et al. 2009]. Essa plataforma pos-
sui uma série de algoritmos de aprendizagem de máquina bem conhecidos na literatura.
Nesse trabalho, foram utilizados 4 algoritmos que apresentam bons resultados na área de
576
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
mineração de texto, são eles: Random Forest (RF), Naive Bayes (NB), NB Multinomial e
Sequential Minimal Optimization (SMO). O ZeroR foi utilizado como baseline.
A Tabela 2 ilustra os resultados obtidos para os dois conjuntos supracitados. Com
exceção do baseline, os algoritmos obtiveram melhores resultados no conjunto de dados
FILM-172-15. Os valores em negrito indicam o algoritmo que obteve o melhor F1
para o conjunto de dados em questão. O algoritmo RF se comportou melhor no conjunto
de dados FILM-172-76 e o SMO apresentou melhores resultados para o conjunto de
dados FILM-172-15.
5. Conclusão
Esse estudo teve como objetivo a utilização do dicionário de palavras do LIWC para clas-
sificar a qualidade de filmes a partir de suas legendas. Para isso, foram produzidos dois
conjuntos de dados, denominados FILM-172-76 e FILM-172-15. Em seguida, foram
aplicados alguns algoritmos conhecidos na literatura para realizar os experimentos: RF,
NB, NBM e SMO. Os resultados foram satisfatórios, indicando que o caminho seguido
ainda pode ser explorado em trabalhos futuros.
Como trabalhos futuros, surgiram algumas ideias que terão sua viabilidade estuda-
das. Dentre elas, a possibilidade de buscar outras redes sociais (além do Facebook) capa-
zes de fornecer dados que possam auxiliar na classificação. Isso pode envolver, também,
textos de avaliações de filmes realizadas por usuários. Também é considerada a utilização
das classes bom e péssimo. Como trabalho futuro também é vislumbrado o desenvolvi-
mento de um sistema capaz de avaliar filmes antes mesmo do lançamento, visando assim
a redução o tempo em que o filme é lançado até a coleta de um conjunto de avaliações e
crı́ticas. Para tanto, já estão sendo estudadas maneiras de viabilizar uma maior quantidade
de legendas de filmes.
6. Agradecimentos
577
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Asad, K. I., Ahmed, T., and Rahman, M. S. (2012). Movie popularity classification
based on inherent movie attributes using c4. 5, part and correlation coefficient. In
Informatics, Electronics & Vision (ICIEV), 2012 International Conference on, pages
747–752. IEEE.
Ashby, F. G., Valentin, V. V., et al. (2002). The effects of positive affect and arousal and
working memory and executive attention: Neurobiology and computational models.
Bao, S., Xu, S., Zhang, L., Yan, R., Su, Z., Han, D., and Yu, Y. (2012). Mining social
emotions from affective text. Knowledge and Data Engineering, IEEE Transactions
on, 24(9):1658–1670.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009).
The weka data mining software: an update. ACM SIGKDD explorations newsletter,
11(1):10–18.
Han, J., Pei, J., and Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Jain, A. and Zongker, D. (1997). Feature selection: Evaluation, application, and small
sample performance. IEEE transactions on pattern analysis and machine intelligence,
19(2):153–158.
Koch, R. (1999). The 80/20 Principle: The Secret of Achieving More with Less. A
Currency book. Doubleday.
Marg, E. (1995). Descartes’error: Emotion, reason, and the human brain. Optometry &
Vision Science, 72(11):847–848.
Mullen, T. and Collier, N. (2004). Sentiment analysis using support vector machines with
diverse information sources. In EMNLP, volume 4, pages 412–418.
Nascimento, P., Aguas, R., Lima, D., Kong, X., Osiek, B., Xexéo, G., and Souza, J.
(2012). Análise de sentimento de tweets com foco em notı́cias. In Brazilian Workshop
on Social Network Analysis and Mining.
Oliveira, E., Martins, P., and Chambel, T. (2011). Ifelt: Accessing movies through our
emotions. In Proceddings of the 9th International Interactive Conference on Interac-
tive Television, EuroITV ’11, pages 105–114, New York, NY, USA. ACM.
Pennebaker, J. W. and Seagal, J. D. (1999). Forming a story: The health benefits of
narrative. Journal of clinical psychology, 55(10):1243–1254.
Picard, R. W. (1997). Affective Computing. MIT Press, Cambridge, MA, USA.
Poria, S., Cambria, E., Bajpai, R., and Hussain, A. (2017). A review of affective compu-
ting: From unimodal analysis to multimodal fusion. Information Fusion, 37:98–125.
Wortman, J. (2010). Film classification using subtitles and automatically generated lan-
guage factors. Technion-Israel Institute of Technology, Faculty of Industrial and Ma-
nagement Engineering.
Ye, Q., Shi, W., and Li, Y. (2006). Sentiment classification for movie reviews in chi-
nese by improved semantic oriented approach. In System Sciences, 2006. HICSS’06.
Proceedings of the 39th Annual Hawaii International Conference on, volume 3, pages
53b–53b. IEEE.
578
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
1. Introdução
Devido ao avanço da Web, pessoas de todo o mundo deixaram de utilizá-la apenas para
buscar informações e começaram a compartilhar suas opiniões e experiências por meio de
reviews on-line. Fontes de pesquisa tais como fóruns, grupos de discussão, blogs, Redes
Sociais Online (RSO) e sites de crı́ticas, além de facilitar o acesso a essas informações
contribuem para a formação ou fortalecimento de opiniões. Nas atividades comerciais,
quando uma pessoa tem interesse por um produto ou serviço é comum, para tomada de
decisão, que ela procure referências ou opiniões de outras pessoas. Isto não é verdadeiro
apenas para uma pessoa, mas também para organizações, uma vez que empresas que
579
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
[Turney 2002] propôs um algoritmo simples de aprendizado não-supervisionado para
classificar comentários como recomendados ou não recomendados. Na prática, o au-
tor avaliou o comentário pela orientação semântica de suas frases contendo adjetivos ou
advérbios. O primeiro passo foi identificar as frases que continham adjetivos ou advérbios
utilizando um etiquetador. Em seguida, foi analisada a orientação semântica de cada frase
extraı́da (frase positiva ou negativa). Por fim, o terceiro passo foi classificar o review
1
http://www.adorocinema.com
2
http://www.adorocinema.com/servicos/sobre-nos/
580
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
3
http://www.imdb.com/
4
https://www.amazon.com
581
XXXVII Congresso da Sociedade Brasileira de Computação
3. Metodologia
O modelo proposto para analisar a importância de medidas extraı́das de reviews de
usuários do domı́nio de cinema e fazer a predição das notas dadas aos filmes utiliza uma
RNA MLP contendo três camadas, como pode ser visto na Figura 2.
582
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
trados na Tabela 1, os quais foram adaptados para o Português com base nos padrões
linguı́sticos de [Turney 2002]. A contagem das caracterı́sticas se deu pelo número de
padrões linguı́sticos encontrados em cada crı́tica.
Para melhor entendimento dos padrões, seguem abaixo alguns exemplos práticos
de reconhecimento:
Padrão 1 “filme perfeito”, “filme muito bom”, “ator fantástico”
Padrão 2 “grandes filmes”, “muito bom filme”, “melhor livro”
Padrão 3 “filme é ótimo”, “filme foi perfeito”, “Vorazes aproveitou bem”
583
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados e Discussões
Para avaliar o modelo proposto, realizou-se um experimento com um Córpus de reviews
de filmes coletados no site Adoro Cinema, descrito a seguir.
Dentre os reviews coletados, foi observado que os votos de utilidade no site foram
pouco utilizados, ou seja, dos 2.581 apenas 290 reviews receberam votos de útil (783
votos) ou não útil (696 votos). Os demais reviews possuem o valor zero nestas variáveis.
Portanto, para analisar a influência dessas medidas o experimento foi dividido em dois
grupos: o grupo 1, onde as medidas de utilidade foram incluı́das e o grupo 2, onde essas
medidas foram desconsideradas.
5
http://www.seleniumhq.org/projects/webdriver/
584
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
4.2. Experimento
O valor a ser inferido pela RNA é comparado com uma nota juiz, que foi definida como
a média aritmética simples das notas dos crı́ticos da imprensa brasileira que possuı́am
reviews nos cinco filmes escolhidos.
O passo seguinte foi agrupar os reviews sob diferentes condições com o intuito de
perceber a melhor das topologias utilizadas no experimento e obter as notas preditas pela
RNA. Os limiares (±0,5), (±1,0) e (todos os reviews) foram empiricamente definidos e
aplicados aos reviews de cada filme, buscando dividi-los por meio da nota em estrelas. Os
grupos atendem os seguintes intervalos: (nota juiz - 0,5) <= nota em estrelas <= (nota
juiz + 0,5), (nota juiz - 1,0) <= nota em estrelas <= (nota juiz + 1,0) e todos os reviews.
Para melhor entendimento, a Tabela 2 apresenta a aplicação dos limiares para dois filmes.
Para cada filme, foram selecionados os reviews com as notas pertencentes ao in-
tervalo dos limiares e, em seguida, submetidos ao modelo da RNA considerando duas
variações: i) grupo 1, incluindo as medidas de utilidade (utilN e utilS); e ii) grupo 2,
sem as medidas de utilidade. Ressalta-se que nossa intenção é obter as notas preditas e
analisar as melhores topologias.
Posteriormente, para efetivar a validação dos resultados, foi feita a comparação
entre as notas em estrela dos reviews coletados e as notas preditas pela RNA por meio
do módulo da diferença entre elas. Quando o valor do módulo foi inferior ou igual a
0,5, a nota predita foi considerada correta. Caso contrário, a nota predita foi considerada
errada. O valor de aproximação 0,5 foi empiricamente definido baseado na aproximação
numérica, mas é importante ressaltar que quanto menor for esse valor, maior será a confi-
abilidade dos reviews. Na Tabela 3 são mostrados os resultados das RNAs.
Observa-se na Tabela 3 que a taxa de acerto é melhor quando as medidas de uti-
lidade são usadas, exceto no filme 2 (limiar 0,5) e no filme 4 (limiar todos). No filme
2 com o limiar 0,5, a RNA pode não ter conseguido generalizar da forma esperada as
entradas referentes à utilidade, possivelmente devido a baixa qualidade dos reviews desse
limiar. No filme 4 com o limiar todos, a exceção ocorreu devido a taxa de reviews com
votos de utilidade ter sido a menor entre os filmes (8 de 543). Observa-se também que
o limiar 0,5 foi melhor para todos os filmes, independente das medidas de utilidade. Isto
pode ser justificado pelo fato deste limiar agrupar os usuários que atribuı́ram notas em
estrelas mais próximas dos valores da nota juiz. Adicionalmente, foi possı́vel constatar
que quanto mais se amplia o limiar, menos preciso se torna o modelo da RNA.
585
XXXVII Congresso da Sociedade Brasileira de Computação
Com o intuito de analisar qual a importância de cada medida para a predição das
notas de usuários a filmes, os 2.581 reviews coletados foram utilizados, considerando as
mesmas variações de medidas dos grupos 1 e 2, como entradas para a RNA. Vale ressaltar
que no grupo 2 não foram utilizadas as medidas de utilidade (utilN e utilS). Verificando
os resultados, foi possı́vel perceber que a medida de menor importância no grupo 1 foi
qtdSentencas (9,2%) e a medida de maior importância foi utilN (100%). No grupo 2, a
medida de menor importância foi qtdP adroes (23%) e a medida de maior importância foi
qtdSentencas (100%). Nota-se que qtdSentencas foi a medida de menor importância
no grupo 1 e a medida de maior importância no grupo 2, isto pode ser justificado por uma
possı́vel pertubação causada pelas medidas de utilidade no modelo. A Figura 4 ilustra os
resultados dos grupos 1 e 2.
Por fim, analisando os resultados das RNAs apenas para o grupo 2 e considerando
os reviews de cada filme individualmente, foi possı́vel também identificar as melhores
topologias para cada limiar, a saber: i)limiar 0,5: a melhor topologia encontrada foi para
o filme 1 utilizando 4 neurônios na camada escondida; ii) limiar 1,0: a melhor topologia
encontrada foi para o filme 4 utilizando 1 neurônio na camada escondida; iii) limiar todos:
a melhor topologia encontrada foi também para o filme 4 utilizando 1 neurônio na camada
escondida. Os valores para os três limiares de cada filme não serão apresentados neste
artigo por questão de espaço. Destaca-se ainda que a melhor topologia encontrada para
a RNA usada na definição da importância das medidas foi com 2 neurônios na camada
escondida.
586
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
5. Conclusão
Este trabalho apresentou um método automático para definir a importância das medidas
obtidas a partir dos reviews para predição de notas de usuários aos filmes. Nossos re-
sultados sugerem que as medidas de maior importância encontradas foram quantidade de
sentenças, quantidade de crı́ticas e a corretude. Observando os resultados obtidos das
RNAs, foi possı́vel perceber que o limiar 0,5 obteve melhor precisão entre os três limiares
usados devido a maior proximidade de notas em estrelas dos reviews com a nota juiz.
Para trabalhos futuros, pretende-se: i)analisar o impacto dos padrões linguı́sticos
usados no processo de classificação; ii) Adicionar mais palavras ao léxico, como neologis-
mos e gı́rias comuns, a fim de melhorar a corretude das crı́ticas, por exemplo, “filmaço”
e “vilanesca”; iii) Tratar erros provocados por letras repetidas em palavras; e iv) Aplicar
o método em outros domı́nios tais como: músicas, livros, dentre outros.
Referências
Barbosa, J. L. N., Moura, R. S., and de S. Santos, R. L. (2016). Predicting portuguese
steam review helpfulness using artificial neural networks. In Proceedings of the 22Nd
Brazilian Symposium on Multimedia and the Web, pages 287–293.
587
XXXVII Congresso da Sociedade Brasileira de Computação
da Silva, I. N., Spatti, D. H., and Flauzino, R. A. (2010). Redes Neurais Artificiais: para
engenharia e ciencias aplicadas. Artliber.
de S. Santos, R. L. (2017). Um estudo comparativo entre abordagens baseadas em siste-
mas fuzzy e redes neurais artificiais para estimar a importância de comentários sobre
produtos e serviços. Master’s thesis, Universidade Federal do Piauı́, Teresina, PI.
de S. Santos, R. L., Vieira, J. P. A., Barbosa, J. L. N., Sá, C. A., Moura, E. G., Moura,
R. S., and de Sousa, R. F. (2016). Evaluating the importance of web comments th-
rough metrics extraction and opinion mining. In Proceedings of the 35th International
Conference of the Chilean Computer Science Society, pages 153–163.
Ganu, G., Kakodkar, Y., and Marian, A. (2013). Improving the quality of predictions
using textual information in online user reviews. Information Systems, 38(1):1–15.
IBM Corp. (2011a). IBM Knowledge Center Training (Multilayer Perceptron).
IBM Corp. (2011b). IBM SPSS Statistics for Windows, Version 20.0. IBM Corp., Armonk,
NY.
Kim, S.-M., Pantel, P., Chklovski, T., and Pennacchiotti, M. (2006). Automatically asses-
sing review helpfulness. In Proceedings of the 2006 Conference on Empirical Methods
in Natural Language Processing, pages 423–430.
Lee, S. and Choeh, J. Y. (2014). Predicting the helpfulness of online reviews using mul-
tilayer perceptron neural networks. Expert Syst.Appl., 41(6):3041–3046.
Liu, B. (2010). Sentiment Analysis and Subjectivity. Handbook of Natural Language
Processing, Second Edition. CRC Press, Taylor and Francis Group.
Schmit, W. and Wubben, S. (2015). Predicting ratings for new movie releases from twitter
content. In Proceedings of the 6th Workshop on Computational Approaches to Subjec-
tivity, Sentiment and Social Media Analysis, WASSA@EMNLP 2015, 17 September
2015, Lisbon, Portugal, pages 122–126.
Turney, P. D. (2002). Thumbs up or thumbs down?: Semantic orientation applied to
unsupervised classification of reviews. In Proceedings of the 40th Annual Meeting on
Association for Computational Linguistics, pages 417–424.
588
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Abstract. Crime prevention requires the effective use of police resources, which
demands the access of criminal information for planning security actions. The
number of crime occurrences is higher than the official reported numbers. Many
victims do not report crimes directly to the security agencies. Instead, they pre-
fer to anonymously report using different channels, such as the Web. In this
article, we introduce our approach to characterize crimes reported in the Web.
Particularly, we collect criminal data from popular websites that store crime
occurrences, and we use clustering analysis to discover crime patterns on the
collected data. Applying our approach to a popular Brazilian crime report web-
site, we observe that more than 41% of the crimes were not reported to the secu-
rity agencies, and most of them are thefts and robberies occurring at night and
dawn. In addition, minor offenses present different patterns of serious crimes.
Moreover, crime patterns are different in rich and poor neighborhood.
1. Introduction
Security is a worldwide concern. According to the article 3 of the Universal Decla-
ration of Human Rights, everyone has the right to life, liberty and personal security.
Particularly in Brazil, the constitution guarantees that public safety is a duty of the
State [United Nations General Assembly 1948]. Crime prevention and control require the
effective use of police resources. Thus, the knowledge on crime patterns is paramount for
planning actions to avoid crimes.
The Bulletin of Occurrence (BO) is the official document used by the Brazil-
ian security agencies to record a crime occurrence [Azevedo 2014]. However, many
victims do not used it. According to the Brazilian national victimization sur-
vey [Secretaria Nacional de Segurança Pública - SENASP 2013], only 19.9% of crime
occurrences are reported. In addition, the lack of trust in the police and the idea that
the police could not do anything about the crime are the main reasons to not report crime
occurrences. In many cases, the victims prefer to report the crime occurrence in web-
sites or social networks. Thus, the number of crime occurrences is much higher than the
reported in official statistics.
Onde Fui Roubado1 is a website which manages a large criminal database with
information on the most diverse types of crimes. If a person has been a victim or witnessed
a crime, one can report the crime through the site itself. As the user must mark the location
where the crime occurred, most of the registered cases have the latitude and longitude of
the occurrence, as well as several relevant data about the nature of the crime, such as the
value of the loss and the date and time the crime occurred.
1
http://www.ondefuiroubado.com.br
589
XXXVII Congresso da Sociedade Brasileira de Computação
2. Background
In this section we present concepts related to our approach for crime characterization,
including Web crawling, classification and clustering techniques.
Clustering is the process of class discovery, where objects are sorted into groups and
classes are previously unknown [Malathi and Baboo 2011]. Clustering techniques are ba-
sically used to obtain data patterns while classification techniques are used to obtain the
classes for future prediction [Sharma and Kumar 2013]. Clustering has as its basic prin-
ciple the gathering of records that have similarities in a database, partitioning them into
subsets, called clusters [Goldschmidt and Passos 2005]. In particular, a cluster is a collec-
tion of objects that are similar to each other within the same group and unequal to objects
590
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
in other groups [Zubi and Mahmmud 2013]. In this way, the registers belonging to the
same cluster have similarities between them and, at the same time, the objects belong-
ing to different clusters have a high dissimilarity. Clustering only identifies similar data
groups and does not have the pretension of classifying, estimating, or predicting the value
of a variable [Camilo and da Silva 2009]. One of the most common clustering technique
used by researchers is k-means, which consists on partitioning the objects into k clusters
based on their similarities measured by a distance function [Han et al. 2011]. Although
efficient, k-means has the limitation of working only with numeric values. The x-means
extends k-means, with the advantage of estimating the best number of k groups from
the dataset to be evaluated [Hartigan and Hartigan 1975]. The x-means algorithm over-
comes the limitation of k-means and does not require to previously setup the number of
clusters [Hamerly and Elkan 2004].
3. Related Work
The investigation on crime patterns and analysis of criminal data have been the focus of
much research reported in the literature. They differ in terms of the data sources and the
techniques used to analyze the data. [Singh et al. 2016] describe a system that analyzes
crime records, increasing the accuracy of crime prediction. They consider different crime
occurrences to accurately predict whether a similar crime pattern is observed. In their
work, they analyze the geographic patterns of crimes and predict a particular type of crime
that could occur in the near future. The data used in analysis were collected by a crawler
from news feeds, blogs and articles on the Web. The prediction of the crime category is
possible if one detect a similar pattern for an area where the occurrence of crimes is highly
probable. The authors deliver the results in the form of a criminal category of a crime by
which an effective measure can be deployed by police forces to protect the neighborhood.
Also, when the criminal records were rich, they are able to predict the timeline for crimes.
The ARCA approach uses association rules to discover crime patterns from an of-
ficial crime database provided by the Department of Social Defense of Minas Gerais, in
Brazil [Laporais and Brandão 2014]. The dataset contains two years of Brazilian crime
occurrences., and the approach recognizes mutual implications between crime occur-
rences, retrieving relevant information about criminal behavior. It processes and loads
the data into a Data Warehouse (DW), filters, and extracts relevant data samples. Lastly,
they use the Apriori algorithm to discover association rules on DW. The association rules
discovered by ARCA were used to characterize criminal behavior, which pointed to pat-
terns of nontrivial criminality that motivate further investigation.
[Zubi and Mahmmud 2013] analyzes the Libyan crime occurrences using the k-
means algorithm for data clustering and the Apriori algorithm for association rules. Their
work is aimed to help the Libyan government making strategic decisions to address the
increasing of criminal activities. Data were collected from the Libyan Police Department.
These data were preprocessed to obtain clean and accurate records using preprocessing
techniques, and used to uncover different crimes, tendencies and criminal behaviors that
were grouped according to their attributes. For their work, more than 350 records were
used. They have gained overall statistical knowledge of the criminal age in relation to
the type of crime. According to the authors, the model aims to help the Libyan Security
Committee to identify criminal behavior by specifying the types of offenses and relating
them to criminal groups in Libya.
591
XXXVII Congresso da Sociedade Brasileira de Computação
592
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
From Table 1, we observe the type of crime attribute, which describes the type
of the crime. Particularly, there are 11 types of crimes reported by the victims: assault,
assault by groups, theft, robbery, housebreaking, store break-in, vehicle break-in, vehicle
theft, “saidinha”2 , “arrastão”3 , and “lightning kidnapping”4 .
From Table 2, we observe that some regions concentrate more criminal records
than others. For example, the “Centro-Sul” region concentrates almost half of all the
crimes reported in Belo Horizonte city, while the “Venda Nova” region concentrates less
than 3% of the crimes. This behavior represents a socioeconomic bias, since the richer
regions have more records than the poor ones.
Another required transformation was performed in the loss amount attribute,
which provides the estimated value, in Brazilian currency (R$), of the victims’ losses.
Based on the value of the minimum wage in Brazil, we define 10 level of losses. The
level 1 consists of losses until one minimum wage (R$ 880.00), the level 2 consists of
losses between one minimum wage (R$ 880.00) and two minimum wages (R$ 1,760.00),
2
A type of attack in which the thief stalks the victim waiting for him to leave the bank with cash withdraw
from the ATM to carry out the robbery.
3
A type of attack in which groups of thieves assault groups of people in waves.
4
A type of attack in which the victim is forced to visit banks and withdraw money for the kidnappers.
5
http://developers.google.com/maps/documentation/geocoding.
593
XXXVII Congresso da Sociedade Brasileira de Computação
and so on until the level 10, which consists of losses greater than ten minimum wages (R$
8,880.00).
We also performed transformations in the date time record attribute. In particular,
we divided the day into 4 periods: morning, afternoon, night and dawn. Table 3 shows
the schedule we used to determine the periods of the day.
5. Crime Characterization
In this section we present our throughout characterization of crimes based on our proposed
approach. Particularly, we present and discuss the clusters generated by the clustering
component we used to analyze the criminal features we crawled from Web. Table 4 shows
the number and percentage of criminal records in each generated cluster. From Table 4
we observe that the clustering component generated eight clusters with different number
of criminal records. In the following, we present the properties of each generated cluster:
594
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Cluster 2 - Night and dawn vehicle break-ins and assaults: Mostly composed by
crimes occurred in the Centro-Sul region. More than 76% of the crimes are vehicular
break-ins, and more than 51% of all assaults occurrences are concentrated in this cluster.
More than 80% of the victims are men, and more than 47% of victims did not reported the
crimes to security agencies. The crimes occurred exclusively during the night and dawn.
Cluster 3 - Mornings assaults by groups: The crimes occurred in the Barreiro, Centro-
Sul, Leste and Nordeste regions. The crimes caused victims’ losses from 1 to 7 minimum
wages, more than 50% of the crimes occurred in the morning, and more than 30% of the
crimes are assaults made by groups.
Cluster 5 - Afternoons and nights saidinha and arrastão: There are no predominant
regions. The crimes caused victims’ losses of up to 6 minimum wages. More than 94%
of “saidinha” occurrences, and more than 86% of “arrastão” occurrences are concentrated
in this cluster. More than 63% of the victims are men, and more than 47% of victims did
not reported the crimes to security agencies. More than 77% of the crimes occurred in the
afternoon and night.
Cluster 6 - Night and dawn crimes in Pampulha: Mostly composed by crimes oc-
curred in Pampulha region. Crimes varies from thefts, robberies, and store break-ins, and
caused victims’ losses of up to 6 minimum wages. More than 57% of the victims are men,
and more than 42% of victims did not reported the crimes to security agencies. All the
crimes occurred at night and dawn.
595
XXXVII Congresso da Sociedade Brasileira de Computação
Cluster 8 - Great danger and financial loss crimes: More than 48% of the crimes
occurred in Centro-Sul and Pampulha regions. The crimes caused severe danger and
victims’ losses greater than 8 minimum wages, which is justified by the fact that more
than 44% of all vehicle thefts and “lightning kidnappings” is here. More than 75% of the
victims are men, and only 11% of victims did not reported the crimes to security agencies.
6. Conclusions
In this article we introduced our crime characterization approach to characterize crimes
reported in the Web. Particularly, our approach extracts raw criminal records from crime
data sources in the Web, filters criminal features and performs clustering analysis to dis-
cover crime patterns.
We used our approach to characterize crimes in Belo Horizonte, a big city in
Brazil, from 2012 to 2016. From analytical results, we observe that crimes range from
minor offenses to serious crimes and the type and severity of them depends mostly on
the neighborhood and period of time. In addition, we observed that victims tend to re-
port more serious crimes with great danger and financial losses, and less minor offenses.
Moreover, serious crimes occur at night and down in rich neighborhoods and at morning
and afternoon in poor neighborhoods.
Our analysis show that the proposed approach can be effectively used by security
forces to plan actions for crime prevention. Thus, they can address the problem of lack
of trust in the police, creating a relationship of collaboration and effective participation of
society in the fight against crime.
As future work we intent to expand our analysis to other cities and countries.
In addition, we intent to evaluate the performance of other clustering techniques, such
as hierarchical clustering. Moreover, we intent to integrate data from other crime data
sources from Web, such as WikiCrimes and social networks. With these changes, we
believe that it will be possible to incorporate crime prediction modeling into our approach.
Acknowledgments
The authors are thankful for the partial support given by the Pontifical Catholic Uni-
versity of Minas Gerais (Grant PUCMINAS-FIP 2016/11086-S2), MCTI/CNPq (Grant
444156/2014-3), FAPEMIG/PRONEX (Grant APQ-01400-14), and the authors’ individ-
ual grants and scholarships from CNPq.
References
Azevedo, S. N. d. (2014). O protesto de tı́tulos e outros documentos de dı́vida. EdiPUC-
RS, 2 edition.
596
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
597
XXXVII Congresso da Sociedade Brasileira de Computação
598
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Abstract. This article focuses on character networks, which are social networks
that presents complex network properties. The strategy to build the network of
characters of a movie is using the same script, that contains information such
as the beginning of a scene, the characters that appear and dialogues. Usu-
ally, algorithms to build the social network considers only characters who have
speeches in scene. In this paper, we present a metodology that also considers
the characters that were quoted or just appear in the scene. We use the Lord of
the Rings franchise to apply the metodology, building and analysing the charac-
ter networks, answering who are the protagonists according to three centrality
measures: weighted degree, betweeness and PageRank.
Resumo. Este artigo tem como foco as redes de personagens, que são um tipo
de rede social, apresentando propriedades de redes complexas. Para construir a
rede de personagens de um filme, uma estratégia é usar o script do mesmo, que
contém informações como o inı́cio de uma cena, os personagens que aparecem
e diálogos. Em geral, a construção da rede social leva em conta apenas os
personagens que possuem falas em cada cena. Neste trabalho, apresentamos
uma metodologia que leva em consideração também personagens citados ou
que apenas aparecem nas cenas. Utilizamos os filmes da franquia O Senhor dos
Anéis para a aplicação da metodologia, construindo a rede de personagens e
posteriormente analisando, respondendo quem são os protagonistas de acordo
com três medidas de centralidade: grau ponderado, intermediação e PageRank.
1. Introdução
Redes sociais são redes que modelam relacionamentos e interações sociais, tais como
amizades, trabalho e colaboração em artigos. Neste contexto, existem as redes de perso-
nagens, um tipo particular de rede social. Elas representam os relacionamentos entre per-
sonagens de um filme. Sendo um tipo de rede social, elas possuem caracterı́sticas de redes
complexas, como atributos de mundo pequeno (small world), comunidades bem definidas
e distribuição desigual de grau [Bonato et al. 2016]. Além disso, possuem a particulari-
dade de refletir o enredo do filme, ao tornar explı́citas as conexões entre personagens, des-
tacando núcleos formados ao longo da história através de suas comunidades. Estas redes
encontram correlações com situações no mundo real, como a representação de uma rede
de criminosos, uma rede de polı́ticos, ou outras situações onde existem relacionamentos
documentados que possuem dinamicidade e evolução temporal [Spadon et al. 2016].
Na literatura, existem trabalhos que extraem redes sociais de personagens de obras
literárias e cinematográficas. No caso especı́fico dos filmes, a extração é feita a partir
599
XXXVII Congresso da Sociedade Brasileira de Computação
do script do filme. O site Movie Galaxies [Kaminski et al. 2012] contém redes sociais
extraı́das de diversos filmes. Porém, a extração é feita observando apenas os personagens
que falam em cada cena. Assim, personagens importantes, mas que não possuem falas,
não são representados na rede social e o resultado final pode não ser uma modelagem
adequada.
Neste trabalho, o objetivo é propor uma metodologia para construção de redes de
personagens de filmes, dados o script e a lista de personagens. Esta construção leva em
conta os personagens que dialogam nas cenas ou apareceram, porém sem falar. Desta
forma, é possı́vel construir uma rede de personagens mais abrangente, incluindo perso-
nagens sem falas (como animais e robôs, por exemplo). Aplicamos a estratégia aos três
filmes da franquia O Senhor dos Anéis e também à trilogia como um todo, e após análise,
responde-se quem são os protagonistas do filme de acordo com as medidas de centralidade
(grau, intermediação e PageRank). A franquia O Senhor dos Anéis foi escolhida devido
à estrutura de seu enredo, uma jornada onde as interações e influência dos personagens
mudam através dos filmes. Acreditamos que, devido a esta dinamicidade, é interessante
analisar de que forma os filmes são modelados em redes complexas e verificar o quanto
estas redes refletem o enredo dos filmes.
As principais contribuições deste trabalho são: apresentação de uma metodolo-
gia para extração da rede social de personagens de filmes, utilizando o script e a lista de
personagens do mesmo. Diferente de outros trabalhos presentes na literatura, esta me-
todologia leva em consideração tanto personagens que possuem falas quanto os que são
apenas citados ou aparecem em uma cena. Ao final, a metodologia é aplicada aos três
filmes da franquia O Senhor dos Anéis para construção das redes de personagens e pos-
terior análise por meio de medidas de centralidade em redes complexas, revelando quem
são os personagens protagonistas de cada filme e da trilogia como um todo.
O restante do artigo está organizado da seguinte forma: a Seção 2 apresenta uma
visão geral dos trabalhos relacionados. A Seção 3 aponta como foi feita a modelagem das
redes de personagens. A Seção 4 traz as métricas utilizadas durante o trabalho. Já a Seção
5 contém os resultados obtidos e, por fim, a Seção 6 traz as considerações finais, seguida
das referências.
2. Trabalhos Relacionados
Esta seção sumariza alguns trabalhos que realizam extração de redes de personagens de
filmes. Eles se diferenciam principalmente pela técnica utilizada, envolvendo conceitos
de aprendizagem de máquina, reconhecimento facial e expressões regulares.
Em [Park et al. 2012] o foco está em construir a rede de personagens levando
em conta aqueles que falam em cada cena e classificá-los quanto a papéis principais,
secundários e extras. É realizada a sincronização entre o script do filme e as legendas. O
lado positivo desta abordagem está no uso da centralidade de grau (degree centrality) para
classificar os personagens em papéis. O lado negativo é que alguns foram incorretamente
classificados, até mesmo personagens importantes, pois o contexto dos diálogos e ações
não é levado em conta, o que acabou causando uma falha no método.
O trabalho de [Weng et al. 2007] também é baseado em papéis (roles). A rede so-
cial de papéis é usada para identificar comunidades e detectar suas relações com o enredo.
600
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
São usadas técnicas de reconhecimento facial para determinar os nós (roles) da rede. O
cenário escolhido compreende apenas filmes bilaterais, geralmente com comunidades que
representam o bem e o mal. São identificados nós determinantes (leading roles) na rede
de papéis através de medidas de centralidade de grau. Então, determina-se as comunida-
des que circundam cada uma das leading roles. O artigo possui certo viés, uma vez que
analisa apenas filmes bilaterais, com uma estrutura praticamente pré-determinada. Por
exemplo, filmes que contam com o lado do bem e do mal bem definidos, onde o caráter
dos personagens é explı́cito. Além disso, a detecção de cenas e reconhecimento facial
foram feitas manualmente, sendo assim inapropriadas ao presente contexto.
Já em [Agarwal et al. 2014], a estratégia é receber um script e assinalar à cada
linha uma tag indicando se a mesma é o inı́cio de uma cena, uma descrição de cena, o
nome de um personagem, um diálogo ou um meta-dado sobre o script. Isto é utilizado
para a construção da rede social de personagens de um filme. A abordagem escolhida é
aplicar uma técnica de aprendizagem de máquina para realizar esta marcação no script,
comparando com o método de expressões regulares. A rede foi construı́da ao adicionar
um link a dois personagens que aparecem em uma mesma cena. Esta técnica não leva
em conta personagens que foram apenas citados ou não possuem falas, o que pode levar
a uma representação incorreta da importância de um personagem. Outro problema está
no fato de personagens aparecerem no script com apelidos ou pseudônimos. Estes pontos
serão tratados no presente trabalho.
3. Modelagem da Rede
Uma rede social é uma espécie de rede complexa. Estas redes possuem as seguintes
caracterı́sticas [Shen 2013]:
• A distribuição de grau dos vértices é desigual e segue a lei de potência: há muitos
vértices de grau pequeno, e poucos vértices com muitas conexões. Isto faz com
que a importância (ou centralidade) dos vértices varie na rede.
• Existe a propriedade small-world (mundo pequeno): a distância entre quaisquer
dois vértices na rede é pequena em relação ao número total de vértices e arestas
total.
• Há estrutura de comunidades bem definida: alguns elementos são mais conectados
entre si do que com outros na rede, formando agrupamentos ou clusters.
No contexto de redes sociais, que modelam interações sociais entre um grupo
de indivı́duos, estas caracterı́sticas podem indicar quais os indivı́duos mais influentes na
rede; o quanto duas pessoas que não se conhecem estão próximas; e quais os indivı́duos
associados, direta ou indiretamente, por meio de interesses em comum ou similaridades
entre si.
A extração da rede social de cada filme tem como base o script ou screenplay
do mesmo. Um script contém a descrição de cada cena, bem como os personagens que
aparecem e as falas daqueles que se manifestam nela. Estas informações estão dispostas
seguindo um formato semi-regular, permitindo o uso de um programa baseado em ex-
pressões regulares para extrair os dados necessários para a construção da rede social. A
Figura 1 apresenta um exemplo de uma cena em um script.
Neste trabalho, fazemos uso do script e da lista de personagens do filme para
compor a rede social de personagens. Para a execução dos experimentos, foram utiliza-
601
XXXVII Congresso da Sociedade Brasileira de Computação
SARUMAN (V.O.)
Smoke rises once more from the
mountain of doom...the shadow takes
shape in the darkness of Mordor; the nome de
personagem
hour grows late...and Gandalf the
Grey rides to Isengard seeking my
counsel...
dos scripts da franquia O Senhor dos Anéis, obtidos do site IMSDb [IMSDb 2017], que
disponibiliza os roteiros de um grande número de filmes. Neste contexto, foi utilizada a
lista de personagens de cada filme da franquia, obtida do site IMDb [IMDb 2017], que
cataloga grande parte da produção cinematográfica mundial. Em resumo, a lógica é pro-
curar uma nova cena, e acrescentar arestas entre os personagens que aparecem (ou foram
citados) nela. Caso já exista aresta, o peso da mesma é incrementado.
602
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
4. Medidas de Centralidade
Para analisar as redes sociais de cada filme como redes complexas, são aplicadas medi-
das de centralidade. Estas respondem quem são os nós principais ou mais influentes da
rede, cada uma seguindo um critério especı́fico. As medidas escolhidas para análise neste
trabalho são [Perra and Fortunato 2008]:
• Centralidade de grau ponderado (weighted degree centrality): considera que os
nós de maior grau são mais centrais. O grau de um vértice é a soma dos pesos
das arestas a que ele está conectado. No contexto deste trabalho, considera que os
personagens mais importantes são os que possuem mais interações com os demais.
• Centralidade de intermediação (betweenness centrality): indica o número de ve-
zes que um vértice está no caminho mı́nimo entre dois outros vértices quaisquer
na rede. Isso significa que a importância aumenta conforme ele funciona como
ponte para conectar outros vértices na rede. Assim, um personagem é mais central
quando conecta personagens de diversos núcleos diferentes da história.
• Centralidade de PageRank (PageRank centrality): considera o número e a qua-
lidade de conexões de um vértice para determinar a importância do mesmo.
Vértices mais importantes são os que recebem mais conexões de outros vértices
importantes. No caso dos filmes, os personagens centrais interagem com persona-
gens importantes na história.
5. Resultados Obtidos
Para realizar os experimentos da estratégia proposta, foram feitos testes utilizando o soft-
ware Gephi [Gephi 2017], que calcula as medidas de centralidade e permite a modelagem
visual dos grafos que representam as redes e implementação em Python 3 para o parser do
script. As redes de personagens construı́das foram as dos três filmes da franquia O Senhor
dos Anéis: A Sociedade do Anel, As Duas Torres e O Retorno do Rei. Além disso, foi
construı́da uma quarta rede de personagens, representando os três filmes. A franquia O
Senhor dos Anéis foi escolhida devido à dinamicidade do enredo: os personagens iniciam
uma caminhada juntos no primeiro filme, separam-se em diferentes enredos no segundo
e, por fim, juntam-se no último filme. Também é interessante o fato dos personagens ad-
quirirem importâncias diferentes no decorrer dos três filmes, devido aos enredos em que
se envolvem.
A história de Senhor dos Anéis conta a saga de vários habitantes de um mundo
fictı́cio denominado Terra Média, que está sob ameaça de um poderoso mago chamado
Sauron, o Senhor dos Anéis. Sauron criou um anel muito poderoso, o Anel do Poder, ca-
paz de prover a seu mestre o domı́nio completo sobre os outros seres deste mundo. Porém,
Sauron não detém o anel, que está em posse de Frodo, um hobbit (um ser semelhante aos
humanos, porém de estatura muito menor).
Os resultados levam em conta apelidos e pseudônimos que aparecem durante a
história: por exemplo, o personagem Aragorn é chamado, durante parte dos filmes, de
Passolargo. Samwise, Meriadoc e Peregrin são os nomes próprios dos personagens Sam,
Merry e Pippin, que são chamados pelos apelidos durante a maior parte dos filmes. Há
um caso especial: o personagem Gollum era chamado no passado de Smeagol, e o perso-
nagem sofre um distúrbio de personalidade, em uma luta interna entre Gollum e Smeagol.
Pelo fato de um dialogar com o outro, mantivemos os vértices Gollum e Smeagol como
603
XXXVII Congresso da Sociedade Brasileira de Computação
distintos. Além disso, o fato do vilão Sauron não possuir uma forma corpórea e, deste
modo, não possuir falas, não o impede de ser representado na rede social, pois ele é ci-
tado por outros personagens. Esta é uma fraqueza encontrada em outros trabalhos, que
incluem apenas personagens com fala explı́cita e não levam em consideração apelidos e
nomes próprios, criando vértices excedentes.
Elrond
Elendil Isildur Saruman
Boromir
Sauron Gandalf Legolas
Lurtz
Gollum
Aragorn
Galadriel
Pippin
Sam Haldir
Celeborn
Merry
Rosie Cotton
Farmer Maggot
604
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
605
XXXVII Congresso da Sociedade Brasileira de Computação
Rohan Soldier
Arwen Elrond
Eomer Smeagol
Sharku
Gollum
Theodred Sam Galadriel
Denethor
Hama
Eowyn Frodo
Gandalf Boromir
Aldor Faramir
Wormtongue
Theoden Freda
Morwen Saruman
Pippin
Merry Uruk-Hai
Treebeard
Ugluk
Grishnakh
Mauhur
Snaga
606
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Witch-King
Rohan Soldier
Gothmog
Uruk-Hai Gamling
Grimbold Madril
Arwen
Eowyn
Elendil Shagrat
Eomer Theoden Faramir
Sauron
Elrond
Aragorn Legolas Boromir
Frodo Isildur
Merry Gimli
Gorbag
Witchking
Sam King Of The Dead
Gollum
Denethor
Smeagol
Bilbo
Gandalf
Deagol
Rosie Cotton
Pippin
Galadriel
Treebeard Saruman
Celeborn
607
XXXVII Congresso da Sociedade Brasileira de Computação
nagem com maior número de conexões (e com mais qualidade) e o intermediador. Há
uma correlação com o enredo, pois neste filme, Frodo é altamente citado pelos perso-
nagens envolvidos na batalha de Gondor. Assim, ele conecta os núcleos de Mordor e
Rohan/Gondor, e simultaneamente, adquire muitas conexões.
Aragorn teve alta classificação em duas métricas, assim como Sam. Aragorn tem
papel de liderança na batalha de Gondor, interagindo com diversos personagens. Sam, por
sua vez, é fundamental no núcleo de Mordor, auxiliando Frodo a destruir o Anel. Desta
forma, as medidas indicam que Frodo, Aragorn e Sam são os protagonistas da história.
É interessante observar que outros personagens como Pippin e Merry também obtiveram
pontuações parecidas, o que corresponde à participação dos mesmos no filme. Cada um
destes personagens possui um papel chave em seus determinados pontos da história.
Aldor Sharku
Witch-King
Theodred
Hama Grimbold
Freda
Eowyn Boromir
Morwen
Eomer
Eothain
Gamling
Legolas
Theoden Gimli
Denethor
Wormtongue
Saruman Merry Frodo Witchking
Sauron
Sam
Mauhur
Gollum Celeborn
Uruk-Hai Arwen
Shagrat
608
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
nas outras duas métricas, podendo ser considerado também um dos protagonistas. Esta
classificação é condizente com a história dos três filmes: Frodo e Sam, os responsáveis
pela destruição do anel; Aragorn, o rei; e Gandalf, o mago que possui papel de lı́der. É
interessante observar que o fato de Sam ter se destacado é uma informação relevante e
não esperada, pois durante grande parte das cenas, apesar de Sam estar presente, o foco é
sempre Frodo. No entanto, as medidas indicam que o personagem também possui prota-
gonismo na história.
6. Considerações finais
Neste trabalho, introduzimos uma proposta para construção das redes sociais de persona-
gens de um filme, e aplicamos especificamente nos três filmes da franquia O Senhor dos
Anéis. A construção foi feita utilizando o script dos filmes, e considerando a participação
de personagens que aparecem ou foram citados nas cenas com o auxı́lio da lista de perso-
nagens dos mesmos.
Após a construção das redes sociais, foi feita análise através de três medidas de
centralidade: grau ponderado, intermediação e PageRank. Cada medida classifica os
personagens que considera mais importantes de acordo com um critério especı́fico. O
objetivo foi verificar, segundo as métricas, quem são os protagonistas do filme e se a rede
social obtida, bem como as comunidades identificadas e os personagens mais influentes
são condizentes com o enredo do filme.
A classificação obtida das três medidas de centralidade aponta os personagens
mais centrais na rede social de cada filme. Em A Sociedade do Anel, os protagonistas são
Frodo, Sam e Gandalf. Em As Duas Torres, os destaques são Aragorn, Theoden e Sam.
Já em O Retorno do Rei, Frodo, Aragorn e Sam são os personagens mais influentes. Ao
analisar os três filmes em conjunto, Frodo, Sam, Aragorn e Gandalf são os protagonistas
apontados pelas medidas de centralidade.
Os resultados obtidos são condizentes com a história de cada filme, inclusive
quando analisada a trilogia como um todo. As comunidades detectadas refletem também
parte do roteiro, destacando núcleos que estão presentes na história. Desta forma, acredi-
tamos que a abordagem escolhida é adequada para a modelagem da rede de personagens e
pode ser aplicada a outros filmes. Como trabalhos futuros, pretendemos aplicar a técnica
a filmes de outros gêneros e verificar se os vértices centrais de acordo com as medidas
609
XXXVII Congresso da Sociedade Brasileira de Computação
de centralidade são de fato os protagonistas, e se há alguma relação entre as redes sociais
construı́das a partir de filmes do mesmo gênero.
Referências
Agarwal, A., Balasubramanian, S., Zheng, J., and Dash, S. (2014). Parsing screenplays
for extracting social networks from movies. EACL 2014, pages 50–58.
Bonato, A., D’Angelo, D. R., Elenberg, E. R., Gleich, D. F., and Hou, Y. (2016). Mining
and modeling character networks. Algorithms and Models for the Web Graph, pages
100–114.
Gephi (2017). Open graph viz platform. Disponı́vel em: https://gephi.org/.
Acessado em: 02/2017.
IMDb (2017). Internet movie database (imdb). Disponı́vel em: http://www.imdb.
com/. Acessado em: 02/2017.
IMSDb (2017). Internet movie script database (imsdb). Disponı́vel em: http://www.
imsdb.com/. Acessado em: 02/2017.
Kaminski, J., Schober, M., Albaladejo, R., Zastupailo, O., and Hidalgo, C. (2012). Mo-
viegalaxies - social networks in movies.
Park, S.-B., Oh, K.-J., and Jo, G.-S. (2012). Social network analysis in a movie using
character-net. Multimedia Tools and Applications, 59(2):601–627.
Perra, N. and Fortunato, S. (2008). Spectral centrality measures in complex networks.
Physical Review E, 78(3):036107.
Shen, H.-W. (2013). Community structure of complex networks. Springer Science &
Business Media.
Spadon, G., Scabora, L. C., Araujo, M. V. S., Oliveira, P. H., Machado, B. B., de Sousa,
E. P. M., Jr., C. T., and Jr., J. F. R. (2016). Complex network tools to understand the
behavior of criminality in urban areas. CoRR, abs/1612.06115.
Weng, C.-Y., Chu, W.-T., and Wu, J.-L. (2007). Movie analysis based on roles’ social
network. In Multimedia and Expo, 2007 IEEE International Conference on, pages
1403–1406. IEEE.
610
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
orlando.gomes@fumec.br
Abstract. The study of Lattes platform allows addressing and analyzing Bra-
zil researchers network which could be useful for defining politics to improve
science, technology, and innovation. This work evaluated Lattes Platform co-
authorship network. This network evolves over time, which means that new co-
authorships will arise in future. Therefore, using link prediction methods in this
network would help to identify growing knowledge areas in Brazil. The used te-
chnics were Spectral Evolution, wich is new in this context, Common Neighbors,
Adamic-Adar and Jaccard. The main goal was to evaluate the link prediction
accuracy with different methods at the coauthorship network of Lattes Platform.
The Spectral Evolution was worse than the others. Adamic-Adar method pre-
sented the best result – 817 times better than the random link prediction.
Keywords: Link Prediction, Co-authorship, Spectral Evolution
1. Introdução
A coautoria de artigos é uma das formas tangíveis e documentadas de colaboração
científica. Vários aspectos da colaboração científica podem ser investigados por meio
de análise de redes de coautoria, empregando-se a metodologia de análise de redes
611
XXXVII Congresso da Sociedade Brasileira de Computação
sociais [Newman 2004, Barabási et al. 2002, Da Silva et al. 2012, Brandão et al. 2007,
Parreiras et al. 2006, Liu et al. 2005]. Avaliar as redes de pesquisadores é uma atividade
relevante para a adoção de políticas de incentivo ao progresso em ciência, tecnologia
e inovação, pois permite o mapeamento e a mensuração das áreas de conhecimento no
Brasil.
As redes de coautoria têm os vértices (nós) como os autores dos artigos ana-
lisados e as arestas (links) são as coautorias dos mesmos [Barabási and Albert 1999].
É natural supor que as redes evoluam no tempo. Considerando um instantâneo de
uma rede de coautoria científica, por exemplo, a predição de links é uma ferramenta
que possibilita, em um momento posterior a esse instantâneo, a recomendação de uma
nova parceria entre cientistas dessa rede. A predição de links é desafiadora, pois a
rede que surge desse processo, usualmente, é esparsa, gerando uma grande dificuldade
em encontrar os mais prováveis candidatos a serem os próximos links da rede anali-
sada [Getoor and Diehl 2005].
A rede escolhida para este trabalho foi construída a partir dos dados estruturados
dos currículos dos pesquisadores da Plataforma Lattes.1 Nesses currículos, encontram-se
informações que foram usadas para a construção das redes de coautoria. Trata-se de
uma rede composta por pesquisadores e o problema de pesquisa é avaliar qual técnica
de predição de novos links tem a melhor precisão na rede de coautoria. Para tal, foram
desenvolvidos softwares para realizar o cálculo da predição em que cada um se baseia na
técnica escolhida. As técnicas avaliadas foram: Evolução Espectral [Kunegis et al. 2010],
Vizinhos Comuns [Newman 2001], Adamic-Adar [Adamic and Adar 2003] e Jaccard
[Liben-Nowell and Kleinberg 2007]. É importante ressaltar que a técnica de Evolução
Espectral [Kunegis et al. 2010] ainda não foi utilizada para realizar predições de links
na plataforma Lattes. As técnicas de predição de links investigadas nesse trabalho
utilizam como informação para a previsão de um novo link entre dois autores somente
a configuração da rede de coautoria no passado. Colaborações em projetos de pesquisa,
orientações, participação em bancas, dentre outros, podem influenciar na formação de
uma nova coautoria. Enfatiza-se que, ao desconsiderar estas informações, procura-se
evidenciar novas coautorias que não são facilmente previsíveis por essas informações
dos autores. Por exemplo, espera-se que orientador e orientado sejam coautores em uma
publicação no futuro.
1
http://lattes.cnpq.br
612
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
2. Fundamentação Teórica
Redes estão em todos os lugares. Os participantes das redes são os seus “nós” ou “vérti-
ces”. No caso das redes sociais, os participantes são, normalmente, denominados atores
e podem ser individuais (uma pessoa) ou coletivos (uma organização ou coletividade).
O laço relacional, ou simplesmente laço ou link, é responsável por estabelecer a ligação
entre pares de atores. No caso das redes de coautoria, o link se dá pela existência de um
trabalho científico produzido pelos dois autores.
613
XXXVII Congresso da Sociedade Brasileira de Computação
2
http://pbct.inweb.org.br/cienciabrasil/
614
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
615
XXXVII Congresso da Sociedade Brasileira de Computação
Subconjunto Lattes N L ∆L
CNPq 13.790 140.014 10.955
Engenharias 21.619 70.421 1.521
Exatas 31.646 193.882 6.230
A primeira etapa da análise das informações dos artigos busca verificar se o ano
de publicação corresponde ao intervalo definido para obter a matriz de adjacência. Es-
tando no intervalo, é necessário saber quais são os autores e os coautores dos artigos. A
informação do autor foi obtida, pois esse é o dono do currículo. Todas as informações dos
nomes dos autores, coautores e IDs Lattes são carregados em uma lista. Por fim, chega-se
ao momento em que as informações das listas obtidas podem ser cruzadas para gerar as
matrizes de adjacência. Os nomes em referências bibliográficas são conhecidos assim
como, os IDs Lattes e as relações de coautoria. O pesquisador, ao cadastrar o currículo na
616
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Plataforma Lattes, pode escolher a maneira conveniente para ser nomeado em suas refe-
rências bibliográficas. Isso gera dificuldade na filtragem dos dados devido à existência de
homônimos em que um autor pode escolher mais de uma maneira para ser citado. O pro-
grama gerador das matrizes minimizou esse problema considerando os nomes válidos, se
esses forem representados nos currículos dos pesquisadores em formato de permuta. Se
“A” referenciou “B”, “B” tem que ter referenciado “A”, o que minimiza os erros. Foram
considerados os artigos publicados. As matrizes geradas não consideram o peso das liga-
ções. Em todas as matrizes, o número que significa uma colaboração entre dois autores é
o número “1”, que indica uma evolução no surgimento de colaborações inéditas entre os
autores. Se “A” colaborou com “B” em 2011 e voltou a colaborar com esse em 2012, em
ambas as matrizes o número correspondente será o “1”. Paralelamente, se “A” não cola-
borou com “C” em 2011, mas colaborou com esse em 2012, os números correspondentes
nas matrizes serão, respectivamente, “0” e “1”.
617
XXXVII Congresso da Sociedade Brasileira de Computação
Considere uma linha temporal subdividida em três momentos (t1 < t2 < t3 ), onde a dis-
tância temporal entre instantes de tempo é de um ano. Para cada momento, uma matriz
correspondente foi mapeada e nomeada uma matriz de adjacência A1 , A2 e A3 , respecti-
vamente. U2 representa a matriz resultante da decomposição de A2 em seus autovetores.
Para prever a matriz de adjacência A3 , deve-se calcular a matriz dos autovalores Λ3 e
conservar os autovetores da matriz U2 :
A3 = U2 · Λ3 · U2t
.
Para se determinar a matriz de autovalores Λ3 , Kunegis et al. (2010) sugerem
utilizar uma equação linear (regressão linear): .
Λ3 = 2Λ2 − Λ1 ,
onde os valores de Λ1 e Λ2 são obtidos pelas decomposições das matrizes de adjacência
A1 e de A2 em seus autovalores e autovetores, respectivamente [Kunegis et al. 2010].
Para dois nós x e y, obtém-se o número de vizinhos comuns a partir do número de nós do
conjunto resultante da intersecção dos conjuntos Γ (x) e Γ (y). Por representar uma mé-
trica não normalizada, essa técnica geralmente reflete a similaridade relativa entre pares
de nós. V C (Vizinhos Comuns) pode ser representada como
3.2.3. Adamic-Adar
Adamic e Adar (2003) definiram uma técnica para calcular a similaridade de páginas na
Internet. Posteriormente, ela passou a ser utilizada no estudo de redes sociais (WANG et
al., 2015). Ela é referenciada em trabalhos como índice Adamic-Adar (AA), como visto
em Lü e Zhou (2011) e Liben-Nowell e Kleinberg (2007). AA supõe que características
semelhantes são mais relevantes para a similaridade. Para isso, considera em seu cálculo a
frequência de z que corresponde à ocorrência da característica comum (intersecção) entre
os conjuntos Γ (x) e Γ (y) de acordo com a equação
X 1
AA(x, y) = .
log | Γ (z) |
z∈Γ (x)∩Γ (y)
618
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
| Γ (x) ∩ Γ (y) |
JC(x, y) = .
| Γ (x) ∪ Γ (y) |
4. Resultados e Discussões
O percentual de acerto para todas as técnicas foi determinado utilizando-se o conceito de
precisão
Vp
P (%) = × 100,
Vp + F p
onde Vp são os verdadeiros positivos – links previstos corretamente pela técnica e FP são
os falsos positivos – links previstos pela técnica incorretamente.
A Tabela 2 apresenta os resultados para cada algoritmo utilizado nesse trabalho.
Os resultados da evolução espectral (EE), que é o algoritmo inédito investigado neste
trabalho, precisam ser elucidados. Para a sub-rede da grande área de Engenharias, a EE
não acertou nenhum dos links previstos para o ano de 2013. Já para a grande área de
Exatas, a capacidade de memória do computador utilizado (24 GB) não foi suficiente. A
EE apresentou um desempenho inferior aos outros métodos (3, 56%). O método Adamic-
Adar foi o que atingiu o melhor desempenho que foi 817 vezes superior ao processo de
predição de links aleatório.
De acordo com os resultados da Tabela 2, o desempenho de todos os métodos
é baixo se comparado com os resultados apresentados por Digiampietri et al. (2012),
cuja acurácia foi de 94% . Porém, é importante ressaltar que neste trabalho utilizou-se a
medida de precisão; caso utilizasse a medida de acurácia, os resultados seriam em torno
de 99% para qualquer conjunto investigado nesse trabalho.
Zhang (2017), utilizando uma técnica de machine learning com preditores, conse-
guiu a precisão de 42,5% no melhor dos resultados. Entretanto, é importante considerar
que a base de dados analisada não é a plataforma Lattes. Em seus resultados, a técnica
de Vizinhos Comuns obteve 24,4% em determinado contexto. Essa mesma técnica, nas
sub-redes da plataforma Lattes analisados neste artigo, obteve o valor de 5,3%. Portanto,
a mudança da base de dados pode mudar os resultados substancialmente.
5. Conclusão
A técnica da evolução espectral, que foi utilizada de forma inédita em redes extraídas
da plataforma Lattes nesse trabalho, apresentou um desempenho inferior aos métodos
619
XXXVII Congresso da Sociedade Brasileira de Computação
Tabela 2. Precisão de acerto dos links previstos em 2013 para cada algoritmo.
considerados clássicos pela literatura. O melhor desempenho entre todas as técnicas foi
de 6,45% pelo método Adamic-Adar – 817 vezes superior ao método aleatório.
Para trabalhos futuros sugere-se um foco nas sub-redes da Plataforma Lattes, pro-
curando agrupar os pesquisadores pela área de formação e não pela grande área da ciência.
É importante ressaltar que este trabalho teve o foco na predição de links para colabora-
ções inéditas e não considera quaisquer outras características dos nós das redes objeto de
estudo (por exemplo, filiação, relação entre orientador e orientando, dentre outras).
Uma outra oportunidade futura encontra-se no uso de uma matriz de adjacência
com pesos para verificar se há melhora na predição de links pela técnica de Evolução
Espectral e demais técnicas. A ideia de explorar os pesos já possui resultados interessantes
na literatura [Sett et al. 2016].
Referências
Adamic, L. A. and Adar, E. (2003). Friends and neighbors on the web. Social Networks,
25(3):211 – 230.
Barabási, A.-L. and Albert, R. (1999). Emergence of scaling in random networks. Sci-
ence, 286(5439):509–512.
Barabási, A.-L., Jeong, H., Néda, Z., Ravasz, E., Schubert, A., and Vicsek, T. (2002).
Evolution of the social network of scientific collaborations. Physica A: Statistical
Mechanics and its Applications, 311(3):590–614.
Brandão, M. A. and Moro, M. M. (2012). Recomendação de colaboração em redes sociais
acadêmicas baseada na afiliação dos pesquisadores. In SBBD (Short Papers), pages
73–80.
Brandão, W. C., Parreiras, F. S., and Silva, A. B. d. O. (2007). Redes em ciência da
informação: evidências comportamentais dos pesquisadores e tendências evolutivas
das redes de coautoria. Informação & Informação.
Da Silva, A. K. A., Barbosa, R. R., and Duarte, E. N. (2012). Rede social de coautoria em
ciência da informação: estudo sobre a área temática de organização e representação do
conhecimento. Informação & Sociedade, 22(2).
Digiampietri, L., Maruyama, W. T., Santiago, C., and da Silva Lima, J. J. (2015). Um
sistema de predição de relacionamentos em redes sociais. In Brazilian Symposium on
Information Systems, volume 11.
620
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Digiampietri, L., Mena-Chalco, J., de Jésus Pérez-Alcázar, J., Tuesta, E. F., Delgado, K.,
and Mugnaini, R. (2012). Minerando e caracterizando dados de currículos lattes. In
Brazilian Workshop on Social Network Analysis and Mining (BraSNAM).
Getoor, L. and Diehl, C. P. (2005). Link mining: a survey. ACM SIGKDD Explorations
Newsletter, 7(2):3–12.
Kunegis, J., Fay, D., and Bauckhage, C. (2010). Network growth and the spectral evolu-
tion model. In Proceedings of the 19th ACM International Conference on Information
and knowledge Management, pages 739–748. ACM.
Liben-Nowell, D. and Kleinberg, J. (2007). The link-prediction problem for social
networks. Journal of the Association for Information Science and Technology,
58(7):1019–1031.
Liu, X., Bollen, J., Nelson, M. L., and Van de Sompel, H. (2005). Co-authorship networks
in the digital library research community. Information Processing & Management,
41(6):1462–1480.
Lü, L. and Zhou, T. (2011). Link prediction in complex networks: A survey. Physica A:
Statistical Mechanics and its Applications, 390(6):1150–1170.
Luna, J. E. O., Revoredo, K., and Cozman, F. G. (2013). Link prediction using a probabi-
listic description logic. Journal of the Brazilian Computer Society, 19(4):397–409.
Maruyama, W. and Digiampietri, L. (2016). Co-authorship prediction in academic social
network.
Mena-Chalco, J. P., Digiampietri, L. A., Lopes, F. M., and Cesar, R. M. (2014). Brazi-
lian bibliometric coauthorship networks. Journal of the Association for Information
Science and Technology, 65(7):1424–1445.
Mena-Chalco, J. P., Junior, C., and Marcondes, R. (2009). Scriptlattes: an open-source
knowledge extraction system from the lattes platform. Journal of the Brazilian Com-
puter Society, 15(4):31–39.
Newman, M. E. (2001). The structure of scientific collaboration networks. Proceedings
of the National Academy of Sciences, 98(2):404–409.
Newman, M. E. (2004). Coauthorship networks and patterns of scientific collaboration.
Proceedings of the National Academy of Sciences, 101(suppl 1):5200–5205.
Papadimitriou, A., Symeonidis, P., and Manolopoulos, Y. (2011). Friendlink: link predic-
tion in social networks via bounded local path traversal. In Computational Aspects of
Social Networks (CASoN), 2011 International Conference on Networks, pages 66–71.
IEEE.
Parreiras, F. S., Silva, A. d. O., Matheus, R. F., Brandão, W. C., et al. (2006). Redeci:
colaboração e produção científica em ciência da informação no brasil. Perspectivas em
ciência da Informação, 11(3):302–317.
Perez-Cervantes, E., Mena-Chalco, J. P., De Oliveira, M. C. F., and Cesar, R. M. (2013).
Using link prediction to estimate the collaborative influence of researchers. In eScience
(eScience), 2013 IEEE 9th International Conference on, pages 293–300. IEEE.
621
XXXVII Congresso da Sociedade Brasileira de Computação
Sett, N., Singh, S. R., and Nandi, S. (2016). Influence of edge weight on node proximity
based link prediction methods: an empirical analysis. Neurocomputing, 172:71–83.
Zhang, J. (2017). Uncovering mechanisms of co-authorship evolution by multirelations-
based link prediction. Information Processing & Management, 53(1):42–51.
622
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Abstract. Due to the omnipresence of the Internet and the Web 2.0 in current
society, it has become easy to find groups or communities of people discussing
the most varied subjects. In this paper, we try to answer the question about
whether, even when nothing is explicitly known about the entity referred to in
the discussion, it is possible to formulate a general and brief idea of its cha-
racteristics when reading comments about it. To study this problem, we analyze
the potential that comments have to describe television series, and perform a
task of comment classification in order to identify which series and episode it is
associated with. This classification task serves as the basis for a method that se-
lects comments with high descriptive value for the episodes and series. Results
reveal that a small set of comments can describe their episodes and, when taken
together, the series as a whole.
1. Introdução
A Internet é composta por milhões de dispositivos em que cada um deles é responsável
pela geração, armazenamento e transmissão de incontáveis dados. Neste contexto, os al-
goritmos de aprendizagem automática têm sido amplamente utilizados para processar e
extrair informações valiosas de todos esses dados. Para fazer isso, os algoritmos precisam
de representações formais das características das entidades que querem aprender sobre,
o que normalmente é uma tarefa desafiadora [Bengio et al. 2013, Ji and Eisenstein 2014].
Esta é uma tarefa ainda mais difícil se essas entidades não têm qualquer informação estru-
turada explicitamente associada a elas. Considere, por exemplo, o problema de descrever
623
XXXVII Congresso da Sociedade Brasileira de Computação
624
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
2. Trabalhos Relacionados
Nos últimos anos, tem havido um grande número de estudos voltados para a aprendi-
zagem de representação de entidades dos mais variados tipos e para as mais variadas
tarefas. Em [Yang et al. 2015, Perozzi et al. 2014], por exemplo, os autores usam infor-
mações diferentes encontradas em grafos para aprender representações de suas redes soci-
ais. Krizhevsky et al. [Krizhevsky et al. 2012] usou algoritmos sofisticados para aprender
representações de imagens em um grande conjunto de dados. Estes estudos, no entanto,
utilizam informações explícitas extraídas da própria entidade para aprender a representá-
la. Em [Bickel and Scheffer 2004], informações encontradas fora da página da web (texto
âncora dos links de entrada), bem como a própria página, são usadas para criar uma re-
presentação para ela. Estas ideias são similares às deste artigo, mas no nosso caso, o
uso de comentários como fonte de dados levanta muitos desafios que, individualmente,
já servem de inspiração para estudo. Em [Siersdorfer et al. 2014], por exemplo, os au-
tores analisaram comentários postados em diferentes sites de mídia social, estudando
principalmente como o seu conteúdo e classificação podem ser relacionados. O traba-
lho de [Kleinberg 2002], por sua vez, desenvolve uma abordagem formal para a modela-
gem de “rajadas de atividade”, que pode ser aplicado a fluxos de comentários. Choi et
al. [Choi et al. 2015] caracterizam conversas coletadas do Reddit em termos de volume,
capacidade de resposta, e viralidade.
Outra área da literatura intimamente relacionada a este artigo é a área de suma-
rização de textos. Para o melhor de nosso conhecimento, a maioria dos trabalhos dessa
área foca na sumarização de textos completos, como livros e notícias [Liu et al. 2015b,
Moratanch and Chitrakala 2016, Gambhir and Gupta 2017], ou sumarização de opiniões
a partir de reviews feitos por usuários [Ganesan et al. 2010, Potthast and Becker 2010,
Ganesan et al. 2012]. Mais recentemente, métodos foram propostos para extrair informa-
ções relevantes a partir de comentários. Khabiri et al. [Khabiri et al. 2011] propuseram
uma abordagem baseada em clusterização para identificar grupos de comentários corre-
lacionados em vídeos do Youtube. Yang et al. [Yang et al. 2011] apresentam um método
para gerar sumários de páginas da Web considerando também os comentários associa-
dos a elas e a rede social entre os usuários que comentaram. Em [Kågebäck et al. 2014],
os autores propõe o uso de representações vetoriais de sentenças como métrica de simi-
laridade no processo de geração de sumários por extração. Liu et al. [Liu et al. 2015a]
modelam o problema de sumarizar comentários como um problema de agrupamento, em
que o número de tópicos coberto pelos comentários deve ser conhecido a priori.
Este artigo se diferencia dos trabalhos citados nesta seção em três principais aspec-
tos. Primeiro, este é um trabalho que foca na caracterização do potencial de comentários
como fonte de dados única para geração de representações formais de entidades a serem
usadas por algoritmos de aprendizagem de máquina. Segundo, através dessa caracteri-
zação, investigamos e quantificamos as diferenças entre a linguagem usada em resumos
formais e manualmente gerados da linguagem usada por usuários em comentários. Por
fim, focamos na descoberta de conhecimento relevante em comentários para representar
episódios e séries de televisão. No melhor do nosso conhecimento, este é o primeiro
artigo que aborda qualquer um desses três aspectos.
625
XXXVII Congresso da Sociedade Brasileira de Computação
3. Definição do Problema
Para o restante deste trabalho, definimos por c um comentário submetido a uma discus-
são online, composto por um conteúdo textual. Uma sequência de comentários C é um
conjunto ordenado de n comentários {c1 , c2 , ..., cn } retirados de um contexto em comum.
Definimos também um episódio e de uma série de televisão como uma tupla
(re , C e ), na qual re é o resumo do episódio e C e = {ce1 , ce2 , ..., cene } a sequência de ne
comentários referente ao tópico de discussão online daquele episódio, daqui em diante
também referida simplesmente por “comentários do episódio” ou “tópico do episódio”.
Uma sequência de episódios E é um conjunto ordenado de m episódios {e1 , e2 , ..., em }
retirados de um contexto em comum.
Finalmente, estabelecemos uma série de televisão s como uma tupla (Rs , E s ),
onde R é o resumo da série como um todo e E s = {es1 , es2 , ..., esms } é o conjunto ordenado
s
dos ms episódios pertencentes àquela série. Partindo disso, podemos definir também C s
a sequência de comentários da série como um todo, equivalente à concatenação de todas
sequências C ei para i ∈ {1, ..., ms }.
Queremos encontrar um conjunto conciso de comentários que seja capaz de des-
crever bem um contexto. Para este artigo, estaremos focando no caso de sequências de
comentários referentes a episódios de séries. Tendo sidas estabelecidas as definições dos
conceitos acima, podemos escrever essa tarefa como: encontrar um C x ⊆ C s de poucos
comentários para cada episódio e tal que Rs seja bem explicado por C x .
4. Base de Dados
Para este trabalho, foram coletados todos os comentários diretamente associados a episó-
dios de 844 séries de animação do portal MyAnimeList.net1 . Além dos dados de comentá-
rios, foram também coletados, quando disponível, resumos re manualmente criados para
cada episódio e. Esses resumos foram obtidos a partir de páginas da Wikipédia dedicadas
a listar e descrever episódios de cada série2 . O resumo Rs de cada série s é simplesmente
a concatenação dos resumos de todos os episódios da série em questão.
Como o número de comentários e episódios varia significativamente de série para
série, foram utilizados três critérios para selecionar as séries que analisamos neste artigo.
Primeiramente, buscou-se escolher aquelas séries com um número de comentários similar,
de forma que os resultados não sejam enviesados para uma série com um número extremo
de comentários ou que séries com poucos comentários sejam diluídas nos resultados.
O segundo fator determinante para a escolha foi a existência de um resumo facilmente
acessível para cada episódio da série. Por fim, escolhemos um conjunto de séries com
um número de episódios na ordem de dezenas e comentários na ordem de milhares. A
Tabela 1 apresenta as séries que foram escolhidas para análise, juntamente com o número
de episódios e de comentários associados a elas3 .
Uma vez coletados os textos descritos acima, tanto dos comentários quanto dos
resumos, foram realizadas uma sequência de operações sobre eles de forma a transformar
1
https://myanimelist.net/
2
Um exemplo de uma dessas páginas pode ser encontrado em https://en.wikipedia.org/
wiki/List_of_Mushishi_episodes.
3
Cada série pode ser acessada em https://myanimelist.net/anime/<ID>, substituindo
<ID> pelos valores dados na tabela.
626
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
627
XXXVII Congresso da Sociedade Brasileira de Computação
(a) Tamanho (b) Comentários por episódios (c) Cobertura por episódio
tários teriam maior valor descritivo do resumo, primeiro foi feita uma análise de ca-
racterísticas que pudessem ser usadas para definir e representar os diferentes termos
presentes na base de dados. Após testar algumas diferentes opções, observando as re-
presentações resultantes por meio do método de redução de dimensionalidade t-SNE4
[van der Maaten and Hinton 2008], determinamos que o seguinte conjunto de caracterís-
ticas apresenta informações suficientes e relevantes para a tarefa de determinar a utilidade
de um comentário para uma série:
• Contagem total de ocorrências do termo;
• Entropia de Shannon do termo entre as séries;
• Entropia de Shannon do termo entre todos os episódios da base;
• Entropia de Shannon do termo entre os episódios para cada série;
• TF-IDF do termo para cada série;
• Probabilidade do termo ocorrer em cada série.
A Figura 2 mostra a visualização gerada pelo t-SNE para todas as palavras da
base representadas por esse conjunto de características. Na imagem, a cor de cada termo
representa a série na qual ela apresenta a maior contagem. Observa-se que, apesar da
maioria das palavras se misturar em um grande agrupamento, há alguns agrupamentos
menores que contêm palavras associadas a uma mesma série (pontos da mesma cor). Uma
vez que as características usadas para gerar o T-SNE refletem a presença da palavra nas
séries analisadas, foi verificado que esses agrupamentos contêm aquelas poucas palavras
que ocorrem predominantemente em uma dada série (nomes de personagens, e outros
termos específicos da série). Assim, pode-se concluir que, de fato, o número de palavras
que têm o seu uso altamente concentrado em uma única série é pequeno. Isso significa
dizer que se um comentário contém uma dessas palavras, provavelmente saberemos dizer
a qual série ele está associado. Essa hipótese será explorada nas seções seguintes deste
artigo.
Uma outra análise fundamental para entender o potencial de extrair comentários
relevantes a partir de comentários é investigar a capacidade que cada comentário tem de
explicar o resumo manualmente gerado do episódio no qual ele está associado. Para ava-
liar isso, foi utilizada uma métrica inspirada na ROUGE-N [yew Lin 2004], para N = 1.
4
https://lvdmaaten.github.io/tsne/
628
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Essa métrica informa a proporção de palavras do resumo que também estão presentes nos
comentários considerados. A Figura 1(c) mostra a distribuição da cobertura dos resumos
rem de cada episódio em pelas suas respectivas sequências de comentários C em . Observe
que, na média, apenas 40% das palavras do resumo de um episódio são encontradas nos
comentários associados a ele.
629
XXXVII Congresso da Sociedade Brasileira de Computação
P
ter para que ele seja considerado nas próximas etapas, ou seja, K×N
j wjc > α. Assim, a
partir dos parâmetros K e α, desejamos selecionar um subconjunto relevante e descritivo
de comentários para a série ou episódio em questão. Aqueles comentários que claramente
são associados a sua série ou episódio pela representação proposta são bons candidatos a
comentários bem descritivos dos mesmos.
Com este objetivo, foram definidas duas tarefas de classificação para identificar
os comentários que melhor representam uma dada série e episódio, respectivamente. Na
primeira tarefa, os comentários são agrupados por série e o objetivo é classificar cada
comentário à série a qual ele está associado dentre as Ns séries da nossa base de dados.
Para o cálculo do TF-IDF, um documento é a coleção de comentários C s associados a cada
série s. Na segunda tarefa, os comentários de uma dada série são agrupados por episódio
e o objetivo é classificar cada comentário ao episódio ao qual ele está associado dentre
os Ne episódios dessa série. Para o cálculo do TF-IDF, um documento é a coleção de
comentários C e associados a cada episódio e.
Para realizar tais tarefas, utilizamos o classificador Naive Bayes5
[Friedman et al. 1997] da coleção de ferramentas Weka 6 [Hall et al. 2009]. Foram
utilizados os valores de parâmetros padrões para o Naive Bayes, e foi feita validação
cruzada com 10 subconjuntos. Assim, o nosso objetivo é encontrar valores de K e α
que apresentam um bom compromisso entre a acurácia da classificação e a quantidade
de comentários corretamente classificados em cada uma das tarefas. Note que, se o
valor de K for muito grande, muitas palavras serão usadas na tarefa de classificação e
provavelmente muitas delas serão pouco discriminativas. Ao mesmo tempo, se o valor de
α for muito grande, poucos comentários serão considerados na tarefa de classificação.
Os resultados dessa classificação podem ser observados na Figura 3, que mostra
uma grande facilidade em se identificar a qual série cada comentário se refere. No entanto,
já é possível perceber que considerar os comentários com nenhuma das palavras dentre as
top-K presentes na representação causa uma perda considerável de acurácia. Isso segue o
comportamento esperado, já que comentários desse tipo não tem um mínimo informação
5
Como a classificação de comentários por episódio ou série não é o objetivo deste trabalho, o método
selecionado não é de grande importância, tendo sido escolhido por conveniência.
6
Disponível em http://www.cs.waikato.ac.nz/ml/weka/index.html
630
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
631
XXXVII Congresso da Sociedade Brasileira de Computação
Tabela 2. A tabela mostra para cada série: quantidade média de comentários por
episódio; quantidade média de episódios selecionados para resumo por episó-
dio; porcentagem do resumo da série Rs coberto pelo total de comentários C s ;
porcentagem do resumo Rs coberto pelos comentários selecionados C x .
ID Série Comentários por episódio Comentários selecionados por episódio Rs coberto por C s Rs coberto por C x
1 102,88 8,58 (8,34%) 66,42% 44,33%
19 74,02 10,06 (13,59%) 78,00% 67,14%
30 136,15 11,69 (8,59%) 78,21% 61,31%
205 69,69 6,81 (9,77%) 68,34% 50,66%
226 112,23 13,15 (11,72%) 75,00% 61,75%
356 86,04 7,54 (8,77%) 78,52% 59,74%
457 108,96 8,62 (7,91%) 84,52% 75,00%
777 166,30 9,30 (5,59%) 67,24% 51,19%
790 88,57 6,52 (7,36%) 75,66% 59,04%
820 72,60 7,92 (10,91%) 80,73% 64,25%
877 61,83 10,23 (16,55%) 79,62% 69,62%
934 135,73 8,73 (6,43%) 74,58% 54,09%
13599 165,59 9,00 (5,44%) 78,56% 59,77%
Todo esse processo é repetido para cada episódio da série a fim de escolher o menor con-
junto de comentários que cobrem todas as palavras das top-K do episódio em questão.
Por fim, tomamos a união desses conjuntos de comentários selecionados pelo Minimum
Set Cover como os comentários selecionados como descritivos para a série.
A Figura 5 mostra o resumo retirado da Wikipédia para um dos episódios da série
s457, tomada como exemplo ilustrativo, com as palavras marcadas de acordo com sua
cobertura pelos termos encontrados nos comentários corretamente classificados ou não
(parâmetros K = 10 e α = 3), em verde (negrito) e vermelho (itálico), respectivamente.
Tomando os resumos de todos os episódios da série em conjunto como o resumo da série
em si, temos que 75% das palavras desse resumo estão presentes nos 234 comentários
selecionados. Comparando-se esse resultado com a cobertura de 84% do resumo ao se
considerar todos os 2833 comentários da série, podemos concluir que o método conse-
gue, de fato, selecionar um pequeno conjunto de comentários que descrevam bem a série
(0, 89 da cobertura máxima possível pelos comentários). A Tabela 2 mostra esses mesmos
resultados para as demais séries consideradas no trabalho.
632
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Referências
Bengio, Y., Courville, A., and Vincent, P. (2013). Representation Learning: A Review and New
Perspectives. IEEE Trans. Pattern Anal. Mach. Intell.
Bickel, S. and Scheffer, T. (2004). Multi-View Clustering. In Proceedings of the Fourth IEEE
International Conference on Data Mining, ICDM ’04.
Cheng, J., Danescu-Niculescu-Mizil, C., and Leskovec, J. (2015). Antisocial Behavior in Online
Discussion Communities.
Choi, D., Han, J., Chung, T., Ahn, Y.-Y., Chun, B.-G., and Kwon, T. T. (2015). Characterizing
Conversation Patterns in Reddit. In Proceedings of the 2015 ACM on Conference on Online
Social Networks - COSN ’15, New York, New York, USA.
Chvatal, V. (1979). A greedy heuristic for the set-covering problem. Math. Oper. Res., 4(3):233–
235.
Friedman, N., Geiger, D., and Goldszmidt, M. (1997). Bayesian network classifiers. Mach. Learn.,
29(2-3):131–163.
Gambhir, M. and Gupta, V. (2017). Recent automatic text summarization techniques: a survey.
Artificial Intelligence Review, 47(1):1–66.
Ganesan, K., Zhai, C., and Han, J. (2010). Opinosis : A Graph-Based Approach to Abstrac-
tive Summarization of Highly Redundant Opinions. In Proceedings of the 23rd International
Conference on Computational Linguistics, number August in COLING ’10, pages 340–348,
Stroudsburg, PA, USA. Association for Computational Linguistics.
Ganesan, K., Zhai, C., and Viegas, E. (2012). Micropinion generation. In Proceedings of the 21st
international conference on World Wide Web - WWW ’12, page 869, New York, New York,
USA. ACM Press.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009). The
weka data mining software: An update. SIGKDD Explor. Newsl., 11(1):10–18.
Hsu, C.-F., Khabiri, E., and Caverlee, J. (2009). Ranking comments on the social web. In Com-
putational Science and Engineering, 2009. CSE’09. International Conference on, volume 4,
pages 90–97. IEEE.
Ji, Y. and Eisenstein, J. (2014). Representation learning for text-level discourse parsing. In Pro-
ceedings of the Association for Computational Linguistics (ACL), Baltimore, MD.
633
XXXVII Congresso da Sociedade Brasileira de Computação
Khabiri, E., Caverlee, J., and Hsu, C.-F. (2011). Summarizing User-Contributed Comments. In
ICWSM.
Kleinberg, J. (2002). Bursty and hierarchical structure in streams. In Proceedings of the 8th ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’02, New
York, NY, USA.
Kågebäck, M., Mogren, O., Tahmasebi, N., and Dubhashi, D. (2014). Extractive Summarization
using Continuous Vector Space Models. In Proceedings of the 2nd Workshop on Continuous
Vector Space Models and their Compositionality (CVSC), pages 31–39, Gothenburg, Sweden.
Association for Computational Linguistics.
Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012). ImageNet Classification with Deep Con-
volutional Neural Networks. In Advances in Neural Information Processing Systems 25. Curran
Associates, Inc.
Liu, C.-Y., Chen, M.-S., and Tseng, C.-Y. (2015a). IncreSTS: Towards Real-Time Incremental
Short Text Summarization on Comment Streams from Social Network Services. IEEE Tran-
sactions on Knowledge and Data Engineering, 27(11):2986–3000.
Liu, F., Flanigan, J., Thomson, S., Sadeh, N. M., and Smith, N. A. (2015b). Toward Abstractive
Summarization Using Semantic Representations. In Mihalcea, R., Chai, J. Y., and Sarkar, A.,
editors, HLT-NAACL, pages 1077–1086. The Association for Computational Linguistics.
Perozzi, B., Al-Rfou, R., and Skiena, S. (2014). DeepWalk: Online Learning of Social Repre-
sentations. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD ’14.
Potthast, M. and Becker, S. (2010). Opinion Summarization of Web Comments. pages 668–669.
Siersdorfer, S., Chelaru, S., Pedro, J. S., Altingovde, I. S., and Nejdl, W. (2014). Analyzing and
Mining Comments and Comment Ratings on the Social Web. ACM Trans. Web.
van der Maaten, L. and Hinton, G. (2008). Visualizing high-dimensional data using t-sne. Journal
of Machine Learning Research, 9:2579–2605.
von Ahn, L. and Dabbish, L. (2004). Labeling Images with a Computer Game. In Proceedings of
the SIGCHI Conference on Human Factors in Computing Systems, CHI ’04.
Yang, C., Liu, Z., Zhao, D., Sun, M., and Chang, E. Y. (2015). Network Representation Learning
with Rich Text Information. In Proceedings of the 24th International Conference on Artificial
Intelligence, IJCAI’15.
Yang, Z., Cai, K., Tang, J., Zhang, L., Su, Z., and Li, J. (2011). Social context summarization. In
Proceedings of the 34th international ACM SIGIR conference on Research and development in
Information - SIGIR ’11, page 255, New York, New York, USA. ACM Press.
yew Lin, C. (2004). Rouge: a package for automatic evaluation of summaries. pages 25–26.
634
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Abstract. The uncertainty about the results of sporting events has been the mo-
tivation for many works in several areas of research. In particular, several fo-
otball championships have been studied analyzing their economic performance,
efficiency and competitiveness. In this work, different measures of competitivity
of rankings are used to compare the classifications of the teams in the Brazilian
Soccer Championship between the years 2007 and 2015. It is known that the
measures of competitiveness often do not present the same result. In the ana-
lised case, all measures agreed to appoint the 2007 championship as the most
competitive, but showed small differences in relation to the least competitive.
1. INTRODUÇÃO
A análise de eventos esportivos têm chamado a atenção de pesquisadores e pode ser feita
desde diferentes perspectivas. Por exemplo, desde a perspectiva biológica com o objetivo
de melhorar o rendimento dos atletas e fazê-los mais competitivos, aumentando assim
as chances de vitórias. Do ponto de vista econômico para, por exemplo, organizar uma
instituição esportiva, um evento, ou mesmo, avaliar os custos e as possibilidades de lucro.
Desde o ponto de vista matemático para criar estratégias e táticas de conjuntos.
O futebol é uma das práticas esportivas mais conhecidas no mundo e é ampla-
mente difundida em quase todas as cidades ao redor do globo. A organização internacio-
nal que rege quase todas as atividades profissionais ligadas a esse esporte é a FIFA (The
Fédération Internationale de Football Association). 1 Essa entidade organiza, através das
1
https://www.fifa.com/
635
XXXVII Congresso da Sociedade Brasileira de Computação
2. Fundamentos
2.1. Definição de ranking e famı́lia de rankings
Dado um conjunto de elementos (também chamados de competidores ou nós) N =
{1, · · · n}, um ranking c é uma permutação desses elementos. Usaremos i ≺c j para
denotar que o elemento i aparece antes do elemento j no ranking c. Dada uma famı́lia
636
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
w(Ae )
N S(R) = n
. (2)
2
(r − 1)
637
XXXVII Congresso da Sociedade Brasileira de Computação
em que K(c e 1 , c2 ) denota o número de pares (i,j) que não competem em relação a R =
{c1 , c2 }; K(c1 , c2 ) o número de pares (i, j) que competem; n2 é o número de todos os
possı́veis pares de nós (i, j); e AR é o número de arestas do grafo de competitividade com
relação a R = {c1 , c2 }. O coeficiente de correlação generalizado τ (R) de Kendall de uma
familia R de rankings, generalizando a definição anterior, é:
e
K(R) − K(R) 2|AR | 4|AR |
τ (R) = n
= 1 − n = 1 − . (6)
2 2
n(n − 1)
638
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Desde o ano 2003 este campeonato passou a ser jogado sobre o sistema de pontos
corridos, que é um modelo em que não há uma etapa classificatória final, senão que o
ranking é estabelecido por todos os pontos conquistados ao longo do campeonato. Os
primeiros times na ordenação final (de maior a menor pontuação), se classificam automa-
ticamente para disputar a Copa Libertadores e o seguinte grupo, classifica para disputar
a copa Sul-Americana. Os quatro últimos colocados são desclassificados e passarão a
disputar a segunda divisão, não podendo disputar a competição no ano seguinte. Os 4
primeiros classificados na disputa da segunda divisão do ano anterior terão de disputar a
primeira divisão no ano corrente.
3. Método
Neste trabalho é analisada a competitividade do Campeonato Brasileiro de Futebol se-
gundo as medidas descritas na Seção 2.4. Uma vez que a estrutura topológica dos grafos
de competitividade é formada por nós (times), e arestas (troca de posições entre dois ti-
mes), que apresentam caracterı́sticas dinâmicas ao longo do perı́odo estudado, considera-
se essa rede como sendo complexa.
Os dados das rodadas do Campeonato Brasileiro 2 foram extraı́dos para o perı́odo
2007 até 2015 e colocados em uma tabela em que as colunas indicam as rodadas, e as
linhas as classificações dos times na rodada. As comparações entre rankings começaram
a partir de quarta rodada, pois nas primeiras, há sempre um grupo de times que apresentam
a mesma pontuação e posição mesmo depois de estabelecidos os critérios de desempate.
Para processamento e apresentação dos resultados foram usados o pacote R 3 e o Gephi4 .
4. Resultados
Para cada ano analisado, os dados são dispostos de modo a observar as mudanças dos
times nas posições do campeonato rodada após rodada. Na Tabela 1 é apresentada parte da
série para o ano 2010 a partir da quarta rodada. Os resultados obtidos para cada uma das
medidas de competitividade: grau médio normalizado (ND), Média normalizada da força
(NS), Coeficiente de clusterização (C), Coeficiente de correlação de Kendall generalizado
(τ ) e o Coeficiente de correlação de Kendall evolutivo (τe ) são mostrados na Tabela 2.
De acordo com as definições de competitividade, nem todas as medidas apresen-
tam os mesmos resultados, no sentido delas indicarem o mesmo objeto como sendo ou o
mais ou o menos competitivo. Pode ser observado na Tabela 2 que para todas as medidas
o ano que o campeonato brasileiro foi mais competitivo foi o ano 2007, no entanto, para
o ano menos competitivo houveram discordâncias entre as medidas, por exemplo ND e τ
mostraram 2011 como o ano menos competitivo, NS e τe mostraram 2012 e C mostrou o
ano 2015. Entretanto, os valores de NS para 2012 e 2011 são bem próximos, assim como
os valores de C para 2015 e 2011. É importante ressaltar que em geral, as medidas que
são geradas a partir do grafo de competitividade evolutivo (que é ponderado por pesos),
tais como NS e τe são mais acuradas que as medidas geradas a partir do grafo de compe-
titividade (que não é ponderado). No caso do ano menos competitivo, as duas medidas
dependentes de ponderação (NS e τe ) apresentaram o mesmo resultado.
2
http://futpedia.globo.com/campeonato/campeonato-brasileiro/
3
https://www.r-project.org/
4
https://gephi.org/
639
XXXVII Congresso da Sociedade Brasileira de Computação
640
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
o torneio de 2007 foi o mais competitivo até o fim. Desde a rodada 20 os campeonatos
2011 e 2012 são similares e são os menos competitivos.
Figura 1. N D(R) e N S(R) para os Campeonatos Brasileiros desde 2007 até 2015
Figura 2. τ (R) e τe (R) para os Campeonatos Brasileiros desde 2007 até 2015
641
XXXVII Congresso da Sociedade Brasileira de Computação
5. Trabalhos Correlatos
O desempenho econômico e esportivo da Liga Premier Inglesa, a liga com maior po-
der econômico do planeta, é analisado em [Barros and Leach 2006] e [Haas 2003]. A
análise por envoltória de dados (em inglês Envelopment Analysis –DEA) é usada por
[Barros and Leach 2006]. Essa análise é um procedimento não-paramétrico que com-
para uma unidade com uma fronteira eficiente usando indicadores de desempenho, sendo
muito utilizada quando se investiga a eficiência de múltiplas entradas em múltiplas saı́das.
O enfoque econométrico de custos estocásticos é usado por [Dawson et al. 2000] e por
[Barros and Leach 2007], em que supõe-se que uma estratégia adequada para alcançar
uma fronteira de eficiência é enfrentar os custos dos insumos de entradas com as saı́das
de modo a maximizar os lucros.
De maneira similar, a eficiência e a competitividade das diferentes ligas euro-
peias tem sido analisada. A Liga Espanhola de Futebol –que conta com os dois times
mais populares no mundo– tem sido estudada utilizando DEA e modelos de fronteira
estocástica em [Barros et al. 2009, Buraimoa and Simmons 2009, Boscá et al. 2009]. A
Liga Italiana tem sido analisada por [Boscá et al. 2009]. Estes trabalhos visam analisar
sob a perspectiva econômica, os diversos aspectos da competitividade dos times. Por ou-
tro lado, [Buraimoa and Simmons 2009] estuda o impacto da incerteza no resultado de
um determinado jogo na Liga Espanhola em dois tipos de audiências, os que assistem ao
jogo no estádio e os que assistem pela TV.
Em [Bowman et al. 2012] são descritas várias medidas de competitividade em
rankings, baseadas na ideia de balanço competitivo e spread de pontos [Zimbalist 2002,
Fort and Maxcy 2003, Lee 2010]. Na análise de balanço competitivo são abordadas as
mudanças a longo prazo no equilı́brio competitivo, procurando examinar o impacto das
mudanças na polı́tica das ligas e fatores econômicos externos no balanço competitivo.
Uma das medidas é a razão entre o desvio padrão da porcentagem de vitórias e o desvio
padrão idealizado de porcentagens de vitórias se todas as equipes tivessem igual capaci-
dade competitiva.
O Campeonato Brasileiro de Futebol foi também estudado considerando diferen-
tes aspectos. Em [Madalozzo and Villar 2009] são analisados os fatores que afetam a
presença do público no estádio como o tipo de venda das entradas, a qualidade dos jogos,
o desempenho dos times e a incerteza sobre o resultado do jogo quando isola uma deter-
minada partida entre dois times, em jogos de ida ou de volta. Em [Barros et al. 2010], a
642
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
643
XXXVII Congresso da Sociedade Brasileira de Computação
eficiência técnica desde o ponto de vista da gestão econômica é observada e os autores uti-
lizam o DEA para extrair as conclusões. Em [Gasparetto 2012] é observada a correlação
positiva entre o investimento dos times na transferência de jogadores e o desempenho no
torneio.
644
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Referências
Barros, C. P., Assaf, A., and Sa-Earp, F. (2010). Brazilian football league technical effi-
ciency: A simar and wilson approach. Journal of Sports Economics, 11(6):641–651.
Barros, C. P., del Barrio, P. G., and Leach, S. (2009). Analysing the technical efficiency
of the spanish football league first division with a random frontier model. Journal of
Sports Economics, 41(25):3239–3247.
Barros, C. P. and Leach, S. (2006). Performance evaluation of the english premier football
league with data envelopment analysis. Applied Economics, 38(12):1449–1458.
Barros, C. P. and Leach, S. (2007). Technical efficiency in the english football association
premier league with a stochastic cost frontier. Applied Economics Letters, 14(10):731–
741.
Boscá, J. E., Liern, V., Martı́nez, A., and Sala, R. (2009). Increasing offensive or defensive
efficiency? an analysis of italian and spanish football. The International Journal of
Management Science, 37:63–78.
Bowman, R. A., Lambrinos, J., and Ashman, T. (2012). Competitive balance in the eyes
of the sports fan: Prospective measures using point spreads in the nfl and nba. Journal
of Sports Economics, 14(5):498–520.
Buraimoa, B. and Simmons, R. (2009). A tale of two audiences: Spectators, television
viewers- and outcome uncertainty in spanish football. Journal of Economics and Bu-
siness (2009), 61:326–338.
Criado, R., Garcı́a, E., Pedroche, F., and Romance, M. (2013). A new method for com-
paring rankings through complex networks: Model and analysis of competitiveness
of major european soccer leagues. Chaos: An Interdisciplinary Journal of Nonlinear
Science, 23(043114).
Dawson, P., Dobson, S., and Gerrard, B. (2000). Stochastic frontiers and the temporal
structure of managerial efficiency in english soccer. Journal of Sports Economics,
1(4):341–362.
Fort, R. and Maxcy, J. (2003). Competitive balance in sports leagues: An introduction.
Journal of Sports Economics, 4(3):154–160.
645
XXXVII Congresso da Sociedade Brasileira de Computação
646
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Abstract. Social relationships can be divided into different classes based on the
regularity with which they occur and the similarity among them. In this con-
text, we propose a process to handle social network data that exploits temporal
features to improve the detection of communities by existing algorithms. By
removing random interactions, we observe that social networks converge to a
topology with more purely social relationships and more modular communities.
1. Introdução
Redes sociais dinâmicas geralmente passam por alterações em sua estrutura decorrente
das interações entre seus membros ao longo do tempo. Tais redes sociais podem ser
representadas por um grafo temporal, no qual os vértices representam suas entidades e
as arestas, as interações, associadas ao tempo em que ocorreram. Nesse tipo de rede,
a detecção de comunidades tem sido pouco estudada. Em geral, a própria rede tempo-
ral é utilizada como entrada para algoritmos que encontram as comunidades explorando
diretamente a sua dimensão temporal. A detecção de comunidades em tais redes difere
de como é feito em uma rede social estática, onde a dimensão temporal é adequada ou
simplesmente ignorada.
Muitos estudos sobre detecção de comunidades utilizam grafos estáticos em razão
da maior dificuldade em considerar o aspecto temporal. Entretanto, não considerar
o aspecto temporal gera perda de informação em relação à ordem e proximidade das
interações [Holme & Saramäki 2012]. Essa simplificação causa ruı́do informacional nas
relações sociais, o que pode gerar erros na associação de membros às suas respectivas co-
munidades. Por exemplo, considere um grupo de pessoas que não se conheciam e trocam
muitas mensagens eletrônicas em um único dia, mas depois não voltam a se comunicar
novamente. Agora considere um outro grupo de pessoas que trocam muitas mensagens
regularmente ao longo de anos. Apesar dos relacionamentos entre os membros de am-
bos os grupos possuı́rem uma mesma topologia quando se considera uma rede estática, a
dimensão temporal permite diferenciar a existência ou não de uma comunidade.
647
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
Em redes complexas, uma comunidade pode ser vista como grupos de nós den-
samente interconectados, mas são esparsamente conectados com o restante da rede
[Abrahao et al. 2012, Brandão & Moro 2017a, Newman 2004]. Existem diferentes algo-
ritmos de detecção de comunidades em grafos [Abrahao et al. 2012, Blondel et al. 2008,
Clauset et al. 2004, Newman 2004, Newman & Girvan 2004, Raghavan et al. 2007]. En-
tretanto, tais algoritmos não consideram o aspecto temporal das interações.
Considerar o aspecto temporal no estudo de interações sociais é importante, pois
revela propriedades e padrões que não podem ser percebidos sem considerar tal ca-
racterı́stica. De fato, Holme e Saramäki [2012] mostram como o aspecto temporal
pode ser representado em grafos estáticos e demonstram as implicações desse mapea-
1
Não há uma definição universalmente aceita para a estrutura de comunidade [Fortunato 2010,
Palla et al. 2005] que provou ser difı́cil de se definir, quantificar e extrair [Abrahao et al. 2012].
2
A modularidade caracteriza a existência de uma estrutura de comunidade em uma rede. Tal métrica
leva em consideração a proporção de arestas entre os nós em uma mesma comunidade e em comunidades
diferentes [Newman 2006, Newman & Girvan 2004].
648
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
mento, enquanto Vaz de Melo et al. [2015] abordam a classificação de relações base-
ada em propriedades temporais em redes de mobilidade. Outros estudos consideram a
agregação temporal para analisar a evolução das redes de colaboração [Alves et al. 2013,
Barabâsi et al. 2002]. Abrahao et al. [2012] e Xie et al. [2013] apresentam uma análise
abrangente das propriedades das comunidades obtidas por diversos algoritmos e mencio-
nam a necessidade de melhorias na tarefa de detecção.
Especificamente, este trabalho baseia-se na técnica proposta por Vaz de Melo et
al. [2015] que obtém classes de relações sociais em grafos temporais. Com o uso dessa
técnica, investigamos os efeitos da presença de interações aleatórias em redes sociais reais
de domı́nios distintos. Para isso, removemos o ruı́do causado nas redes pela presença
de tais relações aleatórias. Esse processo tornou as relações sociais reais disponı́veis
para aplicação de técnicas existentes de detecção de comunidades3 . Após essa etapa de
mineração das relações, avaliamos os resultados de diferentes algoritmos de detecção
de comunidades. Tal avaliação vai além da simples comparação dos resultados obtidos
na detecção de comunidades por algoritmos distintos, mas também mede as melhorias
obtidas por cada um deles.
Neste artigo, tal melhoria é medida com a métrica modularidade, que é co-
mumente usada no processo de validação de métodos de detecção de comunidades
[Fortunato 2010, Newman 2006, Orke et al. 2013, Yang et al. 2016]. A modularidade
tem sido utilizada para comparar a qualidade de algoritmos de detecção de comu-
nidades em diferentes redes e em diversas áreas de aplicação [Lambiotte et al. 2008,
Newman & Girvan 2004, Radicchi et al. 2004, Raghavan et al. 2007, Sah et al. 2014,
Šubelj & Bajec 2011, Wang et al. 2015]. Além disso, muitos algoritmos de detecção
de comunidades usam a modularidade em sua lógica como métrica a ser maximizada
no processo de detecção [Clauset et al. 2004, Barber & Clark 2009, Liu & Murata 2010,
Schuetz & Caflisch 2008].
Dessa forma, nosso trabalho difere dos existentes por não apenas detectar co-
munidades [Abrahao et al. 2012, Blondel et al. 2008, Clauset et al. 2004, Newman 2006,
Yang et al. 2016], mas também por investigar como a mineração das relações influencia
na qualidade (medida com a modularidade) do resultado de tais algoritmos. Ademais,
apresentamos análises para diferentes tipos de redes sociais.
3. Materiais e Métodos
As redes complexas temporais utilizadas para detecção de comunidades podem ser
modeladas por grafos de agregação temporal [Vaz de Melo et al. 2015]. Dado um
grafo não direcionado G = (V, E), em que V = {v1 , ..., vn } é o conjunto de vertices e
E = {e1 , ..., em } o conjunto de arestas que representam uma interação entre dois vértices,
o problema de detecção de comunidades consiste em encontrar o conjunto de comunida-
des C = {c1 , c2 , ..., ck } em que cada vértice vi associa-se a uma comunidade ci ∈ C. Cada
grafo temporal Gt (Vt , Et ) em G representa a agregação das interações em perı́odos discre-
tos de tempo t. Assim, para um dado valor de t, Vt são todos os vértices que interagiram
no t-ésimo perı́odo de tempo. As arestas no conjunto Et representam o emparelhamento
das interações entre os pares de vértices (vi , vj ) durante o perı́odo de tempo t.
3
São muitas as abordagens utilizadas por diversos algoritmos de detecção de comunidades
[Brandes et al. 2008, Sah et al. 2014, Wang & Hopcroft 2010]
649
XXXVII Congresso da Sociedade Brasileira de Computação
4
PubMed (https://www.ncbi.nlm.nih.gov/pubmed): constitui de colaborações cientı́ficas
da MEDLINE; Conferências da DBLP (http://dblp.org/): rede de coautoria cientı́fica em ciência
da computação, descrita por [Brandão & Moro 2017b]. Compõe-se de colaborações ocorridas no perı́odo
de 2000 a 2016.
650
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
4. Mineração de Relações
Nesta seção, detalhamos o processo de mineração de relações sociais que permite remover
o ruı́do das redes, causado pela presença de interações aleatórias e, consequentemente,
diminuir o erro na associação dos nós às comunidades. A Figura 1 detalha as etapas
para realização desse processo de mineração que são: (i) classificação das relações; (ii)
remoção de arestas aleatórias; e (iii) reconstrução do grafo temporal que é a entrada para
a iteração seguinte. Ao final das iterações, quando não existem mais arestas aleatórias,
5
Dado um grafo A e um grafo B obtido da filtragem de A pelo processo de mineração de relações sociais.
A medida de semelhança utilizada entre duas comunidades CA e CB baseia-se no número de nós de CB
que estão em CA .
651
XXXVII Congresso da Sociedade Brasileira de Computação
Rede I V E C1 C2 C3 C4 D CC ∆ α
PubMed 6a 91 68 96 111 91 0 82 173 35 75
DBLP 3a 60 38 215 20 80 0 104 98 14 63
Dartmouth 6a 76 13 21 72 1 0 22 102 15 17
USC 4a 12 1 5 68 1 0 55 92 7 6
I: iteração em que obteve o percentual em relação à rede original.
V : vértices, E: arestas.
C1 − C4: classes de relações (amizade, ponte, conhecido e aleatório)
D: densidade, CC: coeficiente de clusterização.
∆(G): grau máximo, α(G): grau médio.
obtém-se o grafo estático constituı́do apenas por relações sociais. Tal grafo estático per-
mite que comunidades mais modulares sejam detectadas por algoritmos desenvolvidos
para essa finalidade.
A visão geral do processo de mineração de relações sociais é apresentada no Al-
goritmo 1, onde os dados de entrada são as interações do grafo temporal original Got .
Em cada iteração do algoritmo, primeiro são classificadas as arestas (linha 3), resultando
em um grafo estático de relações rotuladas Ge . Em seguida, é feita a verificação de con-
vergência e se ainda existirem arestas aleatórias para serem removidas, o procedimento
que faz a separação e reconstrução do grafo temporal Gtt é chamado (linha 7).
Para classificar as arestas a partir de interações temporais, foi utilizado o algoritmo
RECAST (Random Relationship Classifier Strategy) que é uma técnica de classificação de
arestas a partir de interações temporais. Esse classificador foi proposto por Vaz de Melo
et al. [2015] e é capaz de caracterizar claramente interações aleatórias além de identificar
diferentes tipos de interação social (amizade, ponte e conhecido). O RECAST baseia-se
em duas caracterı́sticas que estão sempre presentes nas relações sociais: a regularidade das
interações e a similaridade entre os pares, isto é, o número de indivı́duos conhecidos em
comum. A partir dessas caracterı́sticas, o RECAST atribui, para pares únicos de vértices
(u, v) que se interagem, uma das classes de relações.
652
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
150000
3e+06 20000
4e+06 Classe
100000 Friends
2e+06 Bridges
0e+00 0e+00 0 0
1ª 2ª 3ª 4ª 5ª 6ª 1ª 2ª 3ª 1ª 2ª 3ª 4ª 5ª 6ª 1ª 2ª 3ª 4ª
Iterações de remoção de ruído (até convergir em 0 relacionamentos aleatórios)
5. Resultados Experimentais
As comunidades obtidas por cada combinação de algoritmo e rede selecionados foram
caracterizadas pela sua modularidade dentre outras métricas de análise de redes sociais.
Essa análise também foi feita sobre a versão filtrada da rede, isto é, após a remoção com-
pleta das arestas aleatórias. Conforme mostra a Tabela 2, ocorreram diferentes percentuais
de alteração entre as redes selecionadas. Analisando separadamente cada rede, é possı́vel
distingui-las pela aleatoriedade total das relações.
As redes de mobilidade são as que possuem maior proporção de relações
aleatórias. Além disso, são da classe aleatória a maioria das suas relações (coluna E
da Tabela 3). Nessas redes, prevalece também o número de nós em que todas as suas
relações são aleatórias. Como consequência disso, esses nós são desconectados da rede
por não participarem socialmente de uma comunidade. Assim, ao comparar as comuni-
dades obtidas das redes filtradas com as obtidas das redes originais, o erro está presente
em pequena quantidade, conforme mostra Tabela 3.
Também na Tabela 3, verifica-se que a relevância das comunidades filtradas é
maior para as redes de colaboração cientı́fica. A métrica proposta para cálculo de erro
parte do pressuposto que cada comunidades da rede filtrada é um subconjunto de uma
comunidade nas redes originais e que estas podem ser subdivididas. Em geral, as redes de
mobilidade e de colaboração cientı́fica são distintas em quantidade de ruı́do e no impacto
que este ruı́do provoca na formação das comunidades. Assim, as redes de colaboração
cientı́fica possuem menor proporção de ruı́do contudo, este ruı́do provoca uma proporção
maior de associações incorretas dos membros (coautores) às suas respectivas comunida-
des . De forma oposta, as redes de mobilidade possuem maior aleatoriedade nas relações
e menor erro nas comunidades detectadas.
653
XXXVII Congresso da Sociedade Brasileira de Computação
0.80 0.80
0.7 0.5
●
● 0.75 0.4
0.75
3ª Iteração Amostral Original 3ª Iteração Amostral Original 3ª Iteração Amostral Original 3ª Iteração Amostral Original
Dartmouth Dartmouth Dartmouth Dartmouth
Edge Betweenness Greedy Optimization of Modularity Louvain Modularity Propagating Labels
0.90
0.90 0.90
0.85
0.85 0.85
0.8
0.80
0.80 0.80 Rede
0.75 DBLP_3
0.75 0.75 0.7 DBLP_a
0.70
Modularidade da rede
DBLP_o
0.70 0.70
0.65 ●
● DM_5
5ª Iteração Amostral Original 5ª Iteração Amostral Original 5ª Iteração Amostral Original 5ª Iteração Amostral Original DM_a
PubMed PubMed PubMed PubMed DM_o
Edge Betweenness Greedy Optimization of Modularity Louvain Modularity Propagating Labels PM_5
0.90 0.90 PM_a
0.80 PM_o
0.7 USC_3
0.85 0.85 USC_a
0.75
0.6 USC_o
0.65
0.4
0.75
5ª Iteração Amostral Original 5ª Iteração Amostral Original 5ª Iteração Amostral Original 5ª Iteração Amostral Original
USC USC USC USC
Edge Betweenness Greedy Optimization of Modularity Louvain Modularity Propagating Labels
0.6
0.65 0.65
0.65
0.60 0.4
0.60
0.55 0.60
0.55
0.2
0.50
●
0.55
3ª Iteração Amostral Original 3ª Iteração Amostral Original 3ª Iteração Amostral Original 3ª Iteração Amostral Original
Algoritmo de Detecção de Comunidades
Com base nas redes sociais estudadas, foi possı́vel verificar o comportamento do
algoritmo RECAST em redes reais. Conforme mostra a Figura 2, a maioria das relações
aleatórias foram removidas na primeira iteração do processo de mineração de relações
sociais. Ademais, houve um ganho em modularidade nas comunidades detectadas a cada
iteração. O grau máximo das redes sociais também foi afetado na proporção inversa à
quantidade de ruı́dos removidos. Além disso, o grau dos hubs foi reduzido em proporção
maior do que a dos demais nós da rede.
Após a remoção das arestas aleatórias, houve um aumento significativo na modu-
laridade das comunidades obtidas pelos algoritmos selecionados em cada uma das quatro
redes estudadas, conforme mostra a Figura 3. O ganho médio em modularidade das co-
munidades detectadas pelo algoritmo GOM - Greedy Optimization of Modularity6 é apre-
sentado na Tabela 3. Apesar de tal algoritmo obter um dos menores ganhos em modulari-
dade, há uma correlação positiva desse ganho com a proporção de ruı́do removido. Essa
correlação também ocorre nas demais redes, conforme médias de modularidade apresen-
tadas na Figura 3 e da proporção de arestas removidas apresentada na Figura 2.
6
GOM foi exemplificado por ser determinı́stico, simplificar a apresentação e por obter menor ganho.
654
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
6. Conclusões
A principal contribuição deste trabalho é representada por um processo de mineração
de relações sociais que remove ruı́do em grafos temporais. Esse processo baseia-se na
classificação de arestas aleatórias e na construção de um grafo estático composto apenas
por interações sociais. Especificamente, desenvolvemos um arcabouço que utiliza o al-
goritmo RECAST para classificação das relações. Esse processo foi aplicado e avaliado
sobre redes temporais reais de colaboração cientı́fica e de mobilidade. Analisamos di-
ferentes métricas de redes sociais sobre cada rede social e para as redes resultantes do
processo de mineração.
A aplicação do processo convergiu na remoção total do ruı́do das redes e foi com-
provada melhoria na detecção de comunidades por algoritmos do estado da arte. Além
disso, demonstramos que a quantidade de ruı́do presente nas redes sociais afeta nega-
tivamente a tarefa de detecção de comunidades, pois conclui em erros na estrutura das
comunidades detectadas.
Como trabalhos futuros, pretendemos detalhar a interpretação das alterações
topológicas nas redes sociais com base no respectivo domı́nio de aplicação. Por exemplo,
nós que tiveram suas relações classificadas como aleatórias poderão ser analisados
qualitativamente a fim de explicar as propriedades que estão associadas à aleatoriedade e
às demais classes de relações.
Referências
[Abrahao et al. 2012] Abrahao, B., Soundarajan, S., Hopcroft, J., and Kleinberg, R.
(2012). On the separability of structural classes of communities. In Proceedings of
the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining, KDD12, pages 624–632, New York, NY, USA. ACM.
[Alves et al. 2013] Alves, B. L., Benevenuto, F., and Laender, A. H. (2013). The role
of research leaders on the evolution of scientific communities. In Proceedings of the
22Nd International Conference on World Wide Web, WWW ’13 Companion, pages
649–656, New York, NY, USA. ACM.
[Baeza-Yates et al. 1999] Baeza-Yates, R., Ribeiro-Neto, B., et al. (1999). Modern infor-
mation retrieval, volume 463.
[Barabâsi et al. 2002] Barabâsi, A.-L., Jeong, H., Néda, Z., Ravasz, E., Schubert, A., and
Vicsek, T. (2002). Evolution of the social network of scientific collaborations. Physica
A: Statistical mechanics and its applications, 311(3):590–614.
[Barber & Clark 2009] Barber, M. J. and Clark, J. W. (2009). Detecting network com-
munities by propagating labels under constraints. Phys. Rev. E, 80:026129.
[Blondel et al. 2008] Blondel, V. D., Guillaume, J.-L., Lambiotte, R., and Lefebvre, E.
655
XXXVII Congresso da Sociedade Brasileira de Computação
656
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
[Šubelj & Bajec 2011] Šubelj, L. and Bajec, M. (2011). Unfolding communities in large
complex networks: Combining defensive and offensive label propagation for core ex-
traction. Physical Review E, 83(3):036103.
[Vaz de Melo et al. 2015] Vaz de Melo, P. O. S., Viana, A. C., Fiore, M., Jaffrès-Runser,
K., Mouël, F. L., Loureiro, A. A. F., Addepalli, L., and Guangshuo, C. (2015). RE-
CAST: Telling Apart Social and Random Relationships in Dynamic Networks. Per-
formance Evaluation, 87:19–36. ”Special Issue: Recent Advances in Modeling and
Performance Evaluation in Wireless and Mobile Systems ”.
[Wang & Hopcroft 2010] Wang, L. and Hopcroft, J. (2010). Community structure in
large complex networks. In International Conference on Theory and Applications of
Models of Computation, pages 455–466. Springer.
[Wang et al. 2015] Wang, M., Wang, C., Yu, J. X., and Zhang, J. (2015). Community de-
tection in social networks: an in-depth benchmarking study with a procedure-oriented
framework. Proceedings of the VLDB Endowment, 8(10):998–1009.
[Xie et al. 2013] Xie, J., Kelley, S., and Szymanski, B. K. (2013). Overlapping Com-
munity Detection in Networks : The State-of-the-Art and Comparative Study. ACM
Computing Surveys (csur), 45(4):43.
[Yang et al. 2016] Yang, Z., Algesheimer, R., and Tessone, C. J. (2016). A Compara-
tive Analysis of Community Detection Algorithms on Artificial Networks. Nature
Publishing Group, (August):1–16.
657
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A Agência Espacial Brasileira (AEB) administra a polı́tica espacial brasileira, como o
desenvolvimento de planos de veı́culos lançadores, aplicações de satélites e centros de
lançamento. De tudo o que é produzido, constata-se que a população brasileira, em ge-
ral, não conhece a atuação ou compreende a relevância para o paı́s do que a AEB pro-
duz. É necessário, então, que a agência busque novas formas de aproximação com a
658
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
2. Referencial Teórico
A seção apresenta as técnicas de segmentação de mercado e mineração de dados a serem
aplicadas no processo de identificação do perfil da população que o Programa Espacial
Brasileiro tenta atingir.
659
XXXVII Congresso da Sociedade Brasileira de Computação
660
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
separem os clientes. Vale lembrar que cada modelo utilizado produzirá segmen-
tos distintos, o que não significa que estejam errados. Os resultados não serão
idênticos, mas similares, convergindo para alguns segmentos. A análise envolve
então a avaliação do nı́vel de concordância entre os modelos.
4. Avaliação e definição do perfil de cada segmento revelado. Após a modela-
gem, os resultados que mais se adequam às necessidades do negócio são escolhi-
dos para implementação. As tarefas envolvem avaliação técnica das soluções de
clusterização, desenho de perfil dos clusters através de modelos supervisionados,
utilização de pesquisas de mercado para enriquecer os segmentos comportamen-
tais e etiquetá-los adequadamente.
5. Implementação da solução de segmentação, projeto e aplicação das es-
tratégias. Neste passo, as soluções construı́das são implementadas dentro da em-
presa para a construção de estratégias de marketing diferenciadas. Três tarefas são
fundamentais neste processo: construir um modelo de pontuação para atualizar os
segmentos, construir uma árvore de decisão para pontuar os segmentos e distribuir
as informações dos segmentos.
3. Metodologia
A seguir é apresentada a metodologia utilizada para selecionar os trabalhos de aplicação
de mineração de dados para segmentação de mercado. Esta metodologia envolve uma ini-
cial seleção de técnicas de mineração de dados a partir da escolha de revisões sistemáticas
e uma posterior classificação de trabalhos de aplicação destas técnicas em segmentação
de mercado.
661
XXXVII Congresso da Sociedade Brasileira de Computação
4. Desenvolvimento
Da pesquisa manual realizada na primeira fase, 300 trabalhos foram avaliados. Após
análise inicial, 37 artigos foram escolhidos, dos quais 6 eram de fonte A1; 10 eram B ou
C e o restante não possui qualificação. Logo em seguida, foram selecionadas 4 revisões
sistemáticas que estavam de acordo com os critérios estabelecidos.
662
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
O artigo de Liao et. al. [Liao et al. 2012] apresenta uma revisão de 2000 a 2011
das principais técnicas e suas aplicações de mineração de dados, dividindo em tipo de co-
nhecimento, análise e arquitetura. As categorias são: (1) Redes Neurais; (2) Arquitetura
de Algoritmos; (3) Dynamic Prediction-Based; (4) Análise de Arquitetura de Sistema; (5)
Intelligence Agents Systems; (6) Modelagem; (7) Sistemas baseados em conhecimento;
(8) Optimização de Sistemas e (9) Sistemas da Informação. O autor utilizou ı́ndices de
palavras chave e dos abstracts para categorizar as técnicas, de acordo com seu conheci-
mento no assunto. Nenhum trabalho posterior com este formato foi encontrado.
O trabalho de Tsytsarau e Palpanas [Tsytsarau and Palpanas 2012] apresenta uma
revisão voltada à análise de sentimento e mineração de Opiniões. Tal tema relaciona-se
indiretamente com segmentação de mercado uma vez que a segmentação de mercado pode
ser realizada através da análise do comportamento de clientes em relação a um produto.
Os autores trazem, em uma tabela, uma classificação de tendências no ramo de mineração
de opiniões divididos em: algoritmo utilizado, dataset para os testes e nos domı́nios alvo.
Os temas identificados foram: (1) Rule Based; (2) Dicionário; (3) Estatı́stica; (4) Naive
Bayes; (5) Máxima Entropia; (6) Support Vector Machine; (7) Natural Language Proces-
sing; (8) Latent Semantic Analysis; (9) Pointwise Mutual Information; (10) Semântico;
(11) Conditional Markov Models; (12) Classificador Linear; (13) ML; (14) SVM OVA;
(15) Multi SVM; (16) SVR; (17) Grafos; (18) HMM; (19) DT; (20) ADT; (21) Estatı́sticos
SO-LSA e (22) Corpus.
Outro trabalho que trata de uma revisão relacionada à mineração de opinião é o
apresentado por Nassirtoussi et. al. [Khadjeh Nassirtoussi et al. 2014] em que é apre-
sentada uma revisão dos trabalhos que tratam de mineração textual para previsões de
mercado. Os autores dividem os algoritmos em seis classes: (1) Support Vector Machine;
(2) Algoritmos de Regressão; (3) Naı̈ve Bayes; (4) Árvores ou Regras de Decisão; (5)
Algoritmos Combinatórios e (6) Experimentos de Multi-Algoritmos.
Tendo em vista os trabalhos escolhidos, a escolha das técnicas foi realizada buscando-se
uma classificação que fosse ao mesmo tempo única, no sentido de que uma aplicação
só se encaixa em uma classificação, e abrangente, ao se considerar o maior número de
técnicas de mineração de dados. O trabalho de Park et. al. [Park et al. 2012], que trouxe
uma classificação para sistemas de recomendação, foi então o escolhido, excluindo-se a
classificação “Outros métodos heurı́sticos”, que não é especı́fica. O trabalho de Liao et.
al. [Liao et al. 2012] é bastante abrangente, porém possui ambiguidades ao se escolher
em qual classificação encaixar determinada técnica e os outros dois trabalhos trazem uma
classificação das técnicas especı́fica para mineração textual.
Ao todo, 350 resultados foram avaliados, sendo 50 para cada busca manual da técnica.
Desses, 230 foram selecionados para posterior avaliação. Ao avaliar o Qualis, foram
identificados 97 resultados como A1 ou A2; 15 como B; 18 como C e o restante não
possuı́a classificação Qualis.
663
XXXVII Congresso da Sociedade Brasileira de Computação
5. Resultados
O trabalho se iniciou com uma pesquisa por revisões sistemáticas, das quais apenas 4
estavam de acordo com os critérios estabelecidos. Percebe-se que, apesar da diversidade
do tema de Mineração de Dados, poucos trabalhos atuais e de fontes renomadas trazem
um agrupamento sistemático das técnicas de mineração sendo pesquisadas. Escolher um
modelo de classificação envolve um profundo e vasto conhecimento na área, dada a di-
versidade de aplicações [Liao et al. 2012].
O trabalho de escolha dos artigos da etapa seguinte está sumarizado na tabela do
Anexo I. Esta tabela apresenta os principais trabalhos de segmentação de mercado que
utilizam de técnicas de mineração de dados. Cada artigo foi avaliado tendo em vista a
aplicação da técnica e quais algoritmos ou modelos de mineração de dados foram empre-
gados. Ao todo, 57 artigos foram selecionados que estavam de acordo com os critérios
estipulados na metodologia. Desses, 59.65% foram identificados como relacionados a
técnicas de Clusterização; 28.07% de Redes Neurais; 22.81% de Árvore de Decisão,
5.26% de K-NN; 5.26% Regras de Associação e 1.75% de Análise de Links, como mostra
o gráfico na figura 1.
As técnicas de K-NN, Análise de Link e Regras de Associação foram as que apre-
sentaram menos trabalhos relacionados à segmentação de mercado propriamente dita. Os
trabalhos nessas técnicas se referem em sua maioria a sistemas de recomendação, que
podem ser utilizados para processos relacionados a segmentação de mercado, por exem-
plo, ao avaliar os resultados de segmentação para recomendar produtos aos segmentos
identificados. Logo, essas três categorias não devem ser incluı́das em uma classificação
especı́fica para segmentação de mercado, mas podem ser utilizadas em conjunto a depen-
der do contexto.
664
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
6. Conclusão
Este trabalho apresenta uma proposta de classificação para técnicas de mineração de da-
dos aplicáveis à segmentação de mercado, a partir de uma metodologia que leva em conta
classificações existentes para a escolha de modelos. Ao apresentar a proposta também
lança os fundamentos para a criação de uma ação permanente de monitoramento da
opinião do cidadão a respeito das realizações da AEB no âmbito do Programa Espacial
Brasileiro. Como o principal objetivo de tal ação é descobrir se as realizações na agência
no âmbito do Programa Espacial estão sendo capazes de alcançar o cidadão, conhecer o
perfil da população a ser atingido é etapa importante do processo.
Assim, imagina-se que o presente trabalho pode ser explorado como referência
para a definição das técnicas a serem utilizadas em um projeto de segmentação de mer-
cado que busca evidenciar as principais caracterı́sticas demográficas, comportamentais e
psicográficas do público interessado por temas do Programa Espacial Brasileiro. Com a
utilização das técnicas encontradas para a identificação dos segmentos, as ações de marke-
ting poderão ser direcionadas, uma vez que cada segmento possui caracterı́sticas próprias
que justificam o teor e os meios de se transmitir informação de maneira eficiente, assim
como será possı́vel obter acompanhamento se a mensagem do Programa Espacial está
chegando ao cidadão de forma adequada.
O tema de mineração de dados é extenso, o que dificulta a tarefa de propor uma
classificação capaz de agrupar todas as técnicas adequadamente. Nesse sentido, o pre-
sente trabalho avaliou revisões da literatura já existentes para propor uma classificação
especı́fica para o caso de segmentação de mercado. Do total de revisões selecionadas,
poucas estavam de acordo com os critérios estabelecidos, deixando-se assim de avaliar
possı́veis trabalhos que poderiam trazer novas formas de classificação.
Como os trabalhos para cada técnica classificada foram escolhidos a partir de
pesquisa manual de palavras chave com os nomes das técnicas, deixaram de ser avaliados
trabalhos relevantes que poderiam acrescentar novas formas de classificação a partir de
técnicas que não foram elicitadas. Outro limitador foi a escolha de trabalhos apenas na
665
XXXVII Congresso da Sociedade Brasileira de Computação
lı́ngua inglesa.
Os próximos passos da pesquisa envolvem a seleção das fontes a serem utilizadas
e uma realização de um pré-experimento para avaliar a viabilidade de se utilizar os dados
adquiridos. Uma vez que os dados estejam disponı́veis, será possı́vel obter os segmentos
a partir da clusterização K-Means e pela análise da topologia gerada com os dados de
entrada em um SOM, seguindo a metodologia CRISP-DM. De posse do modelo teórico,
será possı́vel construir um painel que permita aos gestores da AEB monitorar, em tempo
real, o alcance dos projetos relacionados ao Programa Espacial.
Agradecimentos
Esta pesquisa foi financiada pela Agência Espacial Brasileira (AEB) em conjunto com
o Centro de Pesquisa em Arquitetura da Informação da Universidade de Brası́lia (CPAI-
UnB) através do Projeto de Arquitetura da Informação para o Programa Espacial Brasi-
leiro 2014-2017.
Referências
Beane, T. P. and Ennis, D. M. (1994). Market Segmentation : A Review. European
Journal of Marketing, 21(5):20–42.
Capon, N. (1981). Marketing Strategy Differences Between State and Privately Owned
Corporations: An Exploratory Analysis. Journal of Marketing, 45(2):11–18.
Khadjeh Nassirtoussi, A., Aghabozorgi, S., Ying Wah, T., and Ngo, D. C. L. (2014). Text
mining for market prediction: A systematic review. Expert Systems with Applications,
41(16):7653–7670.
Kitchenham, B., Brereton, O. P., Budgen, D., Turner, M., Bailey, J., and Linkman, S.
(2009). Systematic literature reviews in software engineering – A systematic literature
review. Information and Software Technology, 51(1):7–15.
Liao, S.-h., Chu, P.-h., and Hsiao, P.-y. (2012). Data mining techniques and applications –
A decade review from 2000 to 2011. Expert Systems With Applications, 39(12):11303–
11311.
Mukhopadhyay, A., Maulik, U., Bandyopadhyay, S., and Coello, C. A. C. (2014). A
survey of multiobjective evolutionary algorithms for data mining: Part i. IEEE Tran-
sactions on Evolutionary Computation, 18(1):4–19.
Park, D. H., Kim, H. K., Choi, I. Y., and Kim, J. K. (2012). A literature review and
classification of recommender systems research. Expert Systems with Applications,
39(11):10059–10072.
Rollemberg, R., Veloso, E. M., Queiroz Filho, A. P. d., Lins, B. F. E., Silva, E. F., Rocha,
F. C. W., Faria, F. F., Juras, I. d. A. G., Menck, J. T. M., Camino, M. E. M. B., Vas-
concelos, R. D. d. L., Martins, R. C. d. R., and Filho, R. d. M. G. (2010). A Polı́tica
Espacial Brasileira.
Smith, W. R. (1956). Product Differentiation and Market Segmentation As Alternative
Marketing Strategies. Journal of Marketing, 21(1):3–8.
Tsytsarau, M. and Palpanas, T. (2012). Survey on mining subjective data on the web.
Data Mining and Knowledge Discovery, 24(3):478–514.
666
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Wirth, R. (2000). CRISP-DM : Towards a Standard Process Model for Data Mining.
Proceedings of the Fourth International Conference on the Practical Application of
Knowledge Discovery and Data Mining, (24959):29–39.
Ziafat, H. and Shakeri, M. (2014). Using Data Mining Techniques in Customer Segmen-
tation. International Journal of Engineering Research and Applications, 4(9):70–79.
Anexo I
A Tabela 1 a seguir apresenta todos trabalhos que foram identificados seguindo-se a me-
todologia proposta no presente artigo.
667
XXXVII Congresso da Sociedade Brasileira de Computação
668
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
669
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A colaboração cientı́fica tem sido objeto de estudo de autores na área da ciência de redes
[Newman 2004], que se valem das caracterı́sticas e organização das bases de publicações
cientı́ficas com grandes volumes de dados para desenvolver estudos sobre estruturas das
redes e padrões de colaboração entre os objetos desse estudo, que são os pesquisado-
res e suas publicações conjuntas. A grande maioria dos estudos realizados nesse uni-
verso de colaboração cientı́fica investiga a organização macroscópica das redes, consi-
derando aspectos descritivos tais como grau médio, diâmetro, centralização e densidade
670
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
671
XXXVII Congresso da Sociedade Brasileira de Computação
3.1. Histórico
3.2. Definição
Conforme apresentam [Robins et al. 2007], em um modelo ERGM os possı́veis laços en-
tre atores de uma rede social são tratados como variáveis aleatórias, que podem ser mo-
deladas sob várias suposições de dependências. Essas suposições de dependência possi-
bilitam entender como e porque surgem - e também não surgem - os laços entre atores de
uma rede social, e são primariamente expressas por meio da maior ou menor probabili-
dade de ocorrência de configurações endógenas de vários tipos (relacionamentos mútuos
entre atores, assimetria de relações, formação de triângulos, estrelas de grau k etc). As
suposições sobre a probabilidade de ocorrência de um laço também podem ter origem
exógena à rede, devidas ao valor assumido por um atributo de um nó da dı́ade, ou por
uma combinação de valores - seja diferença ou similaridade - dos atributos de ambos os
nós de uma dı́ade. As configurações (endógenas) e os efeitos de atributos (exógenos) são
inseridas em um modelo ERGM por meio de termos de modelagem (exemplificados na
seção 3.4).
Informado por hipóteses socialmente embasadas sobre a formação de laços em
uma rede empiricamente obtida, um analista pode inserir esses termos em um modelo ex-
ploratório (uma fórmula), na busca de se encontrar de forma generativa ou simulada uma
combinação de ponderações (os parâmetros) para a estatı́stica (quantidade de ocorrências)
de cada termo, que melhor expresse as probabilidades de se gerar uma classe estatı́stica
de rede estruturalmente equivalente a uma rede empiricamente obtida.
A tı́tulo de exemplo, os autores buscaram analisar por meio de modelagem ERGM uma
rede de colaboração entre os 249 pesquisadores da área de ciência da informação vincula-
dos a pós-graduações stricto sensu no Brasil, objeto da investigação relatada neste artigo.
Uma apresentação gráfica da rede é feita na figura 1.
Cada vértice da rede representa um pesquisador. As linhas indicam as
colaborações cientı́ficas entre os pesquisadores. Cada pesquisador está vinculado a uma
linha de pesquisa, que faz parte de um programa vinculado a uma universidade ou
instituição de pesquisa. Outros atributos de cada pesquisador foram obtidos a partir dos
seus registros na Plataforma Lattes.
672
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
3.3.1. Algumas questões que podem ser respondidas por um modelo estatı́stico de
rede
673
XXXVII Congresso da Sociedade Brasileira de Computação
sentados na seção 4, sendo que o restante desta seção apresenta princı́pios gerais da mo-
delagem usando ERGM, especificamente nos aspectos referentes a: (1) Seleção de termos
ERGM; (2) Sensibilidade de modelos ERGM; (3) Ciclo de desenvolvimento de modelos
ERGM; (4) Análise de adequação geral de um modelo; e (5) Interpretação de parâmetros
estimados.
Termos Básicos O pacote statnet [The Statnet Development Team 2017] de análise
de ERGM é utilizado na plataforma R, e apresenta termos que permitem a exploração de
aspectos estruturais básicos (configurações endógenas) de redes sociais tais como número
de arestas (edges), densidade (density), mutualidade (mutual(attrname)) e as-
simetria (asymmetric(attrname)) de dı́ades em redes dirigidas. Os termos que
permitem explorar mutualidade e assimetria numa rede dirigida podem ser parametriza-
dos pelo valor de atributos nodais quantitativos ou qualitativos. Por exemplo, numa rede
de preferências entre alunos de uma sala de aula os atributos de gênero e raça podem ser
avaliados quanto à propensão para criação de relacionamentos mútuos ou assimétricos.
Termos que modelam efeitos exógenos de atributos nodais O pacote statnet apre-
senta termos que permitem estimar o efeito de valores de atributos nodais na propensão
ao estabelecimento de laços não dirigidos ou dirigidos entre atores em uma rede. O termo
nodecov(attrname) permite estimar a probabilidade de estabelecimento de laços
entre dois nós, baseada na soma dos valores de um atributo quantitativo presente nesses
nós (ex: idade, tempo de trabalho). O termo nodematch(attrname) permite esti-
mar a probabilidade de estabelecimento de laços entre dois nós, baseada na igualdade do
valor de um atributo categórico desses nós (ex: área de doutoramento, programa de pós-
graduação ao qual está vinculado, região do Brasil na qual trabalha, gênero etc). O termo
absdiff(attname) permite estimar a probabilidade de estabelecimento de laços en-
tre dois nós baseada na diferença absoluta de valores de um atributo quantitativo dos nós
(por exemplo, tempo de doutoramento).
674
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
um modelo ERGM. De forma geral, os modelos ERGM mais sofisticados utilizam ter-
mos paramétricos tais como gwdsp(alpha), gwesp(alpha), gwdegree(decay)
e altkstar(alpha).
a) gwdsp b) gwesp
j j
? h1 h2 h3 h4 h5 h1 h2 h3 h4 h5
i i
Figura 2. Configurações modeladas pelos termos gwdsp e gwesp.
675
XXXVII Congresso da Sociedade Brasileira de Computação
3.6.1. Simulação
A simulação permite que um analista ganhe intuição sobre o efeito provocado pelos ter-
mos e seus parâmetros em um modelo ERGM. Busca-se simular redes que apresentem
estrutura similar à rede empiricamente analisada. O script seguinte gera uma rede não
dirigida com 249 nós, e explora o efeito produzido pelos parâmetros (termos) seguintes:
-5 (edges), 2 (gwesp) e 1 (gwesp.alpha) na simulação de uma rede. A execução do
comando summary.statistics gera uma contagem da quantidade de configurações
para os termos correspondentes. O grafo simulado possui 492 arestas. No caso especı́fico
de gwesp, é apresentada a contagem da quantidade de 214 1-triângulos (esp#1), 72
2-triângulos (esp#2), 20 3-triângulos (esp#3) e 2 4-triângulos (esp#4). Não foram
encontradas ocorrencias de triângulos acima de 4.
>library(statnet) # carrega a biblioteca statnet
>parametros<-c(-5,2,1) # parâmetros iniciais
>rede.inicial <- network(249,directed=FALSE) # rede inicial
>formula <- formula(rede.inicial ˜ edges + gwesp(2)) # formula
>rede.simulada<- simulate(formula, nsim=1, coef=parametros)
>summary.statistics(rede.simulada ˜ edges + gwesp(2))
edges esp#1 esp#2 esp#3 esp#4 esp#5 esp#6 esp#7 esp#8 esp#9
492 214 72 20 2 0 0 0 0 0
esp#10 esp#11 esp#12 esp#13 esp#14 esp#15 esp#16 esp#17 esp#18 esp#19
0 0 0 0 0 0 0 0 0 0
esp#20 esp#21 esp#22 esp#23 esp#24 esp#25 esp#26 esp#27 esp#28 esp#29
676
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
0 0 0 0 0 0 0 0 0 0
esp#30
0
3.6.2. Estimativa
A estimativa dos valores dos parâmetros é feita com base na utilização de uma rede em-
piricamente obtida ou simulada. Aplica-se a função ergm, no caso do pacote statnet, a
fim de se obter uma convergência do modelo, de modo que sejam gerados parâmetros
para cada termo, e que esses parâmetros sejam obtidos com elevada confiabilidade. O
script seguinte apresenta uma sequencia de comandos que ocorre após a sequencia an-
terior, onde um modelo simulado é agora utilizado como sendo uma rede empı́rica, por
meio da qual se tentará estimar valores para os parâmetros, realizando-se uma operação
conceitualmente inversa à simulação.
>model.fit <- ergm(rede.simulada ˜ edges + gwesp(1) + gwdsp(1))
Starting maximum likelihood estimation via MCMLE:
Iteration 1 of at most 20:
The log-likelihood improved by 0.7781
...
677
XXXVII Congresso da Sociedade Brasileira de Computação
entre todas as dı́ades da rede empı́rica são comparadas com a distribuição de frequência
das distâncias geodésicas entre todas as dı́ades de várias redes que pode ser simuladas
com os parâmetros encontrados. Nesse caso, por meio da função gof, do pacote statnet,
são produzidas análises, sumarizadas
Goodness−of−fit diagnostics graficamente como na figura 3.
0.35
0.20
●
0.30
●
●
●
●
●
●
0.25
0.15
●
●
●
proportion of nodes
proportion of dyads
●
●
0.20
●
● ●
●
● ●
●
0.10
●
0.15
● ● ●
● ●
●
●
0.10
● ● ●
●
●
0.05
●
● ● ●
●
●
● ● ●
0.05
●
● ●
●
●
●
● ● ●
● ●
●
●
● ● ● ●
●
● ● ● ●
0.00
0.00
●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9 10 11 12 13 NR 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
678
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
CAPES, no final do ano de 2016. A partir desses registros, foram buscados os seus
respectivos currı́culos na Plataforma Lattes, por meio da utilização do programa Scrip-
tLattes [Mena-Chalco and Cesar-Jr 2009]. O ScriptLattes busca os dados contidos nos
currı́culos dos pesquisadores e cria a rede de colaboração cientı́fica que foi aqui utili-
zada na aplicação dos estudos descritivos e estatı́sticos. É importante ressaltar que im-
precisões nos dados contidos nos currı́culos podem resultar em alguns dados incorretos,
especialmente devido à diferença de nomenclaturas de coautores ou mesmo no registro
das publicações. Uma vez criada a rede de coautoria entre os pesquisadores escolhidos o
tratamento dos dados se deu pela incorporação de atributos aos nós da rede. Esses atri-
butos foram coletados manualmente a partir de análise dos respectivos currı́culos, com
incorporação de dados como Unidade da Federação, Universidade, Programas de Pós-
graduação e Linhas de Pesquisa às quais estavam vinculados, ano e área de obtenção
dos tı́tulos de graduação e doutoramento, o gênero e o foco de suas pesquisas na área da
Ciência da Informação, de acordo com os grupos de trabalho definidos pela Associação
Nacional de Pesquisa de Pós-Graduação em Ciência da Informação (ANCIB).
Foram realizadas cerca de cinquenta (50) simulações com diferentes combinações
de termos ERGM, com durações que variaram de 15 minutos a 8 horas, em um notebook
na plataforma Windows 7 com 8 GB de RAM e CPU Intel i5-2467M, a fim de se obter
termos que produzissem uma convergência do modelo, cujos parâmetros são apresentados
e analisados na seção 5.
5. Resultados e Análise
O melhor modelo para a rede foi o obtido pela fórmula a seguir.
ergm.model <- formula(rede ˜
edges + gwesp(1) + nodematch("Universidade") +
nodematch("AreaDou") + nodematch("Regiao") +
nodematch("Genero") + absdiff("AnoDou", pow = 1) +
nodematch("GT"))
Os parâmetros estimados são apresentados na tabela 1. Todos foram obtidos com
elevado grau de confiança. O valor do erro de cada estimativa, entre parênteses, é menor
que metade do valor absoluto da estimativa, permitindo sua utilização em análises. As
análises de adequação geral do modelo foram realizadas do modo apresentado na seção
3.7, obtendo-se todos os resultados satisfatórios. A interpretação dos valores obtidos é
efetuada a seguir.
Tabela 1. Parâmetros estimados para o modelo ERGM.
Parâmetro Estimativa (Erro) Confiança
edges -5.199 (0.103) ***
gwesp 0.775 (0.034) ***
gwesp.alpha 0.958 (0.0264)***
nodematch.Programa 1.253 (0.082) ***
nodematch.Area 0.255 (0.063) ***
nodematch.Regiao 0.279 (0.087) **
nodematch.Genero 0.245 (0.073) ***
absdiff.AnoDou -0.026 (0.005) ***
nodematch.GT 0.561 (0.078) ***
O parâmetro de valor -5.199 para o termo edges indica ser cerca de 0,5% a chance
de que dois pesquisadores quaisquer em Ciência da Informação no Brasil desenvolvam
679
XXXVII Congresso da Sociedade Brasileira de Computação
colaboração entre si. O parâmetro de valor 0.775 para o termo gwesp indica ser de 68%
a chance de que dois pesquisadores de ciência da informação no Brasil que já colaboram
estabelecerem uma colaboração mútua com um terceiro pesquisador. O valor 0.958 para
parâmetro gwesp.alpha, combinado com o valor 0.775 para o termo gwesp, indica ser de
32% a chance de que um 1-triângulo de colaboração entre pesquisadores evolua para um
2-triângulo. Esses mesmos valores indicam ser de 16% a chance de que um 2-triângulo
de colaboração evolua para um 3-triângulo.
Os valores dos termos nodematch, aplicados aos atributos Programa, Area, Re-
giao, Genero e GT (grupo de trabalho na área), apresentam correlações positivas no es-
tabelecimento de laços entre pesquisadores, sendo, entretanto, a vinculação ao programa
o fator de maior peso na chance de colaboração entre os pesquisadores, sendo de 77% a
chance de que isso ocorra. O valor praticamente zero para o termo absdiff indica que a
diferença entre os tempos de doutorado de cada um pouco influencia o estabelecimento
de colaborações entre pesquisadores da área.
Alguns dos resultados obtidos com a obtenção do modelo ERGM ajudam a con-
firmar, com uma maior precisão, informações que já se supunham existir em uma relação
de colaboração cientı́fica. No caso do coeficiente de clusterização, apresentado por meio
do parâmetro gwesp, fica evidente a propensão de um pesquisador colaborar com pares
que já tenham relação com colaboradores seus anteriores.
Quanto aos atributos exógenos de Regiao, Area, GT e principalmente Programa,
os resultados já podiam ser esperados uma vez que se pode assumir que a proximidade
fı́sica e a similaridade de assuntos aumentam a propensão em colaborar. No caso dos
parâmetros Genero e AnoDou (de obtenção do doutorado) um aprofundamento sobre es-
ses tópicos se faz necessário do ponto de vista dos autores. No último caso, entender as
relações entre orientandos e orientadores pode ser um fator relevante no entendimento
das colaborações cientı́ficas. Quanto ao Gênero, esse tópico tem sido recorrente em gru-
pos de estudo sobre a ciência, e modelos que ajudam a quantificar essas relações podem
contribuir bastante para um melhor entendimento dessas relações.
6. Conclusões
Esse artigo apresentou os principais conceitos da classe de modelos estatı́sticos para
análise de redes sociais denominada ERGM. Superadas as dificuldades de compreensão
na utilização do modelo, os resultados obtidos geram um grande número de respostas
para várias hipóteses sobre a formação de redes sociais como a investigada. Fenômenos
de homofilia, propinquidade e seleção social podem ser identificados com facilidade.
Referências
Barabási, A., Jeong, H., Néda, Z., Ravasz, E., Schubert, A., and Vicsek, T. (2002). Evolu-
tion of the social network of scientific collaborations. Physica A: Statistical Mechanics
and its Applications, 311(3–4):590–614.
Glanzel, W. (2002). Coathorship Patterns and Trends in the Sciences (1980-1998): A
Bibliometric Study with Implications for Database Indexing and Search Strategies.
Library Trends, 50(3):461.
680
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
Harris, J. K., Provan, K. G., Johnson, K. J., and Leischow, S. J. (2012). Drawbacks
and benefits associated with inter-organizational collaboration along the discovery-
development-delivery continuum: a cancer research network case study. Implemen-
tation Science, 7(1):69.
Katz, J. and Martin, B. R. (1997). What is research collaboration? Research Policy,
26(1):1–18.
Kronegger, L., Mali, F., Ferligoj, A., and Doreian, P. (2012). Collaboration structures in
Slovenian scientific communities. Scientometrics, 90(2):631–647.
Lusher, D., Koskinen, J., and Robins, G., editors (2013). Exponential Random Graph
Models for Social Networks: Theory, methods, and applications. Structural Analysis
in the Social Sciences. Cambridge University Press, USA.
Mena-Chalco, J. P. and Cesar-Jr, R. M. (2009). scriptLattes: An open-source knowledge
extraction system from the Lattes platform. Journal of the Brazilian Computer Society,
15(4):31–39.
Morris, M., Handcock, M. S., and Hunter, D. R. (2008). Specification of Exponential-
Family Random Graph Models: Terms and Computational Aspects. Journal of Statis-
tical Software, 24(4):1–24.
Newman, M. E. J. (2004). Coauthorship networks and patterns of scientific collaboration.
Proceedings of the National Academy of Sciences, 101(suppl 1):5200–5205.
Robins, G., Pattison, P., Kalish, Y., and Lusher, D. (2007). An introduction to expo-
nential random graph (p*) models for social networks. Special Section: Advances in
Exponential Random Graph (p*) Models, 29(2):173–191.
Sampaio, R. B., Sacerdote, H. C. d. S., Fonseca, B. d. P. F., and Fernandes, J. H. C. (2015).
A colaboração cientı́fica na pesquisa sobre coautoria: um método baseado na análise
de redes. Perspectivas em Ciência da Informação, 20(4):79–92.
Snijders, T. A. B., Pattison, P. E., Robins, G. L., and Handcock, M. S. (2006). New
Specifications for Exponential Random Graph Models. Sociological Methodology,
36(1):99–153.
Sonnenwald, D. H. (2007). Scientific collaboration. Annual Review of Information Sci-
ence and Technology, 41(1):643–681.
The Statnet Development Team (2017). Introduction to Exponential-family Random
Graph (ERG or p*) modeling with statnet - Version 3.7.1. Technical report, University
of Washington, USA.
Wang, P., Robins, G., and Pattison, P. (2009). PNet Program for the Simulation and Es-
timation of Exponential Random Graph (p*) Models : USER MANUAL. Technical
report, Department of Psychology School of Behavioural Science University of Mel-
bourne, Australia.
Wasserman, S. and Faust, K. (1994). Social Network Analysis: Methods and applications.
Cambridge University Press, USA.
681
XXXVII Congresso da Sociedade Brasileira de Computação
1
Universidade Federal de Minas Gerais – Belo Horizonte – MG
{micheleabrandao,mirella}@dcc.ufmg.br
Abstract. The study of social ties has lead to building rigorous models that re-
veal the evolution of social networks and their dynamism. In this context, a
central aspect is the strength of ties, which allows the study of the roles of re-
lationships. Here, besides analyzing the strength of co-authorship ties, we also
present a set of metrics and algorithms to measure such strength.
1. Introduction
Initial studies of social networks have emphasized the importance of properly mea-
suring the strength of social ties to understand social behaviors [Granovetter 1973,
Newman 2001]. Also, the study of social ties is fundamental for building rigor-
ous models that reveal the evolution of social networks (SN) and the dynamics of
social exchange [Aiello et al. 2014]. More recently, analyzing tie strength has al-
lowed to investigate the roles of relationships including ranking for influence detec-
tion [Freire and Figueiredo 2011], as well as its influence in communication patterns
[Wiese et al. 2015] and team formation [Castilho et al. 2017].
One of the first notable studies covering tie strength was published by Gra-
novetter [1973]. He presents the importance of weak ties in SNs for various as-
pects, such as the spread of information. Since then, the strength of ties has
been studied in different contexts with distinct goals, e.g., [Brandão and Moro 2015,
Lopes et al. 2011, Silva et al. 2014]. However, few studies have addressed the strength of
ties in temporal social networks [Dasgupta et al. 2008, Karsai et al. 2014, Kostakos 2009,
Nicosia et al. 2013]. In such temporal context, studying the strength of ties allows to iden-
tify patterns of relationship over time, to detect aspects that influence it, to determine a
limit of relationship in a period, among other relationship perspectives.
Tie strength may be measured by a combination of the amount of time, the coop-
eration intensity and the reciprocal services that characterize the tie [Granovetter 1973,
Rana et al. 2014]. Such strength may also be measured by using the neighborhood over-
lap metric (also known as topological overlap) [Easley and Kleinberg 2010], a numer-
ical quantity that captures the total number of collaborations between the two ends of
each edge. This metric has been used for uncovering the community structure and mea-
suring tie strength among others [Brandão and Moro 2015, Easley and Kleinberg 2010,
Vaz de Melo et al. 2015]. In this work, neighborhood overlap is the base for developing
new tie strength metrics and algorithms. Hence, this paper summarizes the main contri-
butions of [Brandão 2017] as follows.
682
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
• Four case studies on problems of measuring the tie strength with only neighbor-
hood overlap and absolute frequency of interaction. A new metric to measure tie
strength in non-temporal social networks, called tieness, accompanied by a nomi-
nal scale (Section 3.2).
• An analysis of how tie strength is defined and varies over time. We do so
by: (1) improving an existing algorithm (RECAST [Vaz de Melo et al. 2015]) as
named fast-RECAST; (2) introducing a new algorithm (STACY – Strength of Ties
Automatic-Classifier over the Years) that automatically classifies ties strength in
temporal co-authorship social networks, and (3) deriving a computational model
from STACY, called temporal tieness. Surprisingly, our results show that: most
ties (even the strong ones) tend to perish over time; real co-authorship social net-
works have more weak and random ties than strong and bridge ties; and STACY
is able to better identify strong ties than fast-RECAST (Section 3.3).
• A description of future directions and open problems (Section 4).
683
XXXVII Congresso da Sociedade Brasileira de Computação
and the time of the interactions to define the strength of ties. Then, strong ties are time
repeated and frequent interactions among pairs of individuals, whereas weak ties occur
only occasionally. In a different manner, Nicosia et al. [2013] define two nodes i and j as
strongly connected if they are in a not symmetric relation (i is temporally connected to j
but not vice-versa), whereas they are weakly connected if in a symmetric relation (both i
is temporally connected to j, and j is temporally connected to i).
684
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
685
XXXVII Congresso da Sociedade Brasileira de Computação
Expanding the study to other collaboration social networks. The approaches proposed
in this work to measure tie strength can be applied to other collaboration networks (for
example, GitHub and Stack Overflow). We have already started to work on this direc-
tion by considering different ways to measure the strength of social coding collaboration
on GitHub [Alves et al. 2016]. One of these metrics is tieness: while most metrics con-
sider only the network topology, tieness is able to better differentiate the relationships by
considering distinct weights associated to the edges.
Using qualitative research to evaluate tie strength. So far, we have evaluated the
strength of ties by analyzing Granovetter’s theory in non-temporal social networks and
link persistence/transformation in temporal social networks. Another direction is asking
for users to analyze if they agree or not with their relationships strength generated by our
new approaches. Doing so, we would able to build a ground-truth to evaluate our new tie
strength metrics and algorithms.
Evaluating tie strength methods by comparing with synthetic data. One of the main
problems of working on social networks is the absence of a ground-truth to evaluate the
results. A possible solution is to build a synthetic dataset that represents a completely
random and/or perfect social network (allowing to compare the results from real networks
with the synthetic ones). However, creating a realistic dataset has many challenges related
to topologies, data distributions, correlations, attribute values, and so on.
Clustering analyses and evaluation. Due to the common nature of clusters in social
networks, an interesting application is to evaluate clustering algorithms through network
topological and semantic metrics. Initial results (fully reported in [Brandão 2017]) are
promising but still need more evaluation by considering different algorithms.
Differentiating the α parameter of each property in temporal tieness. So far, we have
evaluated the range of values of temporal tieness for each class by considering α = 1.
Although temporal tieness is able to directly identify strong, weak and random ties, we
can study how to better configure such parameter for each topological property. Thus, it
would allow to classify ties in all the eight classes.
Adding other social network features to STACY. Our new algorithm considers three
topological properties to classify tie strength (edge persistence, neighborhood overlap
and co-authorship frequency). The main advantage of considering these metrics is that
they are free of context. Nonetheless, adding other properties and extending STACY to
different domains are still possible directions.
Group recommendation. Another interesting and open issue is group recommendation.
Overall, our hypothesis is that tie strength among researchers helps to understand the im-
portance their relationships, which may improve collaboration recommendation. Thus,
a possible application of this work is to use our metrics associated with clustering algo-
rithms to recommend groups of people to another person.
5. Conclusion
A property related to social ties is the strength of ties, which we have thoroughly studied
here over co-authorship networks. Besides our analyses, we have also introduced tieness
(a metric that better distinguishes tie strength of non-temporal co-authorhip networks),
STACY (a temporal classifier for strong ties), and temporal tieness (a new computational
686
6º BraSNAM - Brazilian Workshop on Social Network
Analysis and Mining
to directly classify tie strength over temporal co-authorship social networks with low com-
putational cost). Finally, we presented open questions and directions for future work.
Acknowledgements. Work partially funded by CNPq and FAPEMIG, Brazil.
References
Aiello, L. M., Schifanella, R., and State, B. (2014). Reading the source code of social ties. In ACM WebSci,
pages 139–148, New York, USA.
Alves, G. B., Brandão, M. A., Santana, D. M., da Silva, A. P. C., and Moro, M. M. (2016). The strength of
social coding collaboration on github. In SBBD, pages 247–252, Salvador, Brazil.
Brandão, M. A. (2017). Tie Strength in Co-Authorship Social Networks: Analyses, Metrics and a New
Computational Model. PhD thesis, PPGCC, Universidade Federal de Minas Gerais, Brazil.
Brandão, M. A., Diniz, M. A., and Moro, M. M. (2016). Using topological properties to measure the
strength of co-authorship ties. In BRASNAM, pages 199–210, Rio de Janeiro, Brazil.
Brandão, M. A. and Moro, M. M. (2015). Analyzing the strength of co-authorship ties with neighborhood
overlap. In DEXA, pages 527–542, Linz, Austria.
Brandão, M. A. and Moro, M. M. (2017a). Social professional networks: A survey and taxonomy. Computer
Communications, 100:20 – 31.
Brandão, M. A. and Moro, M. M. (2017b). The strength of co-authorship ties through different topological
properties. Journal of the Brazilian Computer Society, 23(1):5.
Brandão, M. A., Vaz de Melo, P. O. S., and Moro, M. M. (2017). Tie strength persistence and transforma-
tion. In AMW (to appear), Montevideo, Uruguay.
Castilho, D., de Melo, P. O. V., and Benevenuto, F. (2017). The strength of the work ties. Information
Sciences, 375:155–170.
Dasgupta, K. et al. (2008). Social ties and their relevance to churn in mobile telecom networks. In ICDE,
pages 668–677, Cancun, Mexico.
Easley, D. and Kleinberg, J. (2010). Networks, crowds, and markets: Reasoning about a highly connected
world. Cambridge University Press.
Freire, V. P. and Figueiredo, D. R. (2011). Ranking in collaboration networks using a group based metric.
Journal of the Brazilian Computer Society, 17(41):255–266.
Gilbert, E. and Karahalios, K. (2009). Predicting tie strength with social media. In Procs. of SIGCHI, pages
211–220, New York, USA.
Granovetter, M. S. (1973). The Strength of Weak Ties. American Journal af Sociology, 78(6):1360–1380.
Karsai, M., Perra, N., and Vespignani, A. (2014). Time varying networks and the weakness of strong ties.
Scientific Reports, 4(4001).
Kostakos, V. (2009). Temporal graphs. Physica A: Statistical Mechanics and its Applications, 388(6):1007–
1023.
Lopes, G. R., Moro, M. M., da Silva, R., Barbosa, E. M., and de Oliveira, J. P. M. (2011). Ranking strategy
for graduate programs evaluation. In ICITA, pages 56–64, Sydney, Australia.
Newman, M. E. (2001). Scientific collaboration networks. ii. shortest paths, weighted networks, and cen-
trality. Physical review E, 64(1):016132.
Nicosia, V. et al. (2013). Graph metrics for temporal networks. In Holme, P. and Saramäki, J., editors,
Temporal Networks, pages 15–40. Springer Berlin Heidelberg.
Rana, J. et al. (2014). The Strength of Social Strength: An Evaluation Study of Algorithmic Versus User-
defined Ranking. In ACM SAC, pages 658–659, Gyeongju, Korea.
Silva, T. H. P., Moro, M. M., Silva, A. P. C., Meira Jr, W., and Laender, A. H. F. (2014). Community-based
endogamy as an influence indicator. In JCDL, pages 67–76, London, UK.
Vaz de Melo, P. O. S. et al. (2015). Recast: Telling apart social and random relationships in dynamic
networks. Performance Evaluation, 87:19–36.
Wiese, J. et al. (2015). You never call, you never write: Call and sms logs do not always indicate tie strength.
In CSCW, pages 765–774, Vancouver, Canada.
Zignani, M., Gaito, S., and Rossi, G. P. (2016). Predicting the link strength of newborn links. In WWW,
Companion Volume, pages 147–148, Montreal, Canada.
687
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
O DesafIE! é um evento da Comissão Especial de Informática na Educação (CEIE) da
SBC que ocorre desde 2012 inspirado principalmente em um dos Grandes Desafios
científicos da computação apontados pela SBC para a década (2006-2016) que trata do
“Acesso participativo e universal do cidadão brasileiro ao conhecimento”, tendo como
objetivo criar condições para vencer as barreiras tecnológicas educacionais, culturais,
sociais e econômicas, que impedem o acesso e a interação por meio da concepção de
sistemas, ferramentas, modelos, métodos, procedimentos e teorias capazes de endereçar,
de forma competente, a questão do acesso do cidadão brasileiro ao conhecimento.
Ressalta-se que o DesafIE! sendo um workshop do Congresso da Sociedade
Brasileira da Computação, tem o objetivo de discutir os temas da Informática na
Educação que possuam sobretudo um enfoque computacional e que abordem aspectos
desafiadores na área. Assim, é importante ressaltar que ele não seja entendido pela
comunidade como um meio de divulgação de pesquisas em andamento, mas sim um
evento entre pesquisadores que buscam discutir, vislumbrar e apontar temas desafiadores
e interdisciplinares, com um grande enfoque computacional, na área de Informática na
Educação.
O DesafIE!, em sua edição de 2017 busca promover um debate sobre os Grandes
Desafios da Informática na Educação, motivado por discussões semelhantes já ocorridas
na própria SBC, em outras comissões especiais, como no caso da comunidade de IHC,
bem como em outras sociedades científicas internacionais.
A submissão de artigos para o VI DesafIE foi realizada em duas etapas. Na
primeira etapa, foram recebidos 41 resumos de até 1.000 palavras. Estes resumos foram
avaliados por dois revisores e quando necessário por um terceiro e como resultado foram
aprovados 18 trabalhos para a segunda etapa. Na segunda etapa foram avaliados os 18
trabalhos aceitos na fase anterior e mais 6 artigos convidados, de um total de 15 convites
emitidos, totalizando 24 artigos. Dos 24 artigos avaliados na segunda etapa, foram
aprovados 12. A taxa final de aceitação do evento foi de 25%.
688
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Comitê Organizador
Coordenação Geral
Edson Pinheiro Pimentel (UFABC), Thiago Barcelos (Instituto Federal de São Paulo)
Coordenação Local
Beatriz de Almeida Pacheco (Mackenzie)
Comitê de Programa
Alberto Castro (Universidade Federal do Amazonas - UFAM), Alex Sandro Gomes
(Universidade Federal de Pernambuco), Anarosa Brandão (Universidade de São Paulo),
André Raabe (Universidade do Vale do Itajaí), Andrey Pimentel (UFPR), Beatriz de
Almeida Pacheco (Mackenzie), Claudia Motta (Universidade Federal do Rio de
Janeiro), Crediné de Menezes (Universidade Federal do Rio Grande do Sul), Ecivaldo
Matos (UFBA - Universidade Federal da Bahia), Edilson Ferenda (UCB), Edson
Pimentel (UFABC), Eleandro Maschio (UTFPR), Ellen Francine Barbosa (ICMC-USP),
Evandro Costa (UFAL), Fabiano Dorça (Universidade Federal de Uberlândia), Fábio
Ferrentini Sampaio (Universidade Federal do Rio de Janeiro), Fernanda Campos
(Universidade Federal de Juiz de Fora), Gilda Helena Bernardino de Campos (PUC -
Rio), Heitor Barros (Instituto Federal de Alagoas), Ibsen Bittencourt (Universidade
Federal de Alagoas), Ig Ibert Bittencourt (Universidade Federal de Alagoas), Ismar
Frango Silveira (Universidade Cruzeiro do Sul), Joice Otsuka (Universidade Federal de
São Carlos), José Aires de Castro Filho (Universidade Federal do Ceará), Leandro
Augusto Silva (Mackenzie), Marcia Fernandes (Universidade Federal de Uberlândia),
Marcos Borges (Universidade Estadual de Campinas), Maria Augusta Silveira Netto
Nunes (Universidade Federal de Sergipe), Maria Cecilia Baranauskas (Universidade
Estadual de Campinas), Márcia Cristina Moraes (PUCRS), Neide Santos (UERJ),
Nizam Omar (Universidade Presbiteriana Mackenzie), Orivaldo Tavares (Universidade
Federal do Espírito Santo), Patricia Jaques (UNISINOS), Ricardo Silveira
(Universidade Federal de Santa Catarina), Ricardo José Rocha Amorim (Universidade
do Estado da Bahia), Romero Tori (Universidade de São Paulo), Rosa Viccari
(UFRGS), Sérgio Crespo C. S. Pinto (Universidade Federal Fluninense - UFF), Sílvio
689
XXXVII Congresso da Sociedade Brasileira de Computação
Cazella (UFCSPA), Sean Siqueira (UNIRIO), Thiago Barcelos (Instituto Federal de São
Paulo), Valguima Odakura (Universidade Federal da Grande Dourados)
690
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Palestras
Como a Computação pode Transformar a Aprendizagem para Todos: Superando
obstáculos e liberando o potencial de aprendizagem latente no Brasil
David Cavallo (UFSB)
691
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Em Direção à Orquestração de Experiências de Aprendizagem em Ambientes de U-
Learning
Izautino Vanderley Pereira de Oliveira, Ivanildo José de Melo Filho, Alex Sandro Gomes
692
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
693
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Os avanços tecnológicos nas últimas décadas, como o uso massivo de dispositivos
móveis: laptops, smarphones, tablets, entre outros. Além de quadros digitais, ambientes
virtuais de aprendizagem e ferramentas digitais vêm transformando contextos
educacionais em ecologias heterogêneas de recursos tecnológicos e sociais (Luckin,
2008). Esse cenário tem fomentado a oferta de oportunidades de aprendizagem, tanto
dentro como fora da sala de aula envolvendo alunos e professores (Prieto, 2012).
Os estudos feitos por Muñoz (2015) mostram que a combinação perfeita de
recursos físicos e virtuais de aprendizagem constitui ecossistema heterógeno conhecido
como ambiente de aprendizagem ubíquo. Para Martinez (2013) os ambientes ubíquos
têm potencial para promover a colaboração em diferentes formas. Eles fornecem aos
usuários formas naturais de interagir com os colaboradores, tanto face-a-face quanto à
694
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
distância. Neste ponto, De Oliveira, Melo Filho e Gomes (2017) ressaltam que as
interações correspondem às experiências de aprendizagem e podem ser compreendidas
como qualquer interação compartilhada por indivíduos que atuam em um mesmo
ambiente social em busca do desenvolvimento do conhecimento.
Para Ogata et al. (2004) o termo ambiente u-learning refere-se a uma situação ou
cenário de aprendizagem a partir da utilizaçao de dispositivos e tecnologia móvel, que
levam em consideraçao caracteristicas particulares dos aprendizes. Para Dede (2004), a
aprendizagem ubíqua deve envolver uma mistura orquestrada de interações presencias e
virtuais, muitas vezes centradas num modelo de comunidades de aprendizagem. No
entanto, a extensão de espaços de aprendizagem além da sala de aula gera desafios
adicionais de orquestração para os professores (Muñoz, 2015). Pietro (2012) ratifica
essa situação devido à complexidade das estruturas e atividades sociais envolvidas no
processo pedagógico colaborativo. Inclusive, quando se trata do gerenciamento de
interações.
Nesse novo quadro, percebe-se que o desafio é como a tecnologia pode apoiar a
prática docente (planejamento, execução e monitoramento) de situações de
aprendizagem em cenários ubíquos. Embora haja um interesse crescente na orquestração
de u-learning, ainda há uma escassez de estudos sobre o apoio prestado por sistemas à
orquestração de situações de aprendizagem em espaços ubíquos (Muñoz, 2015).
O uso crescente de diferentes experiências de aprendizagem viabilizadas pelas
tecnologias tem refletido e proporcionado mudanças nas práticas de como ensinar,
criando novos paradigmas para a educação, onde o aluno por sua vez, passa ter acesso a
uma série de recursos e conteúdos independentes do tempo e espaço. Balacheff et al.
(2009) acrescenta que o aprendiz pode aproveitar esses recursos para criar ambientes de
aprendizagem que conseguem ser enriquecidos, flexíveis e escaláveis quando
comparados à sala de aula tradicional.
Em suas pesquisas Dillenbourg et al., (2009) procura compreender o
paradigma do ecossistema educacional ao introduzir o conceito de orquestração. O
autor alerta que definir a orquestração de aprendizagem não é uma tarefa simples, uma
vez que envolve a coordenação de uma multiplicidade de atividades, níveis sociais,
contextos e meios de comunicação. Segundo Muñoz (2015) há na literatura várias
abordagens que podem auxiliar os professores em alguns aspectos da orquestração.
Algumas propostas incluem funcionalidades para ajudar na avaliação de estudantes ou
auxiliar na gestão das atividades sugeridas pelos professores. O autor revela que a
maioria das abordagens existentes propõe sistemas projetados para suportar um tipo
específico de situação ou atividade de aprendizagem.
O presente trabalho está organizado em seções. A seção 2 apresenta o estado da
arte sobre orquestração e u-learning. Na seção 3 discute a perspectiva sobre a
orquestração em cenários de u-learning. A seção 4 apresenta o método de pesquisa, bem
como os resultados esperados. As considerações finais são vistas na seção 5.
695
XXXVII Congresso da Sociedade Brasileira de Computação
2. Estado da Arte
696
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
697
XXXVII Congresso da Sociedade Brasileira de Computação
4. Discussão
Entre as limitações, percebe-se que o ecossistema educacional composto pelas
tecnologias emergentes pode contribuir para diminuir obstáculos existentes no ambiente
698
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
5. Considerações Finais
Este trabalho teve como objetivo explorar a literatura sobre o entendimento relacionado
às orquestrações de experiências de aprendizagem em ambientes de aprendizagem
ubíqua. Da mesma forma, identificar oportunidades para discussão na comunidade
acerca de trabalhos futuros e incentivar, a partir deste estudo, o desenvolvimento de
estratégias relacionadas ao tema abordado.
É importante ressaltar que existem na literatura inúmeras pesquisas relacionadas
ao conceito de orquestração, mas são poucas referente a u-learning. Vale ressaltar que a
adaptabilidade e a flexibilidade, em cenários ubíquos, são pontos chaves para um
melhor entendimento sobre as interações que ocorrem em busca da construção do
conhecimento.
Por fim, os trabalhos futuros tangem na compreensão das situações de
aprendizagem dentro e fora da sala de aula da mesma forma que busca a criação de
699
XXXVII Congresso da Sociedade Brasileira de Computação
6. Agradecimentos
Izautino V. P. de Oliveira é aluno bolsista, nível doutorado, apoiado pela Fundação de
Amparo a Ciência e Tecnologia de Pernambuco – FACEPE | Processo Nº PBPG-1007-
1.03/16.
Referências
Balacheff, N., Ludvigsen, S., De Jong, T., Lazonder, A., Barnes, S. A., & Montandon,
L. Technology-enhanced learning. Berlin: Springer, 2009.
Brito, J. A.; Monteiro, B.; Gomes, A. S.; Amorim, R.J.R; Seixas, L. R.; Melo Filho, I. J.
Aprendizagem Significativa Ubíqua: Práticas Educativas no Contexto Urbano. In:
CISTI'2017 - 12th Iberian Conference on Information Systems and Technologies,
Lisboa/Potugal. 2017.
Seixas, L. R. ; Melo Filho, I. J. ; Gomes, A.S. . Discussão sobre a Adaptabilidade em
Ambientes U-learning baseada em Estilos de Aprendizagem. Anais do XXXVI
Congresso da Sociedade Brasileira de Computação - DesafIE - 4o Workshop de
Desafios da Computação aplicada à Educação. Porto Alegre/RS: Copyright ©
2016 da Sociedade Brasileira de Computação, 2016. v. I. p. 626-635.
De Oliveira. I. V. P.; Melo Filho, I. J.; Brito, J. A.; Gomes, A. S. Orquestração de
Aprendizagem em Cenários de DLEs. In: CISTI'2017 - 12th Iberian Conference on
Information Systems and Technologies. Lisboa/Potugal. 2017.
Dede, C. Enabling Distributed-Learning Communities via Emerging Technologies.
Proceedings of the 2004 Conference of the Society for Information Technology
in Teacher Education (SITE), pp. 3-12. Charlottesville, VA: American Association
for Computers in Education, 2004.
Dillenbourg, Pierre; JÄRVELÄ, Sanna; FISCHER, Frank. The evolution of research on
computer-supported collaborative learning. In: Technology-enhanced learning.
Springer Netherlands, 2009.
Entwistle, Noel J.; PETERSON, Elizabeth R. Conceptions of learning and knowledge in
higher education: Relationships with study behaviour and influences of learning
environments. International Journal of Educational Research, v. 41, n. 6, p. 407-
428, 2004.
Martinez-Maldonado, Roberto, et al. Integrating orchestration of ubiquitous and
pervasive learning environments. Proceedings of the 25th Australian Computer-
Human Interaction Conference: Augmentation, Application, Innovation,
Collaboration. ACM, 2013.
700
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Muñoz Cristóbal, J.A., Jorrín Abellán, I.M., Asensio Pérez, J.I., Martínez Monés, A.,
Prieto Santos, L.P., Dimitriadis, Y. Supporting Teacher Orchestration in Ubiquitous
Learning Environments: A Study in Primary Education. IEEE Transactions on
Learning Technologies, 2015.
Nussbaum, M., & Diaz, A. Classroom logistics: integrating digital and non-digital
resources. Computers & Education, 2013.
Ogata, H. & Yano, Y. PERKAM: Personalized Knowledge Awareness Map for
Computer Supported Ubiquitous Learning. Educational Technology & Society,
vol.10, no.3, pp.122-134, 2007.
Prieto, Luis Pablo et al. Supporting orchestration of blended CSCL scenarios in
Distributed Learning Environments. 2012.
Prieto, Luis. et al. Supporting orchestration of CSCL scenarios in web-based
Distributed Learning Environments. Computers & Education, v. 73, p. 9-25, 2014.
Luckin, Rosemary. The learner centric ecology of resources: A framework for using
technology to scaffold learning. Computers & Education, v. 50, n. 2, p. 449-462,
2008.
Roschelle, Jeremy; Dimitriadis, Yannis; Hoppe, Ulrich. Classroom orchestration:
synthesis. Computers & Education, 2013.
Tchounikine, P. Clarifying design for orchestration: orchestration and orchestrable
technology, scripting and conducting. Computers & Education, 2013.
701
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. With the technology evolution, there was a meaningful increase of data
volume in Web and of user’s number, which occasioned in a big challenge the
precision, efficiency and speed in the search and recovery of desired
information. In the education context, the e-learning and the usage of
audiovisual contents has been become popular and the size of data collections
with these content types is growing. Hence it is necessary an efficient way to
structure and organize these contents according to its meaning semantic.
Therefore, the goal of this paper is to discuss about the challenges on semantic
utilization to provide the process of search and retrieval information in the
audiovisual educational contents.
1. Introdução
Com a evolução tecnológica, houve um aumento significativo do volume de dados
presentes na Web e do número de usuários, acarretando em um grande desafio, a rapidez,
precisão e eficiência na localização e recuperação da informação desejada. Isso porque a
busca e recuperação considerando essa grande quantidade e diversidade de dados e de
usuários demandam uma forma eficaz de descrição e organização desses conteúdos Web,
o que torna necessário um entendimento sobre as informações contidas nesses conteúdos.
A maior parte dos conteúdos digitais foi construída para a compreensão de
humanos, não de softwares e isso faz com que a maioria das informações se torne
inacessível pelos usuários. Assim, no início dos anos 1980, para melhorar a interação
entre humanos e computadores surgiu a área de Interação Humano Computador (IHC),
inicialmente como uma área de especialização em ciência da computação abrangendo
ciência cognitiva e engenharia de fatores humanos (Carroll, 2012). Ainda nessa direção,
em 2001, foi idealizada a Web Semântica ou Web dos Dados Conectados, como uma
extensão da Web na qual a informação possui um significado bem definido e proporciona
702
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
703
XXXVII Congresso da Sociedade Brasileira de Computação
2. Revisão da Literatura
O estudo de Wong e Reimann (2009) evidencia que há várias pesquisas com ênfase em
experiências de utilização de conteúdos audiovisuais da Web, as quais apontam para a
melhoria na interação dos usuários, reflexão colaborativa e aprendizagem. Mostra ainda
que esses conteúdos estão sendo largamente utilizados na área educacional e, em
decorrência, os bancos de dados desses vídeos crescem rapidamente (Wong e Reimann,
2009; Rawat, Bhatt e Kankanhalli, 2014). Localizar e recuperar informações em uma
grande quantidade de dados, estejam eles estruturados ou não, tem sido desafiador. Muitos
órgãos empresariais, governamentais e instituições de pesquisas têm investido no
processamento de uma quantidade maciça de dados, porém, refletindo sobre os interesses
dos usuários, a maior parte dos dados possuem informações que não lhes estão acessíveis.
Dessa forma, é preciso tecnologias e ferramentas que sejam capazes de processar,
transformar e analisar os dados, na direção de encontrar informações que possam ser
recuperadas (Chakraborty, Padki e Bansal, 2017). Essa necessidade tem sido foco de
estudos que abarcam sobre a utilização de semântica nesse processo, mais
especificamente, para a incorporação de metadados nos conteúdos audiovisuais com o
objetivo de facilitar o acesso às informações neles contidas.
Dong et. al. (2015) apresentam um algoritmo para a sumarização automática de
vídeos com base no seu processamento, combinando a detecção das principais
características visuais como faces humanas, cores e texturas com indicadores semânticos
derivados dessas informações visuais e de texto. Em relação a anotação de segmentos de
vídeos, Chamasemani et. al. (2015) e Yu, Cai e Liu (2016) trazem em seus estudos
métodos para extrair as principais características das imagens contidas em um vídeo,
selecionar os principais quadros e anotar esses quadros automaticamente utilizando
conceitos semânticos e aprendizado de máquina. Já o estudo de Chou, Chen e Lee (2017)
mostra um método que utiliza Deep Learning para efetuar a anotação automática de um
vídeo, criando uma hierarquia de segmentação e utilizando características visuais
similares, juntamente com palavras-chave semânticas, com a finalidade de agrupar os
vídeos em clusters semânticos e, consequentemente, facilitar a recuperação de vídeos
semelhantes.
Em relação aos trabalhos no âmbito educacional, a pesquisa de Rawat, Bhatt e
Kankanhalli (2014) utiliza conceitos semânticos visuais e aprendizado de máquina para
segmentar e anotar automaticamente vídeos de palestras com informações sobre o modo
de ensinar do professor. Já o trabalho de Yang e Meinel (2014) concentra-se em uma
abordagem que utiliza o áudio e textos presentes nos vídeos para extrair informações
automaticamente. A investigação de Borges (2016), apesar de utilizar anotação semântica
manual, mostra como a incorporação de metadados semânticos em conteúdos
audiovisuais educacionais auxilia na melhoria dos processos de localização, recuperação
e reutilização de informações neles contidas em um Portal Semântico Educacional.
Belizário Júnior e Dorça (2016) apresentam um modelo que considera um programa de
curso e mapeia suas seções em conceitos representados em ontologias para realizar a
busca inteligente de objetos de aprendizagem e sua recomendação de acordo com os
estilos cognitivos e de aprendizagem dos estudantes. Mendes et. al. (2016) anunciam uma
proposta de agrupamento de conteúdos em grandes repositórios, visando facilitar e
auxiliar o processo de recomendação de conteúdos referentes a estilos de aprendizagem
de alunos.
704
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
705
XXXVII Congresso da Sociedade Brasileira de Computação
706
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
dados semânticos apropriado. Além disso, a acurácia nesse processo ainda depende da
utilização de técnicas de processamento de imagem e aprendizado de máquina adequadas
para que, não só ocorra a extração satisfatória de informações de um novo conteúdo, mas
também uma atualização das informações dos conteúdos já existentes na base de dados
fundamentada no aprendizado sobre os novos dados que estão sendo salvos.
Por fim, realizar todo esse processamento para localizar e recuperar informações
em uma grande quantidade de conteúdos educacionais audiovisuais utilizando semântica
pode demandar muito tempo, o que consiste em outro grande desafio, pois os recursos de
hardware são limitados. Isto significa que muitas vezes a qualidade do processo fica
prejudicada para não comprometer a experiência do usuário, principalmente na facilidade
de acesso à informação.
Conforme mostrado nesta seção, apesar de existirem estudos sobre técnicas,
metodologias e ferramentas para a localização e recuperação de informação em conteúdos
audiovisuais, ainda são muitos os problemas em aberto que merecem a atenção de
investigações futuras para que ocorram avanços nessa área. Dessa forma, a seção seguinte
apresenta alguns desses problemas e possibilidades para reflexões sobre esses desafios.
707
XXXVII Congresso da Sociedade Brasileira de Computação
5. Conclusões
Este estudo evidenciou o cenário atual das pesquisas sobre a utilização de ferramentas e
conceitos da semântica para localizar e recuperar informações em conteúdos educacionais
audiovisuais. Além disso, contribuiu com propostas para avanços no emprego da
semântica nos processos de reconhecimento das informações presentes em conteúdos
educacionais audiovisuais, anotação semântica automática em seus segmentos e
estabelecimento de modelos generalizáveis para a recuperação da informação de um
conteúdo a partir de características e comportamentos do usuário. Nessa direção, espera-
se que esta investigação possa servir de subsídio para reflexões e discussões sobre a
indexação e recuperação semântica de informações em conteúdos educacionais
audiovisuais.
Referências
Belizário Júnior, C. F., e Dorça, F. A. (2016) “Uma Abordagem para a Recomendação
Inteligente de Conteúdo Web na Criação de Materiais e Objetos de Aprendizagem”.
ANAIS DO CSBC 2016, 5 DesafIE!, PUCRS.
Berners-Lee, T.; Hendler, J.; Lassila, O. (2001). “The Semantic Web - A new form of
Web content that is meaningful to computers will unleash a revolution of new
possibilities”. [S.l.: s.n.],. 34+ p. ISSN 0036-8733.
Borges, P. R. S. (2016). “Incorporação e recuperação de metadados semânticos em vídeos
educacionais”. 110 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade
Presbiteriana Mackenzie, São Paulo, 2016.
Carrol, J. M. “Human Computer Interaction - brief intro”. In: Soegaard, Mads, and Rikke
Friis Dam. "The Encyclopedia of Human-Computer Interaction." The Encyclopedia of
Human-Computer Interaction (2012).
Chakraborty, J. Padki, A. e Bansal, S. K. (2017) "Semantic ETL — State-of-the-Art and
Open Research Challenges," 2017 IEEE 11th International Conference on Semantic
Computing (ICSC), San Diego, CA, USA, pp. 413-418.
Chamasemani, F. F. , Affendey, L. S., Mustapha, N. e Khalid, F. (2015). “Automatic
Video Annotation Framework Using Concept Detectors”. Journal of Applied Sciences,
15: 256-263.
708
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
709
XXXVII Congresso da Sociedade Brasileira de Computação
ig.ibert@ic.ufal.br, sisotani@icmc.usp.br
Abstract. This article aims to discuss the challenge of the quality of the Brazi-
lian scientific research in Computers in Education. Initially, we present the cur-
rent research scenario as a way of identifying factors that determine the quality
and national and international impact of the research in the area. Afterwards,
we propose some actions to be accomplished by the Brazilian Special Commis-
sion on Computers in Education to promote improvements. These actions are
organized in four axes: (i) Curate a history of the area of Computers in Edu-
cation in Brazil, including public policy initiatives and stories of success and
failure; (ii) Rationale of the concepts and terminologies of the area of Compu-
ters in Education; (iii) Advancement and Dissemination of the state of the art
and practice in the area of Computers in Education; (iv) Dissemination and
evolution of research methods in Computers in Education. Finally, to verify the
impact of the proposed actions on the quality of Brazilian research in Compu-
ters in Education, we propose some metrics, which will allow a quantitative and
objective analysis of the impact of the proposed actions.
710
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
1. Introdução
A pesquisa cientı́fica brasileira tem motivos para comemorar. Nas três últimas décadas, o
paı́s teve seu número de artigos cientı́ficos publicados ampliado. Passou de 2.000 artigos
por ano em 1981 para 40.500 em 2014 [Oliveira 2016]. Este resultado fez com que a
posição mundial do Brasil subisse de 23o para 13o , em se tratando de número de artigos
publicados, posicionando o paı́s como lı́der da américa latina [Cruz 2013].
No entanto, esse papel central contrasta com o baixo impacto (número de citações)
e visibilidade (publicações em periódicos de prestı́gio internacional) das publicações ci-
entı́ficas brasileiras [Leta et al. 2013], que chega a ser menor do que alguns paı́ses latino-
americanos [Oliveira 2016]. Além disso, a ciência brasileira tem sido também criti-
cada pela sua baixa eficiência [Leite 2015], ou seja, o número de artigos publicados em
periódicos de alto prestı́gio internacional é muito baixo em relação ao investimento reali-
zado em pesquisa [Volpato 2015].
Mas como melhorar o impacto das publicações cientı́ficas? A publicação de tra-
balhos de grande impacto se deve a fatores como escolha de problemas cientı́ficos com
apelo, cientistas altamente qualificados, infraestrutura adequada e habilidade de comuni-
car os resultados cientı́ficos [Oliveira 2016, Volpato 2015].
Na área de Informática na Educação (IE) não é diferente. Para que os pes-
quisadores apresentem resultados cientı́ficos inovadores e de reconhecida qualidade ci-
entı́fica internacional é primordial que os autores conheçam o histórico e tenham uma boa
fundamentação da área, estando ainda por dentro do estado da arte e da prática em IE. É,
sobretudo, primordial que os trabalhos sigam rigorosa metodologia cientı́fica, propondo
questões de pesquisa para problemas originais e atuais e passando por um processo de
avaliação empı́rica que busque objetivamente mostrar o impacto da abordagem proposta
na aprendizagem, direta ou indiretamente, objetivo final da área de pesquisa em IE.
Observa-se, no entanto, que embora a IE tenha mais de 40 anos no Brasil, mui-
tas pesquisas desenvolvidas na área ainda possuem problemas conceituais, apresentação
superficial e inadequada do estado da arte e/ou da prática, bem como algumas limitações
metodológicas. O Simpósio Brasileiro de Informática na Educação (SBIE) é a principal
conferência nacional na área. Em uma revisão sistemática organizada por Magalhães et
al. [Magalhães et al. 2013] dos artigos publicados neste simpósio, verificou-se que, dos
835 artigos publicados entre os anos de 2000 a 2010, apenas 29% apresentaram alguma
avaliação empı́rica, seja ela qualitativa (estudo de caso, pesquisa-ação etc) ou quantitativa
(experimentos ou quasi-experimentos), embora, os autores relatem um aumento progres-
sivo da quantidade de artigos com avaliações nas últimas edições do evento.
A Comissão Especial de Informática na Educação (CEIE)1 da SBC tem bus-
cado entender o porquê desses resultados. Uma primeira questão é que embora a área
de pesquisa de IE seja inerentemente inter/transdisciplinar, a pesquisa em informática
na educação acontece essencialmente em Programas de Pós-Graduação (PPGs) que são
voltados a áreas especı́ficas. Por exemplo, geralmente, as universidades brasileiras pos-
suem PPGs em Computação e/ou Educação isolados. Esses programas são avaliados
essencialmente pelas qualidades das publicações, segundo o sistema Qualis, que possui
classificação por área, atendendo a critérios especı́ficos desta área. Esse cenário não in-
1
http://ceie-br.org
711
XXXVII Congresso da Sociedade Brasileira de Computação
712
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
brasileira na área de IE, propomos métricas, descritas na Seção 3, o que possibilitará uma
análise quantitativa e objetiva dos resultados alcançados.
713
XXXVII Congresso da Sociedade Brasileira de Computação
714
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
4. Conclusão
A pesquisa brasileira fez avanços significativos nas últimas três décadas em relação ao
número de artigos publicados, se posicionando como lı́der na américa latina. No entanto,
em se tratando do impacto e visibilidade dessas publicações, assim como da eficiência
do investimento em pesquisa, o Brasil está atrás de até mesmo vários paı́ses latino-
americanos [Oliveira 2016, Volpato 2015]. Essa situação não é diferente na comuni-
dade de pesquisa em Informática na Educação, cujos artigos nos principais veı́culos de
divulgação cientı́fica nacionais mostram falhas metodológicas [Magalhães et al. 2013]. A
questão é então como aumentar o impacto das publicações cientı́ficas brasileiras na área
de IE?
Para que a publicação tenha impacto é essencial que apresente resultados ci-
entı́ficos inovadores e de reconhecida qualidade cientı́fica internacional. Para tanto, é
primordial que os trabalhos sigam rigorosa metodologia cientı́fica, propondo questões
de pesquisa para problemas originais e atuais e passando por um processo de avaliação
empı́rica que busque objetivamente mostrar se os objetivos foram atingidos.
Assim, acreditamos que melhorar o impacto da qualidade da pesquisa em IE é
essencial para melhorarmos o seu impacto internacional e também para melhorar a sua
715
XXXVII Congresso da Sociedade Brasileira de Computação
contribuição real à educação brasileira. Esse é um desafio que somente pode ser resolvido
através de ações que busquem promover a qualidade cientı́fica na comunidade brasileira
de pesquisadores. Dessa forma, propomos algumas ações que acreditamos que podem ser
promovidas no âmbito da CEIE, com apoio da comunidade de IE no Brasil, de forma a
criar uma cultura de valorização da qualidade da pesquisa, assim como promover o conhe-
cimento conceitual e metodológico cientı́fico aplicado à área de Informática na Educação.
Apenas com o esforço conjunto de amadurecimento da pesquisa em IE no Brasil, con-
seguiremos efetivamente promover a democratização da Informática na Educação, bem
como ter impacto e relevância no cenário internacional.
Referências
Cruz, C. H. B. (2013). A busca pela excelência nas universidades no Bra-
sil. http://www.fapesp.br/eventos/2014/01/Excellence/
excellence-in-higher-ed-chbc20140122.pdf. Acessado em 28
de fevereiro de 2017.
Greer, J. and Mark, M. A. (2016). Evaluation Methods for Intelligent Tutoring Systems
Revisited. International Journal of Artificial Intelligence in Education, 26(1):387–392.
Leite, R. C. C. (2015). Produção cientı́fica e lixo acadêmico no Brasil. Folha de
São Paulo, jan., A3, http://www1.folha.uol.com.br/fsp/opiniao/
202892-producao-cientifica-e-lixo-academico-no-brasil.
shtml. Acessado em 6 de abril de 2017.
Leta, J., Thijs, B., and Glänzel, W. (2013). A macro-level study of science in Brazil:
seven years later. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da
informação, 18(36).
Magalhães, C. V. C., Santos, R. E., Da Silva, F. Q. B., and Gomes, A. S. (2013). Caracteri-
zando a Pesquisa em Informática na Educação no Brasil: Um Mapeamento Sistemático
das Publicações do SBIE. In XXIV Simpósio Brasileiro de Informática na Educação.
SBC/CEIE.
Mark, M. A. and Greer, J. E. (1993). Evaluation methodologies for intelligent tutoring
systems. Journal of Artificial Intelligence and Education, 4(2/3):129–153.
Oliveira, O. N. (2016). Research Landscape in Brazil: Challenges and Opportunities. The
Journal of Physical Chemistry C, 120(10):5273–5276.
Volpato, G. (2015). Guia Prático Para Redação Cientı́fica. Best Writing, 1 edition.
Wazlawick, R. S. (2009). Metodologia de Pesquisa para Ciência da Computação. Cam-
pus.
716
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
1. Contexto
O atual cenário mundial, o qual tem sido marcado por rápidas mudanças tecnológicas e constante
redefinição de normas sociais, econômicas e políticas, têm impactado diversos aspectos associados
à aprendizagem. É improvável pensar que a aquisição de conhecimento e desenvolvimento de
habilidades aconteçam apenas dentro de ambientes formais, tais como escolas e universidades
[Valente 2001]. Portanto, sistemas educacionais e de formação, bem como modelos de
aprendizagem, devem se adaptar para responder aos anseios da sociedade do conhecimento.
A ideia de Aprendizagem Continuada ou Aprendizagem ao Longo da Vida (ALV), do inglês
lifelong learning, tem sido utilizada, por exemplo, para caracterizar estratégias que promovam nos
indivíduos a busca permanente, autônoma e rápida por novos conhecimentos, desenvolvimento de
habilidades, competências, valores e atitudes, em qualquer fase de suas vidas [Valente 2001, Alheit
and Dausien 2006]. Entretanto, fazer isso acontecer na prática requer das pessoas a aquisição e,
posteriormente, a manutenção de competências e habilidades que se inter-relacionam, tais como
metacognição, aprendizagem colaborativa, autorregulação da aprendizagem, resolução de
problemas, criatividade e motivação intrínseca, dentre outras. Em outras palavras, isso significa
aprender a desenvolver uma postura que favoreça um engajamento em adquirir e aplicar
conhecimento, maior consciência dos próprios caminhos de estudo e aprendizagem, e demanda
717
XXXVII Congresso da Sociedade Brasileira de Computação
718
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
intuito de promover mudanças na sociedade, tornando-a mais sustentável, inclusiva, bem como
econômica e culturalmente mais desenvolvida. No Brasil, sob o ponto de vista político, grande parte
das ações ainda estão voltadas para grupos específicos da sociedade, tais como a Formação
Continuada de Professores4, repositório de objetos de aprendizagem5 e inclusão social6.
Já sob o ponto de vista da Pesquisa e Desenvolvimento (P&D), o quarto grande desafio da
Sociedade Brasileira de Computação7, definido como “Acesso participativo e universal do cidadão
brasileiro ao conhecimento”, busca incentivar o desenvolvimento tecnológico e sua aplicação em
prol do acesso universal ao conhecimento. Nesse contexto, é preciso considerar que a ALV requer
abordagens tecnológicas holísticas, capazes de apoiar indivíduos de diversas culturas e valores, com
diferentes necessidades, estilos de aprendizagem, formação acadêmica e experiências profissionais.
Isso se torna desafiador por alguns motivos: (i) é preciso compreender as teorias e fundamentos
relacionados ao contexto no qual a ALV surgiu e vem se desenvolvendo, a fim de nortear o
desenvolvimento de conteúdos e tecnologias digitais adequadas; (ii) tais conteúdos e tecnologias
digitais devem ser projetados para facilitar a ALV e apoiar a criação de oportunidades de
aprendizagem formais, não-formais e informais para pessoas de qualquer idade e contexto social;
(iii) questões éticas, culturais e sociais também precisam ser consideradas, bem como as diferenças
e necessidades das diversas áreas e contextos de atuação, tais como educação continuada em saúde,
formação de professores, exatas, etc; (iv) são necessárias mudanças de pensamento sobre formas de
ensinar, aprender e avaliar a aprendizagem, e isso implica novas formas de apresentar o conteúdo,
adaptar estratégias de ensino para contextos virtuais e móveis, diferentes mecanismos para verificar
o conhecimento adquirido e as habilidades desenvolvidas com o uso do conteúdo ou tecnologia
digital, dentre outras.
3. Desafios no desenvolvimento de tecnologias computacionais para a ALV
Nesta seção, é discutido como a área de Computação vem contribuindo para a ALV, destacando as
principais lacunas de investigação de duas linhas principais que têm sido exploradas pelo grupo de
pesquisa: i) a elaboração de módulos educacionais (Recursos Educacionais Abertos) e ii) o projeto
e desenvolvimento de ambientes de apoio ao ensino e à aprendizagem (Cursos Abertos Online e
Massivos e Aprendizagem Móvel).
Módulos educacionais podem ser compreendidos como sendo unidades concisas de estudo,
compostas por conteúdos teóricos integrados a atividades práticas e avaliações, cuja disponibilização
aos aprendizes é apoiada por recursos tecnológicos e computacionais [B 2014]. Um exemplo são os
Recursos Educacionais Abertos (REAs), definidos como materiais de ensino, aprendizagem e
pesquisa em qualquer suporte ou mídia, sob domínio público ou licenciados de maneira aberta,
permitindo que sejam utilizados ou adaptados por terceiros [UNESCO, 2011]. Eles têm buscado
padronizar os conteúdos educacionais disponibilizados de maneira livre e aberta por meio da Internet
e, por conta disso, têm recebido uma atenção especial nos últimos anos [B 2011].
Apesar dos benefícios que REAs podem agregar à educação, existem alguns desafios que
podem dificultar a ALV que valem ser destacados: i) promover a utilização dos REAs para
4
http://portal.mec.gov.br/formacao
5
http://portaldoprofessor.mec.gov.br/index.html
6
http://portal.mec.gov.br/secretaria-de-educacao-continuada-alfabetizacao-diversidade-e-inclusao/programas-e-acoes
7
http://www.sbc.org.br/documentos-da-sbc/category/141-grandes-desafios
719
XXXVII Congresso da Sociedade Brasileira de Computação
8
Do inglês Massive Open Online Courses.
9
http://timtec.com.br/pt/funcionalidades/
10
https://edu.google.com/openonline/index.html
11
https://www.coursera.org
12
https://miriadax.net/cursos
720
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
da bateria, tamanho das telas e dos teclados, cobertura da rede móvel, banda estreita e alto custo de
acesso [Al-Ani, Hameed and Faisal 2013; Huang, Yen-Ting and Shu-Chen 2010; Picek and Matija
2013]. Já as limitações não técnicas incluem a dificuldade dos indivíduos em iniciar com a
tecnologia dos dispositivos móveis, a falta de motivação de estudar fora do ambiente de ensino
formal, bem como uma diversidade de recursos nos dispositivos que podem distrair o usuário
facilmente. Algumas iniciativas têm sido investigadas e aplicadas para mitigar estas limitações, tais
como o desenvolvimento e validação de arquiteturas de referência e arquiteturas de software que
apoiem o projeto e desenvolvimento de ambientes educacionais móveis, bem como ambientes
educacionais móveis funcionais desenvolvidos com base nessas arquiteturas [Fioravanti et al. 2017],
desenvolvimento e validação de linhas de produto de software que apoiem o projeto e
desenvolvimento de aplicações educacionais móveis [Falvo Júnior et al. 2014; MB 2017] e a
proposição de frameworks para aprendizagem móvel considerando o contexto de ALV [Nordin,
Embi and Yunus 2010].
721
XXXVII Congresso da Sociedade Brasileira de Computação
modelos e abordagens pedagógicas que se adequem à filosofia ALV; (iv) investigar e desenvolver
mecanismos de avaliação e garantia de qualidade específicos para REAs; (v) promover a utilização
de técnicas das áreas de Engenharia de Software e IHC (Interação Humano-Computador) para
avaliação de usabilidade e acessibilidade dos REAs, com foco em diferentes tipos de usuários; (vi)
investigar e desenvolver repositórios acessíveis e mecanismos de busca eficientes para facilitar a
descoberta e o reúso de REAs; (vii) investigar e propor modelos de negócio sustentáveis para REAs;
(viii) fomentar a inserção da cultura digital e das TICs nas escolas e universidades; e (ix) promover
a adoção de software livre e conteúdos abertos por meio de cursos e palestras.
Adicionalmente, no contexto de MOOCs, (i) desenvolver e validar frameworks de apoio à
construção de mapas de aprendizagem pautados em uma visão holística e integrada dos principais
elementos ligados às metodologias ativas de ensino aprendizagem, colaboração, autorregulagem da
aprendizagem, metacognição, avaliação contextualizada, criatividade e inovação; (ii) desenvolver
ou adaptar plataformas de MOOCs que incluam recursos que permitam novas formas de avaliação
dos estudantes, bem como suportem diferentes estratégias pedagógicas; (iii) desenvolver novas
arquiteturas de plataformas que possibilitem a personalização de caminhos de aprendizagem
continuada, integrando experiências formais, não-formais e informais, tal como discutido em
[Karoudis and Magoulas 2017]. Tais arquiteturas devem agregar fundamentos validados de modelos
pedagógicos já existentes e prover facilidade de inclusão de novas ideias a partir de pedagogias
emergentes.
Já no âmbito da aprendizagem móvel, (i) propor padrões e/ou linguagens de padrões que
forneçam subsídios para a definição de requisitos pedagógicos tanto de ambientes quanto de
aplicações móveis educacionais; (ii) criar diretrizes para a produção de conteúdo para aplicações
educacionais móveis; (iii) investigar questões de acessibilidade, usabilidade e segurança nas
aplicações educacionais móveis; (iv) estímulo a docentes e tutores para utilizar a aprendizagem
móvel como ferramenta de apoio.
5. Avaliação das Ações e Resultados
Definir formas de avaliar intervenções nesse contexto poderia ser considerado um desafio a ser
investigado, devido à complexidade e dificuldade em definir quantitativamente os impactos das
mudanças na sociedade como um todo. Ainda assim, a fim de avaliar os resultados das ações de
pesquisa e desenvolvimento para resolver, ou ao menos minimizar, o desafio proposto neste
trabalho, sugere-se: (i) monitorar e avaliar o impacto do uso de tecnologia no apoio à ALV sob o
ponto de vista do desenvolvimento social, cultural e econômico das sociedades relacionadas; (ii)
definir critérios que facilitem a avaliação desse impacto sobre o nível e qualidade do conhecimento
adquirido, bem como habilidades desenvolvidas pelo aprendiz; e (iii) analisar os incentivos e
políticas públicas para o fomento de projetos nesse contexto. Adicionalmente, dados quantitativos
podem ser utilizados, tais como análise da produção científica da área, eventos específicos, livros e
softwares.
722
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
ou situação, têm sido objeto de pesquisas acadêmicas e projetos sócio-políticos ao redor do mundo,
há mais de duas décadas. Entretanto, considerando a complexidade dessa abordagem, o seu impacto
para a transformação de uma sociedade, as mudanças tecnológicas, sociais e diversos fatores que
afetam sua efetividade, podemos pontuar que ações de investigação nesse contexto estão longe de
serem total e amplamente exploradas. Este artigo buscou fomentar esse debate por meio da
apresentação de algumas lacunas atuais da ALV que ainda podem ser minimizadas com o uso da
computação. Foram elencados, também, os desafios correntes da computação, especificamente nas
linhas de elaboração de módulos educacionais e desenvolvimento de ambientes de apoio ao ensino
e aprendizagem. Reflexões sobre possíveis soluções para tais problemas e formas de avaliar seu
impacto também foram destacadas.
7. Agradecimentos.
Os autores agradecem o suporte financeiro das agências brasileiras de fomento (FAPESP,
FAPEMIG, CAPES e CNPq) e do Instituto Federal de Educação, Ciência e Tecnologia do Sul de
Minas Gerais - IFSULDEMINAS.
8. Referências
Al-Ani, M. F.; Hameed, S. M. and Faisal, L. (2013) "Students' perspectives in adopting mobile
learning at university of bahrain." e-Learning" Best Practices in Management, Design and
Development of e-Courses: Standards of Excellence and Creativity".
Alheit, P. and Dausien, B. (2006) Processo de formação e aprendizagens ao longo da vida. Educação
e Pesquisa, v. 32, n. 1.
Arimoto, M. M.; Barroca, L. and Barbosa, E. F. (2016) “AM-OER: An Agile Method for the
Development of Open Educational Resources”, Informatics in Education, v. 15, n. 2 p. 205-233.
Arimoto, M. M.; Barroca, L. and Barbosa, E. F. (2015) “An agile learning design method for open
educational resources”, In: 2015 IEEE Frontiers in Education Conference (FIE).
Barbosa, E. F.; Maldonado, J. C. (2011) “Collaborative development of educational modules: A
need for lifelong learning”, E-Infrastructures and Technologies for Lifelong Learning: Next
Generation Environments–G. D. Magoulas. (Org.), p. 37.
Barbosa, E. F. (2014) “Módulos Educacionais e Ambientes de Ensino e Aprendizagem:
Contribuições e Perspectivas”, Texto de Livre Docência, USP, São Carlos.
Camilleri, A. F.; Ehlers, U. D. and Pawlowski, L. (2014) “State of the art review of quality issues
related to open educational resources”, Technical report.
Chauhan, A. (2014) “Massive open online courses: Emerging trends in assessment and
accreditation”, Digital Education Review, n. 25.
Demirel, M. and Akkoyunly, B. (2017) “Prospective teachers lifelong learning tendencies and
information literacy self-efficacy”, Educational Research and Reviews, v. 12, p. 329-337.
Dinevski, D. (2008) “Open educational resources and lifelong learning”, 30th International
Conference on Information Technology Interfaces, Croatia, pp. 117 - 122.
723
XXXVII Congresso da Sociedade Brasileira de Computação
724
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Abstract. In Brazil, the main strategy for basic education assessment consists
in standardized tests, especially those applied by the Basic Education
Assessment System (SAEB). However, many researchers criticize the use of
this strategy as the only means to diagnose the quality of Brazilian public
schools, pointing out, among other limitations, its sparse periodicity. In this
context, this paper proposes as a challenge the conception and validation of
new evaluation mechanisms, able to provide information about students'
performance in real time, through a computational approach based on
Learning Analytics and Educational Data Mining (EDM) techniques.
1. Introdução
Nos últimos anos, a estratégia de avaliação e acompanhamento da qualidade da
educação básica no Brasil tem consistido majoritariamente na aplicação de exames
padronizados em larga escala, com periodicidade anual ou bianual (GATTI, 2009). Este
tipo de avaliação dos sistemas educacionais surgiu nos EUA a partir da década de 50,
725
XXXVII Congresso da Sociedade Brasileira de Computação
com a aplicação de testes em larga escala, e tem como marco a publicação, em 1966, do
Relatório Coleman, que pretendia estudar a segregação racial no sistema educacional
norte-americano (FERNANDES e GREMAUD, 2009). A partir de então, os resultados
deste tipo de avaliação tem sido utilizados em muitos países como um dos principais
instrumentos de fomento à cultura de accountability nas escolas, isto é, “um tipo de
política de responsabilização dos professores e gestores de escolas pelos resultados nas
avaliações externas” (ALAVARSE, 2015).
Embora esta estratégia de avaliação tenha contribuído para um melhor
entendimento das deficiências dos sistemas de ensino brasileiros (ALAVARSE et. al,
2013), diversos pesquisadores acreditam que mecanismos de avaliação complementares
são necessários, principalmente voltados para o acompanhamento diagnóstico e
longitudinal do desempenho dos discentes (Silva et. al., 2016; Esteban e Fetzner, 2015;
Travitzki, 2013; Fernandes e Gremaud, 2009; Franco, 2001).
Nesse sentido, a crescente adoção de Ambientes Virtuais de Aprendizagem
(AVAs) no ensino presencial – arranjo conhecido como ensino híbrido, ou b-learning –
pode viabilizar novas possibilidades para a avaliação da aprendizagem (WELLS et. al.,
2016). Estes ambientes são capazes de coletar e armazenar uma grande quantidade de
dados relacionados ao processo de ensino-aprendizagem, os quais podem ser usados
como insumos para a criação de mecanismos inovadores de avaliação e
acompanhamento dos discentes.
A partir deste contexto, este artigo propõe como desafio a concepção e validação
de novos mecanismos de avaliação em larga escala, capazes de oferecer a gestores e
professores informações sobre o desempenho escolar dos alunos de forma contínua e em
tempo real. Estes novos mecanismos fomentariam a adoção de uma cultura de avaliação
formativa em larga escala nas escolas brasileiras, sanando um dos principais problemas
do sistema de avaliação em larga escala atual: a falta de velocidade na detecção das
dificuldades de aprendizagem dos discentes.
O restante deste artigo está organizado da seguinte forma: a Seção 2 descreve a
história, características e limitações dos sistemas de avaliação em larga escala no Brasil,
a Seção 3 faz um apanhado dos trabalhos recentes que utilizam uma abordagem
computacional para auxiliar na avaliação da aprendizagem, a Seção 4 articula o desafio
proposto e sugere uma metodologia para ataca-lo e na Seção 5 são traçadas algumas
considerações finais.
726
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
1
http://portal.inep.gov.br/web/guest/educacao-basica/saeb
727
XXXVII Congresso da Sociedade Brasileira de Computação
estudo abrangente sobre este exame e alerta que “a supervalorização desses testes cria o
risco de colonização do cotidiano escolar pela razão instrumental, empobrecendo as
relações intersubjetivas e as práticas pedagógicas”.
Com base nas limitações expostas nesta seção, é possível perceber que há uma
carência por mecanismos de avaliação em larga escala que sejam contínuos, abrangentes
e diversificados. A próxima seção descreve trabalhos recentes da comunidade de
pesquisa em Ciência da Computação que se propõem a resolver problemas semelhantes.
728
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
2
OpenRedu – Rede Social Educacional. http://www.openredu.org
729
XXXVII Congresso da Sociedade Brasileira de Computação
5. Considerações Finais
Neste artigo, foi apresentada a estratégia atual de avaliação em larga escala da
educação básica brasileira, suas características e limitações. Foram mostradas também
algumas iniciativas na área da Ciência da Computação que propõem novos mecanismos
de avaliação da aprendizagem, amparados principalmente em dados provenientes de
AVAs. A partir deste contexto, foi proposto como desafio o desenvolvimento de novos
mecanismos de avaliação capazes de oferecer a gestores e professores informações
sobre o desempenho escolar dos alunos de forma contínua e em tempo real ― e não
apenas anualmente/bianualmente ― possibilitando assim a tomada de ações
pedagógicas imediatas para melhorar a qualidade do ensino e fomentar a cultura de
avaliação formativa nas escolas.
6. Agradecimentos
Raphael Dourado é bolsista de doutorado do CNPq, processo nº 140973/2017-6. Alex
Sandro Gomes é Pesquisador DTI Nível 2 CNPq nos processos 310.466/2012-1,
475634/2013-6 e 307202/2015-1. Esta pesquisa também é apoiada pela FACEPE APQ
0525-1.03/14.
Referências
ALAVARSE, O. M., BRAVO, M. H., & MACHADO, C.. Avaliações externas e
qualidade na educação básica: articulações e tendências. Estudos Em Avaliação
Educacional, 24(54), 12–31, 2013.
ALAVARSE, O. M. Avaliações externas e seus efeitos. Anais CAEM, USP, 2015.
BONK, Curtis J.; GRAHAM, Charles R. The handbook of blended learning: Global
perspectives, local designs. John Wiley & Sons, 2012.
BOUSBIA, Nabila; BELAMRI, Idriss. Which Contribution Does EDM Provide to
Computer-Based Learning Environments?. In: Educational data mining. Springer
International Publishing, 2014. p. 3-28.
CALDERS, Toon; PECHENIZKIY, Mykola. Introduction to the special section on
educational data mining. ACM SIGKDD Explorations Newsletter, v. 13, n. 2, p. 3-6,
2012.
CARVALHO, R. S et al. Discussão sobre as Tecnologias de Acompanhamento e
Avaliação da Aprendizagem no Blended Learning. In: Anais dos Workshops do
Congresso Brasileiro de Informática na Educação. 2014. p. 223.
ESTEBAN, Maria Teresa; FETZNER, Andréa Rosana. A redução da escola: a avaliação
externa e o aprisionamento curricular. Educar em Revista, p. 75-92, 2015.
730
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
731
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Vivemos em uma sociedade multicultural em que as relações entre as pessoas estão em
crescente transformação, majoritariamente impulsionadas, ou ao menos afetadas, pela
evolução e onipresença das tecnologias da informação e da comunicação (TIC). O
amplo acesso à informação e às diversas formas de comunicação tem criado
oportunidades para compartilhamento de informações e trocas culturais, que sem as TIC
dificilmente seriam possíveis.
No contexto educacional, novas oportunidades de trocas culturais também têm
impactado a maneira como se produz e consome conhecimento. A Web 2.0 (e suas
renumerações subsequentes) e o advento das redes sociais reverberam na educação
demandas por espaços de aprendizagem mais flexíveis e com participação ativa de todos
os agentes educacionais, exigindo o repensar das práticas de ensino e dos modelos
pedagógicos. Nessa direção, o Desafio 4 da SBC (2016), intitulado “Acesso
Participativo e Universal do Cidadão Brasileiro ao Conhecimento” destaca que “existem
barreiras tecnológicas, educacionais, culturais, sociais e econômicas, que impedem o
acesso e a interação”, prevendo a necessidade de se buscar “a extensão de sistemas
computacionais ao cidadão comum, em sua diversidade, respeitando suas diferenças”.
Nesse contexto, o recente movimento de Educação Aberta ganha impulso
sobretudo porque a essência de sua filosofia é quebrar as barreiras que limitam o acesso
732
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
733
XXXVII Congresso da Sociedade Brasileira de Computação
3. Trabalhos relacionados
Na pesquisa acerca de REA multiculturais, alguns autores têm defendido a ideia que
existem fatores que podem inibir ou prejudicar o acesso, ou ainda a apresentação de
conteúdos aos alunos. Outros, sabendo desses fatores, têm procurado estratégias para
representar soluções que podem dar suporte a múltiplas culturas em REA. A seguir são
apresentados alguns trabalhos que apresentam pesquisas nessa direção.
Em um relatório, a OCDE (Organização para a Cooperação e Desenvolvimento
Econômico) salientou que as barreiras à utilização ou à produção de REA podem ser
categorizadas em barreiras técnicas, econômicas, sociais, políticas e jurídicas (OCDE,
2007). Com um maior nível de detalhamento, Hatakka (2009) identifica 11 fatores que
podem inibir o uso efetivo de REA; dentre esses fatores a autora inclui regras e
restrições educacionais, linguagem utilizada, relevância, acesso, recursos técnicos,
aspectos qualidade, propriedade intelectual, percepção, conhecimento em informática,
capacidade de ensino, bem como determinadas práticas e tradições de ensino.
O relatório técnico do GranDIHC-BR (Baranauskas et al., 2012) também aponta
nessa direção e amplia a discussão para as frentes de acessibilidade e responsividade, ao
incluir aspectos de acessibilidade para pessoas com distintas deficiências, físicas e
734
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
4. Oportunidades e desafios
Com base no contexto anteriormente detalhado e na análise de trabalhos correlatos,
identificam-se na tabela a seguir um conjunto de questões e oportunidades que devem
ser consideradas na busca por soluções para este desafio, bem como barreiras na
execução dessas questões e os possíveis benefícios a serem alcançados. Na sequência,
735
XXXVII Congresso da Sociedade Brasileira de Computação
736
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
737
XXXVII Congresso da Sociedade Brasileira de Computação
Por fim, são elencadas algumas ações para medir o sucesso alcançados na busca
por soluções para este desafio, bem como ações a serem tomadas nos próximos dez
anos:
5. Conclusões
No cenário atual se tem discutido como vencer as várias barreiras que impedem o acesso
ao conhecimento e como, diante dos avanços das TIC, repensar as práticas e o papel das
instituições de ensino. Nesse cenário, a preocupação em vencer as barreiras dos aspectos
relacionados à multiculturalidade e a criação de recursos educacionais que promovam a
disseminação do conhecimento é uma tendência. Por isso, é importante tratar os aspectos
da multiculturalidade no design de recursos educacionais abertos, pois influenciam na
forma como um REA é entendido, projetado, desenvolvido e utilizado. Assim, este
trabalho buscou traçar um panorama de pesquisa e desenvolvimento para a década
seguinte, esperando contribuir com as discussões no âmbito da Informática na
Educação.
Referências
AMIEL, T.; SQUIRES, J.; OREY, M. (2009). Four strategies for designing instruction
for diverse cultures. Educational Technology, v. 49, n. 6, p. 28-34, 2009. Knuth, D.
E. (1984), The TeXbook, Addison Wesley, 15th ed.
AMIEL, T.; OREY, M.; WEST, R.. (2011) Recursos Educacionais Abertos: modelos
para localização e adaptação. ETD – Educ. Tem. Dig., Campinas, v.12, p.112-125.
BANZATO, M. (2012). Barriers to teacher educators seeking, creating and sharing open
educational resources: An empirical study of the use of OER in education in Italy. In:
15th ICL, Villach: IEEE, 2012.
738
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
739
XXXVII Congresso da Sociedade Brasileira de Computação
1. Contextualização
Dados Conectados podem ser resumidos como o uso da Web para criar conexões entre dados
que podem estar armazenados originalmente em diversos bancos de dados, mantidos por
diferentes organizações e distribuídos em diferentes localizações geográficas [Bizer et al.
2009].
D’Aquin [2012] explica que há potencial para o uso de Dados Abertos Conectados na
Educação em virtude da natureza aberta e acessível dos dados e dos recursos educacionais
produzidos por muitas universidades. Dietze et al. [2013] destacam que a publicação e o
consumo desses dados podem promover a integração de dados e serviços educacionais,
buscando resolver a heterogeneidade entre padrões de APIs (Application Programming
Interface) e repositórios e, ainda, enriquecer dados através da adoção de vocabulários e da
interligação entre dados de fontes heterogêneas.
Em [Alcantara et al. 2015] são apresentados alguns desafios no uso de Dados
(Abertos) Conectados na realidade da Educação Brasileira. Os autores mostram que ainda
existem poucas iniciativas de abertura de dados educacionais no Brasil, concluindo que a
cultura de publicá-los praticamente não existe. No presente trabalho, ampliamos a visão
740
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
apresentada em [Alcantara et al. 2015]: (i) os desafios aqui apresentados foram compilados a
partir de um mapeamento sistemática de propostas que relataram a publicação e/ou o uso de
Dados Conectados na educação em diferentes iniciativas ao redor do mundo, tendo assim
desafios específicos da educação, mas também, desafios pertinentes à área de Dados
Conectados que se refletem na educação; (ii) damos ênfase a questões técnicas do uso de
Dados Conectados na Educação; (iii) focamos em desafios para a publicação dos dados nos
padrões de Dados Conectados, já que a publicação de dados em outros formatos (CSV, PDF,
DOC, etc) vem evoluindo, mesmo que a passos lentos; (iv) detalhamos desafios existentes em
etapas específicas do processo de publicação como a etapa de interligação dos dados; (v)
discutimos aspectos não técnicos como a privacidade pessoal; e (vi) apresentamos ações,
soluções e tecnologias adotadas para evoluir tais desafios. Além disso, foram considerados os
desafios relacionados à inovação tecnológica na Educação, através do uso de dados
conectados, com base no ecossistema sugerido em [Kapoor et al. 2015][Siqueira et al. 2016].
As ações sugeridas e associadas a cada um dos desafios são propostas como questões a
serem discutidas para implantação a curto, médio e longo prazo, sendo que algumas
caminham em paralelo aos desafios gerais da área de Dados Conectados. A visão dos desafios
enfrentados por iniciativas ao redor do mundo, bem como possíveis soluções e
encaminhamentos podem auxiliar em futuras discussões e direcionar pesquisas e práticas
direcionadas para a realidade brasileira.
1https://contratospublicos.com.br/tcu-auditoria-operacional-efetividade-de-iniciativas-de-abertura-de-dados-governamentais-
na-area-de-educacao-recomendacoes-determinacoes-arquivamento/jurisprudencia
741
XXXVII Congresso da Sociedade Brasileira de Computação
742
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
4. Publicação de Dados
Grande parte dos dados produzidos por sistemas educacionais estão armazenados em
diferentes formatos e fontes de dados. Nesse sentido, alguns desafios se mostram relevantes:
(i) como permitir que os dados sejam transformados e estruturados como Dados Abertos
Conectados?; (ii) como considerar as especificidades educacionais / pedagógicas desses
dados?; (iii) como encontrar vocabulários/ontologias para serem reutilizados na publicação?;
(iv) como integrar/interoperar diferentes vocabulários de forma que seja possível atender as
especificidades de diferentes domínios-alvo?; e (v) sabendo-se que a educação é um processo
contínuo e passível de constantes mudanças, como tratar a atualização dos dados
disponibilizados e as mudanças estruturais?
Apesar dos esforços no desenvolvimento e na adoção de várias ferramentas (D2RQ2,
DB2RDF3, SIMILE RDFIzer4 e Triplify5) para apoiar o processo de publicação de dados, esse
ainda requer conhecimentos técnicos muito específicos, por exemplo, o conhecimento de
tecnologias semânticas (formatos, vocabulários, ferramentas de conversão e manipulação de
dados). Alcantara et al. [2015] propõem como solução a utilização de ferramentas que
flexibilizem a interface entre o provimento e a disponibilização dos dados, podendo
disponibilizar os dados em diversos formatos que atendam aos diferentes públicos. Outro
direcionamento importante é a integração de ferramentas aos principais sistemas educacionais,
tendo como objetivo tornar o processo de publicação mais transparente ao usuário, não
exigindo conhecimento ou esforços específicos para adaptação aos padrões de publicação de
Dados Abertos Conectados.
Os vocabulários/ontologias são especialmente importantes para o uso de Dados
Conectados na Educação. Embora existam esforços consideráveis na construção de
vocabulários específicos para o domínio educacional, muitos trabalhos acabam criando novos
vocabulários (ou estendendo algum já existente) para atender a aspectos específicos de um
dataset ou por dificuldade em localizá-los.
Jeremić et al. [2013] discutem que o mapeamento entre vocabulários mais específicos
e alguns mais amplos e mais utilizados é um direcionamento importante para
integrar/interoperar diferentes vocabulários. Essa questão já foi objeto de pesquisa em [Zablith
et al. 2011][Dietze et al. 2013], mas diversos problemas persistem como o uso de
vocabulários heterogêneos, interpretações e usos distintos para o mesmo padrão de
metadados, bem como a falta de consenso nos descritores e descrições.
Jeremić et al. [2013] complementam destacando a necessidade de construir ontologias
de domínio para diferentes domínios-alvo, buscando assim ampliar a diversidade de domínios.
Disponibilizar os vocabulários/ontologias em bases de conhecimento de anotações de serviços
é essencial para melhorar a localização e reutilização desses vocabulários.
2 http://d2rq.org/
3 https://sourceforge.net/projects/db2rdf/
4 http://simile.mit.edu/RDFizers/
5 http://semanticweb.org/wiki/Triplify.html
743
XXXVII Congresso da Sociedade Brasileira de Computação
744
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
6. Considerações Finais
Ainda que haja inúmeros desafios, em diferentes perspectivas, o uso de dados conectados na
educação está em constante evolução e existem muitas iniciativas buscando enfrentar os
desafios listados neste trabalho.
Alguns projetos importantes na publicação e utilização de dados conectados na
educação são: o dataset TED Talks6 que possui diversas conferências sobre diferentes temas;
os datasets do British Museum7 e da Bibliothèque Nationale De France8, que disponibilizam
dados dos seus acervos; a Open University [Qing et al. 2012], que publica informações sobre
seus cursos; as iniciativas da University of Southampton9, Greek University Open Data10 e
Linking Italian University Statistics Project11 que publicam seus dados, incluindo informações
administrativas, acadêmicas, produção científica, indicadores educacionais; o mEducator -
Linked Educational Resources e o PubMed, que fornecem recursos educacionais num formato
de Dados Conectados. Vale ressaltar ainda o projeto LinkedUp12, que mantém um catálogo e
um repositório de dados conectados, ambos relevantes e úteis no cenário educacional
[D’Aquin 2016].
Diferentes abordagens/tecnologias estão sendo exploradas e evoluídas para enfrentar
6 http://data.linkededucation.org/request/ted/sparql
7 http://collection.britishmuseum.org/
8 http://data.bnf.fr/
9 http://sparql.data.southampton.ac.uk/
10 http://www.auth.gr/sparql
11 http://sw.unime.it:8890/sparql
12 http://data.linkededucation.org/linkedup/catalog/
745
XXXVII Congresso da Sociedade Brasileira de Computação
os desafios na área de Dados Conectados. Para a etapa de publicação de dados, por exemplo,
alguns catálogos podem auxiliar o usuário na busca de vocabulários em diferentes domínios,
entre eles estão o LOV13, o BioPortal14, o JoinUp15 e o SCHEMA.ORG16. Outros
vocabulários úteis no contexto educacional podem ser encontrados em
https://linkededucation.wordpress.com/data-models/schemas/. Na etapa de interligação de
dados, existem propostas explorando abordagens/tecnologias distintas para melhorar os
resultados de conexão entre dados inter e intra datasets, são algumas delas: técnicas de
similaridade, busca em grafos, clusterização, inferência (reasoner) baseada em lógica e
técnicas de aprendizado de máquina [Nikolov et al. 2012][Soru and Ngonga Ngomo 2014].
Os desafios no uso de Dados Abertos Conectados no contexto educacional estão muito
relacionados com aqueles percebidos na grande área de pesquisa de Dados Abertos
Conectados. Porém, alguns aspectos educacionais requerem ações e direcionamentos de
pesquisa específicos e precisam ser trabalhados pela comunidade de Informática na Educação
(IE). Esta proposta visa listar estes grandes desafios para a comunidade de IE no Brasil,
indicando também possíveis projetos e indicadores de avaliação.
A visão dos desafios enfrentados por iniciativas ao redor do mundo, bem como
possíveis soluções e encaminhamentos podem auxiliar em discussões futuras e direcionar
pesquisas e práticas direcionadas para mudar a realidade brasileira atual.
Agradecimentos
Este trabalho foi parcialmente financiado pela FAPERJ (projeto E-26-102.256/2013).
Referências
Alcantara, W., Bandeira, J., Barbosa, A. and Lima, A. (2015). Desafios no uso de Dados
Abertos Conectados na Educação Brasileira. Anais do 4o DesafIE - Workshop de Desafios da
Computação Aplicada à Educação,
Bizer, C., Heath, T. and Berners-lee, T. (2009). Linked Data - The Story So Far. International
Journal on Semantic Web and Information Systems (IJSWIS), v. 5, n. 3, p. 1–22.
Corsar, D., Edwards, P. and Nelson, J. (2014). Personal privacy and the web of linked data.
CEUR Workshop Proceedings, v. 1121, p. 1–11.
D’Aquin, M. (2016). On the Use of Linked Open Data in Education: Current and Future
Practices. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial
Intelligence and Lecture Notes in Bioinformatics), v. 9500, p. 153–165.
D’Aquin, M. (2012). Linked Data for Open and Distance Learning.
Dietze, S., Kaldoudi, E., Dovrolis, N., et al. (2013). Socio-semantic integration of educational
resources - The case of the mEducator project. Journal of Universal Computer Science, v. 19,
n. 11, p. 1543–1569.
Dietze, S., Sanchez-Alonso, S., Ebner, H., et al. (2013). Interlinking educational resources and
the web of data: A survey of challenges and approaches. Program, v. 47, n. 1, p. 60–91.
13
http://lov.okfn.org/dataset/lov/
14
http://bioportal.bioontology.org/
15
https://joinup.ec.europa.eu/catalogue/repository
16
http://schema.org/docs/schemas.html
746
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Hogan, A., Hitzler, P. and Janowicz, K. (2016). Linked Dataset Description Papers at the
Semantic Web Journal : A Critical Assessment. v. 7, p. 1–3.
Jeremić, Z., Jovanović, J. and Gašević, D. (2013). Personal Learning Environments on the
Social Semantic Web. Semant. web, v. 4, n. 1, p. 23–51.
Kapoor, S., Mojsilovi, A., Strattner, J. N. and Varshney, K. R. (2015). From Open Data
Ecosystems to Systems of Innovation : A Journey to Realize the Promise of Open Data.
Bloomberg Data for Good Exchange Conference,
Nguyen, K., Ichise, R. and Le, B. (2013). Interlinking Linked Data Sources Using a Domain-
Independent System. In Joint International Semantic Technology Conference. Springer Berlin
Heidelberg. http://ri-www.nii.ac.jp/SLINT/JIST2012.pdf.
Nikolov, A., D’Aquin, M. and Motta, E. (2012). Unsupervised learning of link discovery
configuration. The Semantic Web: Research and Applications, v. 7295 LNCS, p. 119–133.
Nunes, B. P. (2014). Towards a well-interlinked Web through matching and interlinking
approaches. Pontifícia Universidade Católica do Rio de Janeiro.
Nunes, B. P., Dietze, S., Casanova, M. A., et al. (2013). Combining a co-occurrence-based
and a semantic measure for entity linking. In Extended Semantic Web Conference. Springer
Berlin Heidelberg.
Qing, H., Dietze, S., Giordano, D., et al. (2012). The Open University’s repository of research
publications Linked education : interlinking educational resources and the web of data. In The
27th ACM Symposium On Applied Computing (SAC-2012), Special Track on Semantic Web
and Applications.
Siqueira, S., Bittencourt, I. I., Isotani, S. and Nunes, B. P. (2016). Sistemas de Informação
baseados em Dados Abertos (Conectados). In I GranDSI-BR – Grandes Desafios de Pesquisa
em Sistemas de Informação no Brasil 2016 a 2026.
Soru, T. and Ngonga Ngomo, A.C. (2014). A Comparison of Supervised Learning Classifiers
for Link Discovery. In Proceedings of the 10th international conference on semantic systems.
. Association for Computing Machinery.
Vasconcellos, S., Revoredo, K. and Bai, F. (2014). How Can Ontology Design Patterns Help
Ontology Refinement ? v. 12, p. 4–16.
Wölger, S., Hofer, C., Siorpaes, K., et al. (2011). Interlinking data-approaches and tools.
Technical report, STI Innsbruck, University of Innsbruck.
Zablith, F., D’Aquin, M., Brown, S. and Green-Hughes, L. (2011). Consuming Linked Data
within a large educational organization. CEUR Workshop Proceedings, v. 782.
747
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Algumas questões que vêm sendo aprofundadas pelo Grupo de Pesquisa Cooperação em
Educação e Avaliação a Distância do Departamento de Educação da PUC-Rio parecem
pertinentes a serem aqui discutidas, pois se relacionam à aprendizagem, à forma na qual
aprendemos e como aprendemos, sobretudo quando trabalhamos a distância junto com o
professor mediador. Sim, o professor é o mediador da comunidade de aprendizagem que
se forma em um curso a distância. Vamos conversar neste artigo sobre a importância da
argumentação nos diálogos que se estabelecem nestes cursos e como podemos conduzir
os alunos a conquistarem sua autonomia. Diálogos implicam em reciprocidade e,
portanto, implicam em uma interatividade que segundo Valle (2012) encontram na
educação a distância a possibilidade de uma inversão das atitudes geradas e se confirmaria
como um modelo de transformação das arquiteturas pedagógicas uma vez que, entre os
748
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
atores deste processo, é necessário que se estabeleça uma ação comunicativa entendendo
este tipo de ação como uma forma de ação social. Habermas afirma que é “nesta forma
de ação que o ser humano pode estabelecer uma relação reflexiva com o mundo,
possibilitando a coordenação da ação social. Mais do que isto, é no Agir Comunicativo
que processos de aprendizagem podem resultar na transformação destes mundos”
(BANNELL, 2006).
A abordagem da teoria do Agir Comunicativo (HABERMAS, 2012a) nos parece
importante para a discussão da educação uma vez que o conceito de racionalidade
comunicativa se vincula ao paradigma do mundo da vida, possibilitando uma
“conceitualização do contexto social da vida que se revele adequada aos paradoxos da
realidade! ” (HABERMAS, 2012a, p.11). Discutiremos a questão do mundo da vida e da
Teoria do Agir comunicativo ao longo deste artigo e como a argumentação é estabelecida
determinando, em nossa conceituação, a autonomia do aluno.
É possível afirmar que, dentre os principais requisitos para que um país esteja
inserido na sociedade da informação, conceito por nós utilizado em oposição à economia
do conhecimento, destaca-se a necessidade de uma educação que permita aos indivíduos
uma formação de novas habilidades que surgem a partir do século XX, principalmente
aquelas voltadas para os usos, apropriações e desenvolvimento das Tecnologias da
Informação e Comunicação (TIC). Existem evidências de um consenso entre professores
e pesquisadores sobre os ganhos das TICs no processo de ensino e aprendizagem, contudo
o grande desafio ainda recai nos usos dessas ferramentas que possibilitem e potencializem
a produção do conhecimento e um maior número de incluídos social e digitalmente, não
apenas no consumo de informações por meio dessas tecnologias. Neste ponto,
ressaltamos que a qualidade de um curso a distância deve recair na dialética que se
estabelece entre o professor-aluno-conteúdo e a partir daí na transposição didática
realizada através das mídias a serem utilizadas.
749
XXXVII Congresso da Sociedade Brasileira de Computação
1
Habermas (apud BANNEL, 2013) diferencia o mundo da vida dos subsistemas econômico e
administrativo. A esfera privada, familiar e esfera pública compõem o mundo da vida. A educação formal
se insere no mundo da vida quando a olhamos nos aspectos político e pedagógico e ao mesmo tempo, é um
produto do subsistema econômico e administrativo, já que foi criada para formação de mão de obra e é um
aparelho do estado burocrático. A educação formal busca conciliar paradoxos nesse e outros aspectos, e a
docência não escapa dessa complexidade.
750
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
751
XXXVII Congresso da Sociedade Brasileira de Computação
de entendimento mútuo representa melhor esta relação e o encadeamento dos atos de fala
dos sujeitos (ANDRADE et al, 2016, p.942).
3. Confirmando o desafio
Em recente pesquisa com 2138 respondentes, alunos de pós-graduação lato sensu,
questionamos a respeito do professor atuando como mediador pedagógico. Os resultados
das análises estatísticas realizadas nos mostraram que é possível não só categorizar as
respostas dos alunos como estas apontam para a questão da autonomia e emancipação
explicitada por Habermas, como veremos a seguir.
Ao examinarmos a Tabela 1, que apresenta o resultado do teste de fidedignidade
do questionário, verificamos que a variável latente “Mediador” já se destacava como
sendo a mais fidedigna, com Alfa de Cronbach .96, muito acima do resultado das demais
variáveis, todas abaixo de .90.
Tabela 1. Fidedignidade das subescalas
Variáveis Latentes Α Número de
Indicadores
Conteúdo .85 5
Tarefa .81 5
Ferramentas de Comunicação .88 6
Mediador .96 9
Ambiente .89 8
Auto-avaliação .81 4
(N=2.138)
752
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
4. Comentários Finais
Como conclusão da análise realizada, ressaltamos que para os alunos o mediador
pedagógico é de fundamental importância a fim de que o curso obtenha sucesso, no
entanto, percebemos a dificuldade de reconstrução da prática do professor. Prado e Silva
(2009) ressaltam, citando outros autores, que o conhecimento adquirido pelo professor
durante o curso de formação precisa ser recontextualizado na sua prática pedagógica. “A
recontextualização implica integrar os diferentes recursos tecnológicos aos conteúdos
curriculares e dar vida às teorias educacionais na realidade da escola” (p.63).
Dentre todas as competências exigidas ao longo do processo de mediação, quatro
delas se destacam por permearem todas as demais e, citamos: atenção, clareza, visão
sistêmica e resiliência. Elas são competências complementares e, cada uma é fundamental
para que as demais possam fluir de forma natural. Coelho (2011) ressalta que Habermas
não trata da prática pedagógica na escola ou no Ensino Superior mas seu pensamento
pode ser utilizado indiretamente “se levarmos em conta o modelo de racionalidade
proposto” (p.91). Ressalta, a partir da pragmática da linguagem algumas “características,
atributos ou predisposições que contribuem para uma racionalidade intersubjetiva, tais
como: paciência, clareza na exposição, gentileza, perspicácia, capacidade de saber ouvir
o outro e incluí-lo no debate, atenção à ambiguidade sempre presente na língua corrente
e à falta de clareza dos termos (p.92). Percebemos exatamente estas características não
só na “fala” dos alunos como também na literatura consultada. Algumas questões se
entrelaçam ainda a partir dos resultados, a saber: Será que as ferramentas nos ambientes
de aprendizagem on-line são suficientes para garantir a argumentação? A formação dos
professores é adequada à mediação no sentido proposto por Habermas?
Outras questões surgem quando pensamos nos modelos de educação a distância
que vemos no país, com turmas gigantescas para um único professor mediador. A partir
da dificuldade em garantir a argumentação nesse tipo de turmas, novas ferramentas tem
sido implementadas como o FAT, (F)orum (A)ssessment (T)ool, uma ferramenta que
auxilia os mediadores, em tempo real, à avaliação das discussões no fórum, utilizando
tecnologia semântica e métodos estatísticos que buscam, expõe e recomendam tópicos
relevantes que foram discutidos e devem ser aprofundados pelo mediador (NUNES et al.,
2015). Outro exemplo é o Highlight, uma ferramenta que apoia os alunos na
aprendizagem dos conteúdos em EaD (NUNES et al., 2011). Ainda apontamos para o
desafio de formar os mediadores para uso destas novas ferramentas que devem ser
desenvolvidas para atender às necessidades dos alunos a fim de possibilitar a real
argumentação dos mediadores.
Referências bibliográficas
ANDRADE, J. Z. ; SILVA, E. C. ; MELO, K. S. ; ROQUE, G. O. B. ; CAMPOS, G. H.
B. . Construindo a Mediação a partir do Conceito de Entendimento Mútuo em
Habermas. In: IV Congresso TIC e Educação, 2016, Lisboa. IV Congresso TIC e
Educação, 2016.
753
XXXVII Congresso da Sociedade Brasileira de Computação
754
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
755
XXXVII Congresso da Sociedade Brasileira de Computação
se produzam simplificações que permitam que se lide de maneira sucinta e racional com
o processo cognitivo.
Um modelo de engenharia tem por premissa que se entenda o funcionamento do
objeto estudado como uma máquina. O modelo de engenharia da cognição permitirá que
se entenda melhor a cognição através de um sistema que apresenta um desenvolvimento
semelhante ao processamento humano. A modelagem de engenharia resulta em sistemas
que podem ser facilmente implementados em uma forma computacional.
Um modelo cognitivo pode acompanhar o desenvolvimento do entendimento
humano e permitir localizar os pontos onde o processo de aprendizagem resultou em
sucesso ou fracasso. A implementação deste modelo em forma computacional pode
aprender e adquirir em grande profundidade o conhecimento do sistema cognitivo
humano, interpretando indícios obtidos da interação homem-máquina.
O desenvolvimento de modelos cognitivos sólidos pode viabilizar todo um novo
aspecto da interface homem-máquina. As interfaces correntes ainda encaram o usuário
como um estranho. Na medida que a máquina consegue sincronizar com o processo
cognitivo, o computador se torna uma nova prótese. A cognição então passa a informar
o computador das oportunidades que se apresentam para que este apresente uma
intervenção coerente e tempestiva.
756
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
757
XXXVII Congresso da Sociedade Brasileira de Computação
758
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
759
XXXVII Congresso da Sociedade Brasileira de Computação
760
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
761
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Chomsky, N. (2014), Aspects of the Theory of Syntax. Vol. 11. MIT press, 2014.
Dehaene, S. (2014), Consciousness and the Brain: Deciphering How the Brain Codes
Our Thoughts, Penguin Book, 2014
Luria, A. R.; Tsvetkova, L. S. (1967) Les troubles de la resolution des problems. Paris:
Gauthier-Villars.
Luria, A. R. (1966a) Higher Cortical Functions in Man. New York; Basic Books.
Luria, A. R. (1966b) Human Brain and Psychological Processes. New York, Harper.
Marques, C.V.M. (2017) EICA – Estruturas Internas Cognitivas Aprendentes: Um
Modelo Neuro-Computacional Aplicado à Instância Psíquica do Sistemas Pessoa em
Espaços Dimensionais. Tese de Doutorado. COPPE/SISTEMAS, Universidade
Federal do Rio de Janeiro.
Piaget, J. (1977) Recherches sur l'abstraction réflechissante. Paris, Presses
Universitaires de France.
Seminério, F. L. P. (1984) Infra-estrutura da cognição: fatores ou linguagens? Rio de
Janeiro: FGV; ISOP.
________________ (1988) Metaprocesso: a chave do desenvolvimento cognitivo: uma
reavaliação da pedagogia contemporânea. Rio de Janeiro: FGV; ISOP.
762
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
1. Introdução
Vários aspectos relacionados à Informática na Educação (IE) têm motivado a pesquisa
na computação e em diversas subáreas das ciências e engenharias. Um desses aspectos
diz respeito à concepção, desenvolvimento e implantação de estratégias e recursos,
especialmente os de natureza tecnológica, para entender e ampliar o acesso das pessoas
ao conhecimento, tema alinhado a um dos Grandes Desafios científicos da computação
apontados pela SBC para a década (2006-2016), aquele que trata do “acesso
participativo e universal do cidadão brasileiro ao conhecimento”.
763
XXXVII Congresso da Sociedade Brasileira de Computação
2. Contexto
Com a implementação de diversas políticas públicas buscando inserir aqueles que estão
por algum motivo sem acesso à educação formal, há uma preocupação em como essa
população pode ser adequadamente inserida no contexto educacional. Iniciativas como a
política de cotas, regulam a participação de indivíduos em certos sistemas, mas não
garantem a efetiva integração aos processos cognitivos que neles ocorrem.
Não há como desconsiderar fatores imprescindíveis que influenciam o
desenvolvimento cognitivo das pessoas, como o local onde residem, suas influências
culturais, as pessoas com as quais interagem em seus ambientes familiares e educativo e
suas habilidades cognitivas e sociais. Nos contextos onde as pessoas convivem,
desenvolvem sua cognição e constroem relações elas aprendem, de maneira formal ou
informal, frequentando escolas e interagindo nas praças de suas cidades, em shoppings
(nos grandes centros urbanos), na sua rua com seus vizinhos e na sua família. Em vários
desses espaços de interação, elas possuem alguma forma de conectividade, mesmo que
por vezes restritas a horários e locais específicos, como ocorre no interior da Amazônia.
Esse cenário de tecnologias ubíquas amplia oportunidades, embora a sociedade
como um todo ainda não conseguiu incorporar, de forma sistêmica, esse fenômeno
comunicacional. Cada individuo ou grupo começa a usar suas ferramentas tecnológicas,
apropria-se das mesmas e segue em frente. Isso é positivo, pois se cria o hábito de
conviver com as novidades, explorando e desenvolvendo novos usos. Entretanto, para
que possamos aproveitar as oportunidades apresentadas, em particular no que diz
respeito à educação e acesso ao conhecimento, é necessário o desenvolvimento de
estudos que possibilitem um uso mais adequado dessas tecnologias.
764
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
765
XXXVII Congresso da Sociedade Brasileira de Computação
4. O desafio da diversidade
Durante certo tempo o acesso aos computadores era restrito a pessoas, espaços (físicos)
e situações bem específicas. Tal cenário evoluiu até o estado corrente onde a tecnologia
computacional é ubíqua e parte integrante das atividades diárias da maioria de nós.
Essas diferentes instâncias da tecnologia em nossas vidas apresentam uma primeira
perspectiva sobre a diversidade, ainda que de natureza quase exclusivamente técnica.
A quantidade de situações, espaços e pessoas com potencial para acessar os
recursos tecnológicos disponíveis ampliou-se de modo exponencial. Inúmeras
combinações desses fatores (situações, espaços, pessoas, acesso) ilustram uma outra
perspectiva sobre a diversidade, que necessariamente precisa agregar aspectos sociais,
políticos, culturais, ambientais, dentre outros, aos técnicos.
A diversidade é um desafio para a pesquisa e a prática em Informática na
Educação também porque ao mesmo tempo em que as tecnologias ubíquas e até
“vestíveis” estão disponíveis para muitos, elas ainda não estão inseridas no cotidiano
das escolas como uma prática para inclusão e participação do cidadão em seus próprios
processos de aprendizagem.
Atores
Atores humanos (indivíduos e grupos) e não-humanos (agentes, serviços, plataformas,
etc.) são elementos centrais no ecossistema educacional e onde se tem investido em
práticas participativas envolvendo os seres humanos na busca por soluções educacionais
com suporte computacional e atores não-humanos como parte da solução, todos
interagindo de diferentes maneiras. São exemplos dessa abordagem a utilização de
agentes inteligentes (Xavier et al, 2016); com ferramentas e técnicas para melhorar a
habilidade de programação na educação superior (Carvalho et al, 2016) e a elicitação e
organização de conhecimento tácito cientifico (Albuquerque et al, 2016).
766
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Espaços
Espaços físicos são os lugares ou ambientes onde as interações convencionalmente
aconteciam e ainda acontecem em boa parte do tempo: escolas, casas, cidades, praças,
clubes, shoppings, etc. Sendo importante incorporar outros cenários, por exemplo para
inserir os alunos cursando a educação formal em localidades com restrições de acesso à
Internet, como descrito em (Ferreira e Castro, 2013).
Espaços virtuais são criados utilizando plataformas tecnológicas diversas. Com
as oportunidades para a adoção de novas práticas pedagógicas, é cada vez mais
frequente a adaptação de plataformas ou a concepção de novos paradigmas para a
definição de ambientes mais flexíveis e aderentes às necessidades de indivíduos e
grupos, como o paradigma MOrFEU (Santos et al, 2010).
‘SituAções’
No contexto relevante para a IE, a tecnologia é um elemento constituinte das
arquiteturas pedagógicas (AP) (Carvalho et al, 2005) concebidas para favorecer
situações de aprendizagem e no caso do GSI, tem havido especial interesse em APs que
utilizam práticas colaborativas bem como APs cuja plataforma tecnológica envolve o
uso de interfaces alternativas (Lima et al, 2016).
Acesso
O acesso dos atores aos ecossistemas nos quais os mesmos poderiam atuar depende de
um conjunto de fatores que incluem por exemplo a infraestrutura disponível no espaço
físico ocupado, os aspectos sociais que orientam ou limitam as oportunidades de
participação nos sistemas, ou ainda as limitações e especificidades físicas e cognitivas
de cada indivíduo. No último caso mencionado, o GSI tem trabalhado na perspectiva do
HCD (human-centered design), sistematizando um processo de design inclusivo (Lucke
et al, 2016) e de interações multimodais (Raposo et al, 2014).
Ainda no tema “acesso”, uma dimensão importante relacionada à compreensão
de ecossistemas complexos é o acesso a dados provenientes dos espaços físicos e
virtuais e das interações e outras situações neles ocorridas envolvendo seus atores.
Através da coleta, organização, análise e reuso desses dados, o conhecimento resultante
pode ser socializado e reintegrado no próprio ecossistema, como ocorre na frente de
trabalho de mineração de ambientes virtuais (Almeida Neto et al, 2015).
5. Considerações Finais
A crescente disponibilidade de equipamentos associada a uma enorme diversidade de
contextos possibilita que uma grande quantidade de novos usuários chegue à rede
interessados na produção de novos ambientes e aplicações. Este fenômeno é ao mesmo
tempo motivo de grande entusiasmo e de grandes preocupações. O entusiasmo se dá
tendo em vista que, do ponto de vista educacional, cada vez mais os jovens estão sendo
protagonistas da construção de uma nova ecologia cognitiva, participando de uma
atividade intelectual com grande potencial para o desenvolvimento de novas
competências cognitivas. Por outro lado, essa proliferação de tecnologias sem o apoio
de fundamentos e elementos estruturantes pode implicar na produção de forma
fragmentada, dificultando assim as pesquisas e o desenvolvimento na área de
Informática na Educação.
768
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Agradecimentos
Parte da investigação aqui citada contou com recursos do Projeto “Framework
Inteligente para Apoiar a Colaboração”, Edital FAPEAM 016/2013, Res. 035/2013.
Referências
Albuquerque, A.C.F.; Santos, J.L.C.; Castro, A. A Conceptual Framework for
Integrating Scientific Tacit Knowledge. In: 2016 SAI Intelligent Systems Conference
(IntelliSys), 2016, London, UK. Proceedings of 2016 SAI Intelligent Systems
Conference (IntelliSys). Piscataway, NJ: IEEE Computer Society, 2016.
Almeida Neto, F.; Castro, A. Elicited and Mined Rules for Dropout Prevention in
Online Courses. In: 2015 IEEE Frontiers in Education Conference (FIE). Camino
Real El Paso, TX, USA, 2015.
Bateson, Gregory. Steps to an Ecology of Mind – Collected Essays in Anthropology,
Psychiatry, Evolution and Epistemology. Jason Aronson Inc. 1972.
Carvalho, M.J.S.; Nevado, R.A.; Menezes, C.S. Arquiteturas Pedagógicas para
Educação a Distância: Concepções e Suporte Telemático. In: XVI Simpósio
Brasileiro de Informática na Educação. Juiz de Fora, 2005.
Carvalho, L.S.G.; Gadelha, B.F.; Nakamura, F.G.; Oliveira, D.B.F.; Oliveira, E.H.T.
Ensino de programação para futuros não-programadores: contextualizando os
exercícios com as demais disciplinas de mesmo período letivo. In: 24o Workshop
sobre Educação em Computação, Porto Alegre. Anais do XXXVI CSBC, 2016.
Castro, T.; Castro, A.N.; Castro, L.; Soares, M.; Gadelha, B. A Two-Level Problem
Solving Practicing Approach using a Location Based App. In: XXVII Simpósio
Brasileiro de Informática na Educação. Uberlândia. Anais do V CBIE, 2016.
Ferreira, R.S.; Castro, A.N. Um Esquema de Sincronismo para Ambientes Virtuais de
Ensino e Aprendizagem. In: XXIV Simpósio Brasileiro de Informática na Educação.
Campinas. Anais do II CBIE, 2013.
Guattari, Félix. As Três Ecologias. 11a. Ed. Trad. Maria Cristina F. Bittencourt. Papirus.
Campinas, SP. 2001.
Latour, B. Ciência em ação: Como seguir cientistas e engenheiros sociedade afora. São
Paulo: UNESP, 2000.
Lévy, Pierre. As Tecnologias da Inteligência – O Futuro do Pensamento na Era da
Informática, 2a. Ed. Trad. Caros Irineu da Costa. Editora 34. 2010.
769
XXXVII Congresso da Sociedade Brasileira de Computação
Lima, D.; Pereira, R.C.; Siqueira, M.P.; Castro, T.; Souza, L.J.; Freitas, J.A. MusicApp
um aplicativo para apoio às crianças autistas nas aulas de musicalização. In: V
Congresso Brasileiro de Informática na Educação. Uberlândia. Anais V CBIE. 2016.
Lucke, U.; Castro, T. The Process of Inclusive Design. In: IEEE 16th International
Conference on Advanced Learning Technologies. Austin, MA, USA: IEEE
Computer Society Conference Publishing Services (CPS), 2016. p. 446-447.
Raposo, N.; Rios, H.; Lima, D.; Gadelha, B.; Castro, T. An application of mobility aids
for the visually impaired. In: Proceedings of the 13th International Conference on
Mobile and Ubiquitous Multimedia - MUM '14, 2014. p. 180-189.
Santos, L.N.; Castro, A.; Menezes, C.S. MOrFEu: Criando Ambientes Virtuais
Flexíveis na Web para Mediar a Colaboração. In: V Congreso Iberoamericano de
Informática Educativa. Santiago, 2010. v. 1. p. 114-121.
Smart, P. R., Heersmink, R., & Clowes, R. The Cognitive Ecology of the Internet. In: S.
J. Cowley & F. Vallée-Tourangeau (Eds.), Cognition Beyond the Brain (2nd ed.).
Springer-Verlag. London, England, UK, 2017.
Xavier, N.B.; Netto, J.F.M. Optimizing the Management of Distance Courses through
Multi-Agent System. In: IEEE Frontiers in Education. Erie (USA), 2016.
770
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Abstract. This article aims future trends in Education with technologies with the
purpose of expanding the idea of Educational Sustainability supported by the
technological innovation of Cloud Computing. Likewise, it aims to relate the two
elements present, their challenges and their mutual contributions to address the
strategic possibilities of interaction based on complex, creative,
transdisciplinary and transcultural epistemology. It aims to understand the
formal, informal and corporate spaces and their relevant social functions as
well contributions to the empowerment of global citizenship. Education with
technologies, at all levels of education, can foster interactivity and interaction
regarding the possibilities of educational intentionality. It defends a new
communication posture, based on the authorship of the user, on the logic of
interactivity and constantly (re) signified.
1. Introdução
Este artigo destaca os desafios e as contribuições da Cloud Computing vislumbrando e
apontando temas desafiadores e interdisciplinares, com enfoque basilar na área de
Informática na Educação, especificamente na Sustentabilidade Educacional. Tem por
objetivo discutir os temas da Informática na Educação que possuam sobretudo aspectos
desafiadores na área. Basicamente se orientam pelas questões que seguem:
771
XXXVII Congresso da Sociedade Brasileira de Computação
772
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
digital (digital literacy), isto significa, saber acessar e encontrar informações, apps,
competência cada vez mais exigida pelo mundo contemporâneo (Grassian e Kaplpwitz,
2001). E ainda, não podemos esquecer da familiaridade com a nuvem e a cibersegurança
(informational literacy).
Tal como referido acima, o objetivo deste artigo destina-se à reflexão para
profissionais que trabalham ou possam trabalhar agora e em um futuro próximo,
encontrando na tecnologia cloud computing e em sua arquitetura, o suporte para as
soluções, desafios e contribuições presentes na Sociedade do Conhecimento. Por outro
lado, visa igualmente abordar temas relacionados a desafios já identificados pela
comunidade acadêmica e escolar, tais como: Acesso Participativo e Universal do Cidadão
ao mesmo conhecimento e de mesma qualidade pela abertura à todas as escolas de acesso
ao cloud computing, autoria de sistemas educacionais, evolução de sistemas educacionais,
gestão de grandes volumes de dados de desenvolvimento de tecnologias educacionais de
alta qualidade, entre outros. As políticas e estratégias existentes no desenvolvimento da
cultura digital e informacional devem estar amparadas em um conceito que harmonize e
inclua toda e qualquer acesso pela internet, que abrange os mesmos conhecimentos e
qualidade, habilidades e atitudes que permitam aos cidadãos compreender o papel social
das mídias e de outros provedores nas sociedades democráticas que requerem liberdade de
expressão, diálogo intercultural e possibilidades de criação de conhecimento colaborativo.
773
XXXVII Congresso da Sociedade Brasileira de Computação
774
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
775
XXXVII Congresso da Sociedade Brasileira de Computação
As metas estratégicas sugeridas resumem algumas das ações que justificam o uso
das informações e de engajamento, seja em espaços formais ou informais. O acesso, a
função social de cada contexto, as estratégias adequadas podem favorecer a
conscientização dos cidadãos sobre a finalidade da Sustentabilidade, de forma geral, assim
como o conhecimento e análise crítica de suas necessidades informacionais.
Os impactos em cada contexto referem-se ao conhecimento básico que todos
cidadãos devem ter sobre suas funções, natureza e padrões profissionais e éticos,
estabelecidos ou não em cada mídia acessada.
Estas dimensões representam uma grande questão tanto para a Educação quanto
para a Computação, ou seja, reunir ações multidisciplinares para criar plataformas
distribuídas de auxílio à qualificação profissional e ao enriquecimento intelectual da
população. Essas plataformas devem integrar ferramentas de comunicação, por exemplo,
compatíveis com a Web como um enorme sistema operacional dinâmico e inteligente.
No caso da Educação Escolar significa: saber utilizar as estratégias da Pedagogia de
Projetos, a partir de um problema formulado sobre temática interdisciplinar; prever, seja
qual for a escolha da tecnologia a ser utilizada, as competências de explorar o que a escola
possui, explorar as ideias existentes; prototipar modelos para resolução de problemas que
envolvam raciocínio computacional (analisar, sintetizar, argumentar, investigar hipóteses);
atuar em equipe; tomar decisões; saber argumentar com criatividade e inovação.
Pesquisas acadêmicas podem colaborar com a imersão nas escolas para realizar os
desafios apontados com a finalidade de ampliar o desenvolvimento da sustentabilidade
educacional e apropriação das tecnologias via cloud computing.
As diretrizes educacionais e políticas podem reduzir o engessamento e/ou
isolamento dos componentes curriculares existentes na escola, "vindos de cima (diretorias
de ensino, MEC etc)". Requer a participação interdisciplinar dos professores, caso
contrário, os docentes permanecem desmotivados e pouco empenhados no
desenvolvimento da educação com tecnologias.
Buscar formas inovadoras de avaliação podem eliminar a questão da
competitividade; da punição pelo erro. A avaliação de competências e habilidades
previstas pela legislação educacional precisa ter caráter processual com atividades
dinâmicas e flexíveis, não se esquecendo das atividades de recuperação que podem ser
fortemente apoiadas pelas tecnologias digitais.
Outra estratégia que merece destaque é saber fazer escolhas metodológicas
contextuais, mais próximas das realidades dos alunos, com ênfase na autonomia e nos
pressupostos da gamificação, sem gestão do tipo tradicional de comando-controle-
supervisão; dar relevância aos grupos focais para que os feedbacks possam ser ouvidos,
com mecanismos de autoavaliação, vivência compartilhadas das hipóteses construtivas (e
não dos "erros").
4. Implicações Finais
Este artigo estabeleceu algumas provocações para ampliar o debate e os estudos sobre o
tema, ainda restrito para a realidade escolar brasileira, de qualquer nível ou modalidade de
ensino. Diante delas, o que se pode pensar sobre o futuro é como tornar a educação
sustentável com os recursos que cada espaço de ensino e de aprendizagem possuem e
como a computação pode auxiliar.
776
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
O artigo defende que a comunidade mediada pelas tecnologias não pode ser
estudada apenas pelos avanços tecnológicos ou comerciais de sua oferta, mas pelo impacto
sociocultural que produzem nas pessoas, em seus contextos de vida e de relações
interpessoais. Critica a subutilização das potencialidades interativas da web, suas
dificuldades de acesso, a heterogeneidade na construção das identidades e defende nova
postura comunicacional, alicerçada na autoria do usuário, na lógica da interatividade e
constantemente (re) significada.
Referências
Barr, V. e Stephenson, C. (2011). Bringing computational thinking to K-12: what is
Involved and what is the role of the computer science education community?. Acm
Inroads, 2(1), 48-54.
Blikstein, P. (2008). “O Pensamento Computacional e a Reinvenção do Computador na
Educação”. Disponível em: < http://bit.ly/1lXlbNn>. Acesso em: 10 de abr. 2016.
Blikstein, P. (2010 a). Can non-intelligent behavior generate intelligence? Multi-agent
computational modeling as a theory-building tool in developmental psychology and
education research. Jean Piaget Society Annual Conference (JPS 2010), Saint Louis,
MO.
Blikstein, P. (2010 b) [symposium organizer and chair]. A New Age in Digital Tangible
Interfaces for Learning. In K. Gomez, L. Lyons, & J. Radinsky (Eds.), Learning in the
Disciplines: Proceedings of the 9th International Conference of the Learning Sciences
(ICLS 2010). University of Illinois at Chicago: Chicago, IL.
Pereira, A. Bosco e Piconez, S C B. (2016) Abordagem Interativa na aprendizagem da
Matemática com uso de games no celular e os conteúdos curriculares do Ensino
Fundamental. Anais do SBIE, Uberlândia, 2016.
Brennan, K. e Resnick, M. (2012). New frameworks for studying and assessing the
development of computational thinking. In Proceedings of the 2012 annual meeting of
the American Educational Research Association, Vancouver, Canada.
Cassel, L. N. (2011). Interdisciplinary computing is the answer: now, what was the
question?. ACM Inroads, vol. 2, issue 1. p. 46.
De Paula, B. H., Valente, J. A. e Burn, A. (2014). O uso de jogos digitais para o
desenvolvimento do currículo para a Educação Computacional na Inglaterra. Currículo
sem Fronteiras, v. 14, n. 3, p. 46-71.
Ekanayake, Jaliya and Fox, Geoffrey. (2010) “High Performance Parallel Computing with
Clouds and Cloud Technologies”, in Lecture Notes of the Institute for Computer
Sciences, Social Informatics and Telecommunications Engineering. Volume 34, 2010,
pp 20-38.
Grassian, E.S.; Kaplpwitz, J.R. (2001) Information Literacy Instruction: theory and
practice. Edison, NJ: Neal-Schumam Publishers.
Mestre, P. et al. (2015) Pensamento Computacional: Um estudo empírico sobre as questões
de matemática do PISA. In: Anais dos Workshops do Congresso Brasileiro de
Informática na Educação. p. 1281
NIST (2013) National Institute for Standards and Technology of The NIST Definition of
Cloud Computing (NIST Special Publication 800-145). Disponível em:
http://csrc.nist.gov
777
XXXVII Congresso da Sociedade Brasileira de Computação
778
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Abstract. This paper discusses the challenges related to the insertion of Virtual
and Augmented Reality in the teaching and learning processes, considering their
multidisciplinary aspect, the adherence to Web 3.0 and a scenario of possible
gains and results with such an insertion. There will be pointed out the features
that made VR and AR solutions with a potential big impact, despite not properly
explored. as well as the challenges that are presented to Computers and
Education field, and possible approaches to solve them.
779
XXXVII Congresso da Sociedade Brasileira de Computação
usuário para uma realidade diferente daquela na qual se encontre, por meio do conceito
de imersão, permitindo-o navegar por cenários tridimensionais (ambientes virtuais)
disponibilizados em periféricos que suportam a interação em tempo real. A RA se
diferencia da RV por manter o usuário em sua própria realidade, porém enriquecendo-a
com elementos virtuais 3D interativos. Além da visualização em si, a imersão do
usuário em ambientes RV, ou a ampliação da realidade no caso de sistemas RA, pode
ser aprimorada com estimulação de outros sentidos, como a audição e o tato. Como
diferenciais de utilização da RV e RA em relação a mídias tradicionais, como textos e
vídeos, destacam-se:
● motivação de estudantes e usuários, baseada na experiência de 1ª pessoa, com
retenção da informação vivenciada de forma interativa e pessoal;
● grande poderio de ilustrar características e processos, em relação a outras mídias,
com dispensa de grandes arquivos;
● possibilidade de visualizações de detalhes de objetos, desde estruturas microscópicas
a universos;
● realização de experimentos virtuais, dispensando necessidade de laboratórios físicos,
que pode ser de forma atemporal, fora do âmbito de uma aula clássica;
● aprendizagem ativa, propiciada pela interatividade;
● estímulo à criatividade, catalisando a experimentação;
● oferecimento de igual oportunidade de comunicação para estudantes de culturas
diferentes, a partir de representações;
● desenvolvimento de habilidades computacionais e de domínio de periféricos.
Entretanto, há uma série de barreiras a serem contornadas de forma a prover condições
de geração de material instrucional, apoiado por RV e RA:
● Geração de Objetos Virtuais: necessidade de modelagem 3D, que requer detida
avaliação de demandas, perfis dos objetos virtuais, capacidade de renderização de
máquinas destino e aderência dos modelos aos usuários.
● Concepção da Interface Comportamental: Para atingir bom grau de imersão, faz-
se necessária a concepção da interface, com definição da função de transferência que
permita processos interativos de forma natural, dispensando aprendizado de
equipamentos e/ou adaptações incômodas. É comum se encontrar soluções nas quais
a escolha do periférico tenha se antecipado a definições da solução;
● Aspectos de Imersão: O processo de utilização dos ambientes virtuais e aderência
ao ensino/aprendizagem demanda a perda da descrença por parte do usuário na
experimentação/navegação/interação. Viabiliza-se tal característica com a imersão
do mesmo no ambiente, por meio de aspectos de comportamento desejado,
comportamento percebido e atuação motora. O conjunto de software e hardware deve
ser adequado à condição de presença do usuário, com processos e reações intuitivos.
780
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
custo zero, que podiam ser adquiridos ou construídos pelo próprio usuário para
incorporar smartphones. Assim, um dos desafios da popularização de RV e RA,
relacionados com a disponibilidade e com o custo dos dispositivos especiais, estava
resolvido.
Restava ainda o desafio da disponibilização de aplicações de RV e RA
adequadas às necessidades dos usuários. O que se tem majoritariamente, hoje em dia,
ainda são aplicações desenvolvidas por empresas e especialistas, que satisfazem mais a
curiosidade das pessoas, pelo seu aspecto lúdico, do que suas reais necessidades.
Na área educacional, as demandas por aplicações personalizáveis são muito
fortes, em função das características regionais e culturais dos professores e estudantes.
A maneira mais apropriada de permitir a personalização das aplicações é ter-se
ferramentas de autoria de aplicações adequadas para não especialistas e aplicações
customizáveis com facilidade de troca de conteúdo. Desta maneira, professores e
estudantes poderão desenvolver e apropriar-se de suas próprias aplicações,
disponibilizando-as em repositórios abertos para uso por qualquer interessado,
popularizando assim, o desenvolvimento, adaptação e uso de aplicações de RV e RA.
Nesse sentido, à guisa de exemplo, relatam-se aqui alguns aspectos do
desenvolvimento e evolução de uma ferramenta de autoria de aplicações de RA e RV,
denominada FLARAS (Souza, Moreira, Kirner, 2013), que permite, a usuários não
especialistas em informática, definir pontos no espaço 3D e colocar informações e
objetos 3D sobre eles. Além disso, esses elementos podem ser configurados,
sonorizados com sons e narrações, animados e receberem funcionalidades interativas.
No contexto do desenvolvimento do FLARAS, surgiu outro entrave para não
especialistas: Como produzir as informações e objetos 3D que irão povoar o ambiente
3D das aplicações de RV e RA? Primeiramente, deve-se considerar que, embora lúdico,
muitas vezes os objetos 3D são desnecessários no ambiente 3D, podendo ser
substituídos por textos e imagens, facilitando assim o desenvolvimento da aplicação e
sua utilização por ficar mais "leve". Uma característica importante das aplicações com
FLARAS é que o ambiente virtual interativo fica sobreposto com o ambiente real
capturado pela câmera nas aplicações de RA. Ao obstruir-se a câmera, o ambiente
virtual permanece na tela, constituindo uma aplicação de RV.
Uma versão da ferramenta FLARAS para dispositivos móveis também foi
desenvolvida, constituindo a ferramenta de autoria de aplicações de RA e RV
denominada MAREAS. Essa ferramenta, ainda em fase de testes e de produção de
tutoriais, deve ser disponibilizada oportunamente para uso gratuito no site de RV
mencionado em Kirner (2017). O desenvolvimento de de aplicações de RA e RV ocorre
através de toques na tela do smartphone, usando recursos carregados por download ou
transferência para o dispositivo.
Finalmente, um grande desafio para a área é tornar as aplicações de RV e RA
inclusivas para pessoas com deficiência, envolvendo principalmente deficientes visuais
e auditivos. Tanto o FLARAS quanto o MAREAS possuem recursos para apoiar essas
pessoas. Para os deficientes visuais, FLARAS se serve de ambientes de baixo relevo,
cujos pontos em protuberância são ativáveis pelo usuário e percebidos pela aplicação
através de visão computacional, emitindo retorno sonoro. Para os deficientes auditivos,
FLARAS usa retorno de texto e imagens com maior intensidade. Esses ambientes com
retornos sonoros e textuais, além de servir para a integração dos deficientes a grupos de
usuários sem deficiência, também permite estimular o uso de aplicações por crianças e
idosos, compensando a falta ou a perda de destreza na interação com a aplicação. Já a
781
XXXVII Congresso da Sociedade Brasileira de Computação
MAREAS usa retorno sonoro para deficientes visuais e retorno de texto e de imagens
para deficientes auditivos, baseando-se na ativação por posicionamento na tela de toque
do celular. Essas aplicações podem ser customizadas pelos usuários, trocando conteúdo
envolvendo principalmente imagens, textos, sons e vídeos, podendo inclusive realizar
conversão para outras Línguas, dando assim maior alcance às aplicações.
Portanto, apesar da popularização da RV e da RA ter sido um grande desafio,
percebe-se que ferramentas de autoria e abordagens apropriadas podem contribuir para
o desenvolvimento e adaptação de aplicações, de forma a atingir um grande número de
usuários de forma personalizada, incluindo aqueles que apresentam alguma dificuldade
de uso, apoiando principalmente a modernização da Educação.
3. Conteúdo Significativo e Interativo
Sempre que surge uma nova mídia é comum que professores e criadores de material
instrucional corram para desenvolver ou adaptar conteúdos para essa nova tecnologia.
Em geral ocorre uma certa euforia no início, com corpos docente e discente motivados
com a novidade. Artigos e palestras em eventos enaltecem a chegada daquela que
parece ser a tecnologia educacional definitiva, com resultados promissores de
experimentos, nos quais invariavelmente aparecem avaliações positivas e entusiasmadas
dos participantes. Novas startups surgem, como por exemplo a Oculearn (Swift and
Allatt, 2017), especializada no desenvolvimento de conteúdos educacionais de RV.
Toda essa euforia, contudo, pode se transformar em frustração e até mesmo aversão à
mídia que parecia ser a solução para todos os problemas.
Várias são as questões e desafios envolvidos no uso de mídia em educação (Tori,
2010). A primeira questão é que o ser humano gosta de novidade. Isso explica porque
os primeiros experimentos de uso de uma nova mídia invariavelmente conseguem
envolver alunos e professores e são bem avaliados. Esses bons resultados incentivam a
adoção crescente dessa novidade, muitas vezes, com grande foco na mídia e pouco no
conteúdo. Ao deixarem de ser novidade os conteúdos que não forem excelentes tornam-
se tediosos e o desgaste provocado pelos conteúdos menos interessantes acaba por
prejudicar a aceitação até mesmo daqueles melhores. Outro erro comum são
comparações entre “aulas convencionais” e “aulas produzidas com a nova mídia”. Essas
comparações dificilmente conseguem separar mídia de metodologia. Além disso, as
condições e os investimentos em preparação são discrepantes, o que compromete
qualquer experimento científico, sem falar nos fatores “novidade” e “interesse artifical”
que os experimentos com alunos produzem.
É inegável o potencial da RV e da RA como forma de tornar os conteúdos mais
imersivos e eficazes a custos menores que transportar fisicamente os alunos para outras
realidades ou criar réplicas e/ou simulações físicas de fenômenos. Mas para que os
conteúdos virtuais imersivos sejam bem sucedidos é importante que alguns requisitos
sejam atendidos:
● Significado: Os conteúdos devem ser significativos para os alunos, ou seja, devem
fazer sentido e se relacionar com seus conhecimentos. É importante que o aprendiz
entenda a importância daquilo que irá aprender e vislumbre como isso pode impactar
a sociedade ou sua futura profissão. O interesse deve ser pelo conteúdo, não pela
mídia. Essa irá apenas torná-lo fácil e agradável de ser aprendido, mas não tem
capacidade de torná-lo significativo.
● Interatividade: A interatividade é o potencial de interação percebido pelo usuário de
determinado sistema (Tori, 2010). Mesmo que o aluno não precise interagir o tempo
todo, o fato de saber que pode interagir faz toda diferença. Isso é interatividade, a
782
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
qual reduz a distância entre aluno e conteúdo (Tori, op. cit.). Se o aprendiz não se
sentir próximo ao conteúdo de RV ou RA a aprendizagem ficará aquém do potencial
que a mídia, o conteúdo e a metodologia oferecem. A interatividade também deve ser
significativa. O interator precisa perceber o impacto de suas ações e sentir que essas
causam interferências importantes e significativas ao sistema.
● Qualidade: Além da qualidade técnica do conteúdo desenvolvido para RV e RA
(não pode haver atrasos, distorções, erros etc..), o que, por si já é um grande desafio,
deve haver qualidade no design, na narrativa e na interface. A qualidade pedagógica
nem precisa ser citada porque essa é condição necessária e indispensável. Para a
criação de realidades verossímeis é indispensável o cuidado com a narrativa (a
experiência do cinema e dos games pode ajudar) e evitar fatores que lembrem o
participante de que se encontre em outra realidade. A interface tem um papel
importante nesse ponto. Sair da imersão para acionar menus e comandos da forma
tradicional quebram o realismo e a imersão. Daí a importância de se criar formas de
interação integradas ao ambiente virtual e o uso de interfaces naturais. Um dado
importante é que a fidelidade gráfica da representação dos ambientes e personagens
não é o fator mais relevante (Jerald, 2016).
783
XXXVII Congresso da Sociedade Brasileira de Computação
784
6º DesafIE! - Workshop de Desafios da Computação aplicada
à Educação
Vale ressaltar que este quadro pretende-se uma síntese, não exaustiva, das
discussões levantadas com maior detalhe no corpo deste artigo.
6. Considerações Finais
Apontadas como promessas computacionais eficazes na aproximação e estreitamento do
diálogo entre os agentes dos processos de ensino e aprendizagem, Realidade Virtual e
Aumentada podem auxiliar, sobremaneira, alguns desafios de tais processos.
Entretanto, como pôde-se relatar, há diversos aspectos fundamentais que serão
colocados como desafios para a disseminação de tais tecnologias. Os autores apontam,
para a próxima década, a possibilidade de popularização de recursos educacionais por
tais agentes, com dispensa de aprendizagem de técnicas e métodos complexos de
programação, a geração de conteúdo significativo e o reuso de recursos educacionais já
concebidos e em bom uso como elementos de tais processos, tendo os princípios de
abertura como norteadores para um efetivo reúso.
Há um conjunto de desafios importantes a serem enfrentados pelas comunidades
científica e de prática; o Quadro 1, apresentado na última seção deste artigo, buscou
sintetizar os principais direcionamentos para o avanço do estado da arte no que tange à
concepção de recursos educacionais com suporte a RV e RA. Os autores esperam, com
isso, haver contribuído para as discussões a respeito deste tópico, cuja importância na
área de Informática na Educação tende a crescer de maneira ainda mais significativa nos
anos vindouros, considerando todos os avanços tecnológicos e a crescente pervasividade
de dispositivos e soluções computacionais no campo de RV e RA.
Referências
Boger, Y. S., Pavlik, R. A., & Taylor, R. M. (2015). “OSVR: An open-source virtual
reality platform for both industry and academia”. IEEE Virtual Reality, p. 383-384.
Gartner Group (2016) “Emerging Technology Hype Cycle”. Disponível em:
http://blogs.gartner.com/smarterwithgartner/files/2016/08/Emerging-Technology-
Hype-Cycle-for-2016_Infographic_revise2.jpg, Acesso em: 17/04/2017.
Jerald, J. (2016) The VR Book: Human-Centered Design for Virtual Reality.
Association for Computing Machinery and Morgan & Claypool Publishers, 2016.
Kirner, C. (2017). Realidade Virtual e Aumentada, 2017, Disponível em:
http://realidadevirtual.com.br. Acesso em: 18/04/2017.
785
XXXVII Congresso da Sociedade Brasileira de Computação
Silveira, I. F., Araújo, C. F., Amaral, L. H., Alcântara de Oliveira, I. C., Schimiguel, J.,
Ledôn, M. F. P., & Ferreira, M. A. G. V. (2007). “Granularity and reusability of
learning objects”. In: Learning objects and instructional design, v. 1, 139-170.
Silveira, I. F. (2016). “OER and MOOC: The need for openness”. Issues in Informing
Science and Information Technology, 13, 209-223.
Souza, R.C., Moreira, H.D.F. Kirner, C. (2013) FLARAS - Flash Augmented Reality
Authoring System. Disponível em: http://ckirner.com/flaras2. Acesso em:
18/04/2017.
Swif, R. and Allatt, D. (2017) Virtual Reality In Education: Our Path to Reality.
London: Oculearnig.
Tori, R. (2010) Educação sem Distância. São Paulo: Editora Senac, 2010.
Wiley, D. (2014). The Access Compromise and the 5th R. Iterating toward openness.
Disponível em https://opencontent.org/blog/archives/3221. Acesso em: 13/4/2017.
Wiley, D., & Green, C. (2012). “Why openness in education”. Game changers:
Education and information technologies, p. 81-89.
786
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Apresentação
O 8º Workshop de Computação Aplicada à Gestão do Meio Ambiente e Recursos
Naturais (WCAMA) teve como objetivo promover a integração efetiva da área de
computação (metodologias e ferramentas) com temas relacionados ao meio ambiente
(política e gestão).
Como a gestão dos recursos naturais é uma atividade complexa e dinâmica, ela
requer a integração entre atores nos campos social, político e tecnológico para serem
efetivamente desenvolvidas e implantadas.
Neste contexto, busca-se discutir do ponto de vista da computação o
desenvolvimento de metodologias e ferramentas para gestão do meio ambiente e recursos
naturais. Mais especificamente, trabalha-se no sentido de tratar eficientemente i) o
gerenciamento e a comunicação entre grandes volumes de dados; ii) o desenvolvimento
de técnicas para análise destes dados; e, iii) a otimização, o controle e integração dos
dados gerados.
Nesta edição, o WCAMA recebeu 16 submissões de artigos, dos quais 11 artigos
completos e 5 artigos curtos. Destes, foram aceitos para publicação 5 artigos completos
(~45% de aceitação) e 3 artigo curto (~60% de aceitação).
Gostaríamos de agradecer o apoio dos colegas pesquisadores do comitê de
programa e das nossas instituições (USP E UPF); e, saudamos os autores dos artigos e os
participantes do WCAMA 2017.
787
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral
Antonio Mauro Saraiva (Universidade de São Paulo)
Comitê de Programa
Adenauer Yamin (Universidade Federal de Pelotas), Adriano Werhli (Universidade
Federal do Rio Grande), Alessandro Machado de Araújo (Universidade Federal de
Goiás), Aline Loreto (Universidade Federal de Pelotas), André Luiz Moura
(Universidade Federal de Goiás), Anselmo Paiva (Universidade Federal do Maranhão),
Antonio Carlos da Rocha Costa (Universidade Federal do Rio Grande) ,Carlos Amaral
Hölbig (Universidade de Passo Fundo), Claudio Baptista (Universidade Federal de
Campina Grande), Diana Adamatti (Universidade Federal do Rio Grande), Eliane
Araújo (Universidade Federal de Campina Grande), Hailton Lemos (Faculdade Nossa
Senhora Aparecida), Jean-Pierre Briot (Université Pierre et Marie Curie), João Balsa
(Universidade de Lisboa), José Laurindo Campos dos Santos (Instituto Nacional de
Pesquisas da Amazônia), Marco Antônio Oliveira Domingues (Instituto Federal de
Pernambuco), Marilton Aguiar (Universidade Federal de Pelotas), Pedro Andrade
(Instituto Nacional de Pesquisas Espaciais), Tiago Garcia de Senna Carneiro
(Universidade Federal de Ouro Preto), Valéria C. Times (Universidade Federal de
Pernambuco), Vinícius Sebba Patto (Universidade Federal de Goiás), Vinicius Cunha M
Borges (Universidade Federal de Goiás), Vinicius Ribeiro (Universitário Ritter dos
Reis)
788
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Palestras
Sistema de Informação sobre a Biodiversidade Brasileira – SIBBr
Dra. Andrea Ferreira Portela Nunes (Diretora Nacional do SIBBr. Ministério de Ciência,
Tecnologia, Inovação e Comunicações - MCTIC)
O SiBBr é uma plataforma on-line que pretende reunir a maior quantidade de dados e
informações existentes sobre a biodiversidade do Brasil. Seu objetivo é apoiar a produção
científica e processos de formulação de políticas públicas e tomada de decisões associadas
à conservação ambiental e ao uso sustentável dos recursos naturais, por meio do estímulo
e facilitação à digitalização, publicação na internet, integração de dados de livre acesso e
uso de informações sobre a biodiversidade brasileira. Com o SiBBr, o governo brasileiro
atende a uma recomendação da Convenção sobre a Diversidade Biológica (CDB), do qual
o Brasil é um dos países signatários, no que concerne a integração e disponibilização de
informações sobre biodiversidade. O projeto é associado à Plataforma Global de
Informação sobre Biodiversidade (GBIF, na sigla em inglês), a maior iniciativa
multilateral de acesso virtual a informações biológicas de aproximadamente 60 países. O
GBIF soma mais de 570 milhões de registros de espécies provenientes de 766 instituições.
Assim, com o SiBBr, o Brasil integra o maior esforço global para conhecer melhor a
biodiversidade do planeta e disponibilizar gratuitamente as informações existentes.
Bio: Dra. Andrea Ferreira Portela Nunes possui graduação em Ciências Biológicas pela
Universidade Santa Úrsula (1984), mestrado em Ciências Biológicas pela Universidade
Federal do Pará (1992) e doutorado em Ciências Biológicas (Zoologia) pela Universidade
Federal do Rio de Janeiro (2001). Trabalha no Ministério da Ciência, Tecnologia e
Inovação desde 1988, tendo atuado como Pesquisadora do Museu Paraense Emílio Goeldi
e passado pela Coordenação-Geral de Políticas e Programas em Biodiversidade e pela
Assessoria de captação de recursos internacionais da Secretaria Executiva do MCTI.
Atualmente está à frente da Coordenação-Geral de Gestão de Ecossistemas do MCTI.
Tem larga experiência na implementação de políticas públicas em meio ambiente e
biodiversidade e no acompanhamento e avaliação de políticas e programas em C&T. Atua
na coordenação de redes e programas do MCTI, tais como, o Programa Nacional de
Pesquisas em Biodiversidade - PPBio, a Rede Pró-Centro-Oeste, a Rede Bionorte, a Rede
ComCerrado, a Rede Geoma, o Programa LBA e o Programa AmazonFace. É Diretora
Nacional do Sistema de Informação em Biodiversidade Brasileira -SiBBr. Possui
formação na área de Zoologia, com ênfase em Ecologia de Paisagens, Ecologia de
Comunidades e Ecologia de populações.
789
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Sistema de Suporte à Decisão baseado em Lógica Fuzzy para Outorga de Recursos
Hídricos Superficiais
Carlos Ueslei R. de Oliveira, Peter Zeilhofer
790
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Sistema de Suporte à Decisão baseado em Lógica Fuzzy para
Outorga de Recursos Hídricos Superficiais
Carlos Ueslei R. de Oliveira1, Peter Zeilhofer1
1
Programa de Pós-Graduação em Física Ambiental– Universidade Federal do Mato
Grosso (UFMT)
Av. Fernando Corrêa da Costa, 2367 – 78060-900 – Cuiabá – MT – Brasil
carlos@ic.ufmt.br, zeilhoferpeter@gmail.com
Abstract. The growing demand for water resources has forced managers to
create control mechanisms to ensure the sustainability of water sources and
manage conflicts among users. In this paper we present the development of a
Decision Support System based on fuzzy logic and AHP to evaluate the effects
of multiple uses in watersheds on water availability considering quantitative
and qualitative characteristics of water. It also allows the generation of
scenarios to solve possible conflicts, distributing the burden for maintenance
of the hydrological system between users designed and already installed in a
basin. Design and operation of the prototype and its outputs are illustrated.
Resumo. A crescente demanda por recursos hídricos tem obrigado os gestores
a criarem mecanismos de controle para garantir a sustentabilidade dos
mananciais e gerir conflitos entre usuários. Neste trabalho está exposto o
desenvolvimento de um Sistema de Suporte à Decisão baseado em lógica fuzzy
e AHP para avaliar os efeitos dos usos múltiplos em bacias hidrográficas
sobre a disponibilidade hídrica considerando características quantitativas e
qualitativas da água. Possibilita também a geração de cenários para solução
de possíveis conflitos, distribuindo o ônus para manutenção do sistema
hidrológico entre usuários projetados e já instalados em uma bacia.
Concepção e funcionamento do protótipo e suas saídas são ilustrados.
1. Introdução
A água é um elemento indispensável para a manutenção da vida e, apesar da sua
abundância sobre a superfícies do planeta, somente uma pequena fração de 0,007% da
água potável se encontra em rios e lagos de onde é retirada a maior parte para usos
consuntivos [USGR 2016].
A partir de 1980 a captação mundial de água doce tem aumentado cerca de 1%
ao ano, principalmente devido à crescente demanda dos países em desenvolvimento.
[UNESCO 2016]. O aumento da retirada da água de rios e lagos para usos consuntivos e
o aumento do lançamento de efluentes não devidamente tratados têm pressionado a
791
XXXVII Congresso da Sociedade Brasileira de Computação
sustentabilidade desses corpos d'água prejudicando não só o meio ambiente como as
comunidades humanas localizadas à sua jusante [Oliveira, 2009].
O Brasil, apesar de ter em geral alta disponibilidade de água doce, da expressiva
heterogeneidade hidroclimática, da distribuição demográfica e do desenvolvimento
agrícola e industrial, passa por problemas regionais de escassez de disponibilidade em
termos quantitativos e/ou qualitativos, podendo gerar conflitos entre usuários. Isso fez
com que fosse instalada em 1997 a Política Nacional de Recursos Hídricos (Lei nº
9.433), seguida pelas respectivas legislações estaduais, responsável por legislar a gestão
da água.
Uma das ferramentas utilizadas para o controle do uso é chamada "Outorga de
Recursos Hídricos", um contrato firmado entre uma unidade concedente (Órgão Gestor)
e um consumidor. No caso da Outorga de águas superficiais é estipulada uma vazão
máxima a ser retirada em um determinado trecho de um rio durante um determinado
tempo, o chamado uso direto. Caso um consumidor pretenda lançar efluentes é também
estipulada uma vazão necessária para depurar esse efluente, vazão essa chamada de uso
indireto. A soma dos usos diretos e indiretos de um determinado trecho junto com a
soma de todos os usos à montante não podem afetar a vazão ecológica, uma vazão
mínima previamente estipulada pelo gestor e necessária para que o rio se mantenha
sustentável.
A utilização desses contratos junto com a devida fiscalização ajuda ao Órgão
Gestor a ter um maior controle sobre os mananciais, evitando assim possíveis conflitos
pelo uso de seus recursos hídricos, mas como gerenciar conflitos quando a vazão
disponível para Outorga já está quase que totalmente concedida e o Órgão Gestor recebe
novos pedidos de concessão que comprometeriam a vazão ecológica? A simples
negação da concessão fará com que o Órgão Gestor tenha problemas de natureza
política devido aos impactos socioeconômicos que essa negação trará para as
populações afetadas por essa decisão.
Uma forma de resolver esse problema seria diminuir as vazões concedidas em
contratos já assinados no mesmo trecho ou em trechos a montante de onde essa entidade
deseja se instalar. Essa solução é possível devido ao fato de que o Órgão Gestor tender a
ser menos rigoroso nos primeiros contratos de Outorga e também pelo fato de as
entidades solicitantes, precavendo-se frente a possíveis aumentos de demanda de vazão
no futuro, solicitem uma vazão relativamente maior que a necessária atualmente. O
Órgão Gestor poderia dessa forma diminuir sensivelmente a quantidade de vazão
contratada de um grupo de usuários, sem prejudicar as suas atividades, de forma a
sobrar uma vazão resultante em quantidade suficiente para ser usado por um novo
usuário sem prejudicar a sustentabilidade do rio.
A quantidade de alternativas válidas para solucionar esse problema torna
complicada a tarefa do Órgão Gestor em tomar a melhor decisão que satisfaça tanto a
sustentabilidade do rio quanto ao conjunto de usuários afetados. Um Sistema de Suporte
à Decisão (SSD) pode ser usado para analisar todas as alternativas existentes segundo
regras estabelecidas pelo Órgão Gestor e apresentar uma lista com as melhores
792
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Figura 1 – Fluxograma do funcionamento do Sistema de Outorga proposto
793
XXXVII Congresso da Sociedade Brasileira de Computação
Figura 2 – Tela do Sistema mostrando a vazão estimada em alguns trechos do rio Coxipó
794
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Figura 3 – Tela do sistema mostrando características de alguns trechos do rio
Coxipó e identificação do trecho com o maior déficit de vazão.
Nesse exemplo, o trecho com maior déficit de vazão é justamente o trecho no
qual o empreendimento deseja se instalar, porém, pode acontecer de o trecho de maior
déficit se encontra a jusante deste trecho.
O sistema dessa forma permite ao Órgão Gestor decidir sobre a Outorga
solicitada. A Outorga pode ser negada para esse empreendimento sob a justificativa que
isso afetaria a sustentabilidade do rio a partir daquele trecho, ou o modelo de SSD pode
ser inicializado que mostrará outras alternativas que permitam a inclusão desse
empreendimento mantendo a sustentabilidade do rio.
2.2 O Módulo de Sistema de Suporte à Decisão
O módulo de Suporte a Decisão tem como objetivo apresentar ao Órgão Gestor uma
lista com no máximo 10 agrupamentos de entidades, com no máximo 5 membros cada
situados a montante do trecho com maior déficit e que poderiam ter suas vazões
sensivelmente diminuída. Esses agrupamentos são então ranqueados de acordo com
parâmetros definidos anteriormente pelo Órgão Gestor. Com essa lista de agrupamentos
o Órgão Gestor pode decidir qual agrupamento terá suas vazões diminuídas e em qual
quantidade para cada membro, liberando assim vazão suficiente para que possa incluir a
entidade requisitante da Outorga.
O módulo de suporte a decisão foi implementado utilizando modelo de decisão
fuzzy proposto por O'Hagan (1993) para inter-relacionar objetivos e critérios do
problema na busca pela sua melhor solução. O’Hagan (1993) demonstrou que
combinando as operações de união, intersecção e exponenciação é possível construir
mecanismos de suporte a tomada de decisão que permitam analisar cada uma das
alternativas apresentadas frente aos critérios objetivos e as restrições para a solução do
problema proposto.
Para Bellman e Zadeh (1970), uma boa alternativa deve satisfazer tanto os
795
XXXVII Congresso da Sociedade Brasileira de Computação
objetivos quanto às restrições de certo problema. Já uma alternativa ótima será aquela
que melhor satisfaça todos os critérios no sentido comum. Eles sugeriram uma regra de
conjunção implícita com m objetivos e n restrições de um problema que avalia uma
determinada alternativa através de uma intersecção pela fórmula demonstrada na
Equação 2.
D(x) = M in(μG1 (x), ..., μGi (x), μC1 (x), ..., μCj (x)) [Equação 3]
O conjunto difuso D(x) será definido sobre todas as alternativas x ∈ X. Para
uma ótima tomada de decisão é preciso selecionar a alternativa x* que terá o mais alto
valor de pertinência no conjunto de decisões D(x). A alternativa x* será aquela que
melhor irá satisfazer o conjunto de objetivos e restrições para o problema proposto. Essa
alternativa pode ser definida pela Equação 4.
Uma limitação da metodologia proposta por Bellman e Zadeh (1970) é que ela
pressupõe que todos os objetivos e restrições do problema possuem o mesmo grau de
importância, o que é algo difícil de ser verificado no mundo real. Para resolver essa
limitação Yager (1977) sugeriu elevar os valores de pertinência dos conjuntos de
objetivos e restrições por um peso que representasse a importância de um determinado
objetivo ou restrição frente aos demais para a solução do problema. O peso ajudaria a
definir processos de decisão de conjuntos difusos mais representativos para as
necessidades do mundo real. Dessa forma a função de decisão é definida como
demonstrado pela Equação 5.
Sendo α o peso que avalia o grau de importância do objetivo m ou da restrição
n.
Para mensurar a relativa importância entre os objetivos ou restrições em
problemas complexos e assim obter os seus respectivos pesos, Saat (1977) propôs um
método de análise multicritério do tipo interativo chamado Analytic Hierarchy Process
(AHP), modelo que permite estruturar hierarquicamente qualquer problema com
múltiplos critérios, múltiplas decisões e múltiplos períodos. É um processo flexível, que
apela para a lógica e ao mesmo tempo, utiliza a intuição. [Orofino, 1996]
796
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Os resultados obtidos com os julgamentos, através da comparação paritária são
colocados numa matriz A quadrada n x n. Este procedimento se repete para todos os
elementos do nível, com respeito a todos os elementos de um nível acima.
A matriz de comparação A para comparar n elementos (a) é demonstrada na
Equação 6.
A = ⌊aij ⌋(onde aji = a1 , aii = 1, 1≤i≤n, e 1≤j≤n) [Equação 6]
ij
A diagonal principal é sempre 1. Nota-se a reciprocidade através da diagonal, ou
seja, se o elemento a12= 3, então a21 = 1/3.
De acordo com Betencourt (2000), o próximo passo é calcular o peso relativo
das alternativas com respeito aos critérios. Os pesos relativos são obtidos através da
aplicação de um processo de duas etapas. Primeiro, soma-se cada coluna e, então, se
divide cada coluna entrada pela soma respectiva de cada coluna. A matriz que resulta do
processo é chamada de matriz normalizada. (Equação 7)
a
A′ = ⌊aij′ ⌋onde aij′ = n ij para 1≤i≤n, e 1≤k≤n [Equação 7]
∑ akj
k=1
O eigenvector é o vetor de pesos a ser utilizado para acrescentar o grau de
importância de cada objetivo ou restrição frente ao seu conjunto.
No SSD desenvolvido foram criados os seguintes parâmetros a serem usados
797
XXXVII Congresso da Sociedade Brasileira de Computação
como pesos na função de decisão:
● Percentual da captação em relação a Vazão máxima disponível para Outorga -
Esse parâmetro visa diferenciar aquelas entidades que retiram uma grande
quantidade de água do rio daquelas que tiram pouco.
● Concentração de DBO - Parâmetro usado para beneficiar aquelas entidades que
lançam efluentes já devidamente tratados evitando assim o uso da vazão de
depuração utilizada pelo rio.
● Tempo médio de contrato - Esse parâmetro tende a diferenciar as entidades que
recém adquiriram os contratos de Outorga daquelas que já estão com seus contratos
perto de expirarem.
Esses parâmetros estão disponíveis ao Órgão Gestor em uma tela de
configuração como a apresentada na Figura 4. Nessa, o gestor deve selecionar qual a
relativa importância de cada um dos critérios na decisão da concessão de Outorga por
múltiplos objetivos/restrições.
Figura 4 – Tela de configuração de preferência de objetivos/restrições para a
geração do vetor de pesos
798
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
melhores alternativas são apresentadas ao gestor para que ele possa decidir qual grupo
será escolhido para possibilitar a inclusão do novo usuário.
A Figura 5 mostra o resultado de uma simulação realizada pelo sistema,
mostrando os grupos formados que poderiam ter suas vazões diminuídas para a inclusão
de uma nova entidade.
Figura 5 – Tela com o resultado de uma simulação mostrando as melhores
alternativas de diminuição da vazão outorgada, possibilitando a inclusão de um
novo usuário.
Nessa tela são expostas para cada grupo de usuários as seguintes informações:
● Índice com a posição desse grupo em relação aos demais;
● Trecho do rio na qual se encontra cada um dos usuários do grupo;
● Código do usuário no sistema;
● Nome do usuário;
● Vazão de captação (uso direto) de cada usuário, acordada no contrato de
outorga;
● Vazão de lançamento de efluentes (uso indireto) de cada usuário,
acordada no contrato de outorga;
● Quantidade de DBO lançado por cada usuário no grupo via efluentes
● Vazão sugerida de retirada para cada usuário desse grupo para contribuir
para a solução do problema;
● Soma das vazões sugeridas de retirada de cada grupo.
Com essas informações o gestor pode escolher qualquer um dos grupos
apresentados ao escolher o link situado no número referente ao grupo desejado.
Efetuada a escolha, o sistema processa as alterações diminuindo as vazões de retirada
em cada um dos usuários do grupo escolhido nos valores de retirada sugeridos pelo
sistema e finaliza incluindo o novo usuário no sistema.
3. Conclusão
O uso do Sistema desenvolvido fornece aos gestores de recursos hídricos novas
possibilidades na tomada de decisão na concessão de Outorga, problema que pode se
799
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Da Hora, A. F. (2001) “Metodologia para a outorga do uso de recursos hídricos com
ênfase no caso de aproveitamento hídrico”, Tese de Doutorado. Coordenação dos
Programas de Pós-Graduação de Engenharia da Universidade Federal do Rio de
Janeiro – COPPE/UFRJ. Rio de Janeiro.
O’Hagan, Michael (1993) “A fuzzy decision maker”, Harcourt Brance & Cia.
Bellman,R.E. and Zadeh, L.A. .(1970). “Decision Making in a Fuzzy Environment”,
Management Science, 17,141-164.
Yager, R.R. (1977)."Multiple Objective Decision-Making Using Fuzzy Sets," Intl.
J.Man-Machine Studies, 9, 375-382.
Saaty, T.L. (1977). "A Scaling Method for Priorities in Hierarchical Structures," J.Math.
Psychology, 15,234-281
Orofino, F. V. G. (1997) “Aplicação de um Sistema de Suporte Multicritério Saat For
Windows – Na Gestão dos Resíduos Sólidos de Serviços de Saúde – Caso do
Hospital Celso Ramos”. Dissertação de Mestrado. Universidade Federal de Santa
Catarina.
Betencourt, PAULO R. B. (2000) “Desenvolvimento de um modelo de análise
multicriterial para justificativa de investimentos em tecnologia da informação”.
Dissertação de Mestrado em Administração na UFRGS.
USGR. (2016) “The World's Water”. http://water.usgs.gov/edu/earthwherewater.html,
February
UNESCO (2016) “Relatório Mundial das Nações Unidas sobre Desenvolvimento dos
Recursos Hídricos 2016 – Relatório Executivo”.
http://unesdoc.unesco.org/images/0024/002440/244040por.pdf, February
Oliveira, C. U. R. “Sistema de Suporte à Decisão Baseado em Lógica fuzzy para
Outorga de Recursos Hídricos”. Cuiabá, 2009. 72p. Dissertação (Mestrado) –
Programa de Pós-Graduação em Física Ambiental, Universidade Federal de Mato
Grosso.
800
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
1. Introduction
PA allows for the definition of optimal agricultural management with the use of deci-
sion support systems. This leads to: effective management of resources to increase farm
profitability, responding to crop inter and intra field variability, and the reduction of en-
vironmental impact [Zhang et al. 2002]. An essential step in managing land use, and
keeping the complexity manageable, is to divide land into smaller homogeneous regions
with similar production factors [Saraiva 2003]. Unsupervised segmentation algorithms are
used to generate these divisions. Typically these algorithms find there use in the segmen-
tation of images to automatically extract all objects and regions of interest for a certain
task. In this work one such algorithm, Baatz [Baatz and Schape 2000], is implemented
and applied to geospatial multi-scale and multi-spectral production data segmentation. The
resulting segments can then be used as part of a larger decision system to divide the land
into manageable areas with similar characteristics, such as soil, vegetation and climate
factors, that otherwise would be difficult to separate visually [Saraiva 2003, Costa 2016].
801
XXXVII Congresso da Sociedade Brasileira de Computação
The R language is an interpreted language and while many packages are solely
written in R, many compute intensive packages also make use of C/C++ code. In our
implementation we made use of the Rcpp API [Eddelbuettel and François 2011] to access,
extend and modify seamlessly R objects using C++ for those function that require more
time to execute than other parts of the algorithm.
3. Results
In Figure 1 typical land use data is shown and composed of eleven layers. Each map within
the figure represents the distribution of a particular soil factor. The first layer represents
the acidity of the soil, the following seven layer the concentration of several minerals, and
the last three represent land composition information. These maps are generated by using
agricultural data obtained and discussed in earlier work [Costa et al. 2013].
Figure 2 illustrates that our implementation separates the input data into meaning-
ful segments, thus defining areas for optimal agricultural management. The figure shows
the obtained segments in a two dimensional space defined by the two most dominant
components obtained with Principle Component Analysis (PCA) after normalization. The
loadings indicate a clear separation of the land in clay, sand and silt regions. We also see
there is a region clearly defined with high potassium. The obtained segments are grouped
by variables that without using a complex algorithm, such as the one implemented in this
work, would be difficult to distinguish, for example the two clusters in the center top.
Figure 3 shows the result of the application of the algorithm on the input data and
segmented according to the separation just described. The first map at the top left shows
the segmented land area considering all the soil factor, whereas the remaining maps show
how each layer by itself is segmented.
802
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Figure 2. Correlations between the input data mapped onto first two principal
components of PCA. The vectors represent loadings of the variables. The cen-
troids of each group is identified and represents a segment.
4. Conclusion
Our adaptation and implementation of the Baatz algorithm made available trough an R
package is shown to be effective for the segmentation of geospatial data [Costa 2016]. Our
test data has shown that the implementation is able to divide the virtual landscape defined
by complex factors in regions with homogenous characteristics which has its applicability
in the effective management of agricultural land use.
Acknowledgement
The authors are grateful to CAPES and NAP-Biocomp - University of Sao Paulo. The
funders had no role in study design, data analysis, decision to publish, or preparation of
the manuscript.
References
Baatz, M. and Schape, A. (2000). Multiresolution segmentation: An optimization
approach for high quality multi-scale image segmentation. In J. Strobl, T. B. and
Griesbner, G., editors, Angewandte Geographische Informations-Verarbeitung, pages
12–23. Wichmann Verlag, Karlsruhe, Germany, xii edition.
Costa, W. F. (2016). Segmentação multiresolução variográfica ótima. PhD thesis,
Universidade de São Paulo, São Paulo, Brazil.
803
XXXVII Congresso da Sociedade Brasileira de Computação
Figure 3. The result of the segmenter, the first image depicting the overall seg-
mented result, the numbers indicating the centroids of Figure 2
Costa, W. F., Saraiva, A. M., Veiga, A. K., Soares, F., and Quintanilha, J. A. (2013).
Applying multiresolution segmentation algorithm to generate crop management zones
based on interpolated layers.
Eddelbuettel, D. and François, R. (2011). Rcpp: Seamless R and C++ integration. Journal
of Statistical Software, 40(8):1–18.
R Core Team (2014). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria.
Saraiva, A. M. (2003). Tecnologia da informação na agricultura de precisão e biodi-
versidade: Estudos e proposta de utilização de web services para desenvolvimento e
integração de sistemas. Tese de livre docência, Universidade de São Paulo.
Zhang, N., Wang, M., and Wang, N. (2002). Precision agriculture - a worldwide overview.
Computers and Electronics in Agriculture, 36(2 - 3):113 – 132.
804
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Abstract. Weather and climate forecast are very important tools for decision
making in several areas, for instance, in agriculture, hydrology and power ge-
neration. The combination of modern technologies and readily available en-
vironmental data provides a valuable mechanism to increase productivity and
minimize climate risks. The subject of this meta-paper is the development of
a toolkit to automate data requests, providing access and visualization of data
generated by the weather forecast and climate models from CPTEC/INPE.
1. Introdução
Os sistemas de informações geográficas (GIS) têm obtido destaque na comuni-
dade de geociências, pelo significativo papel que representam nas ciências da terra. Uma
variedade de ferramentas foram desenvolvidas para fornecimento e manipulação de gran-
des quantidades de dados (Big Data) [Hey and Trefethen 2005]. Existe uma crescente
demanda por serviços, conteúdos e produtos diversificados, que atendem segmentos e ne-
cessidades cada vez mais especificas. Lidar com esse fluxo de informações constantes
torna-se uma tarefa difı́cil para as empresas e instituições, que muitas vezes precisam
tomar decisões rápidas baseadas em análises de dados.
Diversos modelos climáticos globais vem sendo utilizados para gerar grandes vo-
lumes de dados de projeções de mudanças climáticas, por meio de diferentes cenários.
Entre eles está o modelo Eta implantado no CPTEC/INPE desde 1996. Os dados
gerados pelo Modelo Eta são armazenados em arquivos binários no servidor do CP-
TEC/INPE. Entretanto, grande parte dos usuários que utilizam estes dados necessitam
805
XXXVII Congresso da Sociedade Brasileira de Computação
806
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
807
XXXVII Congresso da Sociedade Brasileira de Computação
4. Conclusões
A plataforma web aparece como uma importante ferramenta, capaz de automa-
tizar o processo de requisição, de disponibilização e de visualização dos dados de pre-
visão mudanças climáticas gerados pelo CPTEC/INPE, sendo capaz de filtrar os dados
de acordo com os parâmetros informados e gerar o resultado no formato desejado pe-
los usuários de maneira intuitiva. A plataforma facilitará a disponibilização pelo CP-
TEC/INPE dos dados de previsão, fazendo com que eles possam ser utilizados por
usuários dos mais diversos setores, auxiliando nos desafios relacionados à segurança
energética e alimentar. Outra facilidade proporcionada pela plataforma é uma me-
lhor apresentação dos dados disponibilizados, melhorando o seu entendimento e sua
visualização.
Agradecimentos
Os autores agradecem ao CNPq pelo apoio recebido por meio do projeto
“Projeções das mudanças climáticas para estudos de impactos sobre a disponibilidade
hı́drica no paı́s com implicações na segurança alimentar e energética” (processo número
446197/2015-7) e da bolsa DTI-B (processo 381489/2016-7).
Referências
Chou, S. C., Bustamante, J. F., and Gomes, J. L. (2005). Evaluation of Eta model seasonal
precipitation forecasts over south america, nonlin. Processes Geophys., pages 537–
555.
Chou, S. C., Lyra, A. A., Mourão, C., Dereczynski, C., Pilotto, I., and Gomes, J. L. (2014).
Assessment of climate change over south america under RCP 4.5 and 8.5 downscaling
scenarios. American Journal of Climate Change, pages 512–527.
Chou, S. C., Marengo, J. A., Lyra, A., Sueiro, G., Pesquero, J., and Alves, L. M. (2012).
Downscaling of South America present climate driven by 4-member HadCM3 runs.
Climate Dynamics, pages 635–653.
Hey, T. and Trefethen, A. E. (2005). Cyberinfrastructure for e-science. Science,
308(5723):817–821.
IPCC (2013). Intergovernmental Panel on Climate Change. Disponı́vel em http://
www.ipcc.ch/. Acesso em: 10 Fev. 2017.
Marengo, J. A., Chou, S. C., Kay, G., Alves, L. M., Pesquero, J. F., and Soares, W. R.
(2012). Development of regional future climate change scenarios in south america
using the Eta CPTEC/HadCM3 climate change projections: climatology and regional
analyses for the amazon, São Francisco and the Paraná river basins. Climate Dynamics,
pages 1829–1848.
Pesquero, J. F., Chou, S. C., Nobre, C. A., and Marengo, J. A. (2010). Climate downsca-
ling over South America for 1961- 1970 using the Eta model. Theoretical and Applied
Climatology, pages 75–93.
Zhang, L. and Yi, J. (2010). Management methods of spatial data based on PostGIS. In
Circuits,Communications and System (PACCS), 2010 Second Pacific-Asia Conference
on, volume 1, pages 410–413.
808
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
1. Introdução
A corrida mundial por alternativas limpas de energia, ou seja, aquelas geradas a partir de
recursos renováveis e que não agravam os problemas de emissão de gases poluentes na
atmosfera, fez com que vários paı́ses passassem a buscar alternativas e a realizar pesquisas
direcionadas ao consumo de combustı́veis de maneira sustentável. O biodiesel, por ser
uma fonte energética oriunda de biomassa, é capaz de contribuir, com sustentabilidade,
para suprir essa demanda mundial.
O biodiesel apresenta diversas propriedades que estão relacionadas aos contami-
nantes da matéria-prima, às condições de armazenamento e, principalmente, às estruturas
moleculares que o compõem, que são utilizadas para identificar a qualidade dele. Para
assegurar uma combustão eficiente e qualidade nas emissões, bem como a segurança no
transporte e manuseio do biodiesel, a Agência Nacional do Petróleo, Gás Natural e Bio-
combustı́veis (ANP) instituiu, por meio da Resolução no 14 de 2012 (atualizada para no
45 em 2014), parâmetros de qualidade e especificações para o biocombustı́vel.
As propriedades inerentes à composição, como número de cetano, densidade, vis-
cosidade, número de iodo, entre outros, estão diretamente relacionadas ao percentual de
809
XXXVII Congresso da Sociedade Brasileira de Computação
cada éster alquı́lico que compõe a matéria-prima (óleo vegetal ou gordura animal). Es-
tudos sobre a influência da composição quı́mica do biodiesel nas suas propriedades de
qualidade têm sido demonstrada por meio de pesquisas que ressaltam que as proprieda-
des dos triglicerı́dios e do combustı́vel biodiesel são determinadas pelas quantidades de
cada ácido graxo que se encontram presentes em suas moléculas [Ramos et al. 2009].
Diferentes técnicas de previsão de propriedades de qualidade como ı́ndice
de iodo, viscosidade cinemática, densidade, número de cetano, entre outros,
são focos de análises. Algumas abordagens usam modelos empı́ricos e es-
tatı́sticos [Allen et al. 1999, Ramı́rez-Verduzco et al. 2012, Garcı́a et al. 2013,
Chavarria-Hernandez and Pacheco-Catalán 2014, Freitas et al. 2014], além de técnicas
que utilizam espectroscopia de infravermelho próximo (NIR) para determinar as pro-
priedades do biodiesel [Baptista et al. 2008, Adewale et al. 2014]. As Redes Neurais
Artificiais (RNAs), por sua vez, têm sido aplicadas em várias áreas da engenharia e
domı́nios. Em relação às pesquisas relacionadas com controle de qualidade de com-
bustı́veis e biocombustı́veis, essas redes têm sido empregadas nos mais variados contextos
[Çay et al. 2013, Sharon et al. 2012, Piloto-Rodrı́guez et al. 2013, Saldana et al. 2012,
Rezaee et al. 2014].
A previsão da viscosidade cinemática tem recebido atenção considerável na lite-
ratura, pois é uma das propriedades mais importantes que afetam a utilização do biodiesel
como combustı́vel [Allen et al. 1999]. Tanto a viscosidade do óleo e seu éster alquı́lico
derivado podem ser utilizados para monitorar a qualidade do biodiesel [Allen et al. 1999].
É uma propriedade que possui relação direta com o processo de injeção dos motores, a
viscosidade do biodiesel aumenta com o comprimento da cadeia carbônica e com o grau
de saturação [Knothe et al. 2010]. A norma EN 14214 (EN ISO 3104) estabelece um in-
tervalo aceitável de 3,5 a 5,0 mm 2 /s, ASTM D6751 (D 445) permite um intervalo de 1,9 a
6,0 mm 2 /s e a ANP com limite aceitável de 3,0 a 6,0 mm 2 /s. A ANP além dos métodos
analı́ticos citados recomenda também o método ABNT NBR 10441 [Dantas 2006].
A pesquisa de [Jahirul et al. 2013] utilizou redes neurais artificiais para predição
da viscosidade cinemática a partir da influência da temperatura. O trabalho utilizou 204
amostras com 23 entradas incluindo temperatura e composição quı́mica do biodiesel e
a propriedade da viscosidade cinemática como saı́da. As RNAs possuiam uma camada
oculta variando de 23 a 46 neurônios e as redes foram treinadas somente com o algoritmo
Levenberg Marquardt. A melhor performance obtida foi com a topologia (23:28:1) com
ı́ndice de determinação (R) de 0,97; por outro lado, a acurácia de predição do modelo
pode ser melhorada por meio do aumento do intervalo de treinamentos e conjunto de
dados.
[Meng et al. 2014] também conduziu seu trabalho com predição da viscosidade ci-
nemática. Nesse estudo, uma RNA foi desenvolvida para prever a viscosidade cinemática
do biodiesel à temperatura de 313 K, com os dados experimentais de 105 amostras de
biodiesel recolhidas a partir da literatura. O método utilizou na RNA apenas as frações de
massa de 19 ésteres metı́licos de ácidos graxos como entradas. Dois métodos previamente
descritos baseados em equações empı́ricas foram comparados com os resultados da RNA.
Os resultados indicaram que o método com RNA proposto é capaz de prever a viscosidade
cinemática a 313 K do biodiesel com erro quadrático médio (MSE) de 0.0099. No ge-
ral, o método com RNA demonstrou uma melhor precisão para a previsão da viscosidade
810
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
2. Dados Experimentais
Neste estudo, os dados utilizados para treinamento, validação e teste das redes fo-
ram reunidos da literatura [Santos 2008, Dantas 2006, Candeia 2008, Padhi 2010,
Sanford et al. 2009, Moser 2009, Hoekman et al. 2012, Kivevele et al. 2011,
Nogueira 2010] e outros cedidos pelo Laboratório de Pesquisa em Quı́mica Analı́tica
(LPQA) da Universidade Federal do Maranhão (UFMA). Esses dados são referentes à
composição e as suas análises fı́sico-quı́micas de amostras de biodiesel. Um conjunto de
98 amostras com 13 ésteres de entrada e saı́da representada pela viscosidade.
Pode-se verificar pela Figura 1 a distribuição de cada tipo de ésteres de ácidos
graxos nas amostras de biodiesel coletadas e a predominância dos ésteres, como o ácido
oleico (C18:1), ácido linoleico (C18:2), ácido laurico (C12:0) e ácido palmı́tico (C16:0).
A descrição para a composição dos esteres neste trabalho (XX:X) é sobre a informação do
número de carbonos (XX) e o número da direita representa o número de insaturações da
molécula. As amostras de biodiesel são derivadas de vários tipos de óleos e oleoginosas,
entre elas, biodiesel metı́lico e etı́lico de soja, dendê, linhaça, colza, pinhão manso, mo-
ringa, babaçu, gordura vegetal de aves e algas; as diversas cores na figura 1 representam
os diversos tipos citados.
811
XXXVII Congresso da Sociedade Brasileira de Computação
• Fase de operação:
– Apresentar padrões de entrada;
– Pré-processar padrões (normalizar dados);
– Aplicar padrões nas entradas da rede treinada;
– Obter resultados das saı́das da rede treinada;
– Pós-processar resultados (desnormalizar dados);
As RNAs usadas neste estudo foram do tipo feedforward backpropagation, que
são uma das mais populares em vários domı́nios e baseadas no aprendizado supervisio-
nado [Meng et al. 2014]. As redes foram configuradas com uma e duas camadas escon-
didas, com números de neurônios variando de 2 a 25 em cada camada. Vários algorit-
mos podem ser utilizados para otimizar arquiteturas de redes, destes foram selecionados
7 para treinamento, validação e teste: backpropagation padrão (gradiente descendente),
backpropagation com momentum e taxa de aprendizado, BFGS quasi-newton, gradiente
conjugado escalonado, resilient propagation, one step secante e Levenberg-Marquardt.
Os algoritmos selecionados foram divididos em duas categorias de estratégias de
treinamento: métodos de primeira e de segunda ordem. Os métodos de primeira ordem
são aqueles onde somente o gradiente local determina a direção da minimização do erro
(gradiente descedente). Já os métodos de segunda ordem são considerados mais eficientes
para fazer o treinamento de redes do tipo múltiplas camadas. Esses algoritmos recorrem
a um rigor matemático baseado em modelos bem definidos de otimização não-linear não
estendida, e não apresentam assim um vı́nculo natural com a inspiração biológica proposta
inicialmente para RNAs. Podemos citar o método de Newton, que pode ser considerado
como o método local básico que usa informações de segunda ordem, sua aplicação requer
o cálculo da matriz de Hessian[Silva 1998].
Foram selecionadas também duas funções de ativação: função logı́stica e função
tangente hiperbólica. Pode-se visualizar na Tabela 1 a descrição dos principais parâmetros
812
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
configurados.
1X n
M SE = (ŷi − yi )2 (1)
n i=1
R = α + βXi + i (2)
qP
n
i=1 (ŷi − yi )2
RM SE = (3)
n
Ainda em relação aos critérios de configuração das topologias de rede, os pesos da
813
XXXVII Congresso da Sociedade Brasileira de Computação
rede foram iniciados aleatoriamente, foi definido um limite de 10000 mil épocas (quanti-
dade de ciclos) de treinamento para cada topologia e a taxa de aprendizagem no valor de
0,01. No final das simulações as 10 melhores redes foram salvas.
4. Resultados e Discussões
Neste estudo foram utilizadas 98 amostras de ésteres de ácidos graxos para predição de
viscosidade cinemática. Foram desenvolvidas e testadas 576 combinações para cada al-
goritmo para se obter as melhores topologias candidatas para predição de propriedades
de qualidade do biodiesel. Os testes foram executados com a ferramenta Matlab Version
2013b Neural Netwoks Toolbox.
Tabela 2. Resultados dos testes para escolha do valor de parada antecipada para
viscosidade.
Configuração da Rede Valor de parada antecipada Treinamento - R Validação - R Teste - R Separação dos dados
12–4 6 0.99 0.88 0.97 Aleatória
5–10 6 0.99 0.86 0.97 k-partições
11–5 10 0.99 0.99 0.96 Aleatória
5–3 10 0.98 0.99 0.99 k-partições
4–10 15 0.99 0.98 0.70 Aleatória
8–12 15 0.99 0.99 0.80 k-partições
3–18 20 0.99 0.99 0.83 Aleatória
4–5 20 0.99 0.99 0.45 k-partições
13–2 25 0.98 0.99 0.83 Aleatória
6–7 25 0.99 0.99 0.73 k-partições
Dos resultados obtidos pode-se aferir que valores de parada antecipada muito bai-
xos ou valores muito altos não permitem que a rede aprenda o suficiente para generalizar
bem os dados de treinamento, validação e teste; assim, classificam incorretamente novos
dados.
814
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
correlação para rede com 8 neurônios na camada oculta. A regressão chegou a valores de
0,99 tanto para treinamento, validação e teste. O segundo melhor desempenho foi com o
algoritmo BFGS que conseguiu generalizar com coeficientes de correlação de 0,99 para
treinamento, 0,99 para validação e 0,96 para teste, que pode ser observado na Tabela 3.
Além dos valores de regressão observados, o RMSE obtido dos algoritmos de treinamento
testados ficaram abaixo de 1.
Dos resultados obtidos de previsão de viscosidade com duas camadas, observou-
se que praticamente todos os algoritmos apresentaram um bom desempenho para
generalização de dados novos. Exceto pelos algoritmos BFGS e resilient-propagation
que obtiveram baixos desempenhos na fase de teste da rede, o que pode significar um
overfitting do treinamento, em vista da quantidade de neurônios nas camadas ocultas,
apesar da validação cruzada.
Pode-se comparar também o desempenho do backpropagation padrão, backpro-
pagation com momentum e o Levenberg-Marquardt. Os três obtiveram coeficientes de
correlação de 0,99 para treinamento, validação e teste da rede. Porém o que obteve me-
nor número de neurônios foi o Levenberg-Marquardt com uma arquitetura 5-6, ou seja, 5
neurônios da primeira camada oculta e 6 neurônios na segunda camada oculta. Enquanto
que o backpropagation padrão e com momentum precisaram de um número superior de
neurônios, com arquiteturas de 22-9 e 20-8, respectivamente, para generalizar bem com
esses coeficientes.
A Tabela 4 mostra todos os coeficientes obtidos para cada algoritmo na
predição da viscosidade com duas camadas. Trabalhos relatados [Jahirul et al. 2013,
Meng et al. 2014, Saldana et al. 2012] já demonstraram a habilidade do algoritmo
Levenberg-Marquardt de predizer a propriedade viscosidade cinemática por meio de
RNAs. Neste estudo, confirma-se essa habilidade também para a viscosidade, porém
enquanto que alguns trabalhos relacionados chegaram a apenas 0.97 na predição dessas
propriedades, aqui obtive-se ı́ndices de 0.99 de predição.
815
XXXVII Congresso da Sociedade Brasileira de Computação
melhor desempenho com menor custo computacional, ou seja, com menor quantidade de
neurônios.
5. Conclusão
Da avaliação desses algoritmos, pode-se perceber que as RNAs são uma boa ferramenta
para predição de parâmetros de qualidade do biodiesel. Os resultados demonstraram
ı́ndices de correlação das melhores arquiteturas de redes para predição da viscosidade
com ı́ndice de correlação de 0.99 tanto para treinamento, validação e teste.
Desse modo, considera-se que com a avaliação dos algoritmos é possı́vel verificar
a tendência da qualidade do biodiesel a partir de suas propriedades fı́sico-quı́micas e
assim reduzir tempo e custos na indústria de biocombustı́veis, tendo em vista que alguns
métodos de análises de biodiesel podem ser longos e complexos.
Referências
Adewale, P., Mba, O., Dumont, M.-J., Ngadi, M., and Cocciardi, R. (2014). Determina-
tion of the iodine value and the free fatty acid content of waste animal fat blends using
FT-NIR. Vibrational Spectroscopy, 72(0):72–78.
Allen, C., Watts, K., Ackman, R., and Pegg, M. (1999). Predicting the viscosity of biodi-
esel fuels from their fatty acid ester composition. Fuel, 78(11):1319–1326.
Baptista, P., Felizardo, P., Menezes, J. C., and Neiva Correia, M. J. (2008). Multivariate
near infrared spectroscopy models for predicting the iodine value, CFPP, kinematic
816
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
817
XXXVII Congresso da Sociedade Brasileira de Computação
818
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
1. Introduction
The research field called Biodiversity Informatics (BI), which aims at applying
informatics concepts, techniques and tools to research and development on biodiversity,
has existed for the past 40 years, and during that time much effort was concentrated into
the digitization of standardized biodiversity data, the integration of such data and on
making those data available by means of digital platforms on the Internet for being used
into a myriad of usages [17-24 do artigo].
In this context, the community around BI has successfully supported initiatives
to capture and digitize standardized biodiversity related data and to deliver platforms for
free access to biodiversity data integrated from many data providers distributed around
the world, such as the Global Biodiversity Information Facility (GBIF) [GBIF 2017].
However, the increasing amount of freely available data from an also increasing
amount of sources, which may have different and unclear level of concerning with the
819
XXXVII Congresso da Sociedade Brasileira de Computação
quality of their data, has risen concerns related to the "fitness for use" of such data.
Before using any data, the data users have to ask if the quality of data is fit for their
particular uses, that is, to perform the Data Quality (DQ) assessment [Ge and Helfert].
Performing DQ assessment became a critical issue in the BI context, specially
because not enough information about the quality of data is provided, making it difficult
to split a subset of data that is fit for use for different specific purposes. Furthermore,
determining if data are fit for use is an action that is highly dependent of the "data use"
and deal with DQ for all potential biodiversity data usages is impractical for the most BI
initiatives.
In this context, it is evident that any effort aiming at allowing DQ assessment,
necessarily requires determining what DQ needs means according to the data user’s
perspectives, as illustrated in the Figure 1. Due to the idiosyncratic nature of the concept
of “quality”, it is essential to understand what means "data fitness for use" according to
the data user’s perspective in order to enable DQ assessment [Veiga 2017].
820
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
821
XXXVII Congresso da Sociedade Brasileira de Computação
3. Biodiversity DQ Profiling
Due to the idiosyncratic nature of the concept of “quality”, it is essential to understand
what "data fitness for use" means according to the data user’s perspective in order to
enable the DQ assessment and management.
In this contexts, defining “data fitness for use” involve to define three elements:
use, data and fitness. Accordingly, DQ Profile encompasses these elements by five main
822
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
823
XXXVII Congresso da Sociedade Brasileira de Computação
mean data that are complete, precise, credible and accurate, so in this context, the
quality of data will be proportional to the measure of those DQ Dimensions.
The relevance of a dimension for a specific purpose is relative (Dalcin 2005;
McGilvray 2008). In the mentioned example, DQ could be considered poor if the most
important dimension was the timeliness and the measure for timeliness was considered
low.
There are a number of classical DQ Dimensions cited in the literature that can be
used as reference (Askham et al. 2013; Wand and Wang 1996; Fox et al. 1994; Cai and
Zhu 2015), but any measurable attribute useful for measuring the quality of data in the
context of a Use Case can be adopted as a DQ Dimension.
For reference, we can present some of the commonly accepted and widely used
DQ Dimensions, such as: timeliness, credibility, accuracy, consistency, integrity,
completeness, readability, fitness, accessibility, precision and believability (Cai and Zhu
2015).
To define a DQ Measurement Policy, a set of relevant DQ Dimensions must be
selected and defined according to Use Case context. To define a DQ Dimension in a
Use Case context, it is necessary to describe the Dimension (e.g. completeness,
consistency, conformity) in the context of an IE (e.g. coordinates, event date, country,
scientific name) and Data Resource type (i.e. single record or dataset). For example, in a
given Use Case context, ”Coordinates Completeness of Datasets” may represent the
proportion of records with values supplied for decimal latitude and decimal longitude,
in another Use Case context, ”Coordinates Completeness of Datasets” may represent the
total number of records with values supplied for decimal latitude, decimal longitude and
geodetic datum.
824
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
4. Final Remarks
The presented method enables to define the meaning of fitness (through the DQ
Measurement, Validation and Improvement policies) of a set of valuable IE in the
context of a specific Use Case context. All these components putting together defines a
DQ Profile.
Based on a DQ Profile, a set of method and mechanisms (usually softwares) for
measure, validate and improve the quality of Data Resources, generating customized
DQ Reports suitable for the assessment and improvement of DQ in the Use Case
context.
This work has been developed in the context of TDWG/GBIF Biodiversity DQ
Interest Group [BDQ-IG 2017], more specifically, in the context of the Task Group 1 -
Framework on DQ [TG1 2017].
References [TODO]
Boulic, R. and Renault, O. (1991) “3D Hierarchies for Animation”, In: New Trends in
Animation and Visualization, Edited by Nadia Magnenat-Thalmann and Daniel
Thalmann, John Wiley & Sons ltd., England.
Dyer, S., Martin, J. and Zulauf, J. (1995) “Motion Capture White Paper”, http://
reality.sgi.com/employees/jam_sb/mocap/MoCapWP_v2.0.html, December.
Holton, M. and Alexander, S. (1995) “Soft Cellular Modeling: A Technique for the
Simulation of Non-rigid Materials”, Computer Graphics: Developments in Virtual
Environments, R. A. Earnshaw and J. A. Vince, England, Academic Press Ltd., p.
449-460.
Knuth, D. E. (1984), The TeXbook, Addison Wesley, 15th edition.
Smith, A. and Jones, B. (1999). On the complexity of computing. In Advances in
Computer Science, pages 555–566. Publishing Press.
825
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This paper describes the proposal of a web information system for
formatting and structuring the sample events data and species occurrence in
Ichthyology, according to the Darwin Core. The objective is promoting
integration with SiBBr and other biodiversity information systems. In addition,
the system will allow the insertion of water data from the sample environment
and climatic data that will be used to assist researchers in understanding
environmental factors that determine patterns of composition and abundance,
and establishing cause and effect relationships.
1. Introdução
O Sítio Restingas e Lagoas Costeiras do Norte Fluminense (RLaC) compõe a rede de
Pesquisas Ecológicas de Longa Duração (PELD). Seu objetivo é compreender a
estrutura e o funcionamento dos ecossistemas de lagoas costeiras e restingas do Parque
Nacional da Restinga de Jurubatiba e predizer os efeitos de perturbações naturais e
antrópicas sobre esses ecossistemas (Esteves e Petry 2008).
Uma característica comum das subáreas de pesquisa do PELD-RLaC é o registro
inicial dos dados brutos (ainda não processados). Os pesquisadores da subárea de
Ictiologia (estudo de peixes) registram dados brutos de espécimes como características,
quantidade obtida em cada ponto de coleta, quantidade coletada por espécie, dados
biométricos (medidas e peso), sexo, entre outros. Também são registradas as
características do ambiente aquático como profundidade, salinidade, as quantidades de
fósforo, nitrogênio, ph, carbono, oxigênio, clorofila e condutividade, e ainda, variáveis
ambientais como temperatura, pressão atmosférica, umidade e quantidade de chuva.
A única forma de armazenamento desses dados é o registro em cadernos ou
fichas de campo. Posteriormente, esses dados são inseridos em planilhas eletrônicas para
gerar valores médios, desvios padrões e gráficos, com o objetivo de utilizá-los em
monografias, dissertações, teses, relatórios e artigos científicos. O processo de criação
dessas planilhas é feito de forma individual, sem nenhum tipo de padrão, dificultando o
826
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
compartilhamento dos dados brutos. De acordo com Rocha et al. (2004), esses dados
estão sujeitos à degradação devido a problemas como: desvinculação de pesquisadores
do projeto; morte de pesquisadores e problemas com hardware ou software que
inviabilizam o acesso aos dados.
A disponibilização dos dados obtidos no âmbito de cada sítio de pesquisa no
Sistema Brasileiro da Biodiversidade (SiBBr) é uma exigência do PELD (CNPq 2016).
O SiBBr é uma plataforma on-line que pretende reunir dados e informações sobre a
biodiversidade do Brasil, e foi desenvolvido para integrar e disseminar dados coletados e
publicados por diversas instituições brasileiras, como universidades, institutos de
pesquisa e agências governamentais (Gadelha et al. 2014). O principal problema
enfrentado pelos pesquisadores de Ictiologia do PELD-RLaC é o mapeamento dos dados
brutos coletados para um padrão que permita a integração com o SiBBr. Atualmente,
esse mapeamento vem sendo efetuado manualmente, criando-se duas planilhas
eletrônicas: uma nomeada Event, que armazena os dados referentes ao evento de coleta,
e uma segunda planilha, nomeada Occurrence, onde são armazenados os dados
referentes às ocorrências de organismos em cada evento discriminado na planilha Event.
Este artigo propõe um sistema de informação web que tem por objetivo permitir
a inserção dos dados de coleta e de ocorrências de espécies em Ictiologia do sítio PELD-
RLaC estruturados no padrão Darwin Core, para que posteriormente possam ser
integrados ao SiBBr e outros sistemas. O sistema também permitirá a inserção de dados
da água do ambiente de coleta e dados climáticos. Esses dados serão utilizados para
auxiliar os pesquisadores na compreensão de fatores ambientais que determinam os
padrões de composição e abundância e estabelecimento de relações de causa e efeitos.
827
XXXVII Congresso da Sociedade Brasileira de Computação
composto por três camadas. Na primeira camada (1) o pesquisador poderá inserir,
alterar, excluir e consultar dados dos eventos de coleta, ocorrências de espécies, medidas
dos organismos e dados de água relacionados ao evento de coleta. Na camada
intermediária (2), os dados de água (salinidade, ph, clorofila etc), assim como os dados
climáticos (ar e chuva), serão fornecidos de acordo com as classes da ontologia BLO. O
sistema permitirá que os dados dos eventos de coleta, ocorrência de espécies e medidas
de organismos sejam fornecidos diretamente no padrão Darwin Core. A terceira camada
(3) mostra que os dados fornecidos serão armazenados em um banco dados, juntamente
com os metadados de cada subprojeto. Os dados de eventos de coleta e ocorrências de
espécies serão exportados para o SiBBr através de comandos SQL. Todos os dados
armazenados serão utilizados para gerar dados estatísticos apresentados em formato de
gráficos e plotados em mapas de acordo com a necessidade de cada pesquisador. Após o
seu desenvolvimento, o sistema será avaliado pelos pesquisadores do PELD-RLac
executando casos de testes relacionados à inserção e consulta de dados, e à exportação
desses dados para o SiBBr.
4. Trabalhos relacionados
O sistema de informação speciesLink (Canhos 2005) permite integrar dados dos acervos
de coleções biológicas do Estado de São Paulo, fazendo o mapeamento desses dados
para o padrão Darwin Core. O Biodiversity Data Digitizer (BDD) (Cartolano et al.
2010) é uma ferramenta projetada para facilitar a digitalização, manipulação e publicação
de dados sobre a biodiversidade com base no padrão Darwin Core. O BDD possui
módulos para interações entre espécimes, monitoramento, análises estatísticas,
visualização de dados e sincronização de dados entre o seu banco de dados e planilhas
eletrônicas. O Brazilian Marine Biodiversity (BaMBa) é uma base de dados integrada
sobre a biodiversidade marinha brasileira utilizando os padrões EML e Darwin Core
(Meirelles et al. 2015). BaMBa permite a inserção de dados marinhos, através do upload
de planilhas a partir de um modelo fornecido, e a inserção de variáveis ambientais.
Esses trabalhos apresentam estratégias diferentes para padronização de dados da
biodiversidade no padrão Darwin Core. BDD e BaMBa são os que mais se relacionam
828
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
com o trabalho proposto neste artigo. O primeiro por oferecer uma interface onde o
pesquisador insere dados brutos no padrão Darwin Core. O segundo por apresentar uma
estratégia para a integração com o SiBBr e outros sistemas. Porém, esses trabalhos não
tratam o gerenciamento de dados de peixes de água doce, que é de extrema relevância
para o estudo da dinâmica da ocupação no complexo de lagoas do Parque Nacional da
Restinga de Jurubatiba realizado pelos pesquisadores do PELD-RLac.
5. Conclusão
O sistema facilitará a padronização dos dados, permitirá a integração com o SiBBr de
forma automatizada e garantirá aos pesquisadores de Ictiologia do PELD-RELaC a
preservação e a disponibilização desses dados. Assim, este trabalho poderá iniciar um
processo de mudança de cultura entre os pesquisadores do Núcleo de Pesquisas
Socioambiental de Macaé (NUPEM/UFRJ), onde estão alocados 90% dos pesquisadores
do sítio PELD-RLaC. Essa mudança diz respeito às rotinas que envolvem o
arquivamento e a disponibilização individual dos dados para uma cultura de integração,
disponibilização e reutilização desses dados, independente do objetivo das coletas.
6. Referências
Canhos, V. P. Sistema de Informação Distribuído para Coleções Biológicas: A
Integração do Species Analyst e SinBiota.n. 2001/02175-5, p.2-51, 2005.
http://splink.cria.org.br/docs/ outubro2005.pdf.
Cartolano, E. A.; Saraiva, A. M.; Veiga, A. K.; et al. Biodiversity Data Digitizer, 2010.
Woods Hole, USA.
CNPq (2016). “Política de Dados do Programa de Pesquisas Ecológicas de Longa
Duração – PELD” (2016). http://www.cnpq.br/web/guest/view/-/journal_content/56_
INSTANCE ED/10157/4621110.
Darwin Core Task Group, Biodiversity Information Standards (TDWG) (2009). “Darwin
Core”. http://rs.tdwg.org/dwc/
Esteves, F. D. A.; Petry, A. C. (2008). “Limnologia Em Pesquisas Ecológicas De Longa
Duração: A Experiência nas Lagoas Costeiras do Norte Fluminense (PELD-SÍTIO
5)”. p. 1–11.
Gadelha Jr., L. M. R., Guimaraes, P., Moura, A. M. C., Drucker, D., Dalcin, E., Gall,
G., Tavares Jr, J., Palazzi, D. C., Poltosi, M., Porto, F., Moura, F., Leo, W. V.
(2014). “SiBBr: Uma Infraestrutura para Coleta, Integração e Análise de Dados sobre
a Biodiversidade Brasileira”. VIII Brazilian e-Science Workshop (BRESCI 2014).
Proc. XXXIV Congress of the Brazilian Computer Society, 2014.
Meirelles, Pedro Milet, et al. “BaMBa: towards the integrated management of Brazilian
marine environmental data.” Database 2015 – Journal of Biological Database and
Curation (2015): bav088.
Rocha, C. F. D. Da; Assis Esteves, F. de; Scarano, F. R. (2004) “Pesquisas de longa
duração na Restinga de Jurubatiba: ecologia, história natural e conservação”. RiMa.
Souza, A. N. ; Medeiros, A. P. (2015). “BLO: Batata Lake (Oriximiná/PA) Application
Ontology”. Seminário de Pesquisa em Ontologias do Brasil (ONTOBRAS), São
Paulo. v. 1442.
829
XXXVII Congresso da Sociedade Brasileira de Computação
1
Instituto de Ciências Exatas e Naturais
Universidade Federal do Pará (UFPA) – Belém, PA, Brasil
2
Laboratório de Computação Aplicada
Instituto Tecnológico Vale – Belém, PA, Brasil
3
Data61, CSIRO – Sandy Bay, Tasmania, Australia
pedroabg@ufpa.br, eduardo.carvalho@pq.itv.org, helder.arruda@itv.org
paulo.desouza@data61.csiro.au, gustavo.pessin@itv.org
1. Introdução
As abelhas são consideradas o grupo mais eficaz de insetos polinizadores pois elas neces-
sitam das plantas para retirar o seu alimento [Gullan and Cranston 2008]. Ao contrário de
outros grupos de insetos, tanto as abelhas adultas quanto suas larvas e pupas alimentam-
se exclusivamente de recursos florais. Por isso, para suprir sua necessidade alimentar, as
abelhas visitam uma grande variedade de flores colhendo o pólen (fonte de proteína) e o
néctar para a produção do mel. A atividade de polinização é, portanto, uma ação involun-
tária dos polinizadores, mas essencial à vida das plantas, que se utilizam de cheiros, cores
e sabores para atraí-los [Cetapis-Ufersa 2017]. Além disso, de todo o alimento consumido
pela humanidade, estima-se que 35% depende da ação das abelhas [Message et al. 2012].
Isto quer dizer que cerca de um terço dos alimentos que chegam às mesas das pessoas são
provenientes da ação desses insetos exercendo o papel de polinizadores.
No entanto, apesar do crescimento global do número de colmeias domesticadas, a
quantidade de abelhas vem diminuindo nos Estados Unidos desde a década de quarenta,
e em alguns países da Europa desde a década de sessenta [Potts et al. 2009]. Segundo
[JS Pettis et al. 2013], grande parte desse declínio populacional das abelhas é proveniente
de uma combinação de pesticidas e fungicidas que contamina o pólen coletado pelas
abelhas para alimentar as colmeias.
830
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
2. Métodos
2.1. Coleta de Dados
A etapa de coleta de dados foi realizada como parte do projeto Microssensores
[de Souza et al. 2017] [Arruda 2015] onde etiquetas eletrônicas foram coladas em abe-
lhas a fim de aprimorar o conhecimento sobre o comportamento desses insetos. Os da-
dos de movimentação de abelhas foram obtidos por meio do emprego de etiquetas RFID
(Radio-frequency identification) em oito colmeias, como a da Figura 1. Considerou-se o
período de 1 a 31 de agosto de 2015, no qual 1.280 abelhas tiveram etiquetas afixadas ao
tórax, sendo 40 abelhas por colmeia (8 colmeias) por semana (4 semanas). Cada passa-
gem de uma abelha sobre o sensor gera um registro de movimentação que, após filtrados,
geraram um total de 127.758 atividades (aproximadamente 100 registros de atividade por
abelha durante o período do experimento).
O nível de atividade de abelhas é definido neste trabalho como o total de movi-
mentos em determinada hora, dividido pelo número de abelhas vivas naquele momento.
Dessa forma, o número varia de 0,0 a aproximadamente 2,0. Zero significa que nenhuma
831
XXXVII Congresso da Sociedade Brasileira de Computação
Figura 1. (1) Colmeia de Melipona Fasciculata, (2) Intel Edison para controle da
antena leitora de RFID e armazenamento dos dados, (3) Caixa de PVC para ar-
mazenamento dos itens eletrônicos, (4) Antena leitora de RFID, (5) Tubo plástico
para passagem das abelhas. No canto inferior direito, vê-se uma abelha com
etiqueta de RFID presa junto ao tórax.
abelha está realizando atividade; dois significa que cada abelha está realizando dois mo-
vimentos naquela hora. Em média, tinha-se entre 240 e 320 abelhas vivas por dia durante
o experimento. A Figura 2 mostra parte da série temporal do nível de atividade.
832
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Por sua vez, as Redes Neurais Recorrentes (RNNs) são a família de redes neurais
especializadas no processamento de dados sequenciais, isto é, uma sequência de valores
x(1), x(2), . . . , x(T). Além disso, as redes recorrentes são capazes de processar de forma
prática sequências muito maiores que as redes neurais que não são especializadas em da-
dos sequenciais. Aliás, a maioria das redes recorrentes também podem processar entradas
de tamanho variado [Goodfellow et al. 2016].
Redes neurais recorrentes podem ser construídas de diversas formas. Assim como
quase toda função pode ser considerada uma rede neural feedforward, basicamente qual-
quer função que envolva uma recorrência pode ser considerada uma RNN. De forma geral
a seguinte equação representa a recorrência da rede neural:
833
XXXVII Congresso da Sociedade Brasileira de Computação
onde e é a diferença entre o valor que se tem do nível de atividade e o predito pelo modelo.
Os dados foram preparados de forma que criou-se uma tabela de duas colunas,
uma com o nível de atividade no instante t-1 (feature) e outra com o nível de atividade no
instante t (target), uma hora a frente. Dito isso, os modelos têm como entrada os dados
da primeira coluna e tentam prever o nível de atividade do instante seguinte.
Finalmente, para treinar e testar as redes, os dados foram embaralhados e divididos
em 70% para treino e 30% para teste. Assim, para ter mais credibilidade nos resultados,
cada modelo foi treinado e testado 10 vezes.
3. Resultados
Mediante a inicialização randômica da matriz de pesos das redes, cada arquitetura foi exe-
cutada 10 vezes, como dito anteriormente. Desse modo, o gráfico da Figura 6 apresenta
o erro de cada arquitetura, onde cada boxplot contém os valores das 10 execuções. Logo,
observa-se que a melhor arquitetura foi a GRU-2x2, obtendo uma média de 0,214628 de
RSME, sendo o mínimo de 0,207741.
834
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Figura 4. Desenho das estruturas (a) LSTM e (b) GRU. (a) i, f e o são os portões
input, forget e output, respectivamente. c e c˜ são a célula de memória e o novo
conteúdo dela. (b) r e z são os portões reset e update. E h e h˜ são a ativação e
o candidato a ativação [Junyoung Chung and Bengio 2014].
Figura 5. Desenho dos modelos criados: a) duas camadas escondidas com duas
unidades cada, b) quatro camadas com uma unidade, c) uma camada com 4
unidades; Todas as estruturas possuem uma camada de saída e as unidades de
recorrência ora empregam GRU, ora LSTM, totalizando 6 modelos. O quadrado
preto nas setas indica a passagem do instante de tempo.
835
XXXVII Congresso da Sociedade Brasileira de Computação
836
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
837
XXXVII Congresso da Sociedade Brasileira de Computação
(3) Testar arquiteturas maiores de RNNs, e (4) Utilizar outros métodos de aprendizado de
máquina para prever o nível de atividade de abelhas.
5. Agradecimentos
Os autores agradecem aos colegas Bruno Ferreira (ITV) e Hanna Carvalho (UFPA) pelas
frutíferas discussões. Além disso, os autores agradecem ao Daniel Santiago (Embrapa)
por auxílios no desenvolvimento do trabalho. O primeiro autor agradece também a CA-
PES pela concessão da bolsa de mestrado. Para finalizar, os autores agradecem a Vera
Fonseca e a equipe do projeto microssensores (CSIRO/ITV).
Referências
Almeida, G. F. (2008). Fatores que interferem no comportamento enxameatório de abe-
lhas africanizadas. Departamento de Biologia, Programa de Pós-Graduação em Ento-
mologia.
Arruda, H. M. (2015). Arquitetura Computacional para Manuseio de Dados de Clima
e Movimentação de Abelhas com Etiquetas Eletrônicas. Programa de Mestrado Pro-
fissional em Uso Sustentável de Recursos Naturais em Regiões Tropicais do Instituto
Tecnológico Vale.
Braga, A., Ludemir, T., and Carvalho, A. (2000). Redes Neurais Artificiais: Teoria e
Aplicações. LTC editora.
Carvalho, E., Ferreira, B., Ferreira, J., de Souza, C., Carvalho, H., Suhara, Y., Pentland,
A., and Pessin, G. (2017). Exploiting the use of recurrent neural networks for driver
behavior profiling. International Joint Conference on Neural Networks (IJCNN).
Cetapis-Ufersa (2017). Sem Abelha Sem Alimento. www.semabelhasemalimento.
com.br.
D. Bahdanau, K. C. and Bengio, Y. (2014). Neural machine translation by jointly learning
to align and translate. ICLR.
de Souza, P., Williams, R., Quarrelld, S., Budi, S., Susanto, F., Vincent, B., Allend, G.,
and Almeida, A. (2017). Agent-based modeling of honey bee forager flight behavi-
our for swarm sensing applications. Environmental Modelling and Software (under
review).
Faiçal, B. S., Pessin, G., Pereira, G., Carvalho, A. P. L. F., Gomes, P. H., and Ueyama,
J. (2016). Fine-tuning of uav control rules for spraying pesticides on crop fields: An
approach for dynamic environments. International Journal on Artificial Intelligence
Tools.
Furquim, G., Pessin, G., Faiçal, B. S., Mendiondo, E. M., and Ueyama, J. (2015). Im-
proving the accuracy of a flood forecasting model by means of machine learning and
chaos theory. Neural Computing and Applications, 27:1129–1141.
Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press. http:
//www.deeplearningbook.org.
Gullan, P. J. and Cranston, P. S. (2008). Os insetos: um resumo entomológico. Tradução
de Sonia Hoenen. Roca.
838
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
839
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This work presents a precipitation forecasting method that uses the
stochastic approach of ensemble forecasting and the nearest neighbor
technique (KNN) to select, among several candidate probability distributions,
those that best adhere to observed data. The research uses the historical series
of hydrological data made available by the National Water Agency (ANA). The
preliminary results show that the proposed method generates predictions that
are, at least, comparable to several regression methods.
1. Introdução
Realizar previsões a respeito do comportamento do clima (possibilidade de chuva,
temperaturas mínimas e máximas, índice de radiação ultravioleta, umidade relativa do
ar, etc) e das bacias hidrográficas (vazão, secas, inundações, entre outras) é de suma
importância para o planejamento urbano e para várias atividades econômicas.
Os impactos das intempéries da natureza precisam ser medidos e, se possível,
previstos, para evitar danos irreparáveis às pessoas, ao patrimônio e às finanças
públicas. Por outro lado, é difícil fazer um planejamento, ou prognóstico, de médio ou
longo prazo sem considerar os impactos das mudanças climáticas (em sentido amplo)
localizadas.
Realizar previsões hidrológicas confiáveis é de extrema relevância, na medida
em que a antecipação de eventos extremos permite, entre outras coisas, a emissão de
alertas, a tomada de decisão na operação de obras hidráulicas, a execução de planos de
reposta a emergências, a otimização do uso de recursos hídricos [Fan et al., 2015].
840
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
841
XXXVII Congresso da Sociedade Brasileira de Computação
Para lidar com a incertezas das variáveis hidrológicas, Taillardat et al. (2016)
propôs um método estatístico não paramétrico para pós-processamento de conjuntos
(ensembles), baseado em florestas de regressão de quantil (QRF), para estimativa dos
quantis desejados. Com este mesmo objetivo, Scheuerer (2014) apresentou um método
de pós-processamento de conjunto (ensembles) em que a precipitação é modelada
utilizando uma distribuição de valores extremos generalizada, que permite incorporar
informações de vizinhança para melhorar o seu desempenho.
842
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
3. Metodologia
843
XXXVII Congresso da Sociedade Brasileira de Computação
Passo 3: Para cada um dos K vizinhos mais próximos determinados no passo anterior é
atribuído um peso baseado na função proposta por Lall e Sharma [3], dada por
844
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
4. Resultados e Discussão
Neste estudo preliminar, que tem por objetivo mostrar a viabilidade do algoritmo
proposto, foram ajustadas cinco distribuições de probabilidade, cujas características
podem ser encontradas em [Naghettini & Pinto, 2007], para as precipitações de Ponte
Nova do Paraopeba: Exponencial, Gamma, Gumbel, Normal e Weibull.
Para ilustrar, a Figura 3 mostra 70 observações para cada mês das distribuições
Gamma e Gumbel em relação a media mensal dos dados observados (correspondente a
70 anos). A Tabela 1 apresenta os resultados de ajuste das cinco distribuições candidatas
para os meses de dezembro e julho (meses que apresentaram condições extremas) e, a
Figura 4, mostra a dispersão das distribuições candidatas em relação aos dados
observados para estes dois meses.
Goodness-of-fit criteria
Gamma Gumbel Weibull Normal Exponential
Akaike's Information Criterion 876.6719 878.282 875.4924 879.2161 940.5455
Bayesian Information Criterion 881.1689 882.779 879.9893 883.7131 942.7940
Goodness-of-fit criteria
Gamma Gumbel Weibull Normal Exponential
Akaike's Information Criterion 473.8197 562.8927 473.8197 616.6062 471.8197
Bayesian Information Criterion 478.3167 567.3897 478.3167 621.1032 474.0682
845
XXXVII Congresso da Sociedade Brasileira de Computação
a) julho b) dezembro
Figura 4 – Dispersão das distribuições para os meses de a) julho e b) dezembro.
846
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
847
XXXVII Congresso da Sociedade Brasileira de Computação
No geral, a análise qualitativa (gráfica) feita para os demais meses mostra que o
algoritmo proposto gera uma distribuição de probabilidades que se aproxima bastante
dos dados observados, apresentado resultados que se comparam ao método SVM.
Agradecimentos
Ao Fundo Incentivo à Pesquisa e ao Programa Permanente de Capacitação Docente, da
Pontifícia Universidade Católica de Minas Gerais (PUC Minas) pelo apoio dado através
dos projetos FIP-2016/11052-2S e PPCD-Nº099/2015.
Referências
Andrade, M. A., Mello, C. D., & Beskow, S. (2013). Simulação hidrológica em uma
bacia hidrográfica representativa dos Latossolos na região Alto Rio Grande, MG.
Revista Brasileira de Engenharia Agrícola e Ambiental, 17(1), 69-76.
Caldeira, T. L., Beskow, S., de Mello, C. R., Faria, L. C., de Souza, M. R., & Guedes,
H. A. (2015). Modelagem probabilística de eventos de precipitação extrema no
estado do Rio Grande do Sul. R. Bras. Eng. Agríc. Ambiental, 19(3), 197-203.
Fan, F. M., Ramos, M.-H., & Collischonn, W. (2015). Sobre o uso de previsões
hidrológicas probabilísticas para tomada de decisão. Revista Brasileira de Recursos
Hídricos, 20(4), 914–926.
848
8º WCAMA - Workshop de Computação Aplicada à Gestão
do Meio Ambiente e Recursos Naturais
Franco, C. S., Marques, R. F., Oliveira, A. S., & de Oliveira, L. F. (2014). Distribuição
de probabilidades para precipitação máxima diária na Bacia Hidrográfica do Rio
Verde, Minas Gerais. Revista Brasileira de Engenharia Agricola e Ambiental-
Agriambi, 18(7).
García-Marín, A., Roldán-Cañas, J., Estévez, J., Moreno-Pérez, F., Serrat-Capdevila,
A., González, J., ... & Giráldez, J. V. (2014). La hidrología y su papel en ingeniería
del agua. Ingeniería del agua, 18(1), 1-14.
Kottegoda, N. T., Natale, L., & Raiteri, E. (2014). Monte Carlo Simulation of rainfall
hyetographs for analysis and design. Journal of Hydrology, 519, 1-11.
Lall, Upmanu, and Ashish Sharma. "A nearest neighbor bootstrap for resampling
hydrologic time series." Water Resources Research 32.3 (1996): 679-693.
Mishra, A. K., & Desai, V. R. (2005). Drought forecasting using stochastic models.
Stochastic Environmental Research and Risk Assessment, 19(5), 326–339.
doi:10.1007/s00477-005-0238-4
Naghettini, M. & Pinto, É. J. D. A. (2007). Hidrologia Estatística. Companhia de
Pesquisa de Recursos Minerais (CPRM), 552 p.
Nowak, K., Prairie, J., Rajagopalan, B., & Lall, U. (2010). A nonparametric stochastic
approach for multisite disaggregation of annual to daily streamflow. Water Resources
Research, 46(8).
Souza, F. A. O. De, Silva, C. L. Da, Maggiotto, S. R., & Oliveira Júnior, M. P. De.
(2012). Caracterização das vazões em uma pequena bacia hidrográfica do Distrito
Federal, Brasil. Revista Brasileira de Engenharia Agrícola E Ambiental, 16(1), 10–
17. doi:10.1590/S1415-43662012000100002
Scheuerer, M. (2014). Probabilistic quantitative precipitation forecasting using
ensemble model output statistics. Quarterly Journal of the Royal Meteorological
Society, 140(680), 1086-1096.
Sraj, M., Viglione, A., Parajka, J., & Bloschl, G. (2016). The influence of non-
stationarity in extreme hydrological events on flood frequency estimation. Journal of
Hydrology and Hydromechanics, 64(4), 426–437. doi:10.1515/johh-2016-0032
Taillardat, M., Mestre, O., Zamo, M., & Naveau, P. (2016). Calibrated ensemble
forecasts using quantile regression forests and ensemble model output statistics.
Monthly Weather Review, 144(6), 2375-2393.
Todini, E. (2007). Hydrological catchment modelling: past, present and future.
Hydrological Earth System Science, 11(1), 468–482. doi:10.5194/hess-11-468-2007
849
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
É com grande satisfação que damos as boas vindas aos participantes do IX Simpósio
Brasileiro de Computação Ubíqua e Pervasiva (SBCUP 2017). Como já é tradicional, o
evento ocorrerá de forma integrada ao Congresso da Sociedade Brasileira de
Computação.
A Computação Ubíqua e Pervasiva, em seus vários desdobramentos e aplicações,
é considerada por muitos como o novo paradigma da Computação para o século XXI, o
qual permitirá o acoplamento do mundo físico ao mundo da informação e fornecerá uma
abundância de serviços e aplicações, permitindo que usuários, máquinas, dados,
aplicações e objetos do espaço físico interajam uns com os outros de forma transparente.
Para se construir o cenário visualizado de forma pioneira por Mark Weiser, são
necessários esforços de pesquisa multidisciplinares, envolvendo praticamente todas as
áreas da Computação: sistemas distribuídos, sistemas móveis, redes de computadores,
engenharia de software, entre outras. A Computação Ubíqua e Pervasiva é considerada
um dos grandes desafios da pesquisa em Computação pela National Science Foundation
(NSF) e seu escopo de aplicação vem crescendo muito nos últimos anos, uma vez que o
uso de tecnologia e computação está cada vez mais presente e transparente no dia-a- dia
dos cidadãos.
O IX SBCUP, evento satélite do CSBC 2017, é um fórum dedicado à apresentação
e discussão de resultados de pesquisa na área de Computação Ubíqua e Pervasiva em
âmbito nacional. O principal objetivo é reunir a comunidade que desenvolve trabalhos
relacionados com os temas de interesse do simpósio e estimular a discussão dos desafios
que esta área traz ao propor um ambiente computacional futuro e onipresente. Nesta nona
edição, a comunidade enviou 39 artigos, um número excelente, se considerarmos a crise
econômica de 2017. O Comitê de Programa foi formado por 64 pesquisadores que
realizaram a avaliação dos artigos submetidos. Cada artigo recebeu em média 3 avaliações
independentes, sendo que no final do processo de avaliação tivemos ao todo 129 revisões,
com 18 artigos classificados para publicação e apresentação no evento, representando
uma taxa de aceitação de 46%. Para que fosse realizado um processo de revisão
transparente dos artigos submetidos por autores que participaram da organização do
evento, a organização indicou um membro sênior do TPC, o qual realizou a distribuição
desses artigos para revisores anônimos sem conflito de interesse. Também irão compor a
programação duas palestras de grande significado para a comunidade do SBCUP, a serem
proferidas pelos professores Cristiano André da Costa (Unisinos) e Fabio Kon (USP).
Queremos apresentar nosso agradecimento aos integrantes do Comitê de
Programa e aos Revisores Convidados. Sabemos do elevado esforço que está associado à
realização de avaliações com critério, seriedade e zelo. Registramos, também, o apoio
constante do Comitê Organizador do CSBC 2017 nas diversas atividades inerentes ao
SBCUP 2017. Nosso sincero agradecimento pela rapidez e dedicação como foram
tratadas as diferentes demandas de planejamento.
850
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Por fim, nosso agradecimento aos autores por sua inestimável contribuição, seja
pela submissão de artigos qualificados, seja pela participação apresentando e discutindo
trabalhos. Desejamos a todos, alegres e produtivos dias em São Paulo, a pujante terra da
garoa.
851
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral
Raquel Aparecida de Freitas Mini (PUC Minas), Adenauer Corrêa Yamin
(UCPEL/UFPEL)
Coordenação Local
Ana Grasielle Dionísio Corrêa (Mackenzie)
Comitê de Programa
Adenauer Yamin (Universidades Católica e Federal de Pelotas), Ana Marilza Pernas
(Universidade Federal de Pelotas), André Aquino (Universidade Federal de Alagoas),
Angelo Perkusich (Universidade Federal de Campina Grande), Antonio Alfredo Ferreira
Loureiro (Universidade Federal de Minas Gerais), Atslands Rocha (Universidade
Federal do Ceará), Augusto Neto (Universidade Federal do Rio Grande do Norte),
Bruno Kimura (Universidade Federal de São Paulo), Bruno Silvestre (Universidade
Federal de Goiás), Carlos Ferraz (Universidade Federal de Pernambuco), Carlos
Kamienski (Universidade Federal do ABC), Carlos Mauricio Figueiredo (Universidade
do Estado do Amazonas), Claudio Geyer (Universidade Federal do Rio Grande do Sul),
Cristiano Costa (Universidade do Vale do Rio dos Sinos), Cristiano Silva (Universidade
Federal de São João del Rei), Daniel Fernandes Macedo (Universidade Federal de
Minas Gerais), Daniel Guidoni (Universidade Federal de São João del Rei), Danielo G.
Gomes (Universidade Federal do Ceará), Eduardo Cerqueira (Universidade Federal do
Pará), Eduardo Nakamura (Universidade Federal do Amazonas), Fabio Costa
(Universidade Federal de Goiás), Felipe Cunha (Pontifícia Universidade Católica de
Minas Gerais), Flavia Delicato (Universidade Federal do Rio de Janeiro), Francisco
Silva (Universidade Federal do Maranhão), Frederico Lopes (Universidade Federal do
Rio Grande do Norte), Giovani Rubert Librelotto (Universidade Federal de Santa
Maria), Heitor Ramos (Universidade Federal de Alagoas), Horácio Oliveira
(Universidade Federal do Amazonas), Humberto Marques (Pontifícia Universidade
Católica de Minas Gerais), Hyggo Almeida (Universidade Federal de Campina Grande),
Iara Augustin (Universidade Federal de Santa Maria), Iwens Sene Jr (Universidade
Federal de Goiás), Jó Ueyama (Universidade de São Paulo), João Carlos Lima
(Universidade Federal de Santa Maria), Joel Rodrigues (Instituto de Telecomunicações
(University of Beira interior), Jorge Barbosa (Universidade do Vale do Rio dos Sinos),
Jorge Sá Silva (Universidade de Coimbra), Kiev Gama (Universidade Federal de
Pernambuco), Leandro de Sales (Universidade Federal de Alagoas), Leandro Silva
(Universidade Federal de Alagoas), Leandro Villas (Universidade Estadual de
Campinas), Lisandro Zambenedetti Granville (Universidade Federal do Rio Grande do
Sul), Luiz Fernando Bittencourt (Universidade Estadual de Campinas), Luiz Henrique
Correia (Universidade Federal de Lavras), Mario Dantas (Universidade Federal de
Santa Catarina), Michele Nogueira (Universidade Federal do Paraná), Orlando Loques
(Universidade Federal Fluminense), Patricia Dockhorn Costa (Universidade Federal do
Espírito Santo), Patrícia Tedesco (Universidade Federal de Pernambuco), Raquel Mini
(Pontifícia Universidade Católica de Minas Gerais), Ricardo Neisse (IPSC - Joint
Research Center), Rodrigo Righi (Universidade do Vale do Rio dos Sinos), Roseclea
852
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
853
XXXVII Congresso da Sociedade Brasileira de Computação
Palestras
Tendências na área de computação móvel e ubíqua aplicada a saúde
Prof. Dr. Cristiano André da Costa (Universidade do Vale do Rio Dos Sinos, Unisinos,
São Leopoldo, RS)
Bio: Cristiano André da Costa é professor Titular da Universidade do Vale do Rio dos
Sinos, Unisinos, e Bolsista de Produtividade do CNPq, atuando no ensino superior desde
1997. Na Unisinos é pesquisador do Programa de Pós-Graduação em Computação
Aplicada (PIPCA) na linha de pesquisa de Redes de Computadores e Sistemas
Distribuídos. Possui graduação em Ciência da Computação pela Universidade Católica
de Pelotas - UCPEL (1994), mestrado em Ciência da Computação pela Universidade
Federal do Rio Grande do Sul - UFRGS (1997) e doutorado em Ciência da Computação
também pela UFRGS (2008). Professor da UNISINOS desde 2000, exerceu vários cargos
de administração acadêmica. Recentemente, foi Coordenador do PIPCA de setembro de
2010 a janeiro de 2016. Anteriormente exerceu as funções de Gerente de Extensão (2010),
Gerente do Instituto de Informática (2007~2009), Gerente da Incubadora de Empresas
UNITEC (2006~2007), Coordenador do Instituto de Informática (2004~2006), Gerente
Administrativo do Centro de Ciências Exatas e Tecnológicas (2002~2004) e Coordenador
do curso de Ciência da Computação (2000~2002). Atua com foco em pesquisas aplicadas,
tecnológicas e de inovação, muitas delas em parcerias com empresas da área de
Tecnologia da Informação (TI). Tem experiência na área de sistemas distribuídos, com
ênfase em computação móvel e ubíqua. Atua principalmente nos seguintes temas:
computação ubíqua / pervasiva, computação móvel, ciência de contexto, sistemas
distribuídos, computação em nuvem, Internet das Coisas, processamento de alto
desempenho e aplicações na área da saúde. Cristiano é membro da ACM, IEEE, IADIS e
da Sociedade Brasileira de Computação (SBC).
854
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Computação Ubíqua nas Cidades: uma chance para pesquisa de fato relevante
Prof. Dr. Fábio Kon (Universidade de São Paulo, USP, São Paulo)
A área de Cidades Inteligentes traz uma oportunidade única para cientistas da computação
e pós-graduandos desenvolverem pesquisa inovadora com potencial para trazer reais
benefícios para a sociedade. Resultados recentes da Ciência da Computação e tecnologias
relacionadas podem contribuir para a melhoria da qualidade de vida e para a resolução de
problemas nas grandes cidades modernas. Em especial, há uma série de possibilidades
para contribuir para a diminuição das diferenças sociais e trazer benefícios às camadas
mais desfavorecidas da população. Nesta palestra, apresentaremos uma visão geral da
área e seus desafios e discutiremos como podemos direcionar nossos esforços de pesquisa
para resolver problemas que realmente tragam um impacto positivo para quem precisa.
855
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Sensor Acústico para Detecção de Desmatamento Ilegal na Floresta Amazônica
Waldomiro J. G. Seabra, Juan G. Colonna, Eduardo F. Nakamura
Outlier detection methods and sensor data fusion for precision agriculture
Andrei B. B. Torres, José Adriano Filho, Atslands R. da Rocha, Rubens Sonsol Gondim,
José Neuman de Souza
856
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
857
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O desmatamento da Amazônia cresceu em ritmo acelerado nos últimos anos, colocando
em risco a fauna e a flora da região [Greenpeace 2016]. Os métodos atuais para detectar
858
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
esses atos incluem o uso de imagens obtidas por Veículos Aéreos Não Tripulados (VANT),
imagens satelitais e fiscalização humana. Os dois primeiros são computacionalmente
complexos e conseguem monitorar somente acima do nível das copas das árvores, e o
terceiro é operativamente custoso e ineficiente, devido aos recursos humanos necessários.
Nós apresentamos aqui uma alternativa economicamente viável e eficiente, em-
barcando um modelo de classificação em sensores acústicos. Estes sensores podem ser
posicionados em árvores nas bordas de áreas de proteção ambiental onde muitos dos cor-
tes de madeira acontecem. O processamento e reconhecimento automático de áudio é uma
tarefa complexa, devido a elevada riqueza acústica da floresta, na qual, os sons podem ser
de origem natural (cantos de aves, chuva) ou causados pela ação humana (voz, sons de
barcos). Tendo em vista esse aspecto, nosso objetivo é identificar apenas o som emitido
por uma motosserra em operação, ignorando todos os outros sons ambientais ou huma-
nos. Isto requer o uso de um método baseado na teoria de aprendizagem de máquina, sem
a necessidade de conhecer todos os sons a priori.
Métodos de classificação são técnicas frequentemente utilizadas na prática para
resolver problemas de tomada de decisão. Em nossa abordagem optamos por um mé-
todo de classificação de uma classe (One-Class Classifier). Este consiste em classifi-
car um objeto como pertencente ou não a uma classe alvo [Khan 2010]. A classe alvo,
chamada de classe positiva, é bem representada por um conjunto de exemplos apre-
sentados ao classificador durante a fase de treino, enquanto tudo que não pertence a
classe positiva, chamado de classe negativa, tem poucos ou nenhum exemplo na fase
de treino [Tax and Martinus 2001].
O método utilizado é o Support Vector Data Description
(SVDD) [Tax and Duin 2004]. O SVDD é um método vetorial que cria uma hipe-
resfera, em torno dos exemplos da classe positiva no espaço vetorial definido pelo
conjunto das características acústicas. Consequentemente, o SVDD rejeita todos os
exemplos de teste que se encontram fora da hiperesfera. A simplicidade do método
permite que seja embarcado em nós sensores com poucos recursos de hardware, pois o
modelo de classificação resulta num produto vetorial simples. Assim, podemos reduzir a
complexidade do processamento, minimizar o consumo de bateria e aumentar o tempo
de vida útil do sensor.
Para extrair o vetor de características de um áudio é usada a Decomposição Wa-
velet. A transformada Wavelet (W) permite decompor o sinal acústico, captado pelos
sensores, utilizando um conjunto de funções ortogonais que podem ser dilatadas e trans-
ladadas no tempo [Graps 1995]. Dos sinais resultantes da decomposição são gerados os
elementos do vetor de características (Figura 1). Essa transformada com seu esquema
discreto, é conhecida por consumir menos memória que a transformada rápida de Fourier
tradicional (FFT). Isso torna o método mais leve.
Para sumarizar o desempenho de nosso método é utilizada a curva ROC (Receiver
Operating Characteristic). Esta curva é gerada utilizando a taxa de verdadeiros positivos
(T P R) e a taxa de falsos positivos (F P R). Para avaliar o desempenho final do método,
mediante a curva ROC, utilizamos a área sob a curva (Area Under ROC Curve - AUC).
Esta métrica é uma forma de caracterizar cada curva ROC por um valor real e usá-lo para
comparar os desempenhos.
859
XXXVII Congresso da Sociedade Brasileira de Computação
2. Fundamentos Teóricos
Formalmente, o sinal acústico captado pelo microfone do sensor é uma série temporal da
forma X(t) = {x1 , x2 , . . . , xN }, na qual seus valores representam a amplitude do som
dentro do intervalo temporal 1 ≤ t ≤ N , com duração máxima N . Um frame deste sinal
pode ser obtido aplicando uma janela deslizante de tamanho n < N , o que resulta num
subconjunto com k vetores da forma xk = {xi , xi+1 , . . . , xi+n }, com n valores consecu-
tivos. Desta forma, o sinal original pode ser representado pelo conjunto k = 1, 2, . . . , K
de frames sucessivos.
Neste trabalho, optamos pelo uso da Transformada Wavelet (W) ao invés da Transfor-
mada de Fourier (F) para realizar a extração das características acústicas que representam
cada sinal. Esta escolha é fundamentada pela menor complexidade computacional da W
em comparação à Transformada Rápida de Fourier (O(N ) ≤ O(N log N )).
A decomposição Wavelet discreta pode ser obtida pelo seu esquema discreto -
dwt, o qual é definido como uma decomposição recursiva aplicando filtros passa-alta e
passa-baixa ao sinal de entrada (Figura 1). Após a aplicação do dwt a cada frame do sinal
xk obtemos L = 2m novos sinais no domínio W(xk )m = ykL , onde m é a quantidade de
níveis da decomposição. Cada um dos L sinais ykl possui a mesma duração que o frame
original xk . Finalmente, podemos obter L coeficientes, que representam a energia de cada
ykl , aplicando a Equação 1.
1X l 2
n
clk = (y ) , (1)
n i=1 ki
860
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
n
1
2 gn ∑ (x )2=coef 1
n i=1 i
2 gn
n
1
2 hn ∑ (x )2=coef 2
n i=1 i
n
1
Frame n 2 gn ∑ (x )2=coef 3
n i=1 i
2 hn
n
1
hn Filtro Passa-altas 2 hn ∑ (x )2=coef 4
n i=1 i
gn Filtro Passa-baixas
Histograma
2 Downsampling
Support Vector Data Description (SVDD) foi inspirado na ideia do Support Vector Ma-
chine (SVM). O objetivo do SVDD é criar uma hiperesfera dentro do espaço de carac-
terísticas cl transformadas por uma função não linear chamada kernel. A hiperesfera é
caracterizada pelo centro a e pelo raio R, contendo a maioria dos objetos da classe posi-
tiva utilizada para treinar o classificador [Chang et al. 2013]. Assim, dado um conjunto
de treinamento ck ∈ <L , onde k = 1, 2, . . . , K representa a quantidade de frames do
áudio, SVDD resolve o seguinte problema de otimização:
X
K
minimizarR,a,ξ R2 + C ξk , (2) sujeito a: kφ(ck ) − ak22 ≤ R2 + ξk
k=1
(3)
ξk ≥ 0, k = 1, 2, . . . , K
onde, k · k2 é a norma euclidiana, φ(ck ) é a função kernel que mapeia cada vetor de coe-
ficientes obtidos pela transformada Wavelet a um espaço vetorial de dimensões maiores,
ξ é a variável de folga que permite relaxar as margens da função de decisão e C > 0 é
um parâmetro definido pelo usuário que representa a tolerância aos outliers próximos à
margem de decisão.
Para alcançar a relação ótima entre os falso positivos e os verdadeiros positivos
deve-se escolher o volume da hiperesfera controlado pelo parâmetro C e pelo parâme-
861
XXXVII Congresso da Sociedade Brasileira de Computação
W(x) Ck
Motosserra
SVDD(σ , C)
W(x) Ck
Barco
W(x)
Ck
Chuva
c1
Assim, para cada observação é atribuída uma classe e comparada com a classe correta.
Desta forma, a probabilidade condicional de detecção torna-se uma função de probabi-
lidade dos falsos alarmes e nos ajuda a selecionar o modelo ótimo. O modelo ótimo é
aquele que maximiza a área sob a curva (AUC), independentemente da distribuição das
classes. Portanto, esta métrica é adequada para entender o gráfico ROC como um único
valor escalar que indica o desempenho do classificador (Figura 5). O AUC varia no in-
tervalo 0 ≤ AU C ≤ 1. Assim, quanto maior é o AUC, melhor é o desempenho do
reconhecimento.
3. Trabalhos Relacionados
Nos trabalhos de [Papán et al. 2012] e [Soisiinthorn and Rujipattanapong 2007] foram
propostos métodos baseados em autocorrelação, entretanto tais métodos não são adequa-
dos para uma aplicação real na Amazônia devido a riqueza acústica da floresta e pela
862
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
4. Abordagem
Para abordar o problema de fiscalizar áreas de floresta contra corte ilegal de madeira,nosso
trabalho propõe o uso de uma Rede de Sensores Acústicos Sem Fio (RSASF). Estas redes
consistem em um conjunto de dispositivos autônomos disseminados em um ambiente re-
moto, com a finalidade de monitorar e coletar dados [Pereira et al. 2016]. Em nosso caso
com processamento local, capazes de monitorar as condições acústicas do ambiente em
diferentes locais [Bertrand 2011]. Estes sensores obtêm as amostras de áudio do ambiente
e processam as mesmas localmente, evitando a transmissão de dados brutos.
A Figura 3 exemplifica o método embarcado no nó sensor. Nesta figura, o sensor
realiza a leitura sonora do ambiente e segmenta o sinal em frames. O vetor de caracterís-
ticas cLk correspondente a cada frame, extraído utilizando a decomposição Wavelet com
as bases “Haar”, é representado pelo histograma da Figura 3. Este vetor de característi-
cas é classificado localmente aplicando o modelo SVDD previamente treinado, e se uma
motosserra for detectada, um alarme é enviado através da rede de sensores até os agentes
ambientais.
Sensor
Decomposição Wavelet
Divisão em Frames "Haar" Classificação
Frames
Histogramas
Alarme
863
XXXVII Congresso da Sociedade Brasileira de Computação
Tabela 1. Composição das classes para cada configuração dos nossos experi-
mentos. Nota-se que a classe motosserras sempre fez parte da classe positiva.
5. Metodologia Experimental
As bases de dados utilizada, como mostrada na Tabela 1, são composta por: 12 áudios de
motosserras (classe positiva); 33 áudios com sons naturais (primeira classe negativa); 22
áudios com sons artificias (segunda classe negativa); uma terceira classe negativa com 55
amostras, concatenando todos os sons naturais e artificiais; e uma segunda classe positiva
com 34 amostras, concatenando todos os sons de motosserras com sons artificiais. Todos
os áudios possuem frequência de amostragem igual a 22 050 Hz e duração N variável.
Cada áudio foi dividido em frames com um segundo de duração sem sobreposição. A
base da transformada Wavelet utilizada é “Haar” com quatro níveis.
Primeira etapa da avaliação: O experimento foi realizado em duas etapas, para
poder avaliar o erro de generalização esperado pelo modelo de classificação (como re-
comendado em [Colonna et al. 2016a]). A primeira etapa utiliza validação cruzada por
áudio, onde a cada iteração, todos os frames pertencentes ao mesmo áudio de motosserra
neste caso, são separados da classe positiva e utilizados como conjunto de teste. Os fra-
mes restantes da classe positiva são utilizados para treinar o modelo SVDD. Após o treino,
o conjunto de teste é avaliado. Desta forma, é possível atribuir uma pontuação para cada
frame de teste representando a confiança de pertencer à classe positiva. Esta iteração é
repetida até que todos as áudios da classe motosserra, com seu respectivos frames, são
avaliados.
Segunda etapa da avaliação: Após a obtenção da pontuação de todos os frames
da classe positiva, nesta segunda etapa, são avaliados todos os frames das classes negati-
vas, obtendo-se um valor de pontuação para cada um deles. Neste caso, não é necessário
separar um conjunto de teste para a classe negativa, devido ao modelo de classificação ser
criado considerando somente a classe positiva. Esta é a principal vantagem de se utili-
zar SVDD. Nesta etapa, os parâmetros da função kernel e C não foram alterados, isto é,
permanecem os mesmos valores que foram os utilizados para avaliar a classe positiva na
primeira etapa.
Finalmente, com as pontuações obtidas na primeira e segunda etapa, criamos as
curvas ROC e calculamos o AUC de cada uma destas. Para treinar o modelo SVDD,
utilizamos o kernel Guassiano com o parâmetro σ, que representa a largura de banda deste
kernel. Cada experimento foi repetido uma vez para cada combinação dos parâmetros
C = {0.1, 1.0} e σ = {0.5, 0.6, 1.0, 1.5}. No total foram geradas as curvas ROC e os
valores de AUC para cada combinação descrita na Tabela 1, obtendo-se assim um total de
32 valores de AUC.
6. Resultados
Para avaliar nosso método, calculamos as curvas ROC e os valores de AUC nas quatro
configurações descritas na seção anterior utilizando validação cruzada por áudio. A Ta-
864
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Potência/frequência (dB/Hz)
Motosserra Barco Pássaro
Frequência (kHz)
Frequência (kHz)
Frequência (kHz)
-40
10 10 10
-60
8 8 8
-80
6 6 6
-100
4 4 4
-120
2 2 2
-140
0 0 0
5 10 15 20 25 30 5 10 15 20 25 30 5 10 15 20 25 30
Tempo (secs) Tempo (secs) Tempo (secs)
865
XXXVII Congresso da Sociedade Brasileira de Computação
1
AUC =0.847
0.9
AUC =0.969
0.8 AUC =0.775
AUC =0.952
0.7
0.6
TPR
0.5
0.4
0.3
Figura 5. Curvas ROC, uma para cada configuração do experimento, dos melho-
res resultados da Tabela 2.
Observa-se também que a taxa de falsos positivos é zero quando a taxa de ver-
dadeiros positivos é aproximadamente 22% nos experimentos com sons naturais. Logo é
possível estabelecer um limiar de decisão, para o qual os resultados são totalmente confiá-
veis. A confiabilidade dos resultados é importante, pois um falso positivo poderia resultar
no deslocamento desnecessário de agentes ambientais e por consequência gastar recursos,
diminuindo a confiabilidade do sistema completo.
7. Conclusão
Neste trabalho apresentamos um método capaz de detectar o som de uma motosserra para
ser embarcado num nó sensor de detecção de corte e extração ilegal de madeira. Nosso
método inclui a decomposição Wavelet com dwt para criação dos vetores de caracterís-
ticas acústicas e a técnica de classificação SVDD. Os resultados foram avaliados com as
curvas ROC e a área sob as curvas (AUC).
Nos experimentos observamos que o método possui um desempenho ótimo
quando sons naturais são usados como classe negativa, porém o desempenho diminui
quando há sons artificias similares ao de uma motosserra. Esta similaridade entretanto,
alavanca os resultados quando sons de motosserras são agrupados na mesma classe posi-
tiva que sons artificiais. Contra sons naturais é possível observar um limiar onde não há
falso positivos mas há um número razoável de verdadeiro positivos.
Os resultados obtidos neste trabalho mostram que seria viável instalar sensores
em áreas de preservação ambiental em risco, podendo-se prever extração ilegal e des-
matamento não permitido na floresta amazônica. Também é mostrado a viabilidade da
instalação de sensores em áreas densas de florestas ou estradas ilegais onde não deveriam
existir sons de origem artificial. Esses sensores devem ser posicionados longe de estradas
legais e margens de rios para evitar ocorrência de falsos alarmes.
Para melhorar os resultados gerais do reconhecimento podemos: 1) aprimorar a
866
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
Bertrand, A. (2011). Applications and trends in wireless acoustic sensor networks: a
signal processing perspective. In Communications and Vehicular Technology in the
Benelux (SCVT), 2011 18th IEEE Symposium on, pages 1–6. IEEE.
Chang, W.-C., Lee, C.-P., & Lin, C.-J. (2013). A revisit to support vector data description.
Dept. Comput. Sci., Nat. Taiwan Univ., Taipei, Taiwan, Tech. Rep.
Colonna, J. G., Gama, J., & Nakamura, E. F. (2016a). How to Correctly Evaluate an
Automatic Bioacoustics Classification Method, volume 9868 of Advances in Artificial
Intelligence. Lecture Notes in Computer Science (LNCS), pages 37–47. Springer Inter-
national Publishing.
Colonna, J. G., Gatto, B., Dos Santos, E. M., & Nakamura, E. F. (2016b). A framework
for chainsaw detection using one-class kernel and wireless acoustic sensor networks
into the amazon rainforest. In Mobile Data Management (MDM), 2016 17th IEEE
International Conference on, volume 2, pages 34–36. IEEE.
Fawcett, T. (2006). An introduction to roc analysis. Pattern Recognition Letters,
27(8):861–874.
Graps, A. (1995). An introduction to wavelets. IEEE computational science and engine-
ering, 2(2):50–61.
Greenpeace (2016). Desmatamento dispara na amazônia. disponível em: https://
goo.gl/3ruDOM.
Khan, S. S. (2010). Kernels for One-Class Nearest Neighbour Classification and Compa-
rison of Chemical Spectral Data. PhD thesis, College of Engineering and Informatics,
National University of Ireland.
Papán, J., Jurečka, M., & Púchyová, J. (2012). Wsn for forest monitoring to prevent illegal
logging. In Computer Science and Information Systems (FedCSIS), 2012 Federated
Conference on, pages 809–812. IEEE.
Pereira, A. S., Silva, T. R. M. B., Silva, F. A., Loureiro, A. A. F., & Ruiz, L. B. (2016).
Avaliando algoritmos para um elemento sensor autonômico. Simpósio Brasileiro de
Computação Ubíqua e Pervasiva.
Soisiinthorn, T. & Rujipattanapong, S. (2007). Deforestation detection algorithm for
wireless sensor networks. In Communications and Information Technologies, 2007.
ISCIT’07. International Symposium on, pages 1413–1416. IEEE.
Tax, D. & Duin, R. (2004). Support vector data description. Machine learning, 54(1):45–
66.
Tax, D. & Martinus, J. (2001). One-class classification. PhD thesis, TU Delft, Delft
University of Technology.
867
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The use of IoT sensors to monitoring vital signs presents a series
of challenges, such as the search for energy efficiency and the synchronization
between sensors. A solution to these problems is presented by the MOMICARE
model, a middleware for smartphones to manage a body wireless sensor network
with emphasis on power consumption and synchronization of data sent by these
sensors. As a scientific contribution, MOMICARE offers low power consump-
tion and timing between the data collected by the sensors. The evaluation of the
model was performed through simulations carried out in the Cooja software,
presenting a reduction in energy consumption.
1. Introdução
A área da saúde, historicamente, consome muitos recursos financeiros. No Brasil, so-
mente o governo federal investe quase 2% do PIB em saúde [IBGE 2015]. Ainda assim,
em virtude de suas dimensões continentais, os serviços médicos do paı́s são ineficientes
e acessı́veis a apenas uma parcela da população, principalmente àquelas que vivem nos
grandes centros urbanos.
Nesse contexto, a mobile healthcare, também conhecida por m-health, torna-se
uma aliada na melhora da eficiência em cuidados médicos [Merrell and Doarn 2014].
Nela, a Internet das Coisas, ou Internet of Things (IoT) [Riazul Islam et al. 2015], pos-
sui um papel fundamental. Isso permite, entre outras coisas, que problemas de saúde
possam ser identificados antecipadamente e mais facilmente tratados, através de um mo-
nitoramento contı́nuo. Esse monitoramento consiste em medir a condição de saúde de um
paciente, obtida através da medição de seus sinais vitais [Riazul Islam et al. 2015].
868
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
A m-health faz uso de sensores IoT afixados ao corpo para a medição dos si-
nais vitais formando, dessa maneira, uma rede chamada de Wireless Body Area Network
(WBAN) [Castillejo et al. 2013]. Todavia, esses sensores dispõem de capacidade limitada
de processamento e possuem um rádio integrado para transmissão dos dados coletados
[Wang et al. 2015], sendo necessário um equipamento externo que receba e envie esses
dados às aplicações externas que os requisitem, ou ainda que cada aplicação conecte-se
diretamente ao(s) sensor(es) corporais desejados.
Nessa conjuntura, os smartphones podem atuar como um intermediário que receba
esses dados e os enviem para as aplicações no momento em que haja uma rede disponı́vel,
conforme demonstrado na Figura 1. Como esse dispositivo está normalmente próximo de
um corpo de uma pessoa, ele não teria problemas de comunicação pela distância. Ainda,
em função de sua maior capacidade de processamento e armazenamento, o smartphone
pode armazenar e transmitir os dados para aplicações médicas externas que os requisitem.
Além disso, os smartphones possuem sensores internos - tais como acelerômetro e GPS -
que permitem que os dados capturados pelos sensores IoT possam ser complementados.
Entretanto, apenas o uso do smartphone não é suficiente para resolver todos os
problemas relacionados ao uso de sensores de saúde corporais. Alguns desses desafios
estão relacionados ao sincronismo entre os sensores e à duração da bateria desses dis-
positivos. O sincronismo é necessário para que o profissional médico possa realizar o
diagnóstico correto, enquanto que a duração bateria de um sensor deve ser prolongada de
forma a evitar que um sensor deixe de funcionar por falta de carga.
869
XXXVII Congresso da Sociedade Brasileira de Computação
2. Redes WBAN
Uma WBAN (Wireless Body Area Network) é uma rede de sensores sem fio (RSSF) uti-
lizada para interconectar sensores implantados dentro de um corpo de uma pessoa ou
dispostos sobre o corpo de uma pessoa [IEEE 2011], utilizados, entre outras aplicações,
para cuidados médicos
Os sensores que formam uma rede WBAN, também conhecidos como mo-
tes, possuem baixa capacidade de armazenamento e processamento e possuem
restrições de consumo de energia, visto que seu tamanho reduzido não permite
que sejam utilizadas baterias com grande capacidade de armazenamento de energia
[Goswami et al. 2016]. Os sensores são classificados em dois tipos: intrusivos e não-
intrusivos [Shankar and Tomar 2016]. Os sensores intrusivos são inseridos dentro do
corpo humano através de procedimento cirúrgico e são usados para medições especı́ficas,
como a verificação da pressão intra-craniana. Já os sensores não-intrusivos, também co-
nhecidos como wearables, são fixados externamente ao corpo humano através de pingen-
tes, braceletes, meias, entre outros, e normalmente realizam a medição de sinais vitais,
como pressão arterial, temperatura corporal, batimento cardı́aco, etc. Estes sensores nor-
malmente estão em volta das mãos, em volta dos braços, em frente ou atrás do peito, ao
redor da coxa, em volta do tornozelo ou próximo às orelhas.
Os sensores comunicam-se normalmente através dos padrões Bluetooth Low
Energy (BLE) [SIG 2016] e IEEE 802.15.4 [IEEE 2011], de forma que a troca de da-
dos entre esses dispositivos consuma o mı́nimo de energia. Dessa forma, esses disposi-
tivos têm capacidade suficiente apenas para processar e repassar informação para uma
estação-base para posterior diagnose e análise por outros dispositivos computacionais
[Goswami et al. 2016].
Para poupar energia na comunicação de dados entre os dispositivos, os padrões
BLE e IEEE 802.15.4 utilizam basicamente as mesmas técnicas: longos perı́odos de ina-
tividade na comunicação - também chamado de baixo ciclo de trabalho - e quadros com
payload de poucos bytes. Esse último aspecto torna ambos padrões incompatı́veis com
o protocolo IP, visto que o cabeçalho deste é muito grande e complexo. Como con-
sequência, sobrecargas na rede ocorrem frequentemente. Para contornar o problema, sur-
giu o padrão 6LowPAN [Riazul Islam et al. 2015]. Localizado entre a camada de rede e a
camada de enlace do modelo OSI, tem a função de reduzir o cabeçalho do IPv6 para um
formato que possa ser comportado nos quadros dos padrões BLE e 802.15.4.
3. Trabalhos Relacionados
Para a concepção do modelo, foram considerados sete trabalhos que (1) permitiam a
utilização de um smartphone com utilitário de verificação de saúde; (2) utilizavam al-
gum tipo de rede de transmissão para coleta dos dados de sensores de uma RSSF e/ou
que transmitiam dados coletados do próprio equipamento para uma aplicação externa
e; (3) que possuı́am algum tipo de integração com aplicações externas. O trabalho de
[Lee et al. 2012] apresenta um sistema de monitoramento de saúde que funciona a partir
de um smartphone. Através de um aplicativo especı́fico, o smartphone armazena os dados
recebidos dos sensores via Bluetooth e permite que um usuário visualize, em tempo real,
os resultados. A proposta apresentada por [Lane et al. 2014] tem por objetivo monitorar
o bem-estar de uma pessoa, por meio de um aplicativo para smartphone que monitora as
870
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
atividades de uma pessoa por meio do uso dos sensores disponı́veis nestes dispositivos. A
partir dos dados coletados, o aplicativo realiza inferências sobre esses dados e transmite
os resultados para procesamento na nuvem.
A solução de [Seeger et al. 2015] consiste num middleware voltado a eventos re-
lacionados a um interesse especı́fico, como exercı́cios fı́sicos, telemedicina ou cuidados a
idosos. As aplicações healthcare podem se inscrever em um ou mais interesses, por meio
do método publish-subscribe, recebendo assim apenas os eventos desejados. O artigo
de [Maia et al. 2015] propõe uma plataforma de middleware Web que interliga diversos
sensores heterogêneos e notifica as condições de saúde de um paciente - bem como seus
sinais vitais - a aplicações web por meio do padrão REST e no protocolo HTTP. O tra-
balho de [Jung et al. 2013] propõe um gateway doméstico voltado a cuidados médicos
propondo dietas, exercı́cios e outros cuidados médicos ao usuário. Essas propostas são
elaboradas a partir de decisões tomadas por um ambiente ubı́quo e também permite que
um profissional médico contate remotamente esse paciente através da solução.
A proposta de [Moser and Melliar-Smith 2015] aborda o uso de um smartphone
voltado exclusivamente para o monitoramento de saúde de uma pessoa. Além de coletar
dados de sensores de sinais vitais pré-determinados de uma WBAN, ele fornece diversas
análises estatı́sticas sobre os dados coletados e também faz a correlação entre a atividade
fı́sica e as medições fisiológicas. Por fim, [Castillejo et al. 2013] traz uma solução de e-
health voltada para ambientes internos que interliga dispositivos IoT de healthcare que
tem por objetivo monitorar a condição de saúde de um paciente quanto este está praticando
algum exercı́cio fı́sico.
A Tabela 1 apresenta um comparativo entre os trabalhos relacionados. Como pon-
tos relevantes, verifica-se a pouca preocupação quanto à segurança na transmissão de da-
dos entre dispositivos de uma rede WBAN, a baixa escalabilidade da rede WBAN, a pouca
eficiência energética na comunicação entre os dispositivos da WBAN, e a sincronização
entre sensores de uma rede WBAN. O objetivo do modelo proposto neste trabalho é pre-
encher as lacunas de sincronismo e eficiência energética dos sensores, de forma a permitir
que os dados coletados por esses dispositivos possam ser sincronizados e transmitidos de
maneira energeticamente eficiente.
4. O Modelo MOMICARE
O MOMICARE, acrônimo de MObile MIddleware for HealthCARE, é um modelo de
middleware projetado para funcionar em smartphones para gerenciamento de senso-
res de saúde de uma WBAN. O middleware recebe os dados de diversos sensores de
saúde, sincroniza-os e armazena-os internamente e, quando solicitado, retransmite-os às
aplicações médicas que necessitem utilizá-los. Ele também centraliza o recebimento dos
dados enviados pelos diversos sensores. Isso evita retransmissões desnecessárias e, con-
sequentemente, poupa energia desses dispositivos. A sincronização dos dados recebidos é
efetuada pelo próprio middleware conforme os dados enviados pelos sensores são recebi-
dos. Dessa forma, o MOMICARE provê sincronismo aos dados enviados pelos sensores,
bem como oferece uma maior eficiência energética a esses dispositivos.
A arquitetura do middleware é formada por quatro módulos: módulo de
comunicação, módulo do dispositivo, módulo de integração e módulo de gerenciamento.
Conforme a Figura 2, os sensores que formam a rede WBAN comunicam-se com o mid-
871
XXXVII Congresso da Sociedade Brasileira de Computação
872
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
873
XXXVII Congresso da Sociedade Brasileira de Computação
5. Avaliação
A avaliação foi concebida de forma a avaliar o comportamento do middleware em relação
ao consumo energético, bem como analisar a viabilidade de utilização da técnica de sin-
cronismo proposta em aplicações reais. Ela foi efetuada a partir de simulações reali-
zadas com o emulador Cooja, disponı́vel no sistema operacional Contiki, voltado para
aplicações IoT [Contiki 2017]. O Cooja destina-se a simular redes de sensores sem fio
em diversos nı́veis de avaliação, possibilitando assim a realização de avaliações mais de-
talhadas e precisas em relação ao comportamento da rede.
Para realização da avaliação do modelo foram montados três cenários que demons-
tram simular o acesso de quatro aplicações distintas (de um hospital, de um profissional
médico, de uma ambulância e do próprio paciente) aos sensores corporais de um paciente,
conforme demonstrado na Figura 3. O primeiro, chamado de Cenário 1 e mostrado na Fi-
gura 3 (a), é composto por 3 sensores IoT, chamados de sensores-filho, em amarelo, que
formam a rede WBAN, e por outros 4 sensores, chamados de sensores-pai, em verde. Es-
tes últimos simulam as requisições recebidas de aplicações de terceiros, por meio de um
script que executa o comando ping para cada um dos sensores-filho. Dessa forma, cada
um dos sensores-pai executa uma requisição por segundo a cada um dos sensores-filho.
Tanto os sensores-pai quanto os sensores-filho utilizaram o sensor Tmote-sky disponı́vel
no emulador.
O segundo cenário, chamado de Cenário 2 e mostrado na Figura 3 (b), é formado
pelos mesmos 3 sensores-filho que formam a rede WBAN e por 2 sensores-pai. Cada um
dos sensores-pai executa 2 scripts que simulam as requisições recebidas de aplicações
de terceiros. Por fim, o terceiro cenário, chamado de Cenário 3 e mostrado na Figura 3
(c), é formado pelos mesmos 3 sensores-filho que formam a rede WBAN e por apenas 1
sensor-pai. Este, por sua vez, executa os quatro scripts, simulando o comportamento do
MOMICARE.
Como o Cooja não possui um módulo para verificação do consumo de energia dos
sensores, foi desenvolvida uma aplicação que calcula o consumo energético da interface
de rádio de cada um dos sensores-filho, a partir da seguinte fórmula:
ConsumoEnergetico = (T X + RX) ∗ 20 ∗ 3 (1)
874
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
875
XXXVII Congresso da Sociedade Brasileira de Computação
Figura 5. Registros dos horários em que houve troca de dados entre os sensores.
6. Conclusão
O uso de sensores corporais para cuidados médicos apresenta diversos desafios, como o
sincronismo entre os sensores e a duração da bateria desses dispositivos. Um resposta
a isso é apresentado no modelo MOMICARE, um middleware instalado num disposi-
tivo móvel - como um smartphone - que recebe os dados de diversos sensores corporais,
sincroniza-os e armazena-os, retransmitindo-os às aplicações médicas que solicitem esses
dados. Nos cenários avaliados, verificou-se que o MOMICARE reduziu o consumo de
energia dos sensores IoT corporais, bem como constatou-se a possibilidade de realizar
o sincronismo entre os dados recebidos pelos diversos sensores a partir da metodologia
apresentada no modelo.
Como trabalhos futuros, pretende-se desenvolver um protótipo que valide os da-
dos preliminares obtidos a partir dessa simulação, bem como avaliar se as lacunas de
segurança e escalabilidade dos sensores também podem ser suportados pelo middleware
sem prejuı́zos no que diz respeito ao consumo energético dos sensores e à sincronização
entre esses dispositivos.
Agradecimentos
Os autores gostariam de agradecer ao CNPq pelo apoio a esta pesquisa.
Referências
Castillejo, P., Martinez, J. F., Rodriguez-Molina, J., and Cuerva, A. (2013). Integration
of wearable devices in a wireless sensor network for an E-health application. IEEE
Wireless Communications, 20(4):38–49.
Contiki (2017). Contiki open source operating system. Disponı́vel em:
<http://www.contiki-os.org>. Acesso em: 05.fev.2017.
876
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
877
XXXVII Congresso da Sociedade Brasileira de Computação
1 Introdução
A geração e o uso eficiente de energia estão atualmente em evidência, pelo impacto
ambiental e uso sustentável dos recursos naturais. Como a demanda mundial por energia
tende a crescer, surge o desafio de usar soluções tecnológicas para gerenciar seu uso de
maneira mais eficiente. Cidades inteligentes aceleram o crescimento econômico
sustentável e a qualidade de vida com um gerenciamento adequado dos recursos naturais
através de um processo participativo de governança [Caragliu et. al 2011]. A Internet das
Coisas (IoT) desempenha um papel fundamental na implantação de cidades inteligentes,
viabilizando a coleta de dados de uma enorme quantidade de sensores, a análise de dados,
tomada de decisões e o envio de comandos para atuadores que alteram o comportamento
dos sistemas. A computação baseada em contexto oferece a inteligência necessária à IoT,
junto com big data e outras tecnologias, permitindo a modificação dos comportamentos
na velocidade necessária sem a intervenção humana direta [Osello et. al 2013].
Sistemas de gerenciamento sensíveis aos contexto para Cidades Inteligentes
baseado em IoT recebem uma quantidade imensa de dados provenientes de sensores de
diversos tipos e funções e devem tomar decisões para enviar comandos a atuadores para
que o ambiente sofra alterações automáticas. Para que o sistema seja capaz de tratar desses
878
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
2 Trabalhos Relacionados
Em [Perera et al. 2014] foi apresentado um amplo estudo sobre computação sensível ao
contexto em IoT, incluindo comparações de diversas características técnicas de soluções
comerciais existentes. Porém, o estudo comparativo foi restrito às características, não
envolvendo a avaliação de desempenho de nenhuma das ferramentas.
Em [Mongiello et al 2016] é proposto um middleware para IoT se adapta de acordo
com o contexto, usando o paradigma de programação reflexiva. Apesar de apresentar um
middleware para IoT, esta proposta se difere da deste artigo em dois pontos: (1) não faz
o gerenciamento do contexto, mas sim uma adaptação de acordo com o contexto; e (2)
não apresenta uma avaliação de desempenho para mostrar o comportamento em situações
de alta latência.
A construção de um servidor de banco de dados para um middleware de IoT é
apresentada em [Paethong et al. 2016], com desempenho satisfatório e custo acessível.
Esta pesquisa faz a avaliação de desempenho comparando o MongoDB e o MySQL em
operações de CRUD. Apesar de avaliar o impacto do uso de banco de dados, o trabalho
não considera o processamento destes por um gerenciador de contexto.
Finalmente em [Aman et al. 2016] é apresentado um estudo sobre a paralelização
dos sistemas de middleware para IoT, através de uma avaliação de desempenho que
considera o uso da tecnologia multicore. Porém, os autores não consideram em sua
avaliação o impacto dos diversos componentes de um gerenciador de contexto. Não foram
encontrados na literatura trabalhos diretamente relacionados à avaliação de desempenho
de gerenciadores de contexto.
879
XXXVII Congresso da Sociedade Brasileira de Computação
Fusão Inferência
Comunicação
1 http://www.espertech.com/
2 https://www.drools.org
3 https://mosquitto.org/
4 https://github.com/ivanzy/SenSE-Sensor-Simulation-Environment
880
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
881
XXXVII Congresso da Sociedade Brasileira de Computação
5 Metodologia de Avaliação
5.1 Métricas
Com base nos dados obtidos, é calculado o tempo médio total que uma mensagem leva
para ser processada no gerenciador de contexto inteiro, obtida pela média de tempo que
cada mensagem leva para percorrer todos os componentes do sistema, até ser recebida
pelo atuador. Também é registrada a taxa de entrega do sistema, com o objetivo de
verificar se a plataforma avaliada possui alguma taxa de perda de mensagens em picos de
processamento.
882
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
5.2 Experimentos
Os experimentos de avaliação de desempenho medem o tempo de resposta e a taxa de
entrega de mensagens entre uma ação e a reação do contexto no cenário controlado. O
SenSE foi utilizado para simular diversas quantidades de sensores diferentes enviando
mensagens, de modo a tornar possível a compreensão do funcionamento do gerenciador
de contexto, em um ambiente de cidades inteligentes.
Para compreender o impacto de diferentes tipos de sensores foram realizados
experimentos apenas com sensores movidos por tempo, apenas com sensores movidos a
evento e experimentos com os dois tipos de sensores juntos. A Tabela 2 mostra os fatores
e níveis utilizados nessa avaliação. Cada experimento foi replicado trinta vezes e o
intervalo de confiança assintótico foi calculado com nível de confiança de 99%.
Para a realização dos experimentos, foi instanciada a mesma quantidade de sensores
movidos por tempo apresentados na Tabela 1. Ou seja, se o experimento é feito com
25.000 sensores e existem cinco tipos diferentes de sensores movidos a tempo, então serão
instanciados 5.000 sensores de cada tipo. O envio de mensagens dos sensores movidos
por evento é gerado por uma distribuição de Poisson, e o parâmetro λ (lambda) define a
taxa de chegada de pessoas a um evento simulado. Foi observado que a taxa de chegada
de pessoas em uma evento típico (ex: chegada de pessoas à um estádio) varia em três
momentos: a) Início: antes e instantes após o início, com taxa de chegada moderada, uma
vez que as pessoas chegam com antecedência ou um pouco atrasados ao evento em
tempos diferentes; b) Meio: durante o evento a taxa de chegada é pequena, pois poucos
indivíduos entram e saem do evento; c) Fim: após o término do evento a taxa de chegadas
é alta pois todos os indivíduos costumam sair ao mesmo tempo. Por exemplo, quando a
taxa de chegada é X indivíduos por segundo no Início, no Meio é diminuída para X/10 e
no Fim ela assume 3X.
Tabela 2. Fatores e Níveis dos Experimentos
Fator Níveis
Número de sensores movidos por tempo 0, 25.000, 50.000
Taxa de chegada (por segundo) para sensores movidos por evento 0 – 6 – 12
Configuração do gerenciador de contexto C1, C2, C3, C4
Como um dos objetivos da avaliação é identificar o impacto de diferentes módulos
de software em plataformas de gerenciamente de contexto em ambientes IoT, foram
realizados experimentos para avaliar diferentes arquiteturas possíveis (Figura 3). Foram
realizados experimentos com e sem o módulo de Fusão e experimentos com o módulo de
Inferência desempenhado pelo Drools (C2 e C4) e por uma solução específica hard coded
por um trecho de código em Java (C1 e C3). A configuração padrão da plataforma
avaliada é a C4.
883
XXXVII Congresso da Sociedade Brasileira de Computação
6 Resultados
Os resultados apresentados nessa seção estão dividos por categoria de sensor, tempo e
evento. Não são apresentados resultados referentes à taxa de entrega pois a plataforma
não perdeu mensagems em nenhum experimento. As legendas dos gráficos referem-se as
configurações do gerenciador de contexto denotadas na Figura 3.
884
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
5
http://www.espertech.com/esper/performance.php
885
XXXVII Congresso da Sociedade Brasileira de Computação
manteve-se baixo para a maioria dos casos, apresentando um tempo de resposta inferior
a 40 ms em todas as configurações. Os valores de tempo de processamento para as
diversas configurações testadas seguem o padrão dos experimentos já apresentados.
Observa-se um pequeno crescimento no tempo de processamento conforme a carga
de trabalho aumenta nos experimentos com a configuração C4. Esse padrão de
crescimento é esperado, porém sua proporção reduzida indica que o sistema é escalável e
portanto consegue lidar com diferentes tipos de sensores e prover uma rápida resposta.
7 Discussão
Existem diversas propostas de sistemas de computação urbana que utilizam Internet das
Coisas para controlar dispositivos em tempo real com gerenciamento sensivel ao
contexto. No entanto, não existem avaliações de desempenho abrangentes desses
sistemas, não sendo possível comprovar a escalabilidade dessas plataformas. Alta
escalabilidade deve ser uma característica essencial, uma vez que essas tais plataformas
se destinam a automatizar ambientes com grande número de sensores e atuadores.
Desenvolvedores devem se atentar a questões de desempenho e escalabilidade nas
escolhas referentes a arquitetura de gerenciadores de contexto, além de definir se irão
utilizar ferramentas já existentes no mercado ou desenvolverão as próprias soluções
específicas, estando cientes que essa escolha pode impactar no desempenho e
flexibilidade da plataforma. Os experimentos apresentados evidenciam que diferentes
configurações impactam sigficamente no tempo de resposta da plataforma. Um exemplo
é o impacto do módulo de Fusão, desempenhado pelo Esper, que torna a plataforma mais
escalável e rápida. Já o Drools demonstrou ser menos escalável, mas obteve resultados
satisfatórios.
Uma das contribuições do projeto é o SenSE, uma ferramenta que possibilita a
realização de testes em plataformas desenvolvidas para cenários grandes e complexos de
Internet das Coisas, tornando possível avaliar a escalabilidade desses sistemas,
identificando possíveis gargalos, antes que sejam implementados em cenários reais.
O gerenciador de contexto avaliado é uma plataforma para automatização predial
que visa tornar o sistema energeticamente eficiente. A plataforma se mostrou robusta,
não perdendo nenhuma mensagem em nenhum experimento, mesmo com a carga de
trabalho alta. Os resultados da avaliação mostram que a plataforma possui um tempo de
resposta muito baixo, tanto em ambientes mais regulares (experimentos apenas com
sensores movidos a tempo), quanto em ambientes em que o envio de mensagens era
irregular (experimentos apenas com sensores movidos a evento). Quando a plataforma
886
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
foi submetida a experimentos nos quais os dois tipos de sensores enviaram mensagens,
ela apresentou um bom comportamento, mesmo com dezenas de milhares de sensores
enviando mensagens. Isso evidencia que o sistema é adequado para funcionar em
ambientes de larga escala, onde há uma grande heterogeneidade de dispositivos
conectados, uma das mais importantes características de redes IoT.
8 Conclusão
Esse artigo apresenta o impacto de diferentes escolhas de arquitetura em gerenciadores
de contexto para redes IoT na escalabilidade e desempenho da plataforma, para isso é
apresentado um Gerenciador de Contexto juntamente com uma avaliação quantitativa e
qualitativa da plataforma com diferentes configurações. Foi desenvolvida a plataforma
SenSE, capaz de simular sensores presentes em uma Cidade Inteligente. Os experimentos
realizados com diversas cargas de trabalho mostraram que o gerenciador de contexto
avaliado é apropriado para ambientes complexos de IoT, provendo uma rápida reposta
quando solicitado. A avaliação de desempenho possibilitou compreender melhor o
comportamentos de diversos componentes encontrados em gerenciadores de contexto,
principalmente dos responsáveis pela realização de fusão de dados e do processamento
de regras. Como trabalhos futuros, pretende-se implementar novas versões da arquitetura
do gerenciador de contextos, inclusive distribuídas.
Referências
Aman, M. et al (2016) “Parallelization in software systems used in wireless sensor networks and
Internet of Things: Case study: Middleware systems”. WF-IoT 2016: 342-347.
Caragliu, A., Del Bo, C., Nijkamp, P., “Smart Cities in Europe”, Journal of Urban Technology,
18:2, pp. 65-82, August 2011.
Kamienski, C., Borelli, F., Biondi, G., Rosa, W., Pinheiro, I., Zyrianoff, I., Sadok, D.,
Pramudianto, F. (2015), “Context-Aware Energy Efficiency Management for Smart
Buildings”, IEEE World Forum on Internet of Things (WF-IoT 2015).
Kamienski, C., Jentsch M., Eisenhauer M., Kiljander J., Ferrera E., Rosengren P., Thestrup P.,
Souto E., Andrade W., Sadok D. (2017), “Application development for the Internet of Things:
A context-aware mixed criticality systems development platform”, Computer
Communication, vol. 104, pp. 1-16.
Mongiello, M., et al (2016), “Context-Aware Design of Reflective Middleware in the Internet of
Everything”. STAF Workshops 2016: 423-435.
Osello A., et. al (2013), “Energy saving in existing buildings by an intelligent use of interoperable
ICTs”, Energy Efficiency, 6(4), pp. 707-723.
Paethong, P., Sato, M., Namiki, M. (2016), “Low-power distributed NoSQL database for IoT
middleware”, Student Project Conference (ICT-ISPC), 2016 Fifth ICT International.
Perera, C., et. al. (2014), "Context Aware Computing for The Internet of Things: A Survey", IEEE
Comm. Surveys & Tutorials, 16(1), First Quarter 2014.
Zanella, A., Bui, N., Castellani, A., Vangelista, L., Zorzi, M. (2014), "Internet of Things for smart
cities", IEEE Internet Things J., vol. 1, no. 1, pp. 22-32.
Zyrianoff, I.; Borelli, F.; Kamienski, C.; “SenSE – Sensor Simulation Environment: Uma
ferramenta para geração de tráfego IoT em larga escala”, 2017. SBRC 2017. Salão de
Ferramentas.
887
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Para a próxima geração da telefonia móvel (5G), alguns requisitos como escalabilidade,
resiliência e energia são necessários para uma arquitetura de comunicação prover uma
comunicação que forneça qualidade de serviço ao usuário. No LTE1 Avançado (LTE-A)2 ,
a comunicação D2D (Dispositivo para Dispositivo) é uma tecnologia candidata para satis-
fazer aos requisitos necessários e estender a cobertura da rede em cenários de segurança
1
Long Term Evolution.
2
LTE-A é um padrão de redes celulares que permite banda larga móvel com altas taxas de transmissão,
possibilitando uma maior abrangência de comunicações de voz e transferência de dados.
888
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
pública. Oportunidades significativas para criar e explorar alianças entre redes de segu-
rança pública e redes comerciais LTE-A têm sido discutidas no 3GPP3 (3rd Generation
Partnership Project) para permitir um aumento na capacidade agregada e uma melhora na
capacidade da cobertura da rede [Lin et al. 2014]. Com a necessidade de reestruturação
das arquiteturas de comunicação para atender aos novos requisitos, novas propostas de
implementação e utilização de novas tecnologias têm surgido com o objetivo de diminuir
custos operacionais, buscando uma arquitetura que seja mais dinâmica e com uma melhor
eficiência energética [Agiwal et al. 2016].
A comunicação D2D em redes celulares é definida como uma comunicação direta
entre dois dispositivos móveis sem passar pela estação base (BS) ou núcleo da rede. Co-
municação D2D não é transparente para a rede celular e pode ocorrer dentro (Inband) ou
fora (Outband) do espectro celular. Contudo, usuários móveis das redes celulares de hoje
utilizam serviços que necessitam de altas taxas de dados que podem ser atingidos através
de uma comunicação direta entre os dispositivos, tendo a comunicação D2D não limitada
apenas a eficiência espectral, mas permitindo a potencialização no aumento da taxa de
transferência, eficiência energética, diminuição dos atrasos e conformidade da rede em
diferentes cenários para diferentes casos de uso [Asadi et al. 2014].
Segurança Pública engloba vários setores incluindo a polícia, bombeiros, orga-
nizações militares, entre outras organizações para criar um ambiente estável diante de
ameaças naturais e/ou provocadas pelo homem. Em cenários como emergências em áreas
urbanas, desastres naturais em áreas rurais, desastres nas fronteiras envolvendo diferen-
tes nações e grandes eventos torna-se um desafio prover comunicação entre as diferentes
organizações. Os cenários operacionais e as tecnologias utilizadas necessitam de requisi-
tos operacionais como tempo de implantação, segurança, interoperabilidade, resiliência e
taxa de dados para prover uma comunicação eficiente [Baldini et al. 2014].
Como principal contribuição, apresenta-se um algoritmo de roteamento
(Roteamento Assistido pela Rede - NAR) para comunicação D2D em arquiteturas celu-
lares que tem como objetivo estender a cobertura das estações base em cenários de segu-
rança pública. Do ponto de vista de arquiteturas de comunicação D2D, diferentemente das
redes Mobile ad hoc Network (MANETs4 ) [Dow et al. 2005] e Cognitive Radio Networks
(CRN 5 ) [Kamruzzaman et al. 2011], as comunicações D2D em redes celulares são ge-
renciadas pela estação base [Asadi et al. 2014]. Diferentemente de outros trabalhos, o
algoritmo proposto leva em consideração a característica em que a definição das rotas
para a comunicação D2D é definida pela estação base através do menor caminho e da
melhor qualidade do canal, alocando blocos de recursos para os dispositivos móveis que
participarão da comunicação.
Na avaliação do algoritmo, considera-se como baseline o algoritmo Load Balan-
cing Based Selective Ad hoc On-Demand Multipath Distance Vector (LBS-AOMDV)
[Tata and Kadoch 2014]. Os algoritmos foram implementados no simulador SimuLTE
3
3GPP é uma associação que reúne uma série de órgãos normativos de telecomunicações, abrangendo
tecnologias de redes de telecomunicações celulares.
4
MANETs são redes continuamente auto-configuráveis sem infraestrutura para conexão de dispositivos
móveis sem fio.
5
CRN é uma tecnologia habilitada para suportar acesso dinâmico do espectro, considerada como uma
das tecnologias mais promissoras para futuras comunicações sem fio.
889
XXXVII Congresso da Sociedade Brasileira de Computação
(OMnet++) ([Virdis et al. 2014]) e os resultados demonstram que o algoritmo NAR perde
aproximadamente 11% a menos mensagens de dados em relação ao algoritmo LBS-
AOMDV e tem um consumo de energia aproximado de 35% menor em relação ao algo-
ritmo LBS-AOMDV, mesmo com o algoritmo NAR enviando mais mensagens de dados
em relação ao algoritmo LBS-AOMDV.
Esse trabalho encontra-se organizado da seguinte forma. A seção 2 apresenta os
trabalhos relacionados. A seção 3 apresenta o algoritmo NAR. A seção 4 apresenta o
algoritmo utilizado como baseline. A seção 5 apresenta os experimentos e resultados
encontrados. A seção 6 conclui o trabalho.
2. Trabalhos Relacionados
A comunicação D2D é uma nova tendência em redes celulares. [Asadi et al. 2014] ca-
tegoriza os diversos tipos de comunicação D2D, distribuídas entre comunicação dentro
da banda (Inband) e fora da banda (Outband). Comunicações dentro de banda usam
o mesmo espectro para as comunicações D2D e celular. Já as comunicações fora de
banda exploram enlaces fora do espectro celular com o objetivo de reduzir o risco de
interferências. Em termos de contexto, esse trabalho propõe uma estratégia baseada em
comunicação dentro de banda permitindo alto controle sobre o espectro celular.
Em [Tata and Kadoch 2014] é proposto uma solução para o roteamento de múlti-
plos caminhos em comunicação D2D sobre Redes Heterogêneas (HetNets)6 , tendo como
particularidade oferecer informações sobre a disponibilidade de largura de banda em cada
rota e a redução no número de nós que recebem mensagens de requisição de rota.
Em [Melki et al. 2016] é proposto um modelo de alocação de recursos para habili-
tar comunicação multihop para comunicações D2D em redes celulares LTE-A. É for-
mulado um problema de otimização de taxa de transferência sob as restrições de SINR
(Signal-to-interference-plus-noise ratio) dos usuários móveis.
Em [Luz and Garcia 2015] foi proposto um algoritmo para implementar um me-
canismo de tráfego adaptativo a partir de medidas que verificam a variação de SINR em
estações com baixa mobilidade. A proposta é diminuir os quadros de gerenciamento e
controle que tem como objetivo apenas a verificação contínua da conexão.
O algoritmo Interference Aware Routing Algorithm (IAR) [Yuan et al. 2014] foi
proposto para reduzir a interferência D2D causada pela estação base, implementado num
modelo baseado em geometria estocástica. O processo de roteamento D2D ocorre ao
longo da borda da célula das estações base, em que a distância para estações base adja-
centes é maximizada e a interferência agregada para as estações base são minimizadas.
Para minimizar o número de saltos e reduzir o consumo de energia, em
[Ren et al. 2013] foi proposto um algoritmo de roteamento ciente de interferência. O
algoritmo observa informações geométricas, restrições de interferência e restrições das
taxas D2D com foco em reduzir sua complexidade computacional.
De forma geral, esse trabalho diferencia-se dos anteriores pela proposição de um
algoritmo de roteamento que utiliza a estação base para gerenciar e definir as rotas a serem
6
HetNets consistem em redes celulares clássicas que fornecem cobertura total para uma área ampla e
células que fornecem capacidade extra para algumas demandas de tráfego [Spiess et al. 2014].
890
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
891
XXXVII Congresso da Sociedade Brasileira de Computação
UE não está definido até receber uma solicitação de rota de todos os filhos escolhidos
como membro de uma rota. NAR é apresentado no Algoritmo 1.
Assim que o UE recebe o RREQ, ele responde com uma resposta de rota RREP .
RREP adiciona informações simples sobre o CQI do canal, permitindo escolher rotas
para os múltiplos caminhos. Após a definição dos múltiplos caminhos, é realizado o pro-
cedimento de alocação de recursos, apresentado no Algoritmo 2, em que cada solicitação
de rota (RROU T E) de um UE, é definido duas rotas, com blocos de recursos distintos,
sendo uma rota para a comunicação D2D e a outra rota servindo de auxiliar em caso de
falha. Para o encerramento da rota, foi definido um tempo de vida da rota igual a 60s.
892
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
ao selecionar mais de uma rota para a comunicação D2D e reativo ao selecionar as rotas
somente após uma requisição de rota (RROU T E).
4. Baseline
Compara-se nosso algoritmo com o algoritmo Load Balancing Based Selective Ad hoc
On-Demand Multipath Distance Vector (LBS-AOMDV) que é um aprimoramento do al-
goritmo Ad hoc On-Demand Multipath Distance Vector (AOMDV). Ele é aplicado para
definir múltiplos caminhos para compor as comunicações D2D para Segurança Pública
sobre Redes Heterogêneas. Uma particularidade de LBS-AOMDV é oferecer informa-
ções sobre a largura de banda disponível de cada rota dentro dos múltiplos caminhos.
Além disso, reduz o tráfego de controle, diminuindo o número de nós que recebem as
solicitações RREQ. Isto é viável uma vez que os remetentes das solicitações RREQ
selecionam os dispositivos que podem receber os pacotes.
O algoritmo LBS-AOMD encaminha RREQ da origem para localizar o destino.
Mas, ao contrário do algoritmo AOMDV, o dispositivo remetente não inunda os pacotes
através de toda a rede. Em vez disso, para cada transmissão, ele escolhe o melhor entre
seus filhos para ser o receptor RREQ.
5. Experimentos e Resultados
Para realizar uma abordagem científica no planejamento experimental, foram definidos
os parâmetros da simulação e a forma da coleta dos dados, para posteriormente realizar
a análise dos dados, refutando ou corroborando o algoritmo proposto. A seguir uma des-
crição para cada fase realizada do planejamento experimental.
No Planejamento Pré-Experimental, são definidos os fatores de interesse do algo-
ritmo NAR, os níveis dos fatores e as variáveis de respostas, descritas como: a) Reco-
nhecimento e definição do problema: Garantir a confiabilidade na entrega dos pacotes,
minimizando a perda de pacotes sem inviabilizar o tempo da rede; b) Escolha de fatores
de interesse, níveis e intervalos: Na tabela 1 foram definidos os parâmetros utiliza-
dos nas simulações; c) Seleção da variável de resposta: mensagens de dados enviadas,
mensagem de dados recebidas, nível do indicador de qualidade do canal (CQI) e energia
consumida. Todas as variáveis foram analisadas para cada algoritmo avaliado, exceto para
o algoritmo LBS-AOMDV em que o CQI não está disponível.
Parâmetros Valor
Frequência da Portadora 2 GHz
Largura de Banda 5 MHz (25 RBs)
Modelo de Perda ITU Urban Macro
Modelo de Desvanecimento Jakes
Potência dispositivo móvel Tx 26dB
Ruído 5dB
Perda no Cabo 2dB
Tempo de Simulação 3600s
893
XXXVII Congresso da Sociedade Brasileira de Computação
Para a comparação do algoritmo NAR com o seu baseline, o objetivo foi analisar
o funcionamento do algoritmo em relação as métricas de desempenho. Foram realiza-
dos 33 experimentos com o algoritmo NAR e 33 experimentos com o algoritmo LBS-
AOMDV em um cenário com uma estação base e 100 dispositivos móveis dispostos de
forma estacionária e aleatória dentro da área de cobertura celular (800m x 800m), em que
os dispositivos móveis realizam comunicações celulares de forma aleatória e simultânea
com a comunicação D2D, sendo que o dispositivo móvel alocado para formar uma rota
de comunicação D2D não pode realizar comunicação celular simultaneamente.
Para esse experimento, a figura 2(a) apresenta a média de mensagens de dados
enviadas durante as simulações referente ao algoritmo NAR e o algoritmo LBS-AOMDV,
demonstrando que o algoritmo NAR envia aproximadamente 11% a mais de mensagens
9
R é uma linguagem e também um ambiente de desenvolvimento integrado para cálculos estatísticos e
gráficos https://www.r-project.org/
894
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
para o cenário determinado. A figura 2(b) apresenta a média das % de mensagens que
são entregues e a média da % de mensagens de dados perdidas durante as simulações,
demonstrando a eficiência do algoritmo NAR na entrega de mensagens em comparação
com o algoritmo LBS-AOMDV, sendo que o NAR tem uma taxa de perda de mensagens
de aproximadamente 4,73% e o LBS-AOMDV uma taxa de perda aproximada de 15,4%.
895
XXXVII Congresso da Sociedade Brasileira de Computação
6. Conclusão
Nesse trabalho foi proposto o algoritmo de roteamento definido como Roteamento Assis-
tido pela Rede (NAR) que se enquadra na categoria de Inband D2D - Underlay, tendo
como uma das premissas o gerenciamento da rota definido pela estação base, em que as
métricas de menor caminho, qualidade do canal e a alocação de blocos de recursos são
utilizados com o propósito de diminuir a interferência entre as comunicações e melhorar
a utilização do espectro celular. Os experimentos foram realizados no SimuLTE e o algo-
ritmo NAR comparado com o algoritmo LBS-AOMDV. Os resultados demonstram que o
algoritmo NAR perde aproximadamente 11% a menos mensagens de dados em relação
ao LBS-AOMDV e tem um consumo de energia aproximado de 35% menor em relação
ao algoritmo LBS-AOMDV, mesmo com o algoritmo NAR enviando mais mensagens de
dados, atendendo aos requisitos para aplicações de Segurança Pública. Como trabalhos
futuros, será analisado a quantidade de rotas ideal para cada solicitação, de forma a garan-
tir melhor resiliência, realizar experimentos com os dispositivos em movimento e analisar
o comportamento do algoritmo em redes reais.
Agradecimentos
O presente trabalho foi realizado com o apoio financeiro da CAPES - Brasil.
896
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
Agiwal, M., Roy, A., and Saxena, N. (2016). Next generation 5G wireless networks:
A comprehensive survey. IEEE Communications Surveys and Tutorials, 18(3):1617–
1655.
Asadi, A., Wang, Q., and Mancuso, V. (2014). A survey on device-to-device communica-
tion in cellular networks. IEEE Communications Surveys and Tutorials, 16(4):1801–
1819.
Baldini, G., Karanasios, S., Allen, D., and Vergari, F. (2014). Survey of Wireless Com-
munication Technologies for Public Safety. Communications Surveys Tutorials, IEEE,
16(2):619–641.
Dow, C. R., Lin, P. J., Chen, S. C., Lin, J. H., and Hwang, S. F. (2005). A Study of
Recent Research Trends and Experimental Guidelines in Mobile Ad Hoc Networks.
19th International Conference on Advanced Information Networking and Applications
(AINA’05) Volume 1 (AINA papers), 1:72–77.
Kamruzzaman, S. M., Kim, E., and Jeong, D. G. (2011). Spectrum and Energy Aware
Routing Protocol for Cognitive Radio Ad Hoc Networks. Communications Society,
pages 344–349.
Lin, X., Andrews, J. G., Ghosh, A., and Ratasuk, R. (2014). An overview of 3GPP
device-to-device proximity services. IEEE Communications Magazine, 52(4):40–48.
Luz, K. S. and Garcia, H. (2015). Caracterização da Micromobilidade em Redes Sem
Fio Infraestruturadas pela Variação da Relação Sinal-Ruído. 7o SBCUP - Simpósio
Brasileiro de Computação Ubíqua e Pervasiva - SBCUP/CSBC, pages 131–140.
Melki, L., Najeh, S., and Besbes, H. (2016). Interference Management Scheme for
Network-Assisted Multi-Hop D2D Communications. IEEE 27th Annual International
Symposium on Personal, Indoor and Mobile Radio Communications (PIMRC), pages
1–5.
Ren, P., Du, Q., and Sun, L. (2013). Interference-aware routing for hop-count minimiza-
tion in wireless D2D networks. 2013 IEEE/CIC International Conference on Commu-
nications in China - Workshops, CIC/ICCC 2013, pages 65–70.
Spiess, J., Joens, Y. T., Dragnea, R., and Spencer, P. (2014). Using Big Data to Im-
prove Customer Experience and Business Performance. Bell Labs Technical Journal,
18(4):3–17.
Tata, C. and Kadoch, M. (2014). Multipath routing algorithm for device-to-device com-
munications for public safety over LTE Heterogeneous Networks. 2014 1st Internatio-
nal Conference on Information and Communication Technologies for Disaster Mana-
gement, ICT-DM 2014.
Virdis, A., Stea, G., and Nardini, G. (2014). SimuLTE – A Modular System-level Simula-
tor for LTE / LTE-A Networks based on OMNeT ++. Proceedings of SimulTech, pages
28—-30.
Yuan, H., Guo, W., and Wang, S. (2014). Emergency route selection for D2D cellular
communications during an urban terrorist attack. 2014 IEEE International Conference
on Communications Workshops, ICC 2014, pages 237–242.
897
XXXVII Congresso da Sociedade Brasileira de Computação
1
Escola de Artes, Ciências e Humanidades – Universidade de São Paulo (USP)
São Paulo – SP – Brazil
2
Departamento de Sistemas de Informação – Universidade Federal de Sergipe (UFS)
Itabaiana – SE – Brazil
3
Centro de Ciências Exatas e Tecnológicas – Universidade Federal do Recôncavo da Bahia (UFRB)
Cruz das Almas – BA – Brazil
4
Lab. de Sistemas Integráveis – Escola Politécnica – Universidade de São Paulo (USP)
São Paulo – SP – Brazil
Abstract. There are hundreds of millions of visually impaired people around the
world, individuals that in a daily basis face difficulties related to their mobility.
The progress of mobile technologies brings more opportunities to create appli-
cations to aid the visually impaired. This paper proposes an approach based
on semantics that organizes, relates and assign meaning to information of the
urban space, in order to provide content tailored to people with disabilities. In
order to validate this proposal, we have created an indoor navigation system for
shopping mall to support the visually impaired.
1. Introdução
Cerca de 15% da população mundial possui algum tipo de deficiência sensorial, motora
ou cognitiva [World Bank 2016]. Ao longo do século XX, a luta destes indivı́duos e de
associações possibilitou a ampla discussão das condições de vida a que eram submetidos
e, como consequência, uma série de direitos foram adquiridos e polı́ticas públicas voltadas
para as pessoas com deficiência (PcD) foram definidas.
1
Agradecimentos especiais a HUAWEI pelo apoio dado a este projeto de pesquisa no âmbito do
convênio HUAWEI-USP.
898
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
899
XXXVII Congresso da Sociedade Brasileira de Computação
2. Fundamentação teórica
A web semântica estende a web tradicional de forma que a informação disponı́vel seja
acompanhada por significado. A semântica incluı́da permite que a informação possa ser
processada e interpretada computacionalmente. Dessa forma, máquinas desempenham
um papel mais ativo no consumo de dados e não apenas na transmissão de informação
para consumo humano [Fensel et al. 2011]. Em nossa proposta, o suporte semântico foi
dado pelo emprego de WSML.
WSML (Web Service Modeling Language) [Fensel et al. 2011] é uma lingua-
gem formal para descrever serviços web semânticos baseada em formalismos lógicos,
tais como lógica de descrições, lógica de primeira ordem e lógica de programação. No
âmbito deste trabalho, fizemos uso dos seguintes elementos WSML: ontologias, serviços
semânticos e metas.
A Figura 1 apresenta um exemplo de ontologia definida em WSML. As linhas 1 e
2 definem, respectivamente, a variante WSML adotada e o namespace da ontologia. Em
seguida, na linha 3, é definida a ontologia SeresVivos. As linhas 6 a 10 são utilizadas para
a definição de classes. Em WSML, uma classe é definida através da palavra reservada
concept. A classe Humano é composta pelos atributos nome do tipo string e idade do
tipo integer (linhas 7 e 8). Na linha 10, é apresentada a definição da classe Crianca, que
é um subclasse de Humano. Por ser uma subclasse, Crianca herda todos os atributos de
Humano. Instâncias de classe são definidas através da palavra reservada instance. Exem-
plos de definição de instância são apresentadas nas linha 17 a 23. Nelas, são definidas a
instância Paulo e George, ambas do tipo Humano.
O suporte à inferência é feita por meio de axiomas (linhas 12 a 15). O axiom Eh-
Crianca define que caso uma instância ?x apresente o atributo idade com valor menor que
12, logo ?x é do tipo Crianca. Por conta desse axioma, podemos inferir que a instância
George é do tipo Crianca, pois apresenta o atributo idade com valor 8.
A web semântica também traz o conceito de serviços semânticos. Diferente dos
serviços habituais, serviços semânticos apresentam anotações semânticas que informam,
900
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
entrada e a saı́da. Na Figura 2, vemos que a instância ?crianca passará a ter o atributo ci-
dadania com valor igual a Brasil (linhas 16 a 18) caso a precondition e assumption sejam
atendidas. Por último, effect descreve mudanças causadas pelo serviço não relacionada
901
XXXVII Congresso da Sociedade Brasileira de Computação
aos dados de entrada e saı́da. Em nosso exemplo, é gerado uma instância de Conta cujo
atributo debitos apresenta valor igual a 100 (linhas 19 a 21).
WSML também dá suporte à modelagem de metas através da palavra reservada
goal. Goal representa os objetivos dos usuários com relação ao serviço web utilizado.
A goal é composta pelos mesmos elementos que descrevem um webService, mudando
apenas pelo emprego da palavra reservada goal no lugar da palavra reservada webService.
A diferença entre esses elementos consiste do ponto de vista da descrição. Enquanto um
webService adota o ponto de vista do serviço, goal segue o ponto de vista do solicitante
do serviço.
3. Trabalhos relacionados
As ferramentas de navegação, definição de rotas ou wayfinding são de extrema im-
portância para as PcD pois tais ferramentas podem aumentar o grau de independência
e de autonomia destas pessoas. Como todo cidadão, é navegando pelo espaço urbano que
as PcD percebem e se apropriam do espaço que é compartilhado com os seu concidadãos
e se sentem parte integrante da comunidade que está ao seu redor. As obras da literatura
cientı́fica relacionadas a wayfinding podem ser agrupadas segundo alguns critérios, tais
como:
• roteamento indoor (Chang et al., 2010) ou outdoor [Sheehan et al. 2006];
• deficiência/limitação em questão: visual [Gaunet and Briffault 2005], cog-
nitiva [Chang et al. 2008], auditiva [de Paolis and Guerini 2015], velhice
[Falco et al. 2010], motora [Duvall et al. 2016], etc.;
• tecnologia utilizada, tais como: RFID [Willis and Helal 2006], wearables
[Ross and Blasch 2000], robôs [Kulyukin et al. 2006], entre outras.
Poucos são os trabalhos que propõem o uso de semântica em soluções de way-
finding. Nossa proposta é uma solução baseada em semântica voltada para navegação e
roteamento indoor e outdoor em espaços públicos para PcD com limitações sensoriais e
motoras, podendo seu uso ser extrapolado também para outros indivı́duos que por alguma
razão temporária ou permanente não conseguem interpretar os sı́mbolos e textos presen-
tes na paisagem urbana — como, por exemplo, idosos, indivı́duos não-letrados, e turistas
que não falam/leem/entendem o idioma local. As tecnologias empregadas são aquelas
utilizadas comumente em projetos de Cidades Inteligentes: sensores, Internet das Coisas,
Computação em Nuvem, e dispositivos móveis.
4. Solução desenvolvida
Para validar o modelo proposto e confirmar a sua viabilidade desenvolvemos um protótipo
tendo como cenário um sistema de auxı́lio a pessoas com deficiência visual na navegação
em um shopping center aplicando a nossa abordagem semântica. O protótipo descreve os
vários serviços oferecidos por um shopping, bem como os estabelecimentos encontrados
no centro comercial. A Figura 3 detalha a solução desenvolvida2 . A interação com o
usuário é feita por meio de um aplicativo Android que se comunica com um servidor
RESTful, utilizando requisições HTTP que encapsulam pacotes JSON (ilustrados pelas
setas). Para utilizar um serviço, a aplicação envia um goal WSML para o servidor Ubuntu
2
Documentos em WSML, bem como diagramas detalhando o sistema, estão disponı́veis em: https:
//github.com/minato21/shopping_ontology
902
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
que descobre um serviço que atende às necessidades impostas na meta (goal). Como
resposta, o servidor envia à aplicação Android a URL do serviço. Em seguida, a aplicação
faz uma chamada à URL para que o serviço seja executado no módulo de execução. O
módulo de execução apresenta um conjunto de ontologias WSML. O processo de consulta
é feito através do IRIS [Bishop and Fischer 2008].
O cálculo de rotas é feito dinamicamente por uma ferramenta de checagem de
modelos probabilı́sticos chamada PRISM [Kwiatkowska et al. 2011]. Ele se baseia na
localização do usuário e nas informações presentes nas ontologias de lugares e rotas.
A localização do usuário é obtida através de sensores que notificam o servidor sobre
a localização atual do usuário assim que o usuário passa por ele. Em nosso protótipo,
sensores foram desenvolvidos como serviços web, de forma a dar suporte a diferentes
tipos de hardware. Em nossos experimentos, adotamos a modalidade simulada, na qual a
ação de detecção e notificação dos servidores é feita puramente em software.
Para o protótipo, definimos que o sistema deve atender às seguintes funcionalida-
des: buscar localidade, procurando mais informações sobre a localidade desejada; buscar
rota, tal que ela seja calculada pelo servidor entre o ponto atual do usuário e uma locali-
dade selecionada; curtir localidade, explicitando sua preferência pela localidade selecio-
nada; e recomendar localidade, em que, caso o usuário esteja próximo a uma localidade
curtida, o sistema o avisa.
A Figura 4 mostra uma visão gráfica da ontologia que representa o shopping utilizado
em nosso estudo de caso, produzida pela ferramenta Web Semantic Modeling Toolkit.
Para nossa ontologia de shopping, definimos que cada localidade tem um sensor cor-
respondente. A cadeia de sensores foi modelada em uma ontologia de grafo, sendo as
localidades representadas por nós e o caminho entre as localidades, por arestas.
O shopping apresenta seis instâncias de localidade. São elas: Toilet1, um ba-
nheiro; ItalianRestaurant, um restaurante que oferece pizzas, massas italianas e também
comida vegetariana; FilmTheater, um cinema; FastFoodRestaurant, uma hamburgue-
ria; ClothesStore, uma loja de roupas; e BookStore, uma livraria.
903
XXXVII Congresso da Sociedade Brasileira de Computação
904
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
905
XXXVII Congresso da Sociedade Brasileira de Computação
curtida ou não utilizando o reasoner IRIS, mas também salva a ontologia atua-
lizada no seu arquivo de origem. Por fim, o serviço responde ao aplicativo as
informações atualizadas da localidade alterada.
• Serviço de rota: Este serviço recebe, do pacote JSON vindo do aplicativo An-
droid, uma instância com informação sobre dois nós, um inicial e outro final. Si-
milar aos serviços de busca e de localidades curtidas, ele deve validar a ontologia
contendo a instância que recebeu, juntamente com a goal WSML. Com as duas
informações, o serviço utiliza o software PRISM para o cálculo da rota. Para isso,
modelamos o layout do nosso shopping em um processo de decisão de Markov,
com as localidades representadas por estados e transições representando os cami-
nhos entre as localidades, com os custos relacionados às distâncias desses cami-
nhos. Quando o cálculo é finalizado, o serviço envia para o aplicativo um conjunto
de pares de String, cada par contendo a descrição da rota que o usuário deficiente
deve seguir, e o próximo nó por onde ele deverá passar caso siga as instruções cor-
retamente, sendo que o último par contém o nó final. O serviço apresenta suporte
a definição de novas rotas, caso o usuário não siga a rota estabelicida.
5. Avaliação realizada
Para avaliação, verificamos o uso do sistema utilizando o aplicativo Android para interagir
com o serviço de descoberta e o módulo de execução no servidor Ubuntu. Simulamos o
comportamento de um usuário cego, bem como a atuação dos sensores de localidade3 .
O servidor de descoberta funcionou como esperado, retornando corretamente os
serviços relativos às goals enviadas. O módulo de execução dos serviços também funci-
onou sem problemas. Para o serviço de rotas, fizemos uma simulação de 100 requisições
HTTP para um shopping com seis localidades. A média de tempo de execução entre o
envio da requisição e da resposta do servidor foi de 1875 ms em um servidor Apache
Tomcat 8.5 executando em um Linux Ubuntu, em uma máquina Intel i7 com 8 GB de
memória.
Finalizado o uso, concluı́mos que, com o protótipo desenvolvido, a produção de
um sistema aplicado a uma situação real, seguindo a metodologia adotada neste trabalho,
é viável.
6. Considerações finais
Esse trabalho teve como objetivo apresentar uma abordagem semântica para o desenvol-
vimento de sistemas voltados a pessoas com deficiência visual. Atualmente, a abordagem
proposta vem sendo aplicada no desenvolvimento de ambientes inclusivos para a Escola
de Artes, Ciências e Humanidades da Universidade de São Paulo. O sistema em desenvol-
vimento adota todos os recursos apresentados nessa proposta, com a adição de recursos
3
Um vı́deo de demonstração do sistema está disponı́vel em: https://youtu.be/Z5p-3x3fMd8
906
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
mais robustos para interface com o usuário e sensoriamento. Para interface do usuário,
o sistema apresenta uma luva, responsável por abrigar o dispositivo móvel, bem como
enviar feedbacks ao usuário. No âmbito de sensoriamento, optou-se pela adoção de QR
Code espalhados pelo campus, que são lidos e processados pelo aplicativo. Como traba-
lhos futuros, pretende-se implantar o suporte multi-idiomas. Adicionalmente, tornar mais
robusta as ontologias relativas ao contexto, de forma a prover um serviço mais adaptável
ao perfil do usuário.
Referências
Alawadhi, S. et al. (2006). Building understanding of smart city initiatives. International Conference on
Electronic Government., pages 40–53.
Bishop, B. and Fischer, F. (2008). Iris-integrated rule inference system. In International Workshop on
Advancing Reasoning on the Web: Scalability and Commonsense (ARea 2008).
Breitman, K., Casanova, M. A., and Truszkowski, W. (2007). Semantic web: concepts, technologies and
applications. Springer Science & Business Media.
Chang, Y.-J., Tsai, S.-K., and Wang, T.-Y. (2008). A context aware handheld wayfinding system for indivi-
duals with cognitive impairments. Proceedings of the 10th international ACM SIGACCESS conference
on Computers and accessibility., pages 27–34.
de Oliveira Neto, J. S. and Kofuji, S. T. (2016). Inclusive smart city: An exploratory study. International
Conference on Universal Access in Human-Computer Interaction.
de Paolis, R. and Guerini, S. (2015). Wayfinding design and accessibility. GSTF Journal of Engineering
Technology, 3(2).
Duvall, J. A., Pearlman, J. L., and Karimi, H. A. (2016). Development of route accessibility index to support
wayfinding for people with disabilities. Smart City 360., pages 104–112.
Falco, J. M. et al. (2010). Indoor navigation multi-agent system for the elderly and people with disabilities.
Trends in practical applications of agents and multiagent systems., pages 437–442.
Federici, S. and Scherer, M. (2012). Assistive Technology Assessment Handbook. CRC Press.
Fensel, D., Facca, F. M., Simperl, E., and Toma, I. (2011). Semantic web services. Springer Science &
Business Media.
Gaunet, F. and Briffault, X. (2005). Exploring the functional specifications of a localized wayfinding verbal
aid for blind pedestrians: Simple and structured urban areas. Proceedings of the ACM 2011 conference
on Computer supported cooperative work., 20(3):267–314.
Kulyukin, V. et al. (2006). Robot-assisted wayfinding for the visually impaired in structured indoor envi-
ronments. Autonomous Robots, 21(1):29–41.
Kwiatkowska, M., Norman, G., and Parker, D. (2011). Prism 4.0: Verification of probabilistic real-time
systems. In International Conference on Computer Aided Verification, pages 585–591. Springer.
Nam, T. and Pardo, T. A. (2011). Conceptualizing smart city with dimensions of technology, people,
and institutions. Proceedings of the 12th annual international digital government research conference:
digital government innovation in challenging times., pages 282–291.
Ross, D. A. and Blasch, B. B. (2000). Wearable interfaces for orientation and wayfinding. Proceedings of
the fourth international ACM conference on Assistive technologies., pages 193–200.
Sheehan, B., Burton, E., and Mitchell, L. (2006). Outdoor wayfinding in dementia. Dementia, 5(2):271–
281.
Willis, S. and Helal, S. (2006). Rfid information grid for blind navigation and wayfinding. In Ninth IEEE
International Symposium on Wearable Computers (ISWC’05), pages 34–37. IEEE.
World Bank (2016). Disability overview. http://www.worldbank.org/en/topic/
disability/overview. Acesso em 05 de março de 2017.
World Health Organization et al. (2011). World report on disability. World Health Organization.
907
XXXVII Congresso da Sociedade Brasileira de Computação
1
Universidade Católica de Pelotas (UCPel)
Rua Gonçalves Chaves, 373 - Centro - CEP 96015-560 – Pelotas - RS - Brasil
2
Universidade Federal de Pelotas (UFPel)
Rua Gomes Carneiro, 1 - Centro - CEP 96010-610 – Pelotas – RS – Brasil
{renato.dilli, hkaiser, gerson.cavalheiro, marilza, adenauer}@inf.ufpel.edu.br, mmadrugadeazevedo@gmail.com
1. Introdução
A IoT (Internet of Things) vem ganhando destaque como o novo paradigma de evolução
da Internet [Perera et al. 2014]. Esta evolução deve-se ao fato que a IoT preconiza a ideia
do tudo conectado, ou seja, qualquer “coisa” pode possuir sensores capazes de coletar
informações as quais podem ser compartilhadas através da Internet.
A Internet das Coisas trouxe vários desafios a serem superados, entre eles,
questões de identificação dos inúmeros dispositivos levando a uma necessidade de
transição para IPv6 e a descoberta dos dispositivos e seus recursos [Gubbi et al. 2013].
∗
O presente trabalho foi realizado com apoio do Programa Nacional de Cooperação Acadêmica da
Coordenação de Aperfeiçoamento de Pessoal de Nı́vel Superior – CAPES/Brasil.
908
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
909
XXXVII Congresso da Sociedade Brasileira de Computação
910
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
911
XXXVII Congresso da Sociedade Brasileira de Computação
912
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
EXEHDA estão conectados em gateways. Neste cenário estão sendo utilizados Gateways
Virtuais, localizados nos EXEHDABorda.
Após a inicialização dos serviços na máquina hospedeira, foram ativados os Com-
ponentes Recurso, em nodos do emulador CORE. Este procedimento tem por objetivo
simular o Componente Recurso presente em um Gateway Virtual através de mensagens
de anúncio no ambiente emulado.
As mensagens enviadas do CR ao CD contém o UUID do recurso e sua URI. As
mensagens são enviadas de 30 em 30 segundos utilizando o padrão REST. Este intervalo
de tempo pode ser alterado no CR.
Após receber a mensagem do CC, o CD verifica na ontologia a existência do UUID
do recurso, caso seja um novo recurso, ele será inserido na ontologia com estado definido
como Negado e armazenado no Repositório de Recursos Negados (RRN), Figura 3.
sparql = SPARQLWrapper("http://127.0.0.1:3030/inf/update")
sparql.setQuery("""
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX ont: <http://www.owl-ontologies.com/Ontology1251223167.owl#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
INSERT DATA {
ont:""" + data[’uuid’] + """ rdf:type ont:""" + data[’resource’
,→ ] + """, owl:NamedIndividual .
ont:""" + data[’uuid’] + """ ont:Resource_Status ’Negado’ .
ont:""" + data[’uuid’] + """ ont:Resource_Type ’""" + data[’
,→ category’] + """’ .
ont:""" + data[’uuid’] + """ ont:Resource_Node ont:""" + data[’
,→ gateway’] + """.
}
""")
sparql.method = ’POST’
sparql.query()
913
XXXVII Congresso da Sociedade Brasileira de Computação
SELECT *
WHERE {
?resource rdf:type ont:Sensor .
?resource ont:Resource_Node ?node .
?node rdf:type ont:Gateway .
?node ont:Node_Components ?sysope .
?sysope rdf:type ont:Unix .
}
914
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Para validar a expressividade com o uso de ontologias, foram realizadas duas con-
sultas buscando sensores que estão vinculados a gateways com sistema operacional Unix.
Sem o uso de raciocinador a consulta trouxe apenas um gateway com sistema operaci-
onal Solaris, enquanto ao ser utilizado o raciocinador, os resultados trouxeram também
gateways com sistema operacional Linux, retornando gateways Ubuntu e Debian. As Fi-
guras 8 e 9 apresentam os resultados obtidos diretamente da interface gráfica do servidor
Fuseki. O aumento da expressividade através do raciocinador genérico do Apache Jena
permitiu maximizar as respostas, retornando gateways com sistema operacional Linux,
que é uma subclasse do conceito Unix.
{
"head": {
"vars": [ "resource" , "type" , "node" , "sysope" ]
} ,
"results": {
"bindings": [
{
"resource": { "type": "uri" , "value": "http://www.owl-ontologies.com/
,→ Ontology1251223167.owl#4cef01da-bfa4-11e6-a4a6-cec0c932ce02" } ,
"type": { "type": "literal" , "value": "Umidade" } ,
"node": { "type": "uri" , "value": "http://www.owl-ontologies.com/
,→ Ontology1251223167.owl#GW02" } ,
"sysope": { "type": "uri" , "value": "http://www.owl-ontologies.com/
,→ Ontology1251223167.owl#Solaris" }
}
]
}
}
915
XXXVII Congresso da Sociedade Brasileira de Computação
4. Trabalhos Relacionados
Esta seção discute abordagens utilizadas pelos trabalhos relacionados envolvendo a es-
tratégia empregada para manutenção e controle da presença de recursos e o mecanismo
de consultas utilizado. Na discussão são priorizados os aspectos relacionados ao geren-
ciamento da presença de recursos e expressividade, por estes serem aspectos centrais na
proposta do EXEHDA-RD.
A arquitetura apresentada por [Talal Ashraf Butt 2012], foi modelada usando web
services RESTful, onde cada recurso possui um leasing adaptativo que aumenta no mo-
mento em que este recurso vem se tornado menos utilizado. Desta forma, um recurso
pode retornar em resultado de buscas e estar Inativo, caso tenha um leasing muito grande.
Os recursos são agrupados de acordo com sua localização, onde um dos recursos desen-
volve o papel de gerente do grupo, realizando sub-consultas, onde a complexidade das
consultas são afetadas diretamente pelo poder computacional do recurso que atua com
gerente do grupo de recursos.
O trabalho de [Cirani et al. 2014] propõe uma arquitetura baseada em P2P, auto-
configurável, escalável para mecanismos de descoberta de recursos e serviços, sem
intervenção humana. O protocolo Zeroconf foi utilizado para a descoberta de recursos
dentro de redes locais. Ao ingressar no ambiente computacional, dispositivos se anun-
ciam através do Zeroconf e o gateway percebe sua presença. A camada de serviço busca
as portas de servidores CoAP em rede, enquanto a camada de descoberta permite desco-
brir dispositivos gerenciados por um servidor CoAP. Não há preocupação com expressi-
vidades, pois são realizadas apenas consultas do método GET para cada nó, retornando
os serviços presentes e disponı́veis em cada um destes nós.
Em [Andrade Junior et al. 2014] a descoberta de recursos se dá pelo conjunto
de componentes utilizando funcionalidades Zeroconf com Bonjour, onde o recurso se
conecta diretamente à arquitetura. Uma vez conectado e identificado o recurso, caso ele
esteja presente no Servidor de Modelos, um serviço só se torna disponı́vel caso existam
modelos na arquitetura para trabalhar com o recurso conectado, e não existe uma forma
de controle de leasing dos recursos. Questões relacionadas à expressividade não são
consideradas no presente trabalho relacionado.
5. Considerações Finais
A principal contribuição do serviço proposto quando confrontado aos modelos existentes
é a expressividade na representação e consulta de recursos e sua integração ao EXEHDA,
expandindo a capacidade do serviço de descoberta de recursos do middleware para loca-
lizar dispositivos confinados, limitados, distribuı́dos, cuja disponibilidade pode variar ao
longo do tempo.
O EXEHDA-RD visa garantir a descoberta de recursos no cenário da IoT e as-
segurar que as informações de estado se mantenham sempre atualizadas. Para tanto, o
Serviço de Descoberta proposto possui uma linguagem de descrição e consulta com alta
expressividade através da linguagem OWL, prevê a escalabilidade entre células do mi-
dleware EXEHDA através do protocolo P2P, possui uma arquitetura hı́brida, sendo o
processo de descoberta centralizado em cada célula, a descoberta em redes confinadas é
realizada através do protocolo UPnP configurado nos gateways do ambiente e a invocação
do recurso é feito através do protocolo HTTP considerando o padrão arquitetural REST.
916
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
Ahrenholz, J., Danilov, C., Henderson, T. R., and Kim, J. H. (2008). CORE: A real-
time network emulator. In Proceedings - IEEE Military Communications Conference
MILCOM.
Al-Fuqaha, A., Guizani, M., Mohammadi, M., Aledhari, M., and Ayyash, M. (2015).
Internet of Things: A Survey on Enabling Technologies, Protocols, and Applications.
IEEE Communications Surveys and Tutorials, 17(4):2347–2376.
Andrade Junior, N. V. d., Bastos, D. B., and Prazeres, C. V. S. (2014). Web of Things:
Automatic Publishing and Configuration of Devices. In Proceedings of the 20th Brazi-
lian Symposium on Multimedia and the Web, WebMedia ’14, pages 67–74, New York,
NY, USA. ACM.
Cirani, S., Davoli, L., Ferrari, G., Leone, R., Medagliani, P., Picone, M., and Veltri,
L. (2014). A scalable and self-configuring architecture for service discovery in the
internet of things. IEEE Internet of Things Journal, 1(5):508–521.
Davet, P. T. (2015). Uma Contribuicao à Inclusão Digital dos Métodos de Pesquisa Agro-
pecuário no Cenário da IoT.
Gubbi, J., Buyya, R., Marusic, S., and Palaniswami, M. (2013). Internet of Things (IoT):
A vision, architectural elements, and future directions. Future Generation Computer
Systems, 29(7):1645–1660.
Klusch, M. (2014). Service Discovery. In Encyclopedia of Social Network Analysis and
Mining, pages 1707–1717.
Lopes, J., Souza, R., Geyer, C., Costa, C., Barbosa, J., Pernas, A., and Yamin, A. (2014).
A Middleware Architecture for Dynamic Adaptation in Ubiquitous Computing. J-Jucs,
20(9):1327–1351.
Marin-Perianu, R., Hartel, P., and Scholten, H. (2005). A classification of service disco-
very protocols. Centre for Telematics and Information Technology, Univ. of Twente,
The Netherlands, (June):5–25.
Miorandi, D., Sicari, S., De Pellegrini, F., and Chlamtac, I. (2012). Internet of things:
Vision, applications and research challenges. Ad Hoc Networks, 10(7):1497–1516.
Perera, C., Zaslavsky, A., Christen, P., and Georgakopoulos, D. (2014). Context aware
computing for the internet of things: A survey. IEEE Communications Surveys and
Tutorials, 16(1):414–454.
Talal Ashraf Butt, Iain Phillips, L. G. G. O. (2012). TRENDY- An Adaptive and Context-
Aware Service Descovery protocol for 6LoWPANs. Wot.
917
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Tendo em vista que cerca de 285 milhões de pessoas ao redor do mundo
possuem algum tipo de deficiência visual [WHO, 2014] e são frequentemente
excluídas em função de suas limitações, o desenvolvimento de Tecnologia
Assistiva se torna necessário para proporcionar a inclusão das mesmas. Dessa
forma, a motivação do presente projeto é a inclusão social de pessoas com
deficiência visual através de soluções assistivas.
918
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
2. Trabalhos Relacionados
Um dos projetos da área, proposto por Ereno [Ereno, 2015], consiste em um
sistema de auxílio à navegação utilizando um Kinect da Microsoft para
converter vídeos em informações sonoras. A proposta é o usuário carregar o
laptop dentro de uma mochila. Os dados do ambiente são capturados pela
câmera (Kinect), processados pelo computador e transmitidos por fones de
ouvido com tecnologia bone conduction. O grande problema deste projeto é
mobilidade, pois é considerado um método inadequado e perigoso. O
diferencial do aplicativo em andamento para o protótipo de Ereno é que, no
lugar de equipamento pesados será utilizado apenas um smartphone.
Outro trabalho que possui uma proposta similar a do presente projeto é
o BlindTool [Joseph, 2013], que fornece um sensor de visão para os deficientes
visuais fazendo uso de uma rede neural artificial, a qual descreve os objetos
assim que são identificados. A maior diferença entre o BlindTool e o projeto em
andamento é o modo de envio das mensagens. O aplicativo de Joseph envia
inúmeras imagens para a rede neural a fim de reconhecer tudo o que está em
volta do usuário, enquanto a câmera do celular encontra-se em repouso.
Be My Eyes [Erfurt, 2012] é um aplicativo que possui uma proposta
semelhante mas aplicada de forma diferente, o usuário que necessita de ajuda
solicita a assistência por meio do aplicativo. Esta requisição é enviada para um
voluntário, o qual recebe o pedido, e ao aceitar, é estabelecida uma conexão
de vídeo. Já o aplicativo proposto abstrai o voluntário a um sistema de
classificação de objetos e detecção de colisões.
3. Arquitetura
O sistema é dividido em três partes, como apresentado na Figura 1. O Cliente é
responsável pela interface com o usuário, sendo essa de fácil manuseio
possibilitando que o deficiente visual inicie a captura contínua das imagens, as
processando no algoritmo de colisão ou envie um frame específico para uma
rede neural, que irá descrevê-lo. O protocolo Message Queuing Telemetry
919
XXXVII Congresso da Sociedade Brasileira de Computação
Fonte: Autores.
3.1. Cliente
O dispositivo do cliente foi implementado em um aplicativo para smartphone, e
a sua interface foi estruturada graficamente de maneira a simplificar o uso da
mesma pelo deficiente visual, além disso é feito o uso da síntese de voz já
disponível nos aparelhos. Essa parte da arquitetura capta o ambiente através
da câmera e envia esse dado pela rede até o Servidor remoto e, também,
aplica um algoritmo na imagem para prever futuras colisões.
Ao ser feita a captura, a imagem é enviada para o Servidor remoto
utilizando o protocolo MQTT, o qual a recebe e retorna com uma string
especificando o objeto e a cena que foram registrados. Já no sistema de
colisão, a câmera inicia a captura contínua, onde um software que detecta
obstáculos é responsável por enviar um alerta para o usuário. Com o auxílio da
saída de áudio é utilizado o plugin Text-to-Speech (TTS), que tem como
objetivo ler essas strings recebidas e discursar para o usuário.
Fonte: Autores.
920
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Fonte: Autores.
921
XXXVII Congresso da Sociedade Brasileira de Computação
(Eq. 1)
Pelos experimentos definiu-se um threshold de 2,5s e objetos
detectados com TTC abaixo desse valor representam um risco de colisão.
Etapa 7. Alarme de colisão: quando e TTC está abaixo do threshold,
sinais sonoros, variando na mesma proporção do risco de colisão, alertam o
usuário.
Fonte: Autores.
3.3. Servidor
Após receber a imagem, o servidor a processa utilizando modelos de redes
neurais convolucionais (CNN, do inglês convolutional neural networks), que são
mais rápidas e possuem uma taxa de erro menor em comparação com redes
não-convolucionais [Krizhevsky et al., 2012]. Estes modelos são
implementados em um Servidor remoto, com o intuito de reduzir o
processamento no celular e também levando em consideração a facilidade na
manutenção e na adição de novos modelos. Atualmente, como mostra a
Tabela 1, são utilizados os seguintes modelos:
Tabela 1 - Modelos de Redes Neurais
922
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Fonte: Autores.
4. Implementação
Como ideia inicial, tem-se em vista usuários de dispositivos Android. Dessa
forma, o cliente foi completamente implementado no Android Studio: uma IDE
específica para desenvolver aplicações para este sistema operacional. A Figura
6 ilustra a interface do cliente: a primeira imagem é a tela de login e a segunda
923
XXXVII Congresso da Sociedade Brasileira de Computação
Fonte: Autores.
5. Experimentos
Esta seção apresenta experimentos realizados com o sistema implementado,
descrito nas seções anteriores. Os mesmos foram realizados com sete
usuários com visão saudável, instruídos a vendarem seus olhos durante o
processo. O objetivo destes experimentos é obter um feedback qualitativo do
sistema para que no futuro sejam implementadas algumas melhorias.
Posteriormente serão realizados experimentos com deficientes visuais em
situações do mundo real.
924
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Fonte: Autores.
925
XXXVII Congresso da Sociedade Brasileira de Computação
3 - - 93,22 -
Fonte: Autores.
6. Conclusão
Este artigo apresenta um projeto em que um aplicativo possui um sistema de
colisão que permite ao usuário prever possíveis obstáculos em sua trajetória
Proceedings of the XII SIBGRAPI (October 1999)
926
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
ERENO, D. Reconhecimento de ambiente. Revista Pesquisa – FAPESP, n.
232, p. 70-71, 2015.
ERFURT, C., WIBERG, H. J., JENSEN, A. H. (2012). BlindTool. Disponível
em: <http://bemyeyes.com/>. Acesso: 08 mar. 2017.
FARNEBÄCK, G. (2002). “Polynomial expansion for orientation and motion
estimation”, Ph.D. dissertation, Linkoping University, Computer Vision, The
Institute of Technology.
HUNKELER, U., TRUONG, H. L., STANFORD-CLARK, A. (2008). "MQTT-S - A
publish/subscribe protocol for Wireless Sensor Networks". In:
Communication systems software and middleware and workshops, 2008.
Comsware 2008. 3rd international conference on. IEEE. p. 791-798.
JOSEPH, P. C. (2014). BlindTool. Disponível em:
<https://play.google.com/store/apps/details?id=the.blindtool> Acesso: 11
mar. 2017
MOSQUITTO. "An Open Source MQTT v3.1/v3.1.1 Broker". Disponível em:
<https://mosquitto.org/>. Acesso: 11 mar. 2017.
REN, S., HE, K., GIRSHICK, R., and SUN, J. (2015). "Faster r-cnn: Towards
real-time object detection with region proposal networks". In: Advances
in Neural Information Processing Systems, 2015, p. 91–99.
UZUNOV, A.V. (2016). "A survey of security solutions for distributed
publish/subscribe systems". Computers & Security, v. 61, p. 94-129, ago.
2016. Disponível em: <http://dx.doi.org/10.1016/j.cose.2016.04.008>.
Acesso: 11 mar. 2017.
WHO (2014). "Visual impairment and blindness". fact sheet, n. 282, 2014.
Disponível em: <http://www.who.int/mediacentre/factsheets/fs282/en/>.
Acesso: 10 mar. 2017.
KRIZHEVSKY, A., SUTSKEVER, I., HINTON, G. E. (2012). "ImageNet
Classification with Deep Convolutional Neural Networks". Nips
Proceedings. Disponível em:
<https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convol
utional-neural-networks>. Acesso: 27 fev. 2017.
927
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introduction
Precision Agriculture is “a management system that is information and technology based,
is site specific and uses one or more of the following sources of data: soils, crops, nutri-
ents, pests, moisture, or yield, for optimum profitability, sustainability, and protection of
the environment” [Natural Resources Conservation Service, 2007].
In Brazil, The Brazilian Agricultural Research Corporation (in Portuguese, Em-
presa Brasileira de Pesquisa Agropecuária - Embrapa) recommends the use of technology
as the way to make agricultural growth economically viable and sustainable, particularly
due to the challenges faced by the country, such as the rational use of water, need for
increased production, climate change and production efficiency [Bernardi et al., 2014].
In this context, Internet of Things (IoT) technology provides support to manag-
ing and monitoring crops, apart from optimizing the usage of resources such as water,
pesticide, and fertilizers. One valuable resource that allows for a more efficient usage of
water is the soil conditioner (e.g.: hydrogel), that can improve the soil moisture retention.
However, it requires constant soil moisture monitoring to guarantee its efficiency, which
can be provided by sensors on an IoT network.
IoT technologies have made viable the usage of a large number low-cost sensors
for a fraction of the price of a high-cost specialized sensor [Sanchez et al., 2013]. Al-
though specialized sensors have high accuracy, they also tend to have high initial and
maintenance costs, which may make a large scale implementation unfeasible. Low-cost
sensors do not have the same accuracy, but by applying data fusion techniques, its usage
becomes feasible, by using many sensors to gather more precise data.
928
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
The goal of this research is to compare outlier detection methods as fusion tech-
niques, and filtering algorithms to compensate the low accuracy and inherent noise in
sensors readings to output a more accurate data for precision agriculture. As a case study
we monitored Embrapa’s experimental crop of precocious dwarf cashew using soil mois-
ture sensors.
2. Related Work
An systematic review was performed to locate relevant work about data fusion that fo-
cused on outlier detection and improving the accuracy of sensors. Ravichandran & Aru-
lappan [2013] propose an algorithm for validating data from Wireless Sensor Network
(WSN), and the authors used real data samples from a prototype experiment of environ-
mental monitoring. They suggested an algorithm using a combination of techniques to
improve the detection of different data faults. Their proposed algorithm does not consider
data fusion or signal filtering and smoothing.
Callegaro et al. [2014] propose an architecture for information fusion focused on
low-cost sensors in a WSN. It targets increasing data reliability, performing a case study
with atmospheric pressure sensors, focusing on outlier detection and comparing various
techniques, but it does not deal with filtering and smoothing.
Lastly, Andrade et al. [2016] propose a clustering technique to be used with an out-
lier detection method. Similarly to the work above, the authors analyzed statistical-based
methods for outlier detection with low-cost humidity and temperature sensors. Their work
is the most similar to the presented in this paper, but as with the other related projects,
data filtering and smoothing is not handled.
All of the cited work conclude that the usage of outlier detection techniques im-
proved the reliability of data from WSN and that it is crucial for these techniques to be
lightweight to be viable for usage in sensor nodes.
3. Data Fusion
Despite being widely used, the term “Data Fusion” does not have a definitive meaning,
varying according to the context in which it is used (data fusion, sensor fusion, infor-
mation fusion) [Nakamura et al., 2007]. Boström et al. [2007] proposed the following
definition: “Information fusion is the study of efficient methods for automatically or
semi-automatically transforming information from different sources and different points
in time into a representation that provides effective support for human or automated deci-
sion making.” From this point on, this work will adopt this definition for data fusion.
Data fusion can be classified according to various aspects: relationship among the
sources, abstraction level of the data, among others. On fusion based on the relationship
among the sources, there is no direct dependency betwixt the sensors. The relationship
can be classified as complementary (sensors provide different information of the same
scenario), redundant (sensors provide the same information of the same scenario) and
cooperative (information from different sensors can be fused to generate a new data).
Data fusion based on the abstraction level of the data can be divided into four
layers [Iyengar et al., 2001; Nakamura et al., 2007]: low-level fusion (measurement) deals
with raw data that can be combined to generated more accurate information; medium-
level fusion (feature) represents the features/attributes of an entity that may be fused to
929
XXXVII Congresso da Sociedade Brasileira de Computação
create other features; high-level fusion (decision) combines decisions or features to obtain
a more confident decision; and multilevel fusion represents the possibility of merging data
from any level, such as fusing a measurement with a feature to generate a decision.
This work will focus in data fusion at the low-level layer, by fusing the raw data
provided by redundant soil moisture sensors and improving its reliability by removing
possible outliers and removing inherent noise of the measurements.
930
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
5. Case Study
The goal of the experimental crop of cashew is to assess techniques to increase soil water
retention and allow plants to grow more and to survive during drought seasons. To help
with the experiment, we monitored the crop using soil moisture sensors in a uniform soil
and evaluated various methods for data fusion, outlier detection, and signal filtering.
The experimental crop is being carried out by Embrapa in a field at Paraipaba -
CE, and it presents particularities and problems that can be mitigated through this work.
Currently soil moisture information is collected manually by visiting analog meters (ten-
siometers) once a day, and once a month the data is relayed to the research office.
6. Results
We had some interesting scenarios to be assessed (Figure 2):
• 15cm depth: node 2 started acting increasingly erratic;
• 45cm depth: node 3 have clear outliers, with values 100x higher than the average
(Y axis in Figure 2 had to be in logarithmic scale to make the data readable);
• 75cm depth: node 4 had almost flat values when there should have been variation.
931
XXXVII Congresso da Sociedade Brasileira de Computação
With that in mind, we had the following expectations: (i) the outlier detection
method had to correctly identify the outliers from the sensors at 45cm on node 3; (ii)
it also had to perform better than a regular mean of raw data; and it also had to avoid
marking and removing false outliers.
In Figure 3 we present outliers detected by Peirce’s Criterion and modified Z-Score. The
other methods are not presented because they did not detect any outlier (full listing at
Table 1 at Section 6.1.4). Peirce’s Criterion detected some peaks from node 2 but failed
to detect the highest values, probably because node 3 died halfway through 2017/02/05
and it had only 3 values to compare. Modified Z-Score failed to detect the first (smaller)
peaks but continued to work after the death of node 3 and successfully detected outliers.
Figure 3. Outliers and fused data (15cm depth): Peirce’s Criterion and Modified
Z-Score
932
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
We had more interesting results due to the clear presence of outliers from node 3. Figures
4 and 5 show outliers detected by the methods, and once again some were unable to find
any outlier. Also, note that due to the extreme values of the outliers on Jan 31st and Feb
01st the Y-axis had to represented in a logarithmic scale to make the data readable.
• Adjusted boxplot: failed to detect outliers on Jan 31st and Feb 01st, probably due
to the lack of more data and the spacing from the data points. On Feb 05 it started
detecting outliers from node 4 when data from the other sensors started equalizing.
• Generalized ESD: it successfully detected outliers on Jan 31st and Feb 01st and
also detected the same outliers of the adjusted boxplot.
• Peirce’s criterion and modified Z-score: these methods were the most sensitive,
detecting outliers in five of the seven days monitored. The issue is that they ended
up removing valid data and would require manual fine tuning to each data set.
Figure 4. Outliers and fused data (45cm depth): Adjusted Boxplot and g-ESD
Figure 5. Outliers and fused data (45cm depth): Peirce’s Criterion and Modified
Z-Score
All of the tested methods functioned as expected and did not detect any outliers since the
values reported by the sensors did not vary.
933
XXXVII Congresso da Sociedade Brasileira de Computação
6.1.4. Analysis
We have decided to adopt the generalized ESD method in our Precision Agriculture
project because it managed to detect obvious outliers and not remove uncertain data that
might still contribute valuable information. Table 1 resumes the performance of each
method. Now it falls to the filters to smooth out noise and abrupt changes in the data.
6.2. Filtering
In this section, we took the data fused by the ESD method and fed it to the selected filters
mentioned at Section 4. All filters managed to reduce the existing noise in the output of
the ESD method, but results varied regarding the anomalous readings (spikes).
In Figure 6 it is noticeable that RLOESS and RLOWESS failed to follow the original data
curve after February 5th and their output stopped being reliable. Kalman filter created
a more reliable and smoother output, but it was still heavily influenced by the surge at
the end of Feb 5th. Moreover, the WRKF filter had the best output of them all. Figure
7 presents the output of Savitzky-Golay and scale-space, where both managed to remove
noise but followed closely the format of the original data from ESD.
Although ESD removed obvious outliers, some anomalous data remained and they need
to be treated by the filters. Figures 8 and 9 shows that Kalman, Savitzky-Golay, and
934
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Scale-space were affected by spikes on Jan 31st and Feb 01st, and Kalman did better with
the anomalous reading on Feb 5th. RLOESS and RLOWESS were not affected by the
first remaining outliers, but only RLOWESS was resilient to spikes on Feb 5th. Once
again, the best filter was WRKF, although on Feb 1st and 2nd the resulting signal is not
as smooth as the other filters.
The performance of almost every filter was similar with data from sensors at 75cm depth
(Figures 10 and 11), except of Kalman, that presented a negative bias on the output, and
WRKF, that once again resulted in a somewhat noisy output.
935
XXXVII Congresso da Sociedade Brasileira de Computação
6.2.4. Analysis
Despite presenting some noise, most notably on data from sensors at 75cm depth, WRKF
had the best performance in being resilient to residual outliers and anomalous data (pos-
sibly introduced by malfunctioning sensors).
7. Conclusion
936
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
References
Andrade, A.; Montez, C.; Moraes, R.; Pinto, A. R.; Vasques, F.; & Siva, G. L. “Out-
lier Detection Using k-means Clustering and Lightweight Methods for Wireless Sen-
sor Networks.” In 42nd Annual Conference of IEEE Industrial Electronics Society
(IECON), S. 1–6 [2016]. doi:10.1109/IECON.2016.7794093.
Bernardi, A. C. d. C.; Naime, J. d. M.; de Resende, A. V.; Bassoi, L. H.; & Inamasu, R. Y.
Agricultura de precisão: resultados de um novo olhar. Embrapa, Brası́lia, DF [2014].
ISBN 9788570353528.
Boström, H.; Andler, S. F.; Brohede, M.; Johansson, R.; Karlsson, A.; Laere, J. V.; Niklas-
son, L.; Nilsson, M.; Persson, A.; & Ziemke, T. “On the Definition of Information
Fusion as a Field of Research.” In IKI Technical Reports, (October):S. 1–8 [2007].
doi:HS-IKI-TR-07-006.
Callegaro, R.; Montez, C.; Pinto, A. R.; & Moraes, R. “Uma Arquitetura para Fusão de
Dados e Detecção de Outliers em Sensores de Baixo Custo de Redes de Sensores sem
Fio.” In Anais do II Workshop de Comunicação em Sistemas Embarcados Crı́ticos -
WoCCES, S. 3–16 [2014]. doi:10.5753/cbie.wcbie.2015.1007.
Hubert, M. & Vandervieren, E. “An adjusted boxplot for skewed distributions.” In Com-
putational statistics & data analysis, Band 52 (12):S. 5186–5201 [2008].
Iyengar, S. S.; Chakrabaraty, K.; & Qi, H. “Introduction to special issue on ’distributed
sensor networks for real-tie systems with adaptive configuration’.” In Journal of the
Franklin Institute, Band 338:S. 651–653 [2001].
Nakamura, E. F.; Loureiro, A. a. F.; & Frery, A. C. “Information fusion for wireless
sensor networks.” In ACM Computing Surveys, Band 39 (3) [2007]. ISSN 03600300.
doi:10.1145/1267070.1267073.
Natural Resources Conservation Service. “Precision Agriculture: NRCS Support for
Emerging Technologies.” In Agronomy Technical Note [2007].
O’Haver, T. “A pragmatic introduction to signal processing.” [1997].
Ravichandran, J. & Arulappan, a. I. “Data validation algorithm for wireless sensor net-
works.” In International Journal of Distributed Sensor Networks, Band 2013 (iv)
[2013]. doi:10.1155/2013/634278.
Ross, S. M. “Peirce’s criterion for the elimination of suspect experimental data.” In
Journal of Engineering Technology, Band 20 (2):S. 38–41 [2003].
Sanchez, L.; Muñoz, L.; Galache, J. A.; Sotres, P.; Santana, J. R.; Gutierrez, V.; Ramd-
hany, R.; Gluhak, A.; Krco, S.; Theodoridis, E.; & Pfisterer, D. “SmartSantander:
IoT experimentation over a smart city testbed.” In Computer Networks, Band 61:S.
217–238 [2013]. ISSN 13891286. doi:10.1016/j.bjp.2013.12.020.
SEMATECH, N. “e-Handbook of Statistical Methods.” [2003]. URL http://www.
itl.nist.gov/div898/handbook/. Accessed: 2017-03-16.
Taylor, J. R. An Introduction to Error Analysis: The Study of Uncertainties in
Physical Measurements. University Science Books, 2nd Auflage [1997]. ISBN
0935702423,9780935702422.
Van Der Lee, R. “Vinduino: Open license project for agricultural irrigation manage-
ment.” [2017]. URL https://github.com/ReiniervdL/Vinduino. Ac-
cessed: 2017-03-17.
937
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. With the rising number of Internet of Things devices and context
providers, the need for sorting and selecting them according to user require-
ments and to the quality of sensed information becomes prevalent. Thus, this
paper presents the Rhadamanthys architecture, designed to fulfill this require-
ment using Quality of Context information for both ranking and selection. In-
dividual Quality of Context criteria as defined in the literature are evaluated
for each available provider and used in formulae to obtain a single score that
enables ranking and allows selection.
1. Introduction
Estimates on the number of Internet of Things(IoT) capable devices in 2015 indicate
around 15.4 billion in existence, with an expected growth towards more than 30 billion
devices in 2020 and further to the mark of 75 billion devices in 2025 [IHS Markit 2016].
Due to the huge number of IoT context providers, researchers have been studying
and proposing new methods to allow searching and ranking such devices according to
the quality of their sensed and generated data in order to allow the selection of the most
appropriate providers that can solve a given task.
Some solutions that can be cited include Cuida [Nazário et al. 2015], Yasar’s
[Yasar et al. 2011] and CASSARAM [Perera et al. 2013], which have in common the use
of Quality of Context (QoC) definitions to evaluate several sensor information criteria
individually, as well as the use of a final aggregation function that could make single
ranking possible.
While Quality of Context was first defined as “any information that describes the
quality of information that is used as context information” and that it “refers to informa-
tion and not to the process nor the hardware component that possibly provide the infor-
mation” [Buchholz et al. 2003], the concept of QoC has evolved to include measurement
of sensed data quality using numerical values at least since [Kim and Lee 2006].
Considering the requirements for IoT sensor selection and the QoC definitions
studied, and the fact that current solutions are not flexible enough to allow new meth-
ods for QoC evaluation and aggregation to be used, the Rhadamanthys architecture was
conceived. It encompasses the process of searching, ranking and selecting providers, and
allows flexibility in terms of QoC criteria and of aggregation methods to be used. It also
includes a Graphical User Interface (GUI) to aid users in the task of informing their needs
in order for the system to determine the QoC value of providers.
This paper is divided into 5 sections. Section 2 presents related work. The Section
3 presents the architecture and describes its components. Section 4 presents the prototype
and evaluation of the architecture. Finally, Section 5 concludes it.
938
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
2. Related Works
The works presented here were selected because they make use of QoC concepts in their
models but do not limit themselves to basic QoC definitions. Two other aspects considered
were:
1. the use of individual criteria (referred to as dimensions, attributes or parameters in
works such as [Perera et al. 2013] and [Nazário et al. 2015]) for evaluating Qual-
ity of Context, as well as an aggregation function that results in a single QoC value
that could enable simple ranking and selection operations;
2. the use of QoC criteria along with a user interface for the selection of context
providers.
In [Yasar et al. 2011], some QoC criteria are used in order to evaluate if mes-
sages in Vehicular Ad Hoc Networks (VANETs) should be transmitted or dropped so as
to reduce network traffic and free resources. Definitions on how to evaluate four criteria,
Temporal Relevance, Completeness of Information, Priority of Information and Spatial
Relevance, are given, and a definition is given stating that each of those criteria might
have different weights. The final QoC single value is obtained by calculating the weighted
average of the criteria.
In Trust and Privacy Management Support For Context-Aware Service Platforms
[Neisse 2012], QoC criteria are identified as QoC attributes, and are defined based on an
international metrology standard found in [Vim 2004]. The QoC model defined in that
work allows QoC values, such as precision of context information values and freshness of
timestamps, to be obtained implicitly. The defined attributes help users decide if context
providers are trustworthy concerning applications such as GPS positioning and tempera-
ture measurements.
The definition of trustworthiness found in it differs from what is shown in
[Buchholz et al. 2003] and [Sheikh et al. 2008]. The latter two consider trustworthiness
to be a QoC attribute, but [Neisse 2012] considers it to be “a property of the context
provider from the context consumer’s point of view, and is not a quality concept related to
the context information itself” [Neisse et al. 2008]. Thus, trustworthiness is treated in the
Trust Management Model and defined there instead of being defined in the QoC Model.
In Context-aware sensor search, selection and ranking model for Internet of
Things middleware (CASSARAM) [Perera et al. 2013], the authors present a GUI based
approach to complement their Context Awareness for Internet of Things (CA4IOT)
[Perera et al. 2012] architecture. It allows priority assignment for several criteria to al-
low the selection of sensors according to user needs. By default, it has 30 criteria, called
context attributes, available for users to select and assign priorities to using sliders, with
possible values ranging from 0, less priority, to 1, high priority. The interface can be
extended, allowing for more sliders to be added if new criteria are required by users to be
considered.
After obtaining user priorities, weights are assigned to each of the criteria com-
paratively. Then, all of the values are aggregated into a single value using an index
based on Euclidean distance calculation called Comparative Priority-based Weighted In-
dex (CPWI). This index requires the user to inform an ideal sensor that is positioned in a
939
XXXVII Congresso da Sociedade Brasileira de Computação
multidimensional space, with each space representing a criterion and ranging from 0 to 1.
Sensors with values closest to the ideal sensor will be selected. If no values are informed
by the user, the ideal sensor has all values defaulted to 1. The values for each sensor are
then multiplied by the comparative weights resulting in a single CPWI value.
In Cuida: um modelo de conhecimento de qualidade de contexto aplicado aos
ambientes ubı́quos internos em domicı́lios assistidos [Nazário et al. 2015], an extensive
study is made on QoC attributes in order to develop a knowledge model for QoC to be
applied in a ubiquitous assisted household environment. The study identified a lack of
standard nomenclature, standard definitions and standard quantification methods for QoC
parameters. This resulted in the creation of an ontology model to represent QoC.
In order to evaluate the model, a context architecture is proposed, and within
this architecture, two modules are dedicated to QoC. The first one is responsible
for quantifying QoC parameters between 0 and 1, using rules that were defined in
[Nazário et al. 2014]. It is highlighted that the aggregation method, while using the
same weighted average as [Yasar et al. 2011], differs from it in the way significance is
treated as defined by [Manzoor et al. 2008]. While [Yasar et al. 2011] uses significance
as one of the parameters in the weighted average, calling it priority, the approach in
[Nazário et al. 2014] defines that this parameter should not lower the QoC value, but only
be used to give different priorities when evaluating the information.
The second one is responsible for evaluating the QoC values that were obtained
by the first QoC module, detecting possible problems with sensors and communication
networks, or possible risks to the patient that is being monitored by the environment.
All of the related works presented QoC being used in some bigger context than
just QoC definitions, showing that there are valid applications for QoC definitions, while
a few others showed that having a user interface and quantifying QoC values between 0
and 1 is a trend and that those two aspects can make evaluation easier.
3.1. Overview
The Rhadamanthys Architecture comprises 8 modules:
1. A Search module to discover the available context providers;
2. A Weight and Requirement Assignment module that receives assignments made
by the user;
3. A QoC Criteria Evaluation module that evaluates each QoC criterion according,
for the default criteria, to methods defined in the literature;
4. An Aggregator module that receives individual QoC criteria values and respective
weights and returns a single QoC aggregated value;
940
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
5. A QoC Profiles module, that saves user weight and requirement assignment def-
initions in order to make them available to other users who might have the same
needs;
6. A Ranking module that allows the use of different ranking methods for the values
generated by the Aggregator;
7. A Selection module that uses the number of context providers informed by the
user to select them based on their ranking;
8. An Interface that allows the user to inform weights, desired criteria etc. and shows
the resulting selection.
A diagram of the modules encompassed by Rhadamanthys with the interactions between
them is presented in Figure 1. Each of module is better explained in the following sub-
sections.
15
16
2, 5 3
14
12
13
9 1, U, W
11
4, V, Z, 17
7,X
6
Y
10
8
Search
3.2. Search
The Search module finds available context providers to be tested in order to verify if
they comply with user requirements. The module does so by keeping a list of all known
providers and making requests for information when requested by the Interface.
941
XXXVII Congresso da Sociedade Brasileira de Computação
provider that is required, the number of providers required, the aggregation method to be
used and the desired ranking method. The selected ranking method is informed to the
Ranking module, and the rest of the information is passed to the Aggregator module.
3.5. Aggregator
The Aggregator module is responsible for receiving the values obtained by the QoC Cri-
teria Evaluation module and the weights and other assignments from the Weight and
Requirements Assignment module and apply the method chosen by the user to generate
single QoC values for each context provider.
Since different aggregation methods might result in different execution times and
different final results for each method, offering choices to the user allows the compromise
between performance and efficiency according to need. The results are sent to the Ranking
module.
3.7. Ranking
The Ranking module receives every value generated by the Aggregator module and ranks
providers according to the ranking method informed by the Weight and Requirement As-
signment module. These methods might vary according to how values are ordered (e.g.
942
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
ascending, descending) and to sorting algorithms used. The resulting ranking is then sent
to the Selection module.
3.8. Selection
This module is selects the number of providers required by the user, and also for informs
when the required amount of providers could not be met.
3.9. Interface
The Interface module receives all of the definitions and assignments the user makes and
relay them to the other modules, and also receives information from these modules and
show them to the user. Therefore, its role in the architecture is defined by how other mod-
ules and the user interact with it, and can be better understood by reading the Interactions
subsection.
3.10. Interactions
The interactions represented by the arrows in Figure 1 are as described in this list:
1) The User interacts with the Interface
2) The Interface module requests current profiles to be shown to the User
3) The QoC Profiles module answers the requests made in 2
4) The Interface informs the User which profiles are currently available
5) The Interface module sends values informed by the User to be saved by the QoC
Profiles module
U) The User informs the Interface that a new QoC criterion will be added
V) The Interface requests a definition on how to evaluate this new criterion
W) The User informs, using some sort of language, the method used to evaluate this new
criterion
X) The Interface signals the QoC Criteria Evaluation module that a new criterion and its
respective method will be added
Y) The QoC Criteria Evaluation module signals that it has saved the information about
the new criterion and its corresponding evaluation method
Z) The Interface informs the User that the operation started in U has been successfull
6) The Interface signals the Search module that the User has already defined his
needs and is now expecting results, triggering the Search module to find context
providers
7) The Interface informs the QoC Criteria Evaluation module which of the criteria must
be evaluated according to the User
8) The Search module sends the information obtained from the context providers con-
tacted to the QoC Criteria Evaluation module. The QoC Criteria Evaluation
module applies methods to determine the value of individual QoC criteria in a
range from 0 to 1
9) The Interface transmits the weights and other assignments made by the User to the
Weight and Requirement Assignment module
10) The QoC Criteria Evaluation module sends its results to the Aggregator module
11) The Weight and Requirement Assignment module sends its results to the Aggregator
module
943
XXXVII Congresso da Sociedade Brasileira de Computação
12) The Weight and Requirement Assignment module informs the Ranking module the
ranking method to be used
13) The Aggregator module sends its results to the Ranking module
14) The Weight and Requirement Assignment module informs the Selection module how
many context providers the User requires
15) The Ranking module sends the final ranking to the Selection module
16) The Selection module returns the final list of context providers that fulfill the User
requirements to the Interface
17) The Interface returns the list to the User
4. Prototype and Evaluation
In order to evaluate the proposed model for the architecture, a prototype implementing its
main functions was developed. The programming language used was Java, and the GUI
was developed using the Netbeans IDE.
Figure 2. The ”Add New Dimension” prompt window. It allows users to describe
new methods for criteria through Java code
944
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
description as standard. The standard remains so until some other definition for the same
application differs too much from it(1/3 of criteria with a difference of at least 0.2 be-
tween one user assignment and the other). When this happens before 10 definitions are
made, the default action is to no longer show those definitions to users until it reaches
that number of definitions, when the new definition is obtained through average. If it does
not differ, the standard remains. While not ideal, this algorithm shows that, given the
proper attention in order not to allow the problem of divergent definitions to cripple it,
QoC Profiles can be a valuable aid for users to save time using predefined assignments.
The current number of definitions required was defined as 10 to make tests easier.
The Search module currently reads a dummy file containing a list of descriptions
for available providers and sends it to the Interface.
Based on the approaches shown in the literature, two aggregation methods were
implemented for the Aggregator module: Weighted Average (Equation 1) and Eu-
clidean Distance Based (Equation 2). EDB is based on the approach presented in
[Perera et al. 2013], modified to solve a problem where the ranking was inverted. The
equations for these two methods are described in the next subsection.
The implementation of these two showed that different methods can be used for
aggregation. Also, tests using pseudo-random values showed that Weighted Average is
more than two times faster and has better results than EDB, because the standard deviation
for WA is smaller in at least 80 % of the cases, and in the cases where EDB has a better
result the difference towards WA is smaller than a hunredth.
Also, three different ranking methods were implemented for the Ranking module,
using ascending, descending and random order. This made it easier for different scenarios
to be tested. The descending order makes it easier to detect failing context providers, and
the random order can be used for statistical studies.
4.1. Equations
Equation 1 for the Weighted Average aggregated QoC value assignment is as follows:
Pn
i=0 (Ci ∗ Wi )
W Avg = Pn (1)
i=0 Wi
Where Ci is the quality value for criterion i obtained through the QoC Criteria
Evaluation module and Wi is the assigned weight for criterion i.
Equation 2 for the Euclidean Distance Based method is described as:
v
u n
uX
EDB = 1 − t [Wi (Uid − Siα )2 ] (2)
i=1
Where Wi is the normalized weight assigned through the sliders for criterion i(that
is, the ratio between the assigned weight and the sum of all assigned weights), Uid is the
user-defined ideal value for criterion i and Siα is the value attributed to sensor α, (α being
any sensor in the complete set of evaluated sensors) for criterion i by the QoC Criteria
Evaluation module.
945
XXXVII Congresso da Sociedade Brasileira de Computação
Figure 3. Interface implemented in Java. On the top left, the ”Add New Dimen-
sion” button and the selector for ranking method and ordering. On the top right,
options to select or add profile, define maximum radius, sensor type and required
number. On the bottom, the sliders that enable weight assignment for criteria
5. Conclusion
The research made has shown that with the growing numbers of IoT capable devices, the
need for methods that allow selection of devices amid those has increased.
Since the solutions shown in the related works that focus on QoC based selection
did not present an architecture that allowed new criteria evaluation methods to be added,
the Rhadamanthys Architecture was proposed, and its main aspects were detailed in this
paper.
Advantages of the Rhadamanthys Architecture compared to other solutions in-
clude the QoC Profiles that enable users to inform their needs with ease, and the possibil-
ity of adding new criteria evaluation methods.
To prove the proposal feasible, a prototype implemented in Java, with a GUI
developed with the Netbeans IDE was made. It confirmed that the architecture is capable
of, within the described QoC value assignment model used, supplying different needs,
allowing different configurations that can make it easier to detect the best or worst context
providers and to make tests with random selections. It was also shown that the QoC
Profiles might be an option to help users describe needs concerning context providers for
applications.
This work has also shown that EDB is not an efficient method for aggregation, and
the original algorithm in [Perera et al. 2013] results in inverted rankings.
For future works, evaluations to determine the overall performance of the system
with large amounts of simulated providers are planned. Also, the implementation of a
QoC Criteria Evaluation module to be installed on the IoT devices is going to be made,
in order to verify if a performance gain on the server side where the main system is based
is possible without sacrificing too much of the device battery, memory and processing
power.
The interactions between the Search module and the providers should also be bet-
ter studied. Other ways to describe methods for calculating criteria informed by the user
will be studied. The evaluation will also involve at least one use case with opportunistic
946
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
networks. Interface improvements, new interactions and studies on security concerns are
also planned.
References
Buchholz, T., Küpper, A., and Schiffers, M. (2003). Quality of context information: What
it is and why we need it. In Proceedings of the 10th HP OVUA Workshop, 2003.
IHS Markit (2016). Complimentary Whitepaper: IoT Platforms - En-
abling the Internet of Things. https://www.ihs.com/Info/0416/internet-
of-things.html. [Online; accessed 19-March-2017], qtd. in
https://www.forbes.com/sites/louiscolumbus/2016/11/27/roundup-of-internet-of-
things-forecasts-and-market-estimates-2016/6101ec2b292d.
Kim, Y. and Lee, K. (2006). A quality measurement method of context information in
ubiquitous environments. In Hybrid Information Technology, 2006. ICHIT’06. Inter-
national Conference on, volume 2, pages 576–581. IEEE.
Manzoor, A., Truong, H.-L., and Dustdar, S. (2008). On the evaluation of quality of con-
text. In European Conference on Smart Sensing and Context, pages 140–153. Springer.
Nazário, D. C., Dantas, M. A. R., and Todesco, J. L. (2014). Context management:
toward assessing quality of context parameters in a ubiquitous ambient assisted living
environment. JISTEM-Journal of Information Systems and Technology Management,
11(3):569–590.
Nazário, D. C. et al. (2015). Cuida: um modelo de conhecimento de qualidade de contexto
aplicado aos ambientes ubı́quos internos em domicı́lios assistidos.
Neisse, R. (2012). Trust and privacy management support for context-aware service plat-
forms. Number 11-216. University of Twente, Centre for Telematics and Information
Technology (CTIT).
Neisse, R., Wegdam, M., and Van Sinderen, M. (2008). Trustworthiness and quality
of context information. In Young Computer Scientists, 2008. ICYCS 2008. The 9th
International Conference for, pages 1925–1931. IEEE.
Perera, C., Zaslavsky, A., Christen, P., Compton, M., and Georgakopoulos, D. (2013).
Context-aware sensor search, selection and ranking model for internet of things mid-
dleware. In Mobile Data Management (MDM), 2013 IEEE 14th International Confer-
ence on, volume 1, pages 314–322. IEEE.
Perera, C., Zaslavsky, A., Christen, P., and Georgakopoulos, D. (2012). Ca4iot: Context
awareness for internet of things. In Green Computing and Communications (Green-
Com), 2012 IEEE International Conference on, pages 775–782. IEEE.
Sheikh, K., Wegdam, M., and van Sinderen, M. (2008). Quality-of-context and its use for
protecting privacy in context aware systems. JSW, 3(3):83–93.
Vim, I. (2004). International vocabulary of basic and general terms in metrology (vim).
International Organization, 2004:09–14.
Yasar, A.-U.-H., Paridel, K., Preuveneers, D., and Berbers, Y. (2011). When efficiency
matters: Towards quality of context-aware peers for adaptive communication in vanets.
In Intelligent Vehicles Symposium (IV), 2011 IEEE, pages 1006–1012. IEEE.
947
XXXVII Congresso da Sociedade Brasileira de Computação
{kkurtz,adenauer,lisane}@inf.ufpel.edu.br
Abstract. This work proposes a code generation model-driven approach for ap-
plications centered on data stored in the cloud. Our approach is based on the
application modeling using UML diagrams, and defines rules to model the inte-
raction application to cloud, aiming to turn it independent of the adopted cloud
infrastructure. Thus, the proposed approach allows the employment of different
infrastructures without requiring specific knowledge of its APIs, besides support
easy migration among different infrastructure. Moreover, this paper discusses
the integration of the proposed approach into a code generation tool. Both ap-
proach and its automation are validated through a case study.
1. Introdução
Hoje em dia, tablets e smartphones representam a maior parte dos acessos a in-
ternet, serviços e sistemas de informação [CISCO 2016]. No entanto, desenvolver
aplicações móveis possui uma série de dificuldades adicionais, dentre as quais destacam-
se: limitações de capacidade de armazenamento, processamento e restrições de consumo
energético. Estas limitações aumentam significativamente o tempo de desenvolvimento.
Para contornar as limitações de processamento, armazenamento e consumo de
energia, a computação móvel na nuvem [Dinh et al. 2013] vem sendo empregada. Usando
recursos na nuvem, aplicações móveis não ficam limitadas aos recursos dos dispositivos,
podendo armazenar um grande volume de dados, obter maior poder de processamento
e, também, reduzir o consumo energético. Um grande número de aplicativos emprega
a nuvem para armazenamento de dados, nestes casos usualmente os aplicativos realizam
operações de criação, leitura, edição e remoção de dados (CRUD), podendo ser classifi-
cados como aplicativos orientados a dados [Xanthopoulos and Xinogalos 2013].
948
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
2. Trabalhos Relacionados
Aplicações móveis dirigidas a dados ou centrada em dados estão cada vez mais
sendo empregadas, no entanto seu desenvolvimento exige uma série de preocupações
[Agrawal et al. 2013]. Recentemente, frameworks, APIS e infraestruturas têm sido pro-
postas para facilitar o desenvolvimento destas aplicações, muitos destes esforços focam na
sincronização dos dados do dispositivo e com a nuvem, como Mobius [Chun et al. 2012]
e Simba [Agrawal et al. 2013]. Ambos baseiam-se em APIs e frameworks no nı́vel de
código e não na abstração e transparência provida por modelos.
949
XXXVII Congresso da Sociedade Brasileira de Computação
Abordagens orientadas a modelos têm sido propostas para lidar com os de-
safios do desenvolvimento de aplicações móveis tais como GenCode, XIS-Mobile
[Ribeiro et al. 2014], e MobiCloud [Ranabahu et al. 2011]. XIS-Mobile define um perfil
UML para descrever modelos independentes de plataforma e suporta a geração de código
para as plataformas iOs, Android e Windows Phone. Similar ao XIS-Mobile, GenCode
também foca na geração de código para múltiplas plataformas a partir de modelos UML.
Porém, dentre as citadas, apenas MobiCloud aborda aplicações de computação na nuvem
e o suporte às operações CRUD. Embora, um esforço interessante por gerar também o
back-end das aplicações para as plataformas Google App Engine e Amazon EC2, o Mobi-
Cloud usa uma linguagem textual de domı́nio especı́fico para representação da aplicação.
O problema da migração de uma aplicação de uma plataforma de nuvem para outra
é discutido em [Gonidis et al. 2013] através de um estudo de caso com uma aplicação
simples de CRUD. No entanto, este é um trabalho inicial, que discute desafios, mas não
propõe soluções nem no nı́vel de código e nem no nı́vel de modelos.
Nossa abordagem visa tratar aplicações centradas em dados desde a modelagem
e assim permitir a geração automática de código referente a estas operações, sem exigir
do desenvolvedor conhecimentos especı́ficos de uma dada infraestrutura de nuvem. Além
disso, nossa abordagem é baseada em modelos UML, sem propor extensões da linguagem
ou empregar notações não padronizadas ou ainda linguagens textuais como a MobiCloud.
950
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
951
XXXVII Congresso da Sociedade Brasileira de Computação
interações de outros objetos da aplicação com as operações CRUD poderão ser descritas,
assim como mais detalhes do comportamento da aplicação pode ser capturado.
952
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
5. Estudo de Caso
Para ilustrar o uso da abordagem padronizada para modelagem de aplicações CRUD pro-
posta neste trabalho e o seu emprego para geração automática de código, uma aplicação
Android chamada Lista de Contatos foi empregada como estudo de caso. Esta aplicação
hospeda na nuvem uma lista de contatos com informações de nome e telefone; e permite
953
XXXVII Congresso da Sociedade Brasileira de Computação
954
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
955
XXXVII Congresso da Sociedade Brasileira de Computação
6. Conclusão
Este trabalho propôs uma abordagem para modelagem e geração automática de código
para aplicações móveis centradas em dados armazenados em infraestruturas de nuvem.
Nossa abordagem de modelagem suporta a abstração da interação do aplicativo com a
nuvem, através de regras que servem de padronização.
O objetivo é suportar a geração de código para diferentes plataformas de nuvem a
partir de um mesmo modelo de alto nı́vel, e assim simplificar tanto o desenvolvimento de
aplicativos quanto a migração entre plataformas. A geração de código proposta também
é discutida em detalhes neste artigo, bem como discute-se a implementação deste su-
porte em uma ferramenta de geração de código Android a partir de modelos UML. Esta
implementação é realizada através da extensão da ferramenta GenCode, criando assim a
GenCodeCloud. Através de um estudo de caso foi demonstrado o emprego da abordagem
proposta e são discutidas linhas de código geradas automaticamente pela GenCodeCloud.
As linhas de código geradas incluem suporte às operações CRUD nas plataformas Google
App Engine e Bluemix.
Como trabalhos futuros, novos e mais complexos estudos de caso serão realizados,
956
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
incluindo validações dos códigos gerados pela ferramenta. Além disso, o suporte a outras
plataformas de nuvem está previsto como trabalho futuro.
Referências
Agrawal, N., Aranya, A., and Ungureanu, C. (2013). Mobile data sync in a blink. In
Presented as part of the 5th USENIX Workshop on Hot Topics in Storage and File
Systems, San Jose, CA. USENIX.
Chun, B.-G., Curino, C., Sears, R., Shraer, A., Madden, S., and Ramakrishnan, R. (2012).
Mobius: Unified messaging and data serving for mobile apps. In Proceedings of the
10th International Conference on Mobile Systems, Applications, and Services, Mo-
biSys ’12, pages 141–154, New York, NY, USA. ACM.
CISCO (2016). Cisco visual networking index: Global mobile data traffic forecast update,
2015-2020 white paper. http://www.cisco.com/c/en/us/solutions/collateral/service-
provider/visual-networking-index-vni/mobile-white-paper-c11-520862.html.
Dinh, H. T., Lee, C., Niyato, D., and Wang, P. (2013). A survey of mobile cloud compu-
ting: architecture, applications and approaches. Wireless communications and mobile
computing, 13(18):1587–1611.
Gonidis, F., Simons, A. J. H., Paraskakis, I., and Kourtesis, D. (2013). Cloud application
portability: An initial view. In Proceedings of the 6th Balkan Conference in Informa-
tics, BCI ’13, pages 275–282, New York, NY, USA. ACM.
Papotti, P. (2013). Um processo dirigido a modelos para geração de código. In
Dissertação de Pós-Graduação em Ciência da Computação – PPGCC. UFSCar.
Parada, A., Marques, M., and de Brisolara, L. B. (2015). Automating mobile application
development: Uml-based code generation for android and windows phone. Revista de
Informática Teórica e Aplicada, 22(2):31–50.
Parada, A., Tonini, A., and Brisolara, L. (2013). Geração automática de código android
eficiente a partir de modelos uml. In Proceedings of the 16th Conferencia Iberoameri-
cana en Software Engineering, CIbSE ’13, pages 71–84.
Ranabahu, A. H., Maximilien, E. M., Sheth, A. P., and Thirunarayan, K. (2011). A
domain specific language for enterprise grade cloud-mobile hybrid applications. In
Proceedings of the Compilation of the Co-located Workshops on DSM’11, TMC’11,
AGERE! 2011, AOOPES’11, NEAT’11, & VMIL’11, SPLASH ’11 Workshops, pages
77–84, New York, NY, USA. ACM.
Ribeiro, A., da Silva, A. R., et al. (2014). Evaluation of xis-mobile, a domain specific
language for mobile application development. Journal of Software Engineering and
Applications, 7(11):906–919.
Xanthopoulos, S. and Xinogalos, S. (2013). A comparative analysis of cross-platform
development approaches for mobile applications. In Proceedings of the 6th Balkan
Conference in Informatics, BCI ’13, pages 213–220, New York, NY, USA. ACM.
957
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Sistemas cientes de contexto são capazes de caracterizar a situação de pessoas, lugares,
objetos fı́sicos e/ou dispositivos computacionais, empregando tais informações para suporte
às aplicações reativas e adaptativas [Yürür et al. 2016]. Esses sistemas encontraram ampla
aplicabilidade na computação ubı́qua e na IoT, permitindo o enfrentamento de desafios
referentes a aspectos como escalabilidade e abstração. Uma plataforma para ciência de
contexto deve, entretanto, considerar a possibilidade de que as informações providas por
suas fontes de contexto possam ser ambı́guas, imprecisas, desatualizadas e/ou errôneas.
Em resposta à necessidade de tratar estas imperfeições, um número crescente de
plataformas vêm adotando mecanismos de gerência de Qualidade de Contexto (em inglês,
Quality of Context ou QoC) [Nazário et al. 2012]. Essas soluções expõem indicadores que
sinalizam o grau de imperfeição associado a cada contexto.
* O presente trabalho foi realizado com apoio do Programa Nacional de Cooperação Acadêmica da
958
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Assim, este trabalho tem como objetivo central a concepção de um arcabouço para
gerência de indicadores de qualidade de contexto, compreendendo: (i) uma proposição
de modelos para representação e manipulação das entidades de QoC, baseados em uma
generalização dos trabalhos relacionados; e (ii) um conjunto de interfaces para exposição
das variáveis de QoC para as aplicações. Adicionalmente, o trabalho visa avaliar a
exploração do emprego de indicadores de QoC na sistematização de polı́ticas para redução
nos conflitos entre dados contextuais. Em função disso, além dos mecanismos básicos para
tratamento de QoC, foi concebida uma estratégia para implementação de polı́ticas baseadas
em qualidade, visando a uma redução no número de potenciais conflitos de contexto.
As soluções projetadas foram materializadas como uma extensão das funciona-
lidades de manipulação de contexto do middleware EXEHDA [Lopes et al. 2014]. A
implementação foi aplicada em um estudo de caso, no qual as ferramentas propostas foram
avaliadas em um cenário que representa um ambiente ubı́quo tı́pico.
959
XXXVII Congresso da Sociedade Brasileira de Computação
3. Trabalhos Relacionados
O OpenCOPI é um middleware orientado a serviços que age como integrador de plata-
formas coexistentes em um ambiente ubı́quo [Lopes et al. 2013]. Possui uma arquitetura
centralizada, com disseminação de informações no modelo publish-subscribe; e emprega
ontologias para representação de contexto, bem como de indicadores de QoC e QoS. No
OpenCOPI, as capacidades de gerência de QoC são utilizadas para alimentar as decisões
internas de composição de serviços; o middleware determina dinamicamente o conjunto
de serviços mais adequado para compor uma informação ou serviço para a aplicação final,
baseando-se em dados de QoC e de custo computacional.
O projeto MobileHealthNet visa ao desenvolvimento de plataformas para redes so-
ciais móveis e colaborativas, voltadas para a área da medicina ubı́qua [Pinheiro 2014]. Sua
infraestrutura para tratamento de contexto (o MHNCS) adota um modelo de disseminação
baseado no padrão publish-subscribe e uma arquitetura distribuı́da. A representação
do contexto é orientada a objetos, com utilização de documentos XML para troca ou
persistência dos dados contextuais. O middleware expõe as interfaces de QoC para as
aplicações, permitindo a solicitação de nı́veis mı́nimos ou máximos para os indicadores de
qualidade, bem como a implantação de regras de processamento baseadas em QoC para
disparo de eventos ou filtragem de contexto.
O framework MU C ONTEXT faz parte do projeto INCOME, implementando mo-
delos e ferramentas para gerência de privacidade e de QoC no contexto mais amplo de
provisão de contexto para IoT [Marie et al. 2015]. O arcabouço adota uma arquitetura
distribuı́da, com disseminação no padrão publish-subscribe. A modelagem de contexto
é baseada no meta-modelo QoCIM e prioriza modelos gráficos, baseados em EMF e
UML. Para transmissão e persistência dos dados contextuais, são empregados documentos
XML. A gerência de QoC do MU C ONTEXT estabelece contratos (representados em XML)
com as aplicações, expressando garantias, requisitos, capacidades e limitações quanto aos
indicadores de qualidade. Para proteção da privacidade dos usuários, serviços não-crı́ticos
podem receber dados com qualidade explicitamente reduzida para impedir a utilização
indesejada. Os indicadores de QoC podem ser usados também para filtragem de contexto.
Com relação ao uso de QoC para resolução de conflitos de contexto, as principais
técnicas adotadas na literatura [Manzoor et al. 2009, Bringel Filho and Agoulmine 2011,
Al-Shargabi and Siewe 2013] estão contempladas na Seção 2.
960
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
demanda. Seu subsistema de tratamento de contexto possui uma arquitetura em dois nı́veis:
uma camada central que interage com as aplicações (Servidor de Contexto) e uma camada
periférica que interopera com sensores e atuadores (Servidor de Borda) [Lopes et al. 2014].
O modelo de qualidade de contexto concebido neste trabalho visa à integração
com o middleware EXEHDA e se baseia parcialmente nas premissas do trabalho de
Bringel Filho e Agoulmine (2011). Considera-se que as especificidades dos processos
relacionados a uma publicação podem ser caracterizadas por metadados que são chamados
de parâmetros de QoC. Um indicador de QoC é uma avaliação, baseada em parâmetros de
QoC e representada por um número de 0 a 1, a respeito de uma caracterı́stica especı́fica de
uma publicação que influencia na qualidade final dos dados. Admite-se que um indicador
pode ser avaliado de várias formas, dependendo dos parâmetros disponı́veis, por meio de
diferentes métodos de cálculo.
A avaliação final de QoC é resultado de uma agregação realizada sobre os diver-
sos indicadores. A maioria das plataformas emprega, para isso, uma média aritmética
ponderada, em que as aplicações atribuem pesos aos diversos indicadores. O modelo do
EXEHDA-QoC generaliza esse aspecto ao permitir que diversos agregadores sejam usados
para produzir o valor final de QoC; assim, múltiplos esquemas de avaliação, baseados em
diversas funções utilidade, são disponibilizados simultaneamente às aplicações.
Finalmente, um avaliador de QoC é um conjunto formado por um algoritmo e uma
série de métodos de cálculo para diferentes indicadores. O avaliador determina unicamente
qual o algoritmo utilizado, quais indicadores estão disponı́veis e qual o método de cálculo
utilizado para avaliar cada indicador. O modelo de contexto considerado prevê que os
conjuntos de indicadores, parâmetros, algoritmos, métodos de cálculo e avaliadores não
são fixos. Dessa forma, está contemplada a possibilidade de extensão das funcionalidades
do framework por meio da inclusão de novos métodos ou indicadores.
No modelo exposto, a avaliação de QoC de uma publicação p (opcionalmente
condicionada a um contexto de interesse t e a uma aplicação a) procede da seguinte forma:
1. Usa-se o avaliador vigente para determinar os indicadores i1 . . . in que serão consi-
derados e métodos mi1 . . . min que serão empregados para avaliar esses indicadores.
2. Determinam-se os valores µ1 . . . µn , que representam as avaliações dos indica-
dores de QoC para a publicação p considerada. Tais valores são dados por
µk = mik (p,a,t) para ik ∈ (i1 . . . in ).
3. Os valores de µ1 . . . µn e os pesos w1 . . . wn são passados como parâmetro para
o agregador fn (determinado
pelo avaliador). O valor
final de QoC é dado por
QoCv p,a,t,(w1 . . . wn ) = fn (µ1 ,w1 ) . . . (µn ,wn ) .
A visão de qualidade de contexto considerada foi consolidada na forma de uma
biblioteca orientada a objetos e integrada ao modelo de contexto original do middleware
EXEHDA. O diagrama de classes do modelo resultante é mostrado na Figura 1.
Como exemplo de aplicação dos arcabouços de QoC no aprimoramento das funci-
onalidades gerais do middleware, foi concebida uma abordagem baseada no trabalho de
Manzoor et al. (2009) para redução de conflitos de contexto no EXEHDA. A estratégia
tem como premissa o uso de polı́ticas baseadas em indicadores de QoC para eliminar
informações com alto potencial de conflito. Tais polı́ticas são implementadas por uma
série de filtros que atuam em pontos estratégicos da arquitetura do Servidor de Contexto.
961
XXXVII Congresso da Sociedade Brasileira de Computação
Especificamente, uma polı́tica de QoC é uma tupla π = v, λ, (w1 . . . wn ) em que
v é um avaliador, w1 . . . wn é um conjunto de pesos e λ é um valor limiar mı́nimo de QoC.
Uma publicação p (no escopo de um contexto de interesse t e de uma aplicação a) é aceita
pela polı́tica π se QoCv p,a,t,(w1 . . . wn ) ≥ λ; caso contrário, ela é rejeitada. Define-se
Π como o conjunto de todas as polı́ticas.
Um repositório de polı́ticas π ∗ (a,e,pr) é uma função que discrimina polı́ticas
especı́ficas com base em uma aplicação a e em um escopo e (que é um sensor ou contexto
de interesse). É previsto, ainda, o uso de polı́ticas de aplicabilidade geral, que influenciam
a todos os contextos de interesse e/ou a todas as aplicações. Nesse caso, emprega-se a
notação π ∗ (a,φ,pr) e/ou π ∗ (φ,e,pr) e a polı́tica é compartilhada por todos os escopos
ou aplicações finais. A prioridade pr, que pode ser alta (1) ou baixa (0), indica se essas
polı́ticas gerais devem ser substituı́das ou aplicadas de forma concomitante às demais
polı́ticas mais especı́ficas. Assim, π ∗ toma a forma π ∗ : (A∪φ)×(S ∪T ∪φ)×{0, 1} → Π.
Para avaliar se uma publicação p (destinada a uma aplicação a e com escopo
delimitado por e) é aceita por um repositório de polı́ticas, forma-se um conjunto julgamento
CJa,e ⊂ Π. O conjunto CJa,e é composto por todas as polı́ticas de π ∗ que são aplicáveis
considerando a e e. Se a publicação em questão é aceita por todas as polı́ticas de CJa,e ,
a publicação é aceita pelo repositório como um todo; caso contrário, ela é rejeitada. O
conjunto julgamento é construı́do da seguinte forma:
1. se existirem as polı́ticas prioritárias π ∗ (a,e,1), π ∗ (φ,e,1), π ∗ (a,φ,1) e π ∗ (φ,φ,1),
elas sempre fazem parte de CJa,e ;
2. se não existe a polı́tica mais especı́fica π ∗ (a,φ,1) e existe a polı́tica mais geral (de
baixa prioridade) π ∗ (φ,φ,0), então π ∗ (φ,φ,0) faz parte de CJa,e ;
3. se não existe π ∗ (a,e,1) e existe π ∗ (φ,e,0), então π ∗ (φ,e,0) faz parte de CJa,e .
Para aplicação, no middleware, do modelo de polı́ticas proposto, foram implantados
três repositórios de polı́ticas no Servidor de Contexto. O repositório de polı́ticas de
∗
aquisição (πaq ) é usado para determinar se uma nova publicação possui QoC suficiente
para ser persistida no histórico de contextos do EXEHDA. Se a publicação é rejeitada pelo
repositório, o dado é descartado sem armazenamento.
962
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
∗
O repositório de polı́ticas de processamento (πproc ) é usado para disparo condicional
do motor de regras do middleware. A rejeição de um contexto implica na suspensão do
disparo das regras e rotinas associadas ao seu processamento. Por fim, o repositório de
∗
polı́ticas de notificação (πnot ) é empregado para ajustar os valores mı́nimos de qualidade
associados às subscrições realizadas pelas aplicações ubı́quas servidas pelo EXEHDA.
Os três repositórios descritos e sua integração à arquitetura do Servidor de Contexto
estão delineados na Figura 2. A arquitetura original do middleware pode ser obtida em
[Lopes et al. 2014]. O diagrama de classes do modelo usado para materializar as polı́ticas
de QoC está indicado na Figura 3.
963
XXXVII Congresso da Sociedade Brasileira de Computação
5. Estudo de Caso
Foi desenvolvido um estudo de caso visando à demonstração das funcionalidades do
EXEHDA-QoC em um cenário representativo de um ambiente ubı́quo real. O estudo
foi baseado na simulação de uma célula ubı́qua com agentes, dispositivos e aplicações
móveis produzindo e/ou consumindo informações contextuais com caracterı́sticas de QoC
diversas. O cenário do estudo de caso é baseado no trabalho de Li et al. (2014), no
qual sensores tipicamente encontrados em smartphones são usados para determinar se um
usuário está em um ambiente interno ou externo. Especificamente, são usados os sensores
de iluminação, magnetismo e a intensidade de sinal da rede de telefonia celular.
964
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
965
XXXVII Congresso da Sociedade Brasileira de Computação
Previsto
Interno Externo Total
Interno 9692 983 10675
Real
Externo 6 23229 23235
Total 9698 24212 33910
966
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
Al-Shargabi, A. A. and Siewe, F. (2013). Resolving context conflicts using association
rules (RCCAR) to improve quality of context-aware systems. In Computer Science
Education, 2013 8th International Conference on, pages 1450–1455, Colombo. IEEE.
Bringel Filho, J. and Agoulmine, N. (2011). A quality-aware approach for resolving
context conflicts in context-aware systems. In Embedded and Ubiquitous Computing
(EUC), 2011 IFIP 9th International Conference on, pages 229–236, Melbourne. IEEE.
Krause, M. and Hochstatter, I. (2005). Challenges in modelling and using quality of context
(QoC). In Magedanz, T., Karmouch, A., Pierre, S., and Venieris, I., editors, Mobility
Aware Technologies and Applications, pages 324–333. Springer, Berlin, Heidelberg.
Li, M., Zhou, P., Zheng, Y., Li, Z., and Shen, G. (2014). IODetector: A generic service for
indoor/outdoor detection. ACM Trans. Sen. Netw., 11(2):28:1–28:29.
Lopes, F., Delicato, F. C., Batista, T., Cavalcante, E., Pereira, T., Pires, P. F., Ferreira, P.,
and Mendes, R. (2013). OpenCOPI: middleware integration for ubiquitous computing.
International Journal of Parallel, Emergent and Distributed Systems, 29(2):178–212.
Lopes, J., Souza, R., Geyer, C., Costa, C., Barbosa, J., Pernas, A., and Yamin, A. (2014).
A middleware architecture for dynamic adaptation in ubiquitous computing. Journal of
Universal Computer Science, 20(9):1327–1351.
Manzoor, A., Truong, H.-L., and Dustdar, S. (2009). Using quality of context to resolve
conflicts in context-aware systems. In Quality of Context: First International Workshop,
pages 144–155. Springer, Berlin, Heidelberg.
Marie, P., Desprats, T., Chabridon, S., Sibilla, M., and Taconet, C. (2015). From ambient
sensing to IoT-based context computing: An open framework for end to end QoC
management. Sensors, 15(6):14180.
Martin, M. and Nurmi, P. (2006). A generic large scale simulator for ubiquitous compu-
ting. In Mobile and Ubiquitous Systems - Workshops, 2006. 3rd Annual International
Conference on, pages 1–3, San Jose. IEEE.
Nazário, D., Dantas, M., and Todesco, J. L. (2012). Taxonomia das publicações sobre
qualidade de contexto. Sustainable Business International Journal, 20(2012):1–28.
Neisse, R., Wegdam, M., and van Sinderen, M. (2014). Trust management support for
context-aware service platforms. In Aldini, A. and Bogliolo, A., editors, User-Centric
Networking: Future Perspectives, pages 75–106. Springer International, Cham.
Pinheiro, D. N. (2014). MHNCS: Um middleware para o desenvolvimento de aplicações
móveis cientes de contexto com requisitos de QoC. Dissertação de mestrado, Universi-
dade Federal do Maranhão, São Luı́s.
Yürür, Ö., Liu, C. H., Sheng, Z., Leung, V. C. M., Moreno, W., and Leung, K. K.
(2016). Context-awareness for mobile sensing: A survey and future directions. IEEE
Communications Surveys Tutorials, 18(1):68–93.
967
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Com os avanços ocorridos nas áreas de sensores, redes sem fio, dispositivos móveis e
computação em nuvem, os conceitos de computação ubíqua, propostos originalmente por
Mark Weiser, podem ser vistos atualmente em aplicações reais. Aplicações estas que
agem de maneira proativa, identificando o contexto do usuário e fornecendo serviços oti-
mizados considerando o mesmo, tornando a interação com os sistemas computacionais
mais intuitiva e livre de distrações [Perera et al. 2013].
Nesse cenário, a IoT, utilizada como estratégia de ubiquidade, permite que uma
grande variedade de dispositivos possa ser conectada através da infraestrutura disponi-
bilizada pela Internet. Estes dispositivos podem fornecer informações de contexto, as
quais através de técnicas de processamento contextual, permitem a identificação de si-
tuações. Nesse sentido, a ciência de situação representa a capacidade de um sistema
computacional em obter uma visão abrangente e em alto nível de abstração dos contex-
tos de interesse das aplicações, que pode ser utilizada em seu processo de tomada de
decisão [Perera et al. 2013, Bibri 2015].
A principal contribuição deste trabalho é a concepção de uma arquitetura de soft-
ware, integrada ao middleware EXEHDA (Execution Environment for Highly Distribu-
ted Applications) [Lopes et al. 2014], nomeada EXEHDA-IS (EXEHDA – IoT Situations)
* O presente trabalho foi realizado com apoio do Programa Nacional de Cooperação Acadêmica da
968
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
969
XXXVII Congresso da Sociedade Brasileira de Computação
Servidor de Contexto 2
Servidor de Contexto n Aplicações
Aplicações de
Módulo de Comunicação configurações
Administradores
solicitação ...
Módulo de Atuação
Módulo de Processamento de atuação
Servidor de Borda n
requisição de
contextos dados contextuais
Módulo de Aquisição Sensores
coletados
publicação Atuadores
Servidor de Contexto 1
situações de interesse das aplicações. Para execução destas tarefas, é proposto neste tra-
balho o uso de um modelo de processamento contextual que permite a combinação de
técnicas baseadas em aprendizado e especificação de regras, apresentado na Seção 2.2.
A Interface de Configuração permite que aplicações administradoras enviem
configurações para o Servidor de Contexto. Estas configurações possibilitam a composi-
ção e o gerenciamento de fluxos de processamento contextual utilizando os mecanismos
disponibilizados pelo Módulo de Processamento. A abordagem de programação dataflow
proposta para esta interface é apresentada na Seção 2.3.
970
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
971
XXXVII Congresso da Sociedade Brasileira de Computação
Fluxo-Processamento/:id
Instância de API
Processamento EXEHDA-IS
Instância de
Fontes de Contexto Processamento
Instância de
URI Processamento
Repositório de
Fluxos de Processamento Instância de Informações de Contexto
Processamento
Fluxo-Processamento/:id
972
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Servidor de Servidor de
Aplicações
Borda contexto
[ Acel-X, Acel-Y,
Acel-Z ]
Interface de
Acelerômetro
Classificador Atividade Configuração
Classificador Situação
Regras Fuzzy
Situação Baixo
Moderado
Risco Saúde Alto
973
XXXVII Congresso da Sociedade Brasileira de Computação
974
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
linguístico para frequência cardíaca é dado por: “muito baixa”, “baixa”, “normal”, “alta”
e “muito alta”. No bloco Adaptador Fuzzy, representado na Figura 3, os valores numé-
ricos obtidos do sensor de batimento cardíaco são transformados para o domínio fuzzy
aplicando funções de pertinência triangulares, parametrizadas com os padrões de norma-
lidade do paciente. O mesmo procedimento é realizado para a variável que representa a
duração da atividade, classificada como “Baixa”, “Média” e “Alta”.
A escolha da lógica fuzzy para a criação das regras de classificação de situações
se deu tendo em vista os seus mecanismos voltados ao tratamento de dados imprecisos
e construção de algoritmos através de modelos interpretáveis. Isso facilita a criação de
regras por especialistas da área de aplicação [Sobrevilla and Montseny 2003].
A inferência foi feita aplicado o método Mamdani, no qual são pre-
vistos quatro módulos: fuzzificação, base de regras, inferência e defuzzifica-
ção [Shaw and Simões 2007]. Cada regra é formada por um conjunto de antecedentes
que, relacionados através dos operadores fuzzy, geram um valor de pertinência resultante.
Este é utilizado para ponderar a função de pertinência da variável linguística consequente.
Neste trabalho foi aplicado o método clipped, onde a função de pertinência do conse-
quente é “cortada” para o nível de pertinência resultante dos antecedentes avaliados na
regra [Shaw and Simões 2007].
Após a execução das regras, são geradas funções de pertinência agregadas para
cada variável linguística do conjunto de saída, as quais são agregadas novamente for-
mando a função de pertinência que será aplicada na etapa de deffuzificação.
4. Trabalhos Relacionados
O estudo dos trabalhos relacionados foi feito considerando as seguintes características do
EXEHDA-IS: (a) suporte para a criação e gerenciamento de fluxos de processamento con-
textual; (b) processamento de contexto com suporte a diferentes modelos de aprendizado
na identificação de situações; (c) suporte à interação com sistemas e serviços da IoT; e (d)
possibilidade de uso em diferentes domínios de aplicação.
O projeto CARA - Context-Aware Real-time Assistant [Yuan and Herbert 2014]
tem por objetivo a criação de um sistema para prover serviços personalizados de assistên-
cia remota para idosos, permitindo a adaptação do sistema de acordo com as atividades
normais do usuário. O mesmo prevê o uso de um modelo para processamento contex-
tual, no qual técnicas para especificação de regras são combinadas com um algoritmo de
aprendizado baseado em casos.
A arquitetura chamada Simurgh [Khodadadi et al. 2015] foi concebida com fina-
lidade de permitir a descoberta de recursos, programação de fluxos de processamento e
integração de serviços disponíveis na IoT. Os autores destacam como um problema cen-
tral na área de IoT a dificuldade de integrar serviços disponíveis em diferentes plataformas
comerciais ou abertas. Segundo os autores, isso se deve ao fato de ainda não existir na
IoT um padrão compreensível e acessível através de um framework simples que permita
o uso de dispositivos da IoT.
No framework proposto por [Chihani et al. 2014] é concebido um modelo para
programação do processamento contextual focado na concepção de aplicações cientes do
contexto. Os autores destacam como diferencial do seu framework o desacoplamento do
975
XXXVII Congresso da Sociedade Brasileira de Computação
5. Considerações Finais
A principal contribuição deste trabalho é a concepção da arquitetura EXEHDA-IS, a qual
provê uma abordagem dataflow para programação do processamento contextual, visando
à identificação de situações. Esta abordagem explora a combinação de técnicas baseadas
em aprendizado de máquina e especificação de regras, com o intuito de potencializar suas
cateterísticas para identificação de situações. Nesse sentido, a utilização da abordagem
dataflow permite a criação de Fluxos de Processamento Contextuais em um modelo com
alto nível de abstração, facilitando a inferência de situações.
O estudo de caso desenvolvido permitiu avaliar a arquitetura do EXEHDA-IS
frente a aplicação de modelos de processamento contextuais baseados em aprendizado
e em especificação de regras. Possibilitou ainda, demostrar a utilização do Gerenciador
de Fluxos de Processamento. De maneira geral, o estudo de caso mostrou a relevância
da arquitetura proposta frente a cenários de aplicação típicos da IoT, nos quais as fontes
976
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências Bibliográficas
Bellavista, P., Corradi, A., Fanelli, M., and Foschini, L. (2012). A survey of context data
distribution for mobile ubiquitous systems. ACM Computing Surveys, 44(4):1–45.
Bibri, S. E. (2015). The Human Face of Ambient Intelligence, volume 9.
Chihani, B., Bertin, E., and Crespi, N. (2014). Programmable context awareness fra-
mework. Journal of Systems and Software, 92(1):59–70.
Fielding, R. T. (2000). Architectural Styles and the Design of Network-based Software
Architectures. PhD thesis, University of California.
Forkan, A., Khalil, I., and Tari, Z. (2014). CoCaMAAL: A cloud-oriented context-aware
middleware in ambient assisted living. Future Generation Computer Systems, 35:114–
127.
Khodadadi, F., Dastjerdi, A. V., and Buyya, R. (2015). Simurgh: A framework for ef-
fective discovery, programming, and integration of services exposed in IoT. Recent
Advances in Internet of Things (RIoT), 2015 International Conference on, (April):1–6.
Kwapisz, J. R., Weiss, G. M., and Moore, S. a. (2011). Activity recognition using cell
phone accelerometers. ACM SIGKDD Explorations Newsletter, 12:74.
Lara, O. D. and Labrador, M. a. (2012). A Survey on Human Activity Recognition using
Wearable Sensors. IEEE Communications Surveys & Tutorials, pages 1–18.
Lopes, J., Souza, R., Geyer, C., Costa, C., Barbosa, J., and Augustin, I. (2014). A mid-
dleware architecture for context-aware adaptation in. Journal of Universal Computer
Science, 20(9):1327–1351.
Negrão, C. E. and Barreto, A. C. P. (2010). Cardiologia do Exercício: do Atleta ao
Cardiopata. Manole, Barueri, SP - Brazil, 3 edition.
Perera, C., Zaslavsky, A., Christen, P., and Georgakopoulos, D. (2013). Context Aware
Computing for The Internet of Things : A Survey. IEEE COMMUNICATIONS SUR-
VEYS & TUTORIALS, X(X):1–41.
Rabelo, D., Gil, C., and Araújo, S. D. (2006). Reabilitação cardíaca com ênfase no exer-
cício: uma revisão sistemática. Revista Brasileira de Medicina do Esporte, 12(5):279–
285.
Shaw, I. and Simões, M. (2007). Controle e Modelagem Fuzzy. 2 edition.
Sobrevilla, P. and Montseny, E. (2003). Fuzzy Sets in Computer Vision : an Overview.
Mathw. Soft Computing, 10:71–83.
Sousa, T. B. (2012). Dataflow programming concept, languages and applications. In
Doctoral Symposium on Informatics Engineering, number January.
Ye, J., Dobson, S., and McKeever, S. (2012). Situation identification techniques in perva-
sive computing: A review. Pervasive and Mobile Computing, 8(1):36–66.
Yuan, B. and Herbert, J. (2014). Context-aware hybrid reasoning framework for pervasive
healthcare. Personal and Ubiquitous Computing, 18(4):865–881.
977
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O progresso de tecnologias de computação ubíqua e pervasiva oferece um cenário
propício para a criação de aplicações que promovem novas formas de diálogo entre o
mundo virtual e o mundo físico (Miorandi et al., 2012). Essas tecnologias incluem a
miniaturização de dispositivos eletrônicos baseados em sistemas micro eletromecânicos,
com capacidades integradas de sensoriamento, processamento e comunicação sem fio,
978
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
979
XXXVII Congresso da Sociedade Brasileira de Computação
980
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
981
XXXVII Congresso da Sociedade Brasileira de Computação
4. Arquitetura Proposta
Algumas infraestruturas de IoT reportadas na literatura exibem arquiteturas conceituais
complexas para atender diferentes visões da IoT (indústria, governo, academia,
comércio, entretenimento, etc.). Ao contrário destas, a arquitetura proposta neste
trabalho segue um modelo básico de IoT (Al-Fuqaha et al, 2015). Este modelo, via de
regra, apresenta na sua base uma camada de baixo nível de abstração, onde são
abordadas preocupações tecnológicas e, no topo desta, dois ou mais níveis com
recursos, conceitos e funcionalidades voltadas à transformação, armazenamento e
comunicação dos dados provenientes da camada tecnológica, bem como à produção de
informação mais abstrata para atender aos requisitos de serviços, aplicações e processos
de negócios usuários da arquitetura.
Diferentemente das arquiteturas investigadas, a infraestrutura aqui proposta
incorpora ao modelo básico uma camada transversal de gerenciamento, dotada de
recursos para gerência da qualidade da informação coletada de redes de sensores e
dispositivos de IoT e das situações contextuais de interesse das aplicações. Esta
característica de suporte integrado a QoI e Situações é ainda pouco explorada e constitui
o foco principal da infraestrutura desenvolvida.
Na nossa proposta, ilustrada na Figura 1(b), um módulo de gerenciamento
integrado de QoI e Situações está acoplado transversalmente numa arquitetura básica de
quatro camadas sobrepostas, de forma que os elementos das camadas mais baixas
suportam a operação das camadas mais altas. A camada de Infraestrutura se localiza no
nível mais baixo da arquitetura onde está fisicamente a RSSF. Nesse nível, o
desenvolvedor define os protocolos de comunicação entre os sensores e o código que
executará em cada sensor para coletar dados e enviá-los até a estação base (ou roteador
982
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
983
XXXVII Congresso da Sociedade Brasileira de Computação
dados. Assim, recursos da RSSF, como energia e banda, são economizados, uma vez
que apenas dados relevantes serão transmitidos para uso pela aplicação. Na camada de
Dados, o módulo de QoI realiza avaliações sobre a confiabilidade dos dados entregues
pela RSSF (Figura 1(b)(ii)). Essa avaliação utiliza um algoritmo estatístico baseado no
teste dos Quartis, que realiza a avaliação de um dado perante um subconjunto de dados
previamente lidos e divididos em quatro partes. Dessa forma, os valores que
pertencerem ao subconjunto dos dados que são maiores ou menores do que determinada
amplitude (valor configurável) serão marcados como valores anômalos ou inválidos.
A gerência de situações é suportada pela plataforma SCENE (Pereira et al,
2013) (Costa et al., 2016) (Figura 1(b)(iii)). Os Situation Types (STs) especificados no
SCENE revelam estados particulares de interesse e servem de apoio para o especialista
do domínio. Por exemplo, no cenário de rede de frios, o aumento da temperatura da
entidade seguido do aumento da temperatura de seu equipamento evaporador pode
indicar alguns estados de interesse (degelo, histerese, etc). Uma vez que os ciclos de
funcionamento das entidades monitoradas são dinâmicos, o gerenciamento do ciclo de
vida da situação se mostra fundamental, pois é possível identificar os momentos em que
as situações são ativadas ou desativadas. Observa-se, ainda, que a estratégia de ciclo de
vida da situação empregada no SCENE se beneficia de um recurso do Drools chamado
Truth Maintenance System (TMS), que garante automaticamente a integridade lógica
dos fatos que são inseridos na memória de trabalho.
5.1 Implantação do experimento
Os experimentos foram realizados em cinco câmaras frias nas quais foram acoplados,
externamente, nós MEMSIC IRIS e, internamente, sonda de temperatura. Em 100 horas
de testes, aproximadamente 5500 amostras foram coletadas e transmitidas para um nó
sink MIB520. Levando em consideração a funcionalidade proposta pelo gerenciamento
de QoI na camada de Infraestrutura e as demandas do cenário, a aplicação embarcada
nos sensores tem os seguintes comportamentos: (i) observa dados obtidos pelo sensor de
temperatura em intervalos de 120s; e (ii) avalia a relevância do dado atual considerando
as três últimas leituras. Na visão do especialista do domínio, uma leitura a cada 120
segundos é suficiente para atender aos propósitos do monitoramento das câmaras frias.
Na camada de Infraestrutura, o algoritmo estatístico avalia a relevância dos
dados coletados. Após testes empíricos nas bases de dados previamente coletadas, o
índice de 90% da tabela do teste de Grubbs referente às três últimas amostras (n=3)
lidas pelo sensor se mostrou como o mais adequado. Na camada de Dados, o algoritmo
baseado no teste dos Quartis avalia se o dado coletado pertence ao subconjunto de
dados previamente lidos, uma vez que o algoritmo dos nós sensores não detectam dados
anômalos. Para isso, o algoritmo leva em consideração a normalização dos dados, que
garante equidade temporal das leituras transmitidas pelos nós sensores. Com isso, é
possível avaliar o mesmo subconjunto de dados observados pelos sensores em busca de
outliers. O processo de avaliação utiliza a base de dados normalizada e aplica um
algoritmo estatístico em busca de valores extremos, isto é, o objetivo é detectar aqueles
que não pertencem ao subconjunto da amostra.
5.2 Avaliação do experimento
A Tabela 1 resume os principais resultados dos algoritmos de QoI aplicados em três
bases de dados reais de câmaras frias. Na camada de Infraestrutura, os outliers
984
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Figura 2. Fluxo das STs desenvolvidas. (a) Gráfico dos ciclos do cenário. (b) Definição da
ST “IncreasingValue”. (c) Interface da aplicação cliente.
985
XXXVII Congresso da Sociedade Brasileira de Computação
A linha contínua (Leituras) indica todas as leituras dos valores das temperaturas
coletadas pelo sensor posicionado na entidade. Os pontos pretos nesta linha são os
outliers da RSSF e representam os valores relevantes. Ainda na Figura 2(a), os STs
IncreasingValue (ST1), DecreasingAfterIncreasing (ST2) e DecreasingValue (ST3)
utilizam os valores relevantes para detectar as situações conforme as regras
estabelecidas. A implementação da ST IncreasingValue é mostrada na Figura 2(b) como
exemplo.
Com a finalidade de acompanhar os resultados dos ciclos das STs desenvolvidas
para o cenário, uma aplicação Java implementa as funcionalidades de controle de
atividades das câmaras e, adicionalmente, o monitoramento da situação da matriz
energética dos nós da RSSF. A Figura 2(c) ilustra um fragmento da interface da
aplicação desenvolvida e demonstra os resultados do monitoramento de uma entidade
teste. No fragmento da interface disponibilizada é possível observar que o resultado da
execução da ST1 IncreasingValue, de acordo com a Figura 2(b) linha 10, é a ativação
da regra na qual um ícone ilustrativo é plotado na tela como forma de notificar ou
alertar o usuário de que a situação de aumento da temperatura está ocorrendo.
6. Conclusões
Este trabalho apresentou uma proposta de arquitetura conceitual para o desenvolvimento
de aplicações de RSSF/IoT com foco na integração entre Qualidade da Informação e
Detecção de Situações. Uma instanciação dessa arquitetura foi concebida para
implementar uma aplicação de monitoramento da temperatura de alimentos
resfriados/congelados. Algoritmos estatísticos foram utilizados na instanciação da
arquitetura contribuindo de duas formas: filtrando apenas os dados relevantes para a
aplicação alvo e avaliando a confiabilidade do dado coletado. No estudo de caso
realizado, a avaliação de relevância dos dados coletados pelos sensores representou uma
redução de até 50% de transmissão de pacotes na rede, economizando recursos da
infraestrutura, como banda e energia. Trabalhos futuros incluem explorar outros
indicadores de QoI além daqueles que foram abordados nesta proposta, assim como
novas abordagens para avaliação dos dados, como a comparação de dados obtidos de
outros sensores sob as mesmas condições. Questões como a reputação dos sensores
também podem ser explorados em novos trabalhos, informando ao usuário ou aplicação
qual é o grau de confiança que determinado sensor possui. Por último, a experiência
deste trabalho nos leva a acreditar que a arquitetura pode se adequar em outros
domínios, por exemplo, na agricultura de precisão, na qual esta proposta está sendo
testada para coletar e avaliar dados e situações da umidade do solo com o objetivo de
monitorar o ambiente e automatizar os sistemas de irrigação.
Referências
AL-FUQAHA, A. et al. Internet of things: A survey on enabling technologies,
protocols, and applications. Communications Surveys & Tutorials, IEEE,
17(4):2347–2376, 2015.
ABID, A.; KACHOURI, A.; MAHFOUDHI, A. Anomaly Detection in WSN : critical
study with new vision. International Conference on Automation, Control,
Engineering and Computer Science (ACECS’14) Proceedings, p. 1–9, 2014.
986
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
987
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Um aplicativo de geolocalização projetado para ser utilizado em ambientes abertos é
classificado como sistema de posicionamento outdoor, ou seja, aplicações de
geolocalização para serem utilizadas fora de construções [Carrasco-Letelier, 2015], cujo
sensor mais popular é o GPS (Global Positioning System).
Já nos sistemas de posicionamento indoor, o objetivo é conhecer a localização
ou trajetória do usuário quando este se encontra em um ambiente fechado, por exemplo,
dentro de uma construção. Velasco (2014) cita vários exemplos de aplicações de
sistemas de localização indoor. Um desses é determinar a posição exata de todos os
médicos dentro do hospital e com isso, acelerar o atendimento em uma emergência
médica.
988
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Para as aplicações indoor o sensor GPS não é tão adequado, uma vez que o sinal
é atenuado e disperso por telhados, paredes e outros objetos. Dessa forma, são utilizadas
outras técnicas, que vão desde o uso de ondas de rádio a campos magnéticos e sinais
acústicos [Curran et al., 2011]. Uma possível solução seria o uso de antenas Bluetooth,
como apresentado por Bekkelien (2012): várias antenas são espalhadas por um edifício
e a posição exata de cada uma deve ser registrada para que o sistema utilize esta posição
como referência. A força do sinal é usada para calcular a distância do dispositivo para a
antena Bluetooth, inferindo assim a posição do usuário. Um obstáculo na solução
descrita é a necessidade de dispositivos externos espalhados, que elevam o custo de
implantação de acordo com o tamanho da área a ser coberta.
Outras abordagens são encontradas como a utilização de antenas de wi-fi
apresentadas por Hu (2013) e Liu e colegas (2007), e a utilização de transmissores de
rádio frequência (RFID - Radio-Frequency IDentification) defendidas por Fabini, Russ
e Wallentin (2013), e Randell e Muller (2001). Porém essas técnicas também
apresentam os problemas levantados quanto à aquisição de equipamentos. Uma solução
para este problema é o uso de sensores presentes em dispositivos móveis como
celulares, como proposto por Stockx, Hecht e Schöning (2014).
Este trabalho apresenta uma implementação para o problema de posicionamento
indoor, capaz de fornecer tanto a posição de um usuário quanto sua trajetória em
ambientes internos. Para isso são usados o sensor magnetômetro e o contador de passos
disponíveis em celulares no mercado. O sistema permite o cadastro de informações do
ambiente a ser considerado, necessárias para as estratégias posicionamento
desenvolvidas.
2. Desenvolvimento
O sistema desenvolvido possui dois módulos (Figura 1): o Módulo Servidor, composto
pelo servidor web que permite o monitoramento do deslocamento dos celulares, a
edição de elementos do mapa e o gerenciamento dos usuários; o Módulo Mobile é uma
aplicação para dispositivos móveis desenvolvida para Android, responsável por obter a
posição do usuário e enviar esta posição para o servidor. No Módulo Mobile é possível
escolher a estratégia de captura de posição: GPS ou conjunto de sensores.
A edição dos elementos do mapa inclui telas para Cadastro de Salas, Corredores
e Visualizador de Posições, e utiliza a biblioteca do Google Maps para exibição
[Google, 2016]. Através dessa biblioteca, o sistema cria pontos e linhas no mapa
baseado em coordenadas de latitude e longitude. Isso permite a correta projeção das
posições, independentemente de tamanho ou resolução. Além disso, a biblioteca permite
a projeção de imagens georreferenciadas sobre o mapa. Esse recurso é utilizado para
exibição da planta do edifício, de modo que um usuário consiga identificar o local onde
outros usuários estão.
989
XXXVII Congresso da Sociedade Brasileira de Computação
990
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
991
XXXVII Congresso da Sociedade Brasileira de Computação
992
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
a) b)
c)
Figura 6. Rotas utilizadas nos testes, na ordem: a) rota 1, b) rota 2 e c) rota 3.
A rota 1 foi planejada para que uma parte do caminho atravesse uma grande área
de jardim (área verde), que oferece ao dispositivo uma visão clara do céu e permite que
o dispositivo obtenha um bom sinal de GPS durante sua travessia; em seguida o
caminho avança para uma área fechada e que possui andar superior. A rota 2 foi
selecionada para atravessar uma área com vários corredores se cruzando. A rota 3 foi
planejada para que apresentasse o maior trajeto.
Cada uma dessas rotas foi percorrida 3 (três) vezes, e cada repetição feita em um
dia diferente com condição climática diferente. Isso serviu para avaliar se haveria
mudança nos resultados com apenas o uso do GPS. No entanto, não ocorreram
diferenças significativas.
993
XXXVII Congresso da Sociedade Brasileira de Computação
994
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
995
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
Os resultados mostraram que a combinação de sensores conseguiu gerar resultados mais
precisos que as posições obtidas apenas com a utilização do GPS no ambiente analisado.
Também foi possível verificar que o resultado com sensores do celular se mostrou uma
solução promissora com baixo custo, além do fato de que o consumo de bateria da
combinação de sensores se mostrou muito inferior ao consumo registrado na utilização
do GPS. Entretanto, o uso do sensor de passos depende da correta configuração do
tamanho do passo do usuário.
Como trabalhos futuros, espera-se desenvolver uma estratégia híbrida de captura
de posição que utilize o sinal GPS quando disponível e os sensores quando o sinal dos
satélites não possuir uma precisão adequada, aproveitando a qualidade das duas
estratégias. Pretende-se ainda incluir técnicas para correção de posição usando
informações referentes à planta baixa do prédio, por exemplo, o uso de regras para
impedir que uma pessoa atravesse paredes que não tenham portas. É preciso também
modificar o cálculo da direção para que funcione no caso em que a orientação do celular
muda com frequência. E por último, implementar técnicas para determinar
996
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
Bekkelien, Anja. (2012) “Bluetooth Indoor Positioning”. 56 f. Dissertação (Mestrado) -
Curso de Ciência da Computação, University Of Geneva, Geneva.
Carrasco-Letelier, Leonidas. (2015) Smart phones and Tablets as Scientific Tools for
Geo referencing Measurements. Em: International Journal Of Engineering Trends
and Technology (IJETT). Colonia, pág. 5–11, junho.
Curran, K., Furey, E., Lunney, T., Santos, J., Woods, D. and McCaughey, A. (2011) An
Evaluation of Indoor Location Determination Technologies. Em: Journal of Location
Based Services. Vol. 5, no. 2, pag. 61-78, junho.
Dijkstra, E. W. (1959) A note on two problems in connexion with graphs. Numerische
Mathematik, [s.l.], v. 1, n. 1, pág. 269–271, dez. Em: Springer Nature.
Fabini, Joachim; Rus, Reinhard; Wallentin, Lukas. (2013) “Architecture and
Prototypical Realization of NFC-based Indoor Positioning with Android and Google
Maps”. 17 f. Institute Of Telecommunications, Vienna.
GOOGLE. (2016) “Getting Started With Maps”. Disponível em:
<Https://developers.google.com/maps/documentation/javascript/?hl=pt-br>. Acesso
em: 12 mar. 2017.
Hu, Bin. (2013) “Wi-Fi Based Indoor Positioning System Using Smartphones”. 91 f.
Dissertação (Mestrado) - Curso de Ciência Aplicada, Royal Melbourne Institute Of
Technology, Melbourne.
Liu, H., Darabi, H., Banerjee, P., Liu, J. (2007). Survey of Wireless Indoor Positioning
Techniques and Systems, Em: IEEE Transactions on Systems, Man, and
Cybernetics,Part C (Applications and Reviews), vol. 37, no. 6, pp. 1067-1080,
novembro.
Randell, C., Muller, H. (2001) “Low Cost Indoor Positioning System”. Em: Abowd
G.D., Brumitt B., Shafer S. (eds) Ubicomp 2001: Ubiquitous Computing. UbiComp
2001. Lecture Notes in Computer Science, vol 2201. Springer, Berlin, Heidelberg.
Stockx, T., Hecht, B., and Schöning, J. (2014). “SubwayPS: Towards Smartphone
Positioning in Underground Public Transportation Systems”. Em: Proceedings of the
22nd ACM SIGSPATIAL International Conference on Advances in Geographic
Information Systems, pag. 93–102, novembro.
Velasco, Alberto Díaz. (2014) “Indoor Positioning using Android Platform”. 36 f. TCC
(Graduação) - Curso de Sistemas de Informação, Blekinge Tekniska Högskola
(BTH), Karlskrona, Suécia.
997
XXXVII Congresso da Sociedade Brasileira de Computação
{pauloaguilar,danielo,rossana}@great.ufc.br
Abstract. The advancement of the Internet of Things (IoT) has enabled greater
efficiency in monitoring environments, allowing a better management and dis-
covery of the conditions where the application is inserted. This feature is useful
for monitoring High Performance Computing (CAD) environments that require
tight control of local conditions. The environment management has become es-
sential with the popularization of Cloud Computing, since an inoperative envi-
ronment is a critical problem. This work presents a thermal and eletrical control
system for CAD environments using IoT. The system monitors the temperature,
humidity and electrical power supply of the data center room.
1. Introdução
A Internet das Coisas (IoT) é um paradigma cujo objetivo é conectar diferentes objetos,
sendo eles fı́sicos ou virtuais à Internet de modo que interajam e troquem informações
entre si de forma autônoma, a fim de atingir um objetivo comum [Garcı́a et al. 2014].
Dentre os muitos objetivos que pode-se atingir com a IoT é possı́vel destacar a melho-
ria em processos de produção de alimentos, na produção e distribuição de energia e no
monitoramento de ambientes [Borgia 2014] [da Silva et al. 2016] [Carvalho et al. 2015].
No caso do monitoramento de ambientes, podemos destacar o monitoramento de casas,
veı́culos, cidades, plantações e centros de dados.
* Bolsista da Fundação Cearense de Pesquisa e Cultura
†
Bolsista de Produtividade CNPq em Pesquisa (PQ-2)
‡
Bolsista de Produtividade CNPq em Desenvolvimento Tecnológico (DT-2)
998
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
2. Trabalhos Relacionados
Em [Ramos and Bianchini 2008], os autores apresentam um sistema chamado C-Oracle
que realiza o gerenciamento térmico de um ambiente de centro de dados. O C-Oracle
propõe polı́ticas para identificação de emergências térmicas. Em sua principal polı́tica,
os autores fazem uma verificação sobre os estados de utilização do centro de dados em
relação ao processamento e armazenamento. A partir disso, a polı́tica proposta realiza
balanceamento de carga a fim de diminuir a carga nos servidores mais quentes. Dife-
rente disso, nosso trabalho utiliza também dados do ambiente do centro de dados para
realização do gerenciamento térmico, identificando situação de provável pane no sistema
de refrigeração ou de fornecimento de energia elétrica e realizando a notificação dos ad-
ministradores do centro de dados.
999
XXXVII Congresso da Sociedade Brasileira de Computação
1000
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Os sensores são integrados a kits Arduino, que são equipados com um módulo de
rádio XBee.
Os dados obtidos pelo sensores são transmitidos através do protocolo ZigBee para
uma placa BeagleBone, que exerce a função de gateway. O gateway tem como objetivo
centralizar os dados coletados. Optou-se por utilizar o ZigBee devido ao seu reduzido
consumo energético para transmissão de dados1 . No GDC, o gateway tem limitações de
processamento, armazenamento e energia.
Nesse cenário, a Computação em Nuvem surge como uma solução para reali-
zar o processamento e armazenamento de forma escalável, além de suprir questões da
segurança e controle de acesso. Dessa forma, o gateway se comunica com a Nuvem
através da pilha de protocolos TCP/IP. O servidor em Nuvem analisa e armazena os da-
dos.
Após o processamento dos dados, as informações geradas são fornecidas aos
usuários através de um aplicativo Android.
1
http://www.zigbee.org/
1001
XXXVII Congresso da Sociedade Brasileira de Computação
Através do diagrama de casos de uso na Figura 2, podemos ter uma visão das fun-
cionalidades que o sistema oferecerá ao usuário. Permitir o acesso a usuários previamente
cadastrados, elaborar diagnósticos, notificar o usuário e emitir alertas sobre as condições
do ambiente monitorado compõem as principais funcionalidades do GDC descritas no
diagrama de casos de uso.
A partir da modelagem do sistema foi possı́vel realizar a elaboração das interfaces
do GDC para o aplicativo móvel. A interface do GDC é simples devido a presença de pou-
cos elementos visuais. Além disso, o uso dos ı́cones, associação de cores a informações
apresentadas e legendas propiciam uma compreensão mais eficiente das informações exi-
bidas pelo aplicativo. Essa abordagem é percebida principalmente na tela principal do
aplicativo, onde é exibido os status do ambiente e os dados de cada sensor. O usuário
pode acessar o histórico de medição dos sensores nas últimas 12 e 24 horas. A partir
de tal funcionalidade, é possı́vel ao usuário verificar se ocorreu recentemente mudanças
bruscas das condições do local monitorado.
Na Figura 3 são apresetadas as principais telas do aplicativo. A figura da esquerda
mostra a tela de autenticação do usuário. A figura do meio mostra a gerência dos recursos
monitorados, primeiro o status do ambiente, que pode ser seguro, atenção ou alerta. O
status é definido através das ultimas medições da temperatura, umidade e tensão. Abaixo
1002
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
1003
XXXVII Congresso da Sociedade Brasileira de Computação
4. Avaliação
A avaliação desta proposta foi realizada buscando-se analisar o desempenho da aplicação
GREat Data Center e verificar os aspectos presentes nas três questões listadas na
introdução deste estudo. Para isso observamos as seguintes métricas: uso do processa-
dor, memória RAM e rede no gateway e tempo para processamento e armazenamento
das grandezas monitoradas. Os testes foram executados com três kits Arduı́nos, um Be-
aglebone Black com 512 MB de memória RAM e processador com clock de 1 GHz no
Centro Nacional de Processamento de Alto Desempenho do Ceará - CENAPAD-CE. Vale
destacar que o GDC pode ser implantado em qualquer centro de dados.
Para analisarmos a carga de processamento, o tráfego de dados e a quantidade
de memória RAM utilizadas, executamos a aplicação por 8 horas e monitoramos esses
parâmetros do sistema através da ferramenta Cacti3 . Nesse intervalo de tempo, realizamos
2
https://www.mongodb.com/
3
http://www.cacti.net/
1004
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
8 baterias de teste, cada uma com duração 1 hora. A aplicação foi iniciada por volta das
14:40 horas e executou até 22:40 horas. Foram coletadas 1900 amostras de definição de
status. Os gráficos gerados pelo Cacti exibem o funcionamento do gateway a partir das
13:10 horas para melhor comparação com um perı́odo em que a aplicação não estava em
execução.
Em relação a carga de processamento, a mesma está representada no gráfico da
Figura 4. Percebe-se que a aplicação consome em torno de 20% a mais de processamento
normal do gateway, o que é aceitável considerando a limitação de recursos do Beagle-
Bone. A utilização de memória está representada no gráfico da Figura 5. Constata-se que
não houve acréscimo considerável na utilização de memória a partir do inı́cio da execução
da aplicação.
O tráfego de dados está representado no gráfico da Figura 6. Nota-se que a
aplicação aumenta o tráfego de dados em até, no máximo, 15,47 kbits/s, o que é ı́nfimo
para uma rede convencional.
1005
XXXVII Congresso da Sociedade Brasileira de Computação
(a) Média dos tempos para processamento das (b) Média dos tempos para armazenamento no
informações. banco de dados.
1006
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
[Bezerra 2006] Bezerra, E. (2006). Princı́pios de Análise e Projeto de Sistemas com UML -
3ª Edição, volume 3. Elsevier Brasil.
[Borgia 2014] Borgia, E. (2014). The internet of things vision: Key features, applications
and open issues. Computer Communications, 54:1 – 31.
[Carvalho et al. 2015] Carvalho, C. M. A., Rodrigues, C. A. P., Aguilar, P. A. C., de Castro,
M. F., Andrade, R. M. C., Boudy, J., and Istrate, D. (2015). Adaptive tracking mo-
del in the framework of medical nursing home using infrared sensors. In 2015 IEEE
Globecom Workshops (GC Wkshps), pages 1–6.
[Chen et al. 2014] Chen, J., Tan, R., Xing, G., and Wang, X. (2014). Ptec: A system for
predictive thermal and energy control in data centers. In Real-Time Systems Symposium
(RTSS), 2014 IEEE, pages 218–227.
[da Silva et al. 2016] da Silva, A. R., Júnior, J. C. X., and Silva, I. (2016). Rede de sen-
sores para controle inteligente de ambientes. In 8º SBCUP - Simpósio Brasileiro de
Computação Ubı́qua e Pervasiva - XXXVI CSBC - Congresso da Sociedade Brasileira
de Computação.
[El-Sayed et al. 2012] El-Sayed, N., Stefanovici, I. A., Amvrosiadis, G., Hwang, A. A., and
Schroeder, B. (2012). Temperature management in data centers: Why some (might)
like it hot. SIGMETRICS Perform. Eval. Rev., 40(1):163–174.
[Ferdoush and Li 2014] Ferdoush, S. and Li, X. (2014). Wireless sensor network system
design using raspberry pi and arduino for environmental monitoring applications. Pro-
cedia Computer Science, 34:103 – 110.
[Garcı́a et al. 2014] Garcı́a, C. G., G-Bustelo, B. C. P., Espada, J. P., and Cueva-Fernandez,
G. (2014). Midgar: Generation of heterogeneous objects interconnecting applicati-
ons. a domain specific language proposal for internet of things scenarios. Computer
Networks, 64:143 – 158.
[Liu et al. 2016] Liu, Q., Ma, Y., Alhussein, M., Zhang, Y., and Peng, L. (2016). Green data
center with iot sensing and cloud-assisted smart temperature control system. Computer
Networks, 101:104–112.
[Lu et al. 2016] Lu, T., Zha, X., and Zhao, X. (2016). Multi-stage monitoring of abnormal
situation based on complex event processing. Procedia Computer Science, 96:1361
– 1370. Knowledge-Based and Intelligent Information & Engineering Systems:
Proceedings of the 20th International Conference KES-2016.
[Ramos and Bianchini 2008] Ramos, L. and Bianchini, R. (2008). C-oracle: Predictive ther-
mal management for data centers. In 2008 IEEE 14th International Symposium on
High Performance Computer Architecture, pages 111–122.
1007
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The Internet of Things (IoT) can be defined as the set of technologies
connecting objects from the physical world, empowering them with the ability
to react to events produced by human and other systems. In that direction, the
goal of this paper is to present an architecture to build Customizable Beacons,
allowing user devices and Smart Objects to directly access the data published by
the Beacons, without requiring Internet connection. The main contributions of
this paper are the creation of an customizable Beacon using Arduino and BLE;
an Android API to interact with Beacons and a server to manage the information
published by each Beacon.
Resumo. A Internet das Coisas (Internet of Things - IoT) pode ser definida
como um conjunto de tecnologias que conecta objetos do mundo físico com a
Internet, tornando-os capazes de reagir a eventos produzidos por humanos ou
outros sistemas. Assim, o objetivo desse artigo é apresentar uma arquitetura
para a construção de Beacons customizáveis, permitindo que dispositivos de
usuários e outros Objetos Inteligentes (OIs) possam acessar diretamente os da-
dos publicados pelo Beacon, sem a necessidade de conexão com a Internet. As
principais contribuições desse artigo são a criação do Beacon customizável uti-
lizando o Arduino e BLE; uma API Android para interagir com os Beacons e um
servidor para atualizar os dados publicados por cada Beacon.
1. Introdução
A Internet das Coisas (Internet of Things - IoT) pode ser definida como um conjunto de
tecnologias que conecta objetos do mundo físico com a Internet, tornando-os capazes de
reagir a eventos produzidos por humanos ou outros sistemas [Evangelatos et al. 2012].
Nesse sentido, objetos inteligentes são objetos do mundo físico embarcados com algum
tipo de processamento e comunicação. Dentro da IoT, prédios inteligentes utilizam os
Objetos Inteligentes (OIs) para promoverem serviços que aumentam o conforto de seus
ocupantes e a eficiência das tarefas realizadas [Agarwal and Weng 2012]. Exemplos de
serviços oferecidos nos prédios inteligentes podem ser o controle de acesso às dependên-
cias do prédio, informações sobre localização e navegação indoor, conteúdo das salas e
propagandas customizadas.
1008
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Nesse sentido, muitos desses serviços oferecidos pelos prédios inteligentes são
baseados na interação direta entre usuários e OIs. Essa interação direta normalmente
ocorre através de tecnologias de comunicação baseada em proximidade (e.g., Bluetooth,
Bluetooth Low Energy, Zigbee e NFC) e permite que os OIs divulguem sua identidade ou
os dados coletados, e ainda atuem no ambiente. Assim, para facilitar a criação de servi-
ços que utilizam a interação direta entre OIs e usuários, o conceito de Beacon foi criado,
permitindo que uma determinada informação seja publicada periodicamente e capturada
por dispositivos de usuário (smartphones) e de ambiente (outros OIs), com um mínimo
de consumo de energia. Um problema importante nas implementações atuais de Beacons
é a dificuldade de customizar o conteúdo publicado por cada Beacon. No geral, os Be-
acons publicam seus identificadores estáticos, e a informação que esses identificadores
representam é acessada na Internet.
Entretanto, em ambientes onde muitos dispositivos acessam informações sobre
Beacons, o acesso à Internet para buscar as informações representadas pelo Beacon pode
gerar problemas de desempenho, principalmente se a quantidade de Beacons for grande.
Ou ainda impossibilitar o uso de Beacons em aplicações onde a conexão com a Inter-
net é intermitente. Nesse contexto, o objetivo desse artigo é apresentar uma arquitetura
para a construção de Beacons customizáveis, onde uma parte dos dados coletados pelos
OIs são publicados periodicamente juntamente com o identificador do dispositivo. Essa
abordagem permite que dispositivos de usuário e outros OIs acessem diretamente os da-
dos publicados pelo Beacon sem a necessidade de conexão com a Internet, permitindo a
criação de serviços em uma escala micro-local ou serviços de localização indoor.
A arquitetura apresentada no artigo foi implementada utilizando um hardware de
prototipação com uma interface de comunicação Bluetooth Low Energy (BLE) para a
criação do Beacon e publicação dos dados para usuários e outros OIs próximos, uma
interface com acesso à Internet para a atualização, quando necessário, dos conteúdos pu-
blicados pelo Beacons, um conjunto de interfaces de acesso para dispositivos Android
na forma de uma Application Programming Interface (API) para facilitar a detecção e o
acesso por uma aplicação aos dados publicados por um Beacon, além de uma interface
web para que usuários possam atualizar o conteúdo dos Beacons. A arquitetura imple-
mentada foi validada através de um estudo de caso e avaliação de desempenho.
Este trabalho está organizado da seguinte forma: a Seção 2 apresenta os principais
conceitos utilizados por esse trabalho. A Seção 3 descreve os trabalhos relacionados. Na
Seção 4, é discutida a arquitetura proposta e sua implementação. A Seção 5 apresenta o
estudo de caso criado e os resultados da análise de desempenho. Por fim, a Seção 6 traz
as considerações finais e os trabalhos futuros.
2. Referencial Teórico
Nesta seção são apresentados alguns conceitos básicos importantes para que se possa
compreender o contexto no qual esta proposta está inserida, e o motivo pelo qual cer-
tas decisões foram tomadas, como escolha de equipamentos, tecnologias e protocolo de
comunicação.
2.1. Bluetooth de Baixa Potência
Bluetooth de Baixa Potência (Bluetooth Low Energy - BLE) ou Smart Bluetooth é um
tipo de tecnologia de conexão sem fio desenvolvida pelo Grupo de Interesse Especial
1009
XXXVII Congresso da Sociedade Brasileira de Computação
sobre Bluetooth (Bluetooth Special Interest Group) e pode ser entendida como uma espe-
cificação, ou funcionalidade que integra o Bluetooth desde 2010, a partir de sua versão 4.0
[Bluetooth 2010b]. O BLE possui algumas vantagens comparado ao Bluetooth Clássico,
que o torna mais “inteligente” ao proporcionar mais funcionalidades para os desenvolve-
dores, fabricantes e para os usuários que terão uma melhor experiência com IoT. Estas
vantagens fazem do BLE uma das tecnologias mais recomendadas para se empregar a
Internet das Coisas [Bluetooth 2010a], como as listadas a seguir:
• Baixo consumo de energia, podendo funcionar por até quase um ano com uma
célula de bateria do tamanho de uma moeda;
• Capacidade de múltiplas conexões, onde um dispositivo BLE central, chamado
de BLE master, é responsável por aceitar, gerir e controlar as conexões de vá-
rios outros dispositivos que irão requisitar conexão, e são conhecidos como BLE
slaves;
• Capacidade de enviar pequenas quantidade de bytes em broadcast para diversos
dispositivos ao mesmo tempo sem a necessidade de criar uma conexão;
• Fornecer informações de sensores dos dispositivos que o utilizam, como: porcen-
tagem da bateria, heixo de rotação ou RSSI (Received Signal Strength Indicator),
através do serviço de response sobre a mensagem em broadcast enviada;
• Baixo custo, encontrando no mercado, produtos com a tecnologia por menos de
$10,00 dólares.
O BLE vem sendo muito utilizado em sistemas de localização indoor. A Apple utilizou a
tecnologia do BLE para lançar o Ibeacon, um dispositivo capaz de localizar dispositivos
IOS (Iphone Operating System) próximos que possuam a tecnologia BLE e enviar-lhes
informações com base na localização desses dispositivos [Conte et al. 2014]. Para o fu-
turo, é previsto que o BLE esteja presente em mais de 1 bilhão de dispositivos devido
ao crescente uso da tecnologia do Bluetooth Clássico, utilizada em celulares, carros, no-
tebooks, e diversos outros dispositivos. Esta popularização do Bluetooth Clássico serve
como uma espécie de alavanca para impulsionar o crescimento da tecnologia do BLE
[Gomez et al. 2012].
1010
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
destina e ser usado como um BLE Beacon voltados para os dispositivos da empresa
[Zafari and Papapanagiotou 2015].
1011
XXXVII Congresso da Sociedade Brasileira de Computação
informações, como para recebê-las [Lampkin et al. 2012]. De acordo com a arquitetura
publish/subscriber, uma comunicação através do protocolo MQTT funciona da seguinte
maneira: o publisher publica as informações para o broker (servidor) através de um tó-
pico; os subscribers inscritos nesse mesmo tópico recebem essas informações do broker.
Tanto publishers como subscribers são clientes na arquitetura implementada pelo
MQTT, e conectam-se a apenas um broker. Porém, um mesmo cliente MQTT pode ser
subscriber e publisher de diversos tópicos [Lampkin et al. 2012]. Uma mensagem no pro-
tocolo MQTT é dividida em duas partes: tópico e payload. Um tópico é uma string (simi-
lar a uma url) e é utilizada para implantar uma hierarquia entre os tópicos, o que facilita a
capacidade de um cliente publicar e se inscrever em um tópico especifico, ou mesmo em
todos os tópicos de uma subárea, um exemplo de tópico: area/area_id/sensor/sensor_id/.
Por fim, temos a ultima parte do pacote, o payload, onde se encontra a informação pro-
priamente dita [Hunkeler et al. 2008].
3. Trabalhos Relacionados
Em Khoo [Khoo 2015], uma solução para automação de conexões móveis é proposta
para interação com um dispositivo de vídeo através de um servidor, que por sua vez deve
gerenciar estas conexões. O autor escolhe a ferramenta IBeacon da Apple, equipada com a
tecnologia BLE, assim como a tecnologia BPAN (Bluetooth Personal Area Network), uma
outra especificação do Bluetooth. O autor utiliza a tecnologia BPAN para prover acesso a
um servidor através de uma rede de conexões IP (Internet Protocol), sobre o Bluetooth. O
autor também estrutura a plataforma criada no modelo cliente-servidor, onde uma placa
Raspberry Pi faz a função de servidor, enquanto uma aplicação desenvolvida para Android
faz o papel de cliente.
Em Conte et al [Conte et al. 2014], os autores propõem uma solução para detecção
de ocupantes de uma construção utilizando a plataforma chamada BLUE-SENTINEL para
localizar e quantificar os ocupantes na construção e utilizar estas informações para apri-
morar as decisões tomadas pelo construção inteligente. A plataforma criada consiste na
implementação do protocolo IBeacon em um Beacon customizado, utilizando uma placa
Arduino. O Beacon criado é então utilizado para mapear os locais do prédio e enviar a um
servidor denominado BLUE-SENTINEL Core informações sobre a distância do aparelho
e sobre o usuário. O servidor irá repassar essas informações para o Sistema Gerenciador
da Construção (SGC) que irá tomar a melhor decisão com base nessas informações.
Em Takalo et al [Takalo-Mattila et al. 2013] é apresentada uma abordagem para
representar semanticamente objetos físicos reais utilizando Smart Bluetooth Beacons para
mapear esses objetos e enviar um identificador único chamado de ucode para a aplicação
do usuário. A aplicação por sua vez, requer a resolução do ucode por um servidor e após
recuperar esta informação, o servidor informa o endereço no banco de dados referente ao
objeto de interesse. Por fim, a aplicação do usuário utiliza este endereço para consultar o
banco de dados e obter as informações desejadas sobre o determinado objeto.
O principal problema dos trabalhos apresentados é a dependência a um servidor
para que o sistema possa ser executado. De forma contrária, o trabalho aqui proposto
já publica informações sobre os dados coletados pelo Beacon diretamente para os dis-
positivos próximos, diminuindo a dependência com servidores externos e aumentando a
quantidade de interações locais.
1012
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
4. Arquitetura do Sistema
Esse artigo propõe uma arquitetura para a criação de Beacons customizáveis para IoT. O
objetivo é permitir que a informação publicada pelos Beacons possa ser atualizada em
tempo de execução, e ainda facilitar o desenvolvimento de aplicações Android que aces-
sam essas informações. A arquitetura proposta consiste em três módulos, como mostrado
na Figura 3(a). Todos os códigos utilizados nesse projeto podem ser encontrados em
https://github.com/cainammello.
O módulo Aplicação Móvel é responsável por mostrar ao usuário as informações
enviadas pelo Beacon. A Figura 3(b) mostra a Aplicação Android acessando tais infor-
mações. A aplicação percorre a mensagem enviada pelo Beacon e extrai as informações
contidas nele. No Algoritmo 1, vemos uma parte de como isso ocorre. No primeiro mé-
todo, os Beacons próximos ao dispositivo são reconhecidos e inicializados. No segundo
método, os dados que vêm do Beacon são utilizados para carregar os objetos que serão
usados para mostrar ao usuário as informações sobre as salas de aula.
(a) Arquitetura do sistema proposto baseada em (b) Campos atualizados após o recebimento da
cliente-servidor mensagem pelo Beacon
1 beaconManager.addRangeNotifier(new RangeNotifier() {
2 @Override
3 public void didRangeBeaconsInRegion(Collection<Beacon> beacons, Region
region) {
4 if (beacons.size() > 0) {
5 Beacon b = beacons.iterator().next();
6 while (b != null) {
7 onBeaconReceived(b);
8 b = beacons.iterator().next();
9 }
10 }
11 }
12 });
13
14 public void onBeaconFinded(Beacon b, String uuid) {
15 QBeaconProtocolo beaconProtocolo = new QBeaconProtocolo();
16
17 Sala sala = beaconProtocolo.getObjectFrom(Sala.class,uuid,1);
1013
XXXVII Congresso da Sociedade Brasileira de Computação
O módulo Web Service foi desenvolvido com base na arquitetura REST (REpre-
sentational State Transfer) utilizando a linguagem de programação JavaScript, através do
framework NodeJS1 , e é responsável por cadastrar, armazenar e atualizar as informações
adicionadas sobre os Beacons. Estas informações são “chaves” contidas no identificador
do Beacon, e são salvas no banco de dados local do dispositivo móvel para serem aces-
sadas quando a conexão estiver indisponível e são atualizadas quando a conexão voltar a
estar disponível.
O módulo Arduino Beacon é responsável por publicar os dados, usando a interface
BLE, para a Aplicação Móvel, que consome esses dados. Um dos problemas encontradas
nos modelos pesquisados é a dependência da conexão com o servidor web que a aplica-
ção mobile possui, para obter os dados, impossibilitando o uso quando a conexão não está
disponível. Entretanto, neste trabalho, os dados são transmitidos diretamente pelo Beacon
e as informações que são grandes demais para serem publicados por ele, são acessadas
diretamente via banco de dados local, que é atualizado quando o aplicativo é utilizado
pela primeira vez, e posteriormente quando as informações forem atualizadas no servi-
dor. É importante mencionar que o acesso ao servidor pelo aplicativo acontece com uma
frequência muito baixa.
O módulo Arduino Beacon é formado por um Bluetooth de Baixa Potência, de
referência HM-10, um Shield Ethernet, de referência HanRun HR911105A e a própria
placa de prototipagem Arduino Uno, como mostra a Figura 4. O módulo é encarregado
de transmitir as informações capturadas por sensores Arduino através do BLE.
1014
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
MQTT ao qual um Beacon está subscrito, como explicado na seção 2.3. Esses tópicos
são criados pelo Web Service em tempo de execução, de acordo com as informações
cadastradas sobre um Beacon. Para passar transmitir uma nova informação, o Beacon,
após se inscrever no tópico MQTT correto, recebe do Broker (Web Service) as mensagens
que são publicadas naquele tópico e as envia em modo broadcast pela interface BLE.
A aplicação mobile por sua vez, recebe a mensagem enviada em broadcast através da
biblioteca AltBeacon2 e as mostra ao usuário.
O protocolo IBeacon foi utilizado com o objetivo de aproveitar os bytes que eram
utilizados apenas como identificador, e substituí-los por identificadores (IDs), que repre-
sentam os dados armazenados no banco de dados local da Aplicação Móvel. Cada ID tem
um tamanho de 2 hexadecimais para cada dado publicado. A Tabela 1 nos mostra como é
estruturado o UUID e os comandos AT (comandos Hayes) necessários para modifica-los.
Os comandos AT são passados através de uma comunicação serial entre a interface do
Bluetooth Low Energy e o Módulo BLE.
Com a mensagem enviada pelo Web Server, o Arduino Beacon quebra essa men-
sagem em 4 conjuntos de 8 hexadecimais (ou 4 bytes) e armazena cada um em uma faixa
do UUID do BLE, seguindo o padrão formado na hora do cadastro das informações no
Web Service. Depois de ter dividido as informações, o mapeamento dos dados publicados
pelo Beacon mostrado na Tabela 2 é realizado.
5. Avaliação da Proposta
Com o objetivo de analisar como a proposta se comporta com dispositivos reais, duas
avaliações foram realizadas: i) um estudo de caso que fornece um guia das aulas e salas
em um campus inteligente; e ii) uma avaliação de desempenho que mede o tempo de
detecção de novos Beacons e o tempo de leitura dos dados publicados por eles. O estudo
de caso implementado fornece informações sobre salas de aula, professores e conteúdo
das aulas em um campus inteligente. Nele, uma aplicação Android acessa as informações
publicadas por um Beacon, a fim de descrever as informações referentes à sala que o
usuário está inserido. A Figura 3(b) e o Algoritmo 1 apresentam uma parte desse estudo
de caso. O código completo está disponível em https://github.com/cainammello.
2
AltBeacon: http://altbeacon.org/.
1015
XXXVII Congresso da Sociedade Brasileira de Computação
14 0,08
0,07
12
Tempo (segundos)
Tempo (segundos)
0,06
10
0,05
8
0,04
6
0,03
4
0,02
2 0,01
0 0
1 2 4 8 12 15 25 1 2 4 8 12 15 25
Distância (metros) Distância (metros)
Vibe K5 Moto X Play Samsumg J5 LG G2 Vibe K5 Moto X Play Samsumg J5 LG G2
(a) Tempo para reconhecer Beacon x distância (b) Tempo para atualizar os dados x distância
1016
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Referências
Agarwal, Y. and Weng, T. (2012). From buildings to smart buildings—sensing and actua-
tion to improve energy efficiency. IEEE Design & Test of Computers, vol.29(4):36–44.
Bluetooth, S. (2010a). The bluetooth core specification, v4. 0. Bluetooth SIG: San Jose,
CA, USA.
Bluetooth, S. (2010b). Specification of the bluetooth system-covered core package ver-
sion: 4.0.
Conte, G., De Marchi, M., Nacci, A. A., Rana, V., and Sciuto, D. (2014). Bluesentinel:
a first approach using ibeacon for an energy efficient occupancy detection system. In
BuildSys@ SenSys, pages 11–19, 1st ACM International Conference on Embedded
Systems For Energy-Efficient Buildings (BuildSys) 2014. ResearchGate.
Evangelatos, O., Samarasinghe, K., and Rolim, J. (2012). Evaluating design approaches
for smart building systems. In Mobile Adhoc and Sensor Systems (MASS), 2012 IEEE
9th International Conference on, pages 1–7, Las Vegas, NV. IEEE, IEEE.
Gomez, C., Oller, J., and Paradells, J. (2012). Overview and evaluation of bluetooth low
energy: An emerging low-power wireless technology. Sensors, 12(9):11734–11753.
Hunkeler, U., Truong, H. L., and Stanford-Clark, A. (2008). Mqtt-s—a publish/subscribe
protocol for wireless sensor networks. In Communication systems software and mid-
dleware and workshops, 2008. comsware 2008. 3rd international conference on, pages
791–798. IEEE.
Khoo, K. C. Y. (2015). Automation of internet of things connection. PhD thesis, UTAR.
Lampkin, V., Leong, W. T., Olivera, L., Rawat, S., Subrahmanyam, N., Xiang, R., Kal-
las, G., Krishna, N., Fassmann, S., Keen, M., et al. (2012). Building smarter planet
solutions with mqtt and ibm websphere mq telemetry. IBM Redbooks.
MQTT, O. (2016). Mqtt: Mq telemetry transport.
Statler, S. (2016). Geofencing: Everything you need to know. In Beacon Technologies,
pages 307–316. Springer.
Takalo-Mattila, J., Kiljander, J., and Soininen, J.-P. (2013). Advertising semantically des-
cribed physical items with bluetooth low energy beacons. In Embedded Computing
(MECO), 2013 2nd Mediterranean Conference on, pages 211–214, 2013 2nd Mediter-
ranean Conference on Embedded Computing (MECO), Budva. IEEE, IEEE.
Zafari, F. and Papapanagiotou, I. (2015). Enhancing ibeacon based micro-location with
particle filtering. In Global Communications Conference (GLOBECOM), 2015 IEEE,
pages 1–7. IEEE.
1017
XXXVII Congresso da Sociedade Brasileira de Computação
alla@laccan.ufal.br
Abstract. The vehicular networks present a high dynamic topology that requires
an infrastructure of fixed transmission points installed along the roads, which
may provide vehicle connectivity in sparse or low density areas. This work pre-
sents an approach based on genetic algorithm and centrality measure to Maxi-
mum Coverage with Time Threshold Problem (MCTTP) in vehicular networks.
Our approach considers a limited number of dissemination points to maximize
vehicle coverage that allows vehicle connectivity. The centrality measure from
the complex network theory reduces the problem’s search space of the genetic
algorithm, which implies to a more efficient approach. We applied our proposed
solution to a real urban scenario with a high vehicles density. Experimental
results suggest a higher vehicle coverage of 1.06% and 3.78% than the results
of other approaches.
1. Introdução
Em uma VANET (Vehicular Ad hoc Network) [Al-Sultan et al. 2014], os veı́culos são ca-
pazes de trocar mensagens com outros veı́culos (comunicação V2V - Vehicle-to-Vehicle)
1018
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
2. Trabalhos Relacionados
Nesta seção são apresentados os principais trabalhos relacionados a implantação de pon-
tos de disseminação ao longo de uma topologia rodoviária. Inicialmente, temos que As-
lam et al. [Aslam et al. 2012] propuseram dois métodos de otimização para determinar
em quais interseções instalar um número limitado de PDs, com o objetivo de maximi-
zar o fluxo de informações dos veı́culos para os PDs. O primeiro método, baseado na
Programação Inteira Binária (PIB), utilizou Branch-and-Bound (B&B) para encontrar a
solução ótima. O segundo método utiliza a heurı́stica da expansão do balão (Balloon Ex-
pansion Heuristic - BEH) e encontrou a solução ótima incorporando o conhecimento
1019
XXXVII Congresso da Sociedade Brasileira de Computação
1020
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
tempo total de contato entre o veı́culo j e a interseção i, i.e., as ligações V2I. O conjunto
de cobertura V0 = {VI01 , VI02 , . . . , VI0m } é determinado por todos os veı́culos que atraves-
sam alguma interseção, onde VI0i ∈ V0 é o subconjunto de veı́culos presentes na interseção
Ii . Um dado veı́culo é considerado coberto quando permanecer em contato com algum
PD por no mı́nimo τ segundos. A cobertura pode ser completada de forma direta (único
PD é suficiente para atingir τ ) ou fragmentada (o tempo de cobertura é alcançado com
outros PDs que o veı́culo esteve em contato).
Desta maneira, o MCTTP seleciona k conjuntos de V0 para cobrir a maior quanti-
dade possı́vel de veı́culos no cenário com um tempo mı́nimo de τ segundos. O problema
de máxima cobertura com tempo de contato pode ser formulado como segue:
" !#
Xn X m
max min τ, Tij Yi , (1)
j=1 i=1
sujeito a
X
m
Yi ≤ k; Yi ∈ {0, 1} ∀i (2)
i=1
4. Solução proposta
A nossa solução considera o fluxo presente na Figura 1, cujo as etapas são descritas como
segue:
1021
XXXVII Congresso da Sociedade Brasileira de Computação
tal simetria nem sempre ocorre. Ademais, vértices e interseções isolados são retirados do
grafo. O peso da conexão entre a interseção i e o veı́culo j é dado por:
pij = max(T) − min(τ, Tij ) + 1 (3)
Assim, o peso é obtido a partir da diferença entre o maior tempo de contato na matriz
max(T), e o menor valor τ e o elemento Tij . Por fim, o valor 1 é somado ao resultado
para evitar a ocorrência de uma aresta com peso nulo.
O espaço de busca denota todas as possı́veis soluções para o problema tratado.
Diante disso, partindo de uma população inicial, o algoritmo genético irá explorar diversas
regiões na tentativa de alcançar o máximo global, nesse caso, o conjunto de interseções
onde deve-se instalar os PDs de forma a garantir a maior cobertura de veı́culos. Neste
trabalho, a definição do espaço de busca é feita em duas etapas: (i) o uso de uma medida
de centralidade, para que as interseções mais relevantes sejam escolhidas para a instalação
dos PDs, i.e., este procedimento busca identificar interseções que tendem a favorecer a
cobertura dos veı́culos devido a sua centralidade; (ii) e a detecção de comunidades devido
à alta densidade da rede. A seleção das interseções candidatas tem como objetivo reduzir
o espaço de busca do problema, i.e., é um pré-processamento da entrada do algoritmo
genético.
O betweenness centrality é uma medida que quantifica a centralidade de um
vértice com base no número de caminhos mı́nimos que passam por este vértice e é dado
pela Equação 4 [Newman 2004]:
X σij(v)
Bv = (4)
i6=v6=j∈V
σij
1022
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
|Vb |
FIN = . (5)
n
Em que n é o total de veı́culos e Vb é o conjunto dos veı́culos cobertos pelos PDs instalados
nas interseções pertencentes ao indivı́duo IN. Cada elemento Vb deve possuir um tempo
de contato maior que τ .
5. Experimentos e resultados
Os experimentos foram executados a partir de um cenário elaborado com dados extraı́dos
de traços de mobilidade veicular, que descrevem a posição individual dos veı́culos durante
1023
XXXVII Congresso da Sociedade Brasileira de Computação
um perı́odo de observação. O raio de transmissão assumido para cada nó da rede foi
de R = 100 metros, valor tipicamente adotado em experimentos. Questões relativas a
protocolos de rede e roteamento foram abstraı́das, assim como eventuais problemas que
poderiam resultar na falha da entrega das mensagens, por exemplo, atenuação de sinal.
Deste modo, o tempo de permanência de um veı́culo em uma interseção qualquer foi
computado a partir da Distância Euclidiana.
O cenário foi construı́do, a partir de dados extraı́dos dos traços de mobilidade da
área urbana da cidade Colônia, na Alemanha1 . O conjunto original de dados cobre uma
área de 400km2 por um perı́odo de 24 horas, mais de 700.000 rotas individuais de veı́culos
foram utilizadas. Desta base de 24h, dado a magnitude dos dados e o custo computaci-
onal para processá-los, utilizamos apenas um conjunto de dados reduzido2 contendo um
intervalo de duas horas de simulação. Os dados extraı́dos reproduzem o cenário em um
horário de pico de um dia matinal de trabalho (6h às 8h), seguindo uma granularidade de
um segundo. Este cenário reduzido foi filtrado de modo a remover veı́culos que atraves-
saram menos de três interseções ou permaneceram no cenário por um tempo inferior à um
minuto. Assim, para construção da matriz de contatos T[m × n], contamos com 27,615
interseções e 118,482 veı́culos.
Os experimentos analisam o percentual de veı́culos cobertos a partir da solução
desenvolvida neste trabalho (MCTTP-c) em comparação com outras duas abordagens, o
algoritmo guloso (MCTTP-g) proposto por [Trullols et al. 2010] e o algoritmo genético
(MCTTP-cv) de [Cavalcante et al. 2012]. A configuração dos parâmetros influencia no
comportamento dos algoritmos genéticos, assim, o ajuste apropriado permite obter me-
lhores resultados. Vários testes foram realizados, permitindo investigar as soluções ob-
tidas para diferentes complexidades do problema e para se chegar aos valores de todos
os parâmetros apresentados aqui. Em razão disso, para cada configuração dos algorit-
mos, estes foram replicados 10 vezes, um número suficiente, considerando o alto custo
computacional associado aos experimentos, e o teste Shapiro–Wilk permitiu averiguar a
normalidade das distribuições. Adiante, o teste t-Student foi utilizado como critério de
decisão do melhor resultado, com intervalo de confiança de 95% e nı́vel de significância
α de 5%. Nos casos em que não se conseguiu determinar a melhor configuração, optou-se
por escolher o parâmetro que favorecesse a obtenção da melhor solução considerando um
número de gerações menor. Os valores utilizados ao fim do ajuste dos parâmetros dos
algoritmos foram os seguintes:
1024
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
35
●
●
Veículos cobertos (%)
30
●
●
33
25
●
●
32
20
●
●
31
15
MCTT−g
● MCTTP−cv
● ● MCTTP−c
30
10
A Figura 2(b) apresenta a evolução dos veı́culos cobertos para as três abordagens
comparadas em função do valor de k. Com valores menores para k é notável a dificuldade
em encontrar soluções melhores que aquela fornecida pelo MCTTP-g, em k = 5, por
exemplo, os percentuais de cobertura aproximaram-se ao ponto de se sobreporem.
A partir de k = 10, a diferença entre as três abordagens passa a ser significativa,
por conseguinte, na medida em que k assume valores maiores, os percentuais de cobertura
obtidos pelas duas abordagens evolutivas claramente superam os resultados do MCTTP-g.
Com exceção de k = 5, que não houve melhora significativa, os percentuais de cobertura
alcançados com a solução do MCTTP-c são superiores para todos os valores de k. A
sútil diferença entre os resultados do MCTTP-c e MCTTP-cv prevalece nos demais casos
analisados.
Como forma de analisar a significância estatı́stica de cada caso, o intervalo de
1025
XXXVII Congresso da Sociedade Brasileira de Computação
5 10 15 20 25
Melhor 11.28 18.75 24.77 30.22 34.86
MCTTP-c Média 11.25 18.75 24.75 29.95 34.67
IC (11.20, 11.29) (18.75, 18.75) (24.72, 24.78) (29.84, 30.06) (34.51, 34.83)
Melhor 11.28 18.62 24.10 29.63 34.30
MCTTP-cv Média 11.28 18.47 23.69 29.09 33.94
IC (11.28, 11.28) (18.38, 18.57) (23.48, 23.90) (28.89, 29.29) (33.78, 34.10)
MCTTP-g 10.97 16.38 21.19 26.95 30.89
6. Conclusão
Este trabalho apresentou uma solução para a instalação de PDs que foi modelada como
o problema da máxima cobertura com tempo de contato, onde um número limitado de
PDs deveria maximizar a cobertura dos veı́culos no cenário por um tempo mı́nimo de
contato. A solução utilizou o betweenness centrality para encontrar interseções com po-
tencial de compor soluções do algoritmo genético. Nossa abordagem, quando comparada
com outras duas soluções da literatura, obteve resultados satisfatórios, conseguindo um
aumento na cobertura dos veı́culos de até 3.78% (4.479 veı́culos cobertos) em relação ao
MCTTP-g. Para o MCTTP-cv, a diferença apesar de ser mais discreta, onde o melhor
resultado foi um ganho de 1.06% (1.255 veı́culos cobertos), mostra que através de cen-
tralidade é possı́vel encontrar soluções que superam aquelas fornecidas pela abordagem
evolutiva com informação proveniente da abordagem gulosa. Como trabalhos futuros,
pode-se destacar a utilização de outras medidas a fim de selecionar as interseções em
1026
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
regiões de trânsito menos caótico. Além disso, examinar o problema por intermédio de
modelos de propagação de sinal ou de obstáculos.
Referências
Al-Sultan, S., Al-Doori, M. M., Al-Bayatti, A. H., and Zedan, H. (2014). A comprehen-
sive survey on vehicular Ad Hoc network. JNCA, 37(1):380–392.
Aslam, B., Amjad, F., and Zou, C. C. (2012). Optimal roadside units placement in urban
areas for vehicular networks. Proceedings - ISCC, 1:423–429.
Ben Brahim, M., Drira, W., and Filali, F. (2015). Roadside units placement within city-
scaled area in vehicular ad-hoc networks. ICCVE, pages 1010–1016.
Blondel, V. D., Guillaume, J.-L., Lambiotte, R., and Lefebvre, E. (2008). Fast unfolding
of communities in large networks. JSTAT, 10008(10):6.
Brandes, U. (2001). A faster algorithm for betweenness centrality. Journal of Mathema-
tical Sociology, 25:163–177.
Cavalcante, E. S., Aquino, A. L., Pappa, G. L., and a.F. Loureiro, A. (2012). Roadside
unit deployment for information dissemination in a VANET. GECCO, page 27.
Chi, J., Do, S., and Park, S. (2016). Traffic flow-based roadside unit allocation strategy
for VANET. BigComp, pages 245–250.
Cumbal, R., Palacios, H., and Hincapié, R. (2016). Optimum Deployment of RSU for
efficient communications multi-hop from vehicle to infrastructure on VANET. COL-
COM.
Fortunato, S. (2010). Community detection in graphs. Physics Reports, 486(3-5):75–174.
Hochbaum, D. S. (1997). Approximation Algorithms for NP-hard Problems. PWS Pu-
blishing Co., Boston, MA, USA.
Khuller, S., Moss, A., and (Seffi)Naor, J. (1999). The budgeted maximum coverage
problem. Inf. Process. Lett., 70(1):39–45.
Liang, Y., Liu, H., and Rajan, D. (2012). Optimal placement and configuration of roadside
units in vehicular networks. IEEE Vehicular Technology Conference.
Meguerdichian, S., Koushanfar, F., Potkonjak, M., and Srivastava, M. B. (2001). Cove-
rage problems in wireless ad-hoc sensor networks. IEEE INFOCOM, 3:1380–1387.
Newman, M. E. J. (2004). Analysis of weighted networks. Physical Review E - Statistical,
Nonlinear, and Soft Matter Physics, 70(5 2).
Silva, C. M., Aquino, A. L., and Jr., W. M. (2015). Deployment of roadside units based
on partial mobility information. Computer Communications, 60:28–39.
Silva, C. M., Aquino, A. L. L., and Meira, W. (2014). Design of roadside infrastructure
for information dissemination in vehicular networks. NOMS.
Trullols, O., Fiore, M., Casetti, C., Chiasserini, C., and Ordinas, J. B. (2010). Planning
roadside infrastructure for information dissemination in intelligent transportation sys-
tems. Computer Communications, 33(4):432–442.
Xiong, Y., Ma, J., Wang, W., and Tu, D. (2013). RoadGate: Mobility-centric roadside
units deployment for vehicular networks. IJDSN, 2013.
1027
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A Internet das Coisas (do inglês, Internet of Things –IoT) é um paradigma emergente
que abrange uma infraestrutura de hardware, software e serviços que conectam objetos
físicos, denominados como coisas, à Internet (Commission of the European
Communities 2008), permitindo o surgimento de uma miríade de aplicações que
poderão se beneficiar dos novos tipos de dados, serviços e operações disponíveis.
Segundo (Walport 2014), em 2014 existiam cerca de 14 bilhões de dispositivos
1028
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
conectados à Internet e estima-se que, em 2020, esse número chegará a 100 bilhões.
Devido ao grande número de dispositivos, a IoT caracteriza-se por uma enorme
heterogeneidade, uma vez que os dispositivos e os componentes de software que os
gerenciam são desenvolvidos por diversos fabricantes e sem padronização. Outra
característica marcante desse paradigma é a dinamicidade. Em IoT, os objetos podem
tornar-se indisponíveis devido a vários fatores, tais como: mobilidade dos dispositivos,
ausência de rede, disponibilidade energética, etc.
Devido a essas características, desenvolver aplicações para IoT envolve, em
muitos casos, lidar com diversos dispositivos, protocolos e formatos de dados que não
seguem uma padronização comum, bem como usar um número desconhecido de
dispositivos que podem ou não estar disponíveis. Nesse contexto, plataformas de
middleware surgem como soluções promissoras para prover interoperabilidade e
gerenciar a crescente variedade de dispositivos associados às aplicações, bem como o
consumo de dados por parte dos usuários finais (Teixeira, et al. 2011). Dada a
dinamicidade desse ambiente, tais plataformas precisam ter a capacidade de assimilar
um número crescente de dispositivos e requisições e funcionar corretamente, mesmo em
situações de uso intenso (Pires, Delicato, et al. 2015). Para satisfazer esse requisito, as
plataformas devem ajustar a quantidade de recursos computacionais consumidos de
acordo com a necessidade. Nesse contexto, autores como (Gubbi, et al. 2013) (Pires,
Delicato, et al. 2015) (Cavalcante, et al. 2016) afirmam que o paradigma de computação
em nuvem é um candidato natural para complementar a IoT, no sentido de prover
escalabilidade e serviços sob demanda para este ambiente altamente dinâmico. A
integração entre IoT e computação em nuvem dá origem ao paradigma conhecido como
Nuvem das Coisas (do inglês, Cloud of Things – CoT) (Aazam, et al. 2014).
Embora a integração entre os dois ambientes (IoT e cloud) seja o ponto chave na
concepção do paradigma emergente de CoT, atualmente a maioria das iniciativas
existentes nessa direção ainda estão em estado inicial de desenvolvimento e/ou não
foram completamente validadas (Cavalcante, et al. 2016) (Nastic, et al. 2014).
Aplicações nesse contexto devem refletir a quantidade de recursos computacionais
demandada pelos usuários e dispositivos de IoT e, ativamente, ajustar essa demanda à
quantidade de recursos alocada na infraestrutura de nuvem subjacente (Serrano, et al.
2013). No entanto, gerenciar tal elasticidade no contexto de CoT ainda é um desafio
(Nastic, et al. 2014) (Serrano, et al. 2013).
1029
XXXVII Congresso da Sociedade Brasileira de Computação
O resto desse artigo está estruturado como segue: A seção 2 descreve a EcoDiF,
plataforma que serviu como base para construir a EcoCIT; a seção 3 apresenta a
arquitetura e o funcionamento da EcoCIT; a seção 4 apresenta um experimento
computacional que compara a escalabilidade da EcoCIT em relação à EcoDiF,
mostrando que, de fato, a nova plataforma tem escalabilidade superior à sua
predecessora; a seção 5 apresenta trabalhos relacionados; e a seção 6 conclui o trabalho.
2. EcoDiF
A EcoDiF é uma plataforma de middleware que integra dispositivos de IoT e os conecta
à Internet, fornecendo funcionalidades de controle, visualização e armazenamento de
dados em tempo real. A plataforma provê uma interface bem definida, baseada em
REST (Fielding e Taylor 2002), para expor as funcionalidades dos dispositivos na Web,
provendo padronização e simplificação do processo de desenvolvimento de aplicações,
além de minimizar barreiras no tocante à incompatibilidade entre diferentes fabricantes,
protocolos proprietários e formatos de dados. A EcoDiF provê ainda suporte à execução
de aplicações que possam fazer uso das funcionalidades e dados providos pelos
dispositivos a ela conectados.
Em sua arquitetura a EcoDiF conta com os seguintes módulos: i) Módulo de
Conexão de Dispositivos, que visa facilitar a conexão de dispositivos físicos à
plataforma. Esse módulo oferece um API, baseada em REST, por meio da qual os
dispositivos podem compartilhar seus dados através da plataforma; ii) Módulo de
Manipulação de Dados, que gerencia o acesso aos dados produzidos pelos dispositivos
conectados; iii) Módulo de Visualização e Gerenciamento, o qual provê uma interface
Web para permitir aos usuários monitorar o estado e localização de seus dispositivos,
bem como visualizar dados históricos armazenados; iii) Módulo de Colaboração, que
visa facilitar a colaboração entre usuários da EcoDiF, permitindo realizar buscas por
dispositivos e aplicações a partir de seus respectivos metadados (tipo, usuário,
localização, etc); iv) Módulo de Armazenamento, que consiste de dois repositórios
básicos, um para armazenamento de dados utilizando uma base de dados relacional, e
outro para armazenamento de scripts de aplicações em um sistema de arquivos; v)
Módulo de Segurança, gerencia a autenticação e autorização dos usuários conectados à
plataforma; vi) Módulo de Serviços Comuns, envolve serviços de infraestrutura providos
pela plataforma, tais como, gerenciamento de ciclo de vida de aplicações, transações,
etc; e por fim, vii) Módulo de Aplicações, que provê um modelo e um ambiente para
programação e execução de aplicações que fazem uso dos dados disponíveis na EcoDiF.
Essas aplicações são construídas como mashups (Guinard et al., 2009) e utilizando a
linguagem EMML (Enterprise Mashup Markup Language). Os mashups são
implementadas como scripts escritos em EMML e executadas em um motor (engine) de
execução que processa tais scripts.
1030
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
3. EcoCIT
Como explicado, a EcoCIT surgiu como uma evolução da EcoDiF. Em sua arquitetura,
a EcoCIT herdou diversas funcionalidades e módulos da EcoDiF, alguns dos quais
foram alterados a fim superar suas limitações relacionadas à escalabilidade. O
componente de software resultante das alterações realizadas sobre a EcoDiF foi
denominado EcoCIT Middleware. O EcoCIT Middleware é, no entanto, apenas um dos
componentes da arquitetura da EcoCIT. Ele provê todas as funcionalidades
originalmente providas pela EcoDiF. Adicionalmente, a arquitetura da EcoCIT conta
com cinco outros componentes que contribuem para lhe conferir escalabilidade e
elasticidade. A visão geral da arquitetura da EcoCIT e o detalhamento de cada um dos
componentes é descrita na seção 3.1. As alterações realizadas sobre os módulos da
EcoDiF para a concepção do EcoCIT Middleware são descritas na seção 3.2.
1031
XXXVII Congresso da Sociedade Brasileira de Computação
1032
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
1033
XXXVII Congresso da Sociedade Brasileira de Computação
dinamicamente, dessa forma, não seria viável armazenar essas aplicações no sistema de
arquivos das VMs. Portanto, o Módulo de Aplicações foi alterado para que passe a
armazenar esses arquivos no NewSQL DB.
4 Avaliação
1034
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Como se pode observar, a EcoDiF foi capaz de suportar até 400 requisições
simultâneas. Acima desse número parte das requisições falharam devido ao fato de as
VMs utilizadas para suportar a plataforma e o SGBD relacional utilizado pela mesma
terem exaurido toda sua capacidade de processamento e memória. Dada a sua
capacidade de executar de maneira distribuída e de dividir a carga de trabalha entre
diversas VMs, a EcoCIT foi capaz de suportar um número bem maior de requisições
simultâneas, chegando a 2800. Além disso, o tempo de resposta às requisições
realizadas a EcoCIT foi bem menor que o tempo de resposta das requisições à EcoDiF.
Esses resultados mostram que as alterações realizadas sobre a arquitetura da EcoDIF
para a concepção da EcoCIT tiveram impacto positivo na escalabilidade da plataforma.
Também é importante ressaltar que a arquitetura da EcoCIT permite escalar, a fim de
que sua capacidade vá além do que foi explorado nesse experimento. Diferente da
EcoDiF, sua arquitetura permite, em tempo de execução, adicionar novos nós aos
SGBDs utilizados, tornando as consultas mais rápidas. Além disso, também é possível
definir, no arquivo de configuração do VM Manager, um número maior de VMs que
podem ser instanciadas e adicionadas ao cluster para atender requisições dos usuários.
5 Trabalhos relacionados
Como discutido anteriormente, desenvolver aplicações de IoT não é uma tarefa trivial,
pois para isso frequentemente os desenvolvedores precisam lidar com questões
relacionadas a escalabilidade e com um grande número de dispositivos heterogêneos.
Esses desafios têm motivado o desenvolvimento de plataformas de middleware que
oferecem facilidades para o desenvolvimento de aplicações de IoT. A título de exemplo,
o trabalho proposto por (Lopes, et al. 2013) apresenta o EXEHDA-UC, uma arquitetura
distribuída para suporte ao gerenciamento da aquisição, armazenamento e
processamento dos dados produzidos por dispositivos de IoT. A arquitetura conta com
componentes para aquisição de informações provenientes dos dispositivos, consulta a
dados históricos sensoriados e consulta em tempo real a informações provenientes de
sensores. A arquitetura também conta com um módulo que gerencia regras para
manipulação e dedução de informações com base nos dados armazenados.
1035
XXXVII Congresso da Sociedade Brasileira de Computação
6 Considerações Finais
Este trabalho apresentou a EcoCIT, uma plataforma de middleware escalável para
suporte ao desenvolvimento de aplicações de IoT, que é uma evolução da EcoDiF.
Foram apresentadas as modificações realizadas sobre a arquitetura da EcoDiF para a
concepção de EcoCIT e sua integração com plataformas de computação em nuvem.
Essas alterações permitem à EcoCIT gerenciar um maior volume de dados proveniente
de dispositivos de IoT, também permitem que a plataforma possa escalar de maneira
horizontal, ou seja, através da adição de novas máquinas à sua arquitetura e a consumir
recursos computacionais providos sob demanda por plataformas de computação em
nuvem. O experimento computacional apresentado na seção 5 mostra que, de fato, essas
alterações tiveram impacto positivo na escalabilidade da plataforma.
Apesar dos benefícios alcançados com a concepção da EcoCIT, a plataforma
possui ainda algumas limitações. Algumas dessas dizem respeito ao componente VM
Manager que, diferentemente dos outros componentes da arquitetura (NewSQL DB,
NoSQL DB e do cluster de VMs utilizado para processar as requisições dos usuários),
que podem ter sua capacidade incrementada em tempo de execução através da adição de
novos nós, não existe na EcoCIT uma estratégia que permita incrementar em tempo de
execução a capacidade de processamento, memória e rede do VM Manager em casos de
necessidade. Portanto, um dos trabalhos futuros consiste em propor uma estratégia para
superar essa limitação. Outro trabalho futuro consiste em propor mecanismos de
tolerância a falhas para a EcoCIT a fim de tornar a plataforma mais resiliente.
1
Kaa: https://www.kaaproject.org/
1036
9º SBCUP - Simpósio Brasileiro de Computação Ubíqua e Pervasiva
Agradecimentos
Esse trabalho foi parcialmente financiado pelo CNPq e pelo Instituto Nacional de
Ciência e Tecnologia para Engenharia de Software (INES)2. Thais Batista, Flavia C.
Delicato e Paulo F. Pires são bolsistas de produtividade do CNPq.
Referências
Antunes, Josué B., e outros. “ManIoT: Uma Plataforma para Gerenciamento de
Dispositivos da Internet das Coisas.” Workshop de Gerência e Operação de Redes e
Serviços (WGRS). Salvador,Bahia, 2016. 3-16.
Cavalcante, Everton, et al. “On the interplay of Internet of Things and Cloud
Computing: A systematic mapping study.” Computer Communications 89-90 (Março
2016): 17–33.
Commission of the European Communities. “Early Challenges regarding the “Internet
of Things”.” Bruxelas, 2008.
Fielding, Roy T., e Richard N. Taylor. “Principled design of the modern Web
architecture.” ACM Transactions on Internet Technology (TOIT) , 2002: 115-150 .
Gubbi, Jayavardhana et al. “Internet of Things (IoT): A vision, architectural elements,
and future directions.” Future Generation Computer Systems 29, n. 7 (Setembro
2013): 1645–1660.Kitchenham, B.A., e S. Charters. “Guidelines for Performing
Systematic Literature Reviews in Software Engineering.” University/University of
Durham, Keele, 2007.
Lopes, Joao L. B., et al. “Uma arquitetura distribuída direcionada à consciência de
contexto na Computação Ubíqua.” Simpósio Brasileiro de Computação Ubíqua e
Pervasiva (SBCUP). Porto Alegre, 2013. 2022-2031.
Nastic, Stefan et al. “Provisioning Software-defined IoT Cloud Systems.” Int. Conf. on
Future Internet of Things and Cloud. Washington, USA: IEEE Computer Society,
2014. 288-295.
Pires, Paulo F., et al. “A platform for integrating physical devices in the internet of
things.” Embedded and Ubiquitous Computing (EUC). Milano:, 2014. 234-241.
Pires, Paulo F., e outros. “Plataformas para a Internet das Coisas.” Minicurso do
Simpósio Brasileiro de Rede de Computadores (SBRC), Vitória - ES, 2015.
Serrano, Martin, et al. “Resource Optimisation in IoT Cloud Systems by Using
Matchmaking and Self-management Principles.” Cáp. 11 em THE FUTURE
INTERNET, edição: Alex Galis e Anastasius Gavras. Berlin: Springer, 2013.
Teixeira, T., S. Hachem, V. Issarny, e N Georgantas. “Service oriented middleware for
the Internet of Things: A perspective.” 4th European Conference on Towards a
Service-Based Internet. Poznan, Poland: LNCS, 2011. 220-229.
Walport, Mark. “The Internet of Things: making the most of the Second Digital
Revolution.” UK Government Chief Scientific Adviser, 2014.
Guinard, D., Trifa, V.“Towards the Web of Things: Web mashups for embedded
devices”, Proceedings of the 2nd Workshop on Mashups, Enterprise Mashups and
Lightweight Composition on the Web, 2009.
2
http://www.ines.org.br/
1037
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
Nas últimas décadas, tem havido uma revolução no modo como a ciência e a engenharia
têm sido conduzidas, ao se utilizar de forma intensiva as tecnologias de informação e
comunicação (TICs). Essa nova forma de realizar a ciência, denominada de e-Science ou
e-Ciência, desempenha hoje um papel fundamental na metodologia de trabalho adotada
por muitos grupos de pesquisa em todo o mundo.
O XI BreSci tem como objetivo colaborar com os esforços de e-Science propondo
um fórum de discussão sobre temas relevantes dessa área de estudo. Além da trilha
principal, que tem um escopo mais amplo e mais relacionado com as TICs, o workshop
conta também com uma trilha de aplicações específica para discutir temas relacionados
às áreas particulares de aplicação da eScience, incluindo (mas não sendo restrito a)
bioinformática, astronomia, química e informática na biodiversidade.
A aproximação com pesquisadores dessas áreas da ciência visa a estreitar o
relacionamento entre os participantes das diversas áreas. Ademais, essa aproximação
propicia a identificação de demandas relativas à infraestrutura computacional sob o ponto
de vista das áreas-fim. De outro lado, essa colaboração também propicia às áreas-fim uma
melhor difusão das soluções elaboradas pela comunidade de computação.
O BreSci 2017, em sua décima primeira edição, sendo a oitava edição colocada
no CSBC, manteve o nome de BreSci e a estrutura do evento de 2016 com apenas duas
trilhas: uma trilha de apoio computacional que recebeu submissões de trabalhos
completos e uma trilha de aplicações que recebeu trabalhos resumidos das diversas áreas
da e-Ciência: bioinformática, astronomia, química, e informática na biodiversidade.
Foram submetidos 20 trabalhos no total (onde 7 foram para as trilhas de aplicações),
sendo 9 aceitos para publicação como trabalhos completos. Ademais, na trilha de
bioinformática foram aceitos 2 resumos. As trilhas de astronomia, química e informática
na biodiversidade não tiveram artigos aceitos.
1038
11º BreSci - Brazilian e-Science Workshop
Comitê Organizador
Coordenação Geral
Rafaelli Coutinho (CEFET-RJ), Emanuele Santos (UFC)
Comitê Diretivo
Rafaelli Coutinho (CEFET/RJ - co-chair 2017), Emanuele Santos (UFC - co-chair
2017), Kary A. D. C. S. Ocaña (LNCC - co-chair 2016), Regina Maciel Braga (UFJF -
co-chair 2016), Luiz M. R. Gadelha Jr. (LNCC - co-chair 2015), Antônio Tadeu A.
Gomes (LNCC - co-chair 2014)
Coordenação Local
Fábio Silva Lopes (Mackenzie)
Comitê de Programa
Alberto Krone-Martins (Universidade de Lisboa), Ana Carolina Guimaraes
(FIOCRUZ), Andrey Brito (UFCG), Antonio Miranda (FIOCRUZ), Antonio Tadeu
Gomes (LNCC), Bruno Schulze (LNCC), Carla Osthoff (LNCC), Creto Vidal (UFC),
Cristina Boeres (UFF), Daniel de Oliveira (UFF), Debora Drucker (EMBRAPA), Diogo
Tschoeke (UFRJ), Duncan Ruiz (PUC-RS), Eduardo Bezerra (CEFET/RJ), Eduardo
Dalcin (Inst. Pesq. Jardim Botânico) Eduardo Ogasawara (CEFET/RJ), Emanuele
Santos (UFC), Fernanda Campos (UFJF), Gilberto Pastorello (Berkeley Lab), Glauber
Wagner (UFSC), Joao Gomes (UFC), Joao Setubal (USP), Jonas Dias (DELL EMC),
José David (UFJF), José Antonio Macêdo (UFC), Kaline Coutinho (USP), Kary Ocaña
(LNCC), Kele Belloze (CEFET/RJ), Leonardo Azevedo (IBM/UNIRIO), Leonardo
Murta (UFF), Lucia Drummond (UFF), Luciano Digiampietri (USP), Luiz Manoel
Rocha Gadelha Júnior (LNCC), Marco Antonio Araujo (UFJF), Maria Claudia
Cavalcanti (IME), Marta Mattoso (COPPE/UFRJ), Nazareno Andrade (UFCG), Priscila
Goliatt (UFJF), Rafaelli Coutinho (CEFET/RJ), Regina Braga (UFJF), Reinaldo de
Carvalho (INPE), Ricardo Ogando (ON-MCTI & LIneA), Ricardo Torres (Unicamp),
Rita M.C. de Almeida (UFRGS), Ronaldo Goldschmidt (IME), Sergio Lifschitz (PUC-
Rio), Sergio Manuel Serra da Cruz (UFRRJ), Silvia Olabarriaga (University of
Amsterdam), Tainá Raiol (FIOCRUZ), Ubiratam De Paula (UFRRJ), Victor Stroele
(UFJF), Vinod Rebello (UFF), Wagner Arbex (EMPRAPA), Yuri Nogueira (UFC)
1039
XXXVII Congresso da Sociedade Brasileira de Computação
Palestras
Keynote - Captura de Proveniência de Scripts: Desafios e Oportunidades
Leonardo Gresta Paulino Murta (Instituto de Computação / UFF)
1040
11º BreSci - Brazilian e-Science Workshop
1041
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Análise de erros de anotação de genes exclusivos
Priscilla Koch Wagner, Guilherme Duarte Mattos, Luciano Antonio Digiampietri
1042
11º BreSci - Brazilian e-Science Workshop
1043
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Para o estudo da relação evolutiva entre os organismos, denominado filogenia, exis-
tem diversas ferramentas computacionais que auxiliam nas etapas de um processo de
análise filogenética [Miyamoto and Cracraft 1991]. Entre essas etapas estão: a anotação,
comparação e alinhamento de sequências de nucleotı́deos [Setubal and Meidanis 1997].
Uma das motivações de se realizar uma análise filogenética é identificar a origem
de um determinado gene ou organismo [Matioli 2001]. As peculiaridades dos seres vivos
podem ser dadas por genes exclusivos, que são identificados através da análise filogenética
de grupos de espécies (ou sub-espécies) próximas geneticamente. Por meio do estudo
filogenético é possı́vel conhecer a origem de um gene exclusivo de dado genoma, trazendo
avanço sobre os conhecimentos acerca do processo evolutivo da espécie em que esse
gene exclusivo se apresenta. Esse estudo pode também trazer mais conhecimentos sobre
comportamentos e caracterı́sticas da espécie sob análise, visto que esse gene pode ser
determinante para um fenótipo também exclusivo.
Durante uma análise filogenética, é necessário que haja uma verificação da
anotação dos genes a fim de certificar-se se os genes sendo estudados tiveram o pro-
cesso de anotação de sua função genética realizado de maneira correta e, caso o objetivo
seja identificar genes exclusivos, esse processo é ainda mais delicado pois erros podem se
propagar durante a análise e afetar diretamente os resultados.
O presente artigo visa a apresentar uma estratégia para identificar os erros de
anotação identificados em genes considerados exclusivos a um genoma. O artigo também
busca destacar uma parte do trabalho que ainda será apresentado a comunidade cientı́fica
como uma nova abordagem para identificar a provável origem de genes exclusivos.
1044
11º BreSci - Brazilian e-Science Workshop
2. Solução Proposta
Com as motivações citadas anteriormente, a solução proposta neste artigo consiste em
aplicar uma abordagem para identificação de prováveis erros de anotação em genes po-
tencialmente exclusivos, criando-se ferramentas parametrizáveis ao longo do processo.
A solução proposta para a identificação dos genes realmente exclusivos tem
suas principais atividades realizadas por duas ferramentas, sendo que ambas possuem
resultados complementares e fazem parte de processos distintos dentro dessa aborda-
gem, conforme apresentado na Figura 1. Tal abordagem pode contemplar estudos para
identificação de genes exclusivos de maneira genérica bem como auxiliar na identificação
de erros de anotação (exclusivos ou não).
3. Experimentos e Resultados
As ferramentas desenvolvidas possuem cunho genérico, portanto se aplicam para quais-
quer genes. Entretanto, com intuito de testar sua aplicabilidade, essas ferramentas foram
aplicadas num estudo de caso com genomas de bactérias do gênero Xanthomonas, que são
bactérias patogênicas, visto que seus genes têm sido amplamente estudados e possuem
grande importância econômica na agricultura [Zhang et al. 2015]. Foram selecionados
15 genomas de Xanthomonas, apresentados na Tabela 1.
1
http://www.ncbi.nlm.nih.gov/
1045
XXXVII Congresso da Sociedade Brasileira de Computação
Os genes dos 15 genomas foram comparados uns com os outros por meio do ali-
nhamento de sequências e com base em limiares de identidade e cobertura foram geradas
matrizes de presença dos genes em cada um dos genomas. Com base neste resultado,
foram criadas famı́lias de genes homólogos. Foram criadas duas matrizes, uma contendo
os resultados dos genes contra os genes e outra contendo os resultados dos genes contra
os genomas dos 15 organismos. A partir das matrizes, foi aplicada a primeira ferramenta,
que identificou como resultado que 28.996 genes (entre os 65.120 genes desses genomas)
estavam envolvidos em erros de anotação intergenoma. Ao analisar os erros dentro do
próprio genoma, foram destacados 5.142 genes com essa inconsistência. Ao comparar
os genes que eram considerados exclusivos antes da análise da anotação e os genes que
permaneceram sendo considerados como exclusivos após a análise, temos a distribuição
por genomas (Figura 2 (a)). Nessa distribuição, destacam-se as espécies Xanthomonas
abilineans GPE PC73 (ı́ndice 15 na Tabela 1) e Xanthomonas axonopodis pv. citri str.
306 (ı́ndice 9 na Tabela 1) que preservaram quase todos os genes como exclusivos.
Com esses resultados, segregou-se os genes com potenciais erros de anotação para
a continuidade da análise. Com o arquivo gerado pelo BLAST (contendo o alinhamento
desses genes contra os 15 genomas), aplicou-se a segunda ferramenta a fim de se obter as
sequências de nucleotı́deos que foram utilizadas na segunda matriz de entrada da primeira
ferramenta (neste caso, focando-se apenas nos erros que, a princı́pio, eram considerados
genes exclusivos). O objetivo é verificar se essas sequências podem efetivamente corres-
ponder a genes corroborando com o resultado anterior (da primeira ferramenta) que indica
que há um potencial erro de anotação.
Como parametrização da ferramenta foi utilizada uma taxa de identidade de 96%,
bem como uma cobertura mı́nima entre o alinhamento do gene do próprio genoma e o
melhor alinhamento do gene com outro genoma também de 96%. Estas porcentagens
foram utilizadas porque, para este conjunto de genomas, maximizam a transitividade das
relações de homologia. Com a aplicação da segunda ferramenta sobre os dados, foram
obtidos 243 sequências de nucleotı́deos com a presença de um códon de parada dentro
dos seis quadros de leitura (ou seja, elas não correspondem a genes).
Na Figura 2 (b) são identificadas as quantidades de sequências de nucleotı́deos
(que alinharam com os genes anotados) e que possuem um códon de parada nos seis qua-
dros de leitura, agrupadas por genoma. A Tabela 1 mostra os ı́ndices dos genomas que
fazem parte do eixo horizontal da Figura 2 (b). Com tais resultados, os genes, que fo-
ram alinhados com estas 243 sequências de nucleotı́deos, listados como saı́da da segunda
ferramenta podem continuar sendo considerados como genes exclusivos. Como resultado
final, foi criada uma lista com os genes identificados como realmente exclusivos após as
1046
11º BreSci - Brazilian e-Science Workshop
4. Conclusão
O presente artigo apresentou ferramentas computacionais para uma abordagem especı́fica
na identificação de genes exclusivos, a fim de trazer maior qualidade aos resultados de
uma análise filogenética. As ferramentas possuem cunho genérico e podem ser utilizadas
por pesquisadores e profissionais da área no processo de análise filogenética.
Como trabalhos futuros, planeja-se realizar: a investigação da intersecção dos
genes com erros de anotação com os genes que se confirmaram exclusivos pela segunda
ferramenta; a integração das ferramentas citadas; o desenvolvimento de uma interface
amigável para o usuário; o desenvolvimento de ferramentas complementares a fim de se
identificar a origem biológica do gene exclusivo filtrado pelas ferramentas apresentadas.
Referências
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990). Basic local
alignment search tool. Journal of Molecular Biology, 215(3):403–410.
Matioli, S. R. (2001). Biologia Molecular e Evolução. Editora Holos, Ribeirão Preto.
Miyamoto, M. and Cracraft, J. (1991). Phylogenetic Analysis of DNA Sequences. Oxford
University Press.
Pereira, V. M. Y. (2014). Montagem e análise de genomas a partir de metagenomas.
Master’s thesis, Universidade de São Paulo - Escola de Artes, Ciências e Humanidades.
Pereira, V. M. Y., Costa, C. I., and Digiampietri, L. A. (2014). Uma ferramenta baseada
em algoritmos genéticos para a ordenação de montagens parciais de genomas. In VIII
Brazilian e-Science Workshop (BRESCI2014).
Setubal, J. C. and Meidanis, J. (1997). Introduction to Computational Molecular Biology.
PWS Publishing Company, Boston, EUA.
Zhang, Y., Jalan, N., Zhou, X., Goss, E., Jones, J. B., Setubal, J. C., Deng, X., , and
Wang, N. (2015). Positive selection is the main driving force for evolution of citrus
canker-causing xanthomonas. In ISME Journal.
1047
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introduction
Reproducibility denotes the ability for a third party to reproduce results of an experiment
using a possibly different setting, aiming at confirming or disputing the original experi-
menter’s claims [Missier et al. 2016]. As we know, scientific transparency and integrity
rely on the ability to reproduce experiments, e.g., for independent validation, adoption of
procedures or building new solutions to move forward in a particular research domain.
Scripts and Scientific Workflow Management Systems (SWfMSs) are common
approaches that have been used to allow the automation of processes and data analy-
sis in experiments. Scripts are widely adopted in many disciplines to create pipelines
in experiments, e.g., to clean and analyze a large amount of data. However, they
are hard to understand, adapt and reuse. For this reason, several solutions have been
proposed to help experiment reproducibility for script-based environments such as Re-
proZip [Chirigati et al. 2016], YesWorkflow [McPhillips et al. 2015] and noWorkflow
[Murta et al. 2014]. Though those solutions help scientists to capture experimental
details, they neither allow to fully document the experiment and nor add new addi-
tional information such as support quality assessment of the experiments. SWfMSs
[Liu et al. 2015], on the other hand, help reproducibility by supporting scientists in the
design and execution of their experiments, which are specified and run as interconnected
(reusable) components. However, there is a gap between the script and the workflow
communities. Moreover, workflows alone are not enough to ensure reproducibility.
Taking this overall scenario into account, we designed W2Share, a framework
for retrieval and conversion of script-based experiments into executable workflows
[Carvalho et al. 2016b]. The script-to-workflow conversion is based on a methodology
1048
11º BreSci - Brazilian e-Science Workshop
2. W2Share Instantiation
W2Share is an abstract generic framework to support executing and documenting expe-
riments to enable their reuse and reproduction. As such, it can be instantiated in many
different ways1 .
2.1. Overview
This section presents a specific instantiation, which moreover supports our methodology
to guide scientists in the process of transforming scripts into workflows and their execu-
tions, with subsequent encapsulation into WROs. Figure 1 gives a high level overview
of this instantiation, which is composed of three main modules: (i) Script Converter –
responsible for guiding the scientist through the conversion of scripts into workflows; (ii)
WRO Manager – responsible for creating, updating and exporting WRO bundles; and
(iii) Quality Flow – responsible for annotating the workflow and provenance data with
quality information, and creating quality according to users’ needs.
These modules store and retrieve objects from the Knowledge Base (KB) using
Semantic Web technology (in particular SPARQL queries). The KB encapsulates the
WRO repository which includes scripts, workflows, provenance data, annotations, and
input and output data; and the Quality Flow repository, which is responsible for storing
quality dimensions, its metrics and creators. The KB is implemented using Virtuoso Open
Source Edition2 .
1
For brevity sake, we do not present the overall framework. For details see [Carvalho et al. 2016b].
2
https://github.com/openlink/virtuoso-opensource
1049
XXXVII Congresso da Sociedade Brasileira de Computação
1050
11º BreSci - Brazilian e-Science Workshop
flow (and even a given execution) may have multiple quality assessments, depending on
each expert’s point of view. Data quality metrics may be computed as simple equations
on numeric values or more complex as a set of inference rules. On demand, these met-
rics are used to compute a dimension of quality, without need to modify the workflow
structure. Quality dimensions and metrics can be defined at workflow creation or, lit-
tle by little, as distinct scientists interact with the workflow. Such metrics define how
to calculate quantitative quality dimensions like accuracy and efficiency or how to relate
and summarize different qualitative quality dimensions like reliability, utility and so on.
W2Share embeds these features from Quality Flow4 responsible for managing, extracting
and processing quality information. W2Share links the quality-annotated workflow with
its runs and (provenance) traces. Distinct scientists can assess quality differently, defining
distinct quality metrics for a quality dimension for a given piece of data or process. As a
consequence, the result of a single experimental run can be assessed multiple ways. These
distinct assessments are embedded into a WRO (see Section 2.4) to be published.
We created an ontology5 to represent the quality information generated, thus a-
llowing the adoption of semantic web technology integrated with the WRO ontologies
and supporting the construction of inference rules to calculate the data quality metrics.
Basically, the main entities of the ontology are: Quality Dimension, Quality Metrics and
Quality Annotation. Quality Dimension describes quality properties, such as freshness
or understandability. Quality Metrics defines functions to compute a specific quality di-
mension. Quality Annotation associates a quality dimension and quality metrics with a
workflow and/or elements of the workflow on request.
1051
XXXVII Congresso da Sociedade Brasileira de Computação
steps involved in a typical differential DNA methylation analysis pipeline include: quali-
ty control, filtering, data exploration, normalization and statistical testing for identifying
differentially methylated regions (DMR).
This experiment was implemented via a script (GSE37579 analysis) in the R lan-
guage. The script uses as input data: (i) the Gene Expression Omnibus (GEO) accession
number GSE375798 ; (ii) symbol names of genes of interest; and (iii) names of the sam-
ple groups (tissue names) used to filter the public dataset. Data outputs at each run are
files containing high-resolution graphic charts for manual inspection and files containing
tables of the DMRs identified when compared the sample groups.
1052
11º BreSci - Brazilian e-Science Workshop
Generating the WRO Finally, the scientist generates the WRO, which
is stored in the corresponding W2Share repository. This output is available at
http://w3id.org/w2share/usecase-bresci2017.
4. Related Work
There is a variety of work addressing reproducibility of script-based experiments. For
instance, ReproZip [Chirigati et al. 2016] helps users to capture all the necessary com-
ponents, environment variables and library dependencies used to execute data analysis,
bundling them in a single, distributable package. However, unlike W2Share, ReproZip
does not have a web interface to allow the exploration and annotation of the resources
included in the package. Our solution provides a friendly web user interface to explore
WRO bundles. noWorkflow [Murta et al. 2014] captures the execution provenance of
Python scripts to support reproducibility. Our solution is not limited to a specific script
language and we use the SWfMS to capture the provenance data related to the experi-
ment execution. Furthermore, ReproZip and noWorkflow lack features to allow scien-
tists to understand main script components to learn about the experiment. YesWorkflow
1053
XXXVII Congresso da Sociedade Brasileira de Computação
[McPhillips et al. 2015] is a tool that allow scientists to annotate their scripts to generate
a workflow-like graphic view of the data analysis carried out by the script. In our work,
we extend YesWorkflow features to allow transforming scripts components into execu-
table workflow elements, storing the scripts and the abstract workflows into a WRO for
reproducibility.
We use WRO as a component to package and publish the information of
the experiment on W2Share. myExperiment [De Roure et al. 2007] and ROHub
[Palma et al. 2014] are public web repositories that store Research Objects. ROHub is
a repository for general-purpose Research Objects, whereas myExperiment stores WROs.
Both repositories lack features such as annotation of quality information, available in
W2Share, and none of them have a focus on exploring the provenance data of execu-
tions. Our solution is not limited to providing a repository of WROs, but also a sys-
tem able to manage and enrich the WROs with quality information, activity descriptions,
among others. The quality assessment facilities in W2Share are based on Quality Flow
[Sousa et al. 2014]. We adapted Quality Flow to semantically represent its data and to
work in an integrated manner with the modules of W2Share.
Acknowledgements
Work partially financed by FAPESP (2014/23861-4), CAPES (1658841), FAPESP CCES
(2013/08293-7) and CNPq/INCT in Web Science (557128/2009-9). We thank professor
Benilton Carvalho and Welliton Souza from the BCBLab at Unicamp for their valuable
support to construct and validate the case study.
10
http://www.commonwl.org/
1054
11º BreSci - Brazilian e-Science Workshop
References
Belhajjame, K., Zhao, J., Garijo, D., Gamble, M., Hettne, K., et al. (2015). Using a
suite of ontologies for preserving workflow-centric research objects. Web Semantics:
Science, Services and Agents on the World Wide Web, 32:16–42.
Carvalho, L. A. M. C., Belhajjame, K., and Medeiros, C. B. (2016a). Converting scripts
into reproducible workflow research objects. In Proc. of the IEEE 12th Int. Conf. on
eScience, October 23-26, pages 71–80, Baltimore, MD, USA. IEEE.
Carvalho, L. A. M. C., Silveira, R. L., Pereira, C. S., Skaf, M. S., and Medeiros, C. B.
(2016b). Provenance-based retrieval: Fostering reuse and reproducibility across scien-
tific disciplines. In Proc. of the 6th IPAW, June 7-8, 2016, pages 183–186. Springer.
Chirigati, F., Rampin, R., Shasha, D. E., and Freire, J. (2016). Reprozip: Computational
reproducibility with ease. In SIGMOD Conference, pages 2085–2088. ACM.
De Roure, D., Goble, C., and Stevens, R. (2007). Designing the myexperiment virtual
research environment for the social sharing of workflows. In IEEE Int. Conf. on e-
Science and Grid Computing, pages 603–610. IEEE.
Liu, J., Pacitti, E., Valduriez, P., and Mattoso, M. (2015). A survey of data-intensive
scientific workflow management. Journal of Grid Computing, 13(4):457–493.
McPhillips, T., Song, T., Kolisnik, T., Aulenbach, S., Belhajjame, K., et al. (2015).
Yesworkflow: A user-oriented, language-independent tool for recovering workflow in-
formation from scripts. Int. Journal of Digital Curation, 10(1):298–313.
Missier, P., Woodman, S., Hiden, H., and Watson, P. (2016). Provenance and data differ-
encing for workflow reproducibility analysis. Concurrency and Computation: Practice
and Experience, 28(4):995–1015.
Murta, L., Braganholo, V., Chirigati, F., Koop, D., and Freire, J. (2014). noworkflow:
Capturing and analyzing provenance of scripts. pages 71–83.
Palma, R., Hołubowicz, P., Corcho, O., Gómez-Pérez, J. M., and Mazurek, C. (2014).
Rohub—a digital library of research objects supporting scientists towards reproducible
science. In Semantic Web Evaluation Challenge, pages 77–82. Springer.
Sousa, R. B. (2015). Quality flow: a collaborative quality-aware platform for experiments
in escience. Master’s thesis, Institute of Computing - University of Campinas.
Sousa, R. B., Cugler, D. C., Malaverri, J. E. G., and Medeiros, C. B. (2014). A
provenance-based approach to manage long term preservation of scientific data. In
2014 IEEE 30th Int. Conf. on Data Eng. Workshops (ICDEW), pages 162–133. IEEE.
Souza, W., Carvalho, B., Dogini, D., and Lopes-Cendes, I. (2014). Identification of differ-
entially methylated genes potentially associated with neurological diseases. In ASHG
64th Annual Meeting, October 18-22, 2014. American Society of Human Genetics.
Wolstencroft, K., Haines, R., Fellows, D., Williams, A., Withers, D., et al. (2013). The
taverna workflow suite: designing and executing workflows of web services on the
desktop, web or in the cloud. Nucleic Acids Research, 41(W1):W557–W561.
1055
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A compreensão das mudanças climáticas é um dos principais temas de pesquisas da atualidade.
Os modelos climáticos se tornaram uma das principais ferramentas para avaliar essas
mudanças. No entanto, obter e processar grandes volumes de dados meteorológicos de
qualidade e livres de falhas representa um grande desafio científico e tecnológico. Estudos de
padrões e probabilidades de ocorrência de eventos meteorológicos extremos (inundações e
secas) sempre foram importantes para a humanidade. Porém, em decorrência de mudanças
climáticas ocorridas nas últimas décadas, a frequência desses eventos tem aumentado
(MARENGO, 2009). Neste cenário, a chuva, dentre os principais fenômenos meteorológicos, é
de maior interesse em estudos climáticos, pois constitui uma das etapas do ciclo hidrológico
que ao longo dos anos sofre alterações.
Estudos nas áreas Ambientais, Meteorologia e Hidrologia requerem dados
heterogêneos e livres de falhas (dados ausentes e/ou errôneos). Essas características, por si só,
incrementam a complexidade da análise dos dados que, demandam grande esforço
computacional para produzir resultados confiáveis e em tempo hábil, que permitem que os
1056
11º BreSci - Brazilian e-Science Workshop
Segundo Plale (2011) um dos paradigmas computacionais mais apropriados para este
tipo de estudos são os workflows científicos. Eles são capazes de modelar experimentos em
larga escala, que encadeiam atividades e podem auxiliar tanto na rastreabilidade dos dados e
processos quanto na reprodutibilidade dos experimentos e, assim, asseguram a transparência da
metodologia adotada pelas equipes de pesquisas.
Portanto, o objetivo deste trabalho é apresentar uma abordagem sistemática e
automática de coleta de dados brutos, preenchimento de falhas de dados pluviométricos
mensais baseado em múltiplos métodos de interpolação apoiados por workflows científicos. A
abordagem proposta, diferentemente das tradicionais que utilizam apenas um método de
interpolação de dados, aplica concomitantemente quatro métodos de interpolação já
consagrados na área da Meteorologia. Além disso, utiliza validação cruzada como critério de
avaliação e seleção do melhor método de interpolação para estimar a altura pluviométrica
adequada de dezenas de estações.
Esse artigo está organizado, além da Introdução, da seguinte forma: Seção 2 apresenta o
referencial teórico; Seção 3 contém a abordagem denominada CrossFlow; Seção 4 apresenta as
avaliações experimentais; Seção 5 discute os trabalhos relacionados. A Seção 6 apresenta as
considerações finais destacando as contribuições e possíveis trabalhos futuros.
2. Referencial Teórico
O controle de qualidade de dados de precipitação não é uma tarefa trivial, no entanto, é
fundamental para o sucesso de diversos tipos de estudos ambientais. A análise de consistência
dos dados tem como objetivo garantir a qualidade dos dados pluviométricos por meio da
identificação, correção de erros e preenchimento automático das falhas das séries de dados
(SILVA et al., 2014). Esses dados são essenciais para avaliar a altura pluviométrica, que
representa a lâmina de água (em mm), que se formaria sobre o solo como resultado da chuva,
caso a superfície fosse impermeável e não ocorresse escoamento ou evaporação.
A distribuição espaço-temporal das chuvas requer a análise de longas séries de dados e
de conjuntos de estações pluviométricas próximas para permitir o preenchimento de lacunas
nos registros ou substituição de dados observados e considerados errôneos. Assim, devem-se
1057
XXXVII Congresso da Sociedade Brasileira de Computação
considerar estações situadas em uma mesma bacia hidrográfica ou em regiões vizinhas para a
análise de registros pluviométricos (BERTONI & TUCCI, 2001). Adicionalmente, é
importante que se obtenham da operadora da rede de estações informações sobre todas as
irregularidades encontradas, a fim de melhorar a qualidade das séries de dados. Por fim, é
desejável que o meteorologista conheça o regime climático, o sistema de circulação geral e
processos geradores de chuvas, orografia, existência de microclimas e demais fatores que
possam influenciar na ocorrência das chuvas na região em estudo (ANA, 2012).
Tradicionalmente, a análise de consistência possui duas fases distintas. Na primeira
fase (análise preliminar) são verificadas as irregularidades na recepção dos dados pelos
equipamentos de medição (avaliação dos dados diários e totais mensais, comparando-os com os
das estações de apoio). Na segunda fase (análise quantitativa) são aplicados métodos de
correção e homogeneização de dados pluviométricos.
1058
11º BreSci - Brazilian e-Science Workshop
3. Abordagem Proposta
Nessa seção apresentamos a abordagem proposta, denominada CrossFlow. O CrossFlow é
abordagem apoiada no paradigma dos workflows científicos, que podem ser acoplados a um
SGWfC e dar suporte as análises preliminares e quantitativas (descritas na Seção 2), além de
armazenar dados curados e de proveniência coletados pelo SGWfC. Uma representação
abstrata da abordagem é apresentada na Figura 3. Em sua versão atual o CrossFlow foi
codificado em Python para ser acoplado ao sistema VisTrails (CALLAHAN et al., 2006).
O CrossFlow é composto por dois tipos de módulos principais: os que processam dados
pluviométricos e os que fazem a conexão com a bases de dados. Os módulos de conexão são
responsáveis pelo registro dos dados brutos e de proveniência retrospectiva no banco de dados.
Nesta abordagem, toda a base de dados se encontra representada em um único banco de dados
relacional no MySQL, pois é necessário manter a compatibilidade com os sistemas previamente
desenvolvidos, e.g. sistemas Meteoro (LEMOS FILHO et al., 2013) e MetFlow (CARDOZO et
al, 2016). Além disso é necessário seguir a recomendação PROV da W3C (MOREAU et al.,
2014) para o registro da proveniência dos processos de transformação e anotação de dados.
Esta abordagem proposta se instancia como um workflow parametrizável que
implementa análises preliminares e quantitativas discutidas na Seção 2 deste documento. O
CrossFlow (Figura 3) é composto por quatro partes principais. Inicialmente ele faz a carga de
dados das estações presentes do sistema HidroWeb da ANA (HIDROWEB, 2017), aplicam-se a
ordenação dos dados, faz limpeza automática das séries, identifica e substitui-se os valores que
extrapolam os limites físicos possíveis e efetua o preenchimento dos dados faltantes. Calculam-
1059
XXXVII Congresso da Sociedade Brasileira de Computação
se ainda as distâncias euclidianas entre as estações (por exemplo, raio = 30Km) baseado em
parâmetros fornecidos pelo meteorologista.
Na segunda parte ocorre a validação cruzada do tipo leave-one-out. Nesta etapa,
realizam-se os testes das amostras com os quatro métodos de interpolação (RL, PR, PRRL e
IQD) para cada estação antes da seleção do método mais efetivo para o preenchimento de
falhas. Com o intuito de avaliar o desempenho dos métodos são calculados os coeficientes de
correlação (r) com critério mínimo de 0,7 para este coeficiente, e a raiz do erro médio
quadrático (REMQ) (Tabela 1).
Na terceira parte, ocorre a assimilação de dados curados aos quais aplica-se o melhor
dos quatro métodos de interpolação, preenchendo as falhas encontradas na Etapa 1. Nesta
parte, também há o registro dos dados curados e dos dados de proveniência. Por fim, na quarta
parte, ocorre a execução dos modelos meteorológicos adequados às pesquisas que utilizam os
dados curados armazenados no banco de dados.
4. Avaliações Experimentais
Para avaliar a abordagem proposta, realizou-se uma série de experimentos com o CrossFlow,
no qual utilizaram-se mais de 75 anos de séries de dados de dezenas de estações. Inicialmente,
na Etapa 1, o workflow foi configurado para se conectar ao sistema HidroWeb e carregar todas
as séries de dados no intervalo entre 1936 até 2013 das estações da região caracterizada na
subseção 2.1 para o nosso banco de dados brutos. A seguir, executou-se a limpeza de cada uma
das séries de dados de cada uma das estações (Etapa 1). Na Figura 4, são ilustrados todos os
intervalos detectados sem falhas das 77 estações avaliadas (com raio de 30Km de separação
entre elas).
A seguir, executou-se a limpeza de cada uma das séries de cada estação (Etapa1).
Durante essa execução também foram elaborados mapas (apresentados na Figura 2) das
estações alvo do estudo meteorológico que possuem séries com intervalos contínuos com o
mínimo de 10 anos de médias mensais de precipitação e seus percentuais de falhas.
1060
11º BreSci - Brazilian e-Science Workshop
1061
XXXVII Congresso da Sociedade Brasileira de Computação
potencial para completar as falhas em longas séries de dados. Além disso, é ressaltada a
capacidade dessa abordagem em realizar o processamento de grandes volumes de dados de
forma automática, reduzir o tempo de análise por parte dos pesquisadores e gerar séries de
dados de qualidade e anotadas por proveniência.
5. Trabalhos Relacionados
Existem abordagens na literatura capazes de tratar grandes volumes de dados meteorológicos e
registrar a proveniência das execuções de workflows para verificar a qualidade destes dados. No
entanto, nenhuma delas utiliza quatro métodos concomitantemente associados com a validação
cruzada. Assim, apresentamos as abordagens mais semelhantes nessa seção.
Oliveira et al. (2010) propuseram um estudo comparativo entre os quatro métodos de
interpolação para preenchimento de falhas cujo desenvolvimento e análise utilizou-se de
planilhas eletrônicas. Os autores usaram dados de apenas seis estações por um período de
apenas 22 anos e constataram que o método PR foi um dos melhores para o estudo de caso
deles. Silva et al. (2014) avaliaram uma técnica de interpolação de dados baseada em imagens
de satélite ao infravermelho em um sistema Web de controle de qualidade em dados de
precipitação. Lemos Filho et al. (2013) desenvolveram um sistema Web de pré-processamento
de dados pluviométricos e uso de proveniência associado ao método de RL para o
preenchimento de falhas. Contudo, ressalta-se que nenhum dos autores citados acima utilizaram
o paradigma dos workflows científicos.
De acordo com Guru et al. (2009) e Plale (2011) a utilização de workflow no ramo da
Hidrologia representa diversas oportunidades de pesquisa. Por exemplo, os autores relatam as
dificuldades relativas a integração e gerenciamento de dados e a necessidade da manutenção de
dados brutos e curados para os estudos comparativos na área da qualidade. Saint e Murphy
(2010) utilizam o sistema Kepler para automatizar o modelo hidrológico SWAT, que avalia o
ciclo das águas em bacias hidrológicas da Austrália, no entanto, os autores não tecem maiores
comentários sobre a etapa de carga e limpeza dos dados. Goodall et al. (2015) desenvolveram o
sistema IRODS baseado em workflows para tratar dados meteorológicos de redes
estadunidenses de operadoras distintas. Segundo os autores, esse esforço é necessário para
assegurar não só a qualidade das pesquisas quanto para assegurar a reprodutibilidade dos
experimentos.
6. Considerações Finais
Realizar o controle de qualidade de dados meteorológico não é uma tarefa trivial. Os dados
brutos e interpolados são utilizados para previsões de tempo e clima e de trabalhos científicos.
Portanto, assegurar sua qualidade, transparência e reprodutibilidade dos processos de produção
de dados é de suma importância para o desenvolvimento de ações associadas ao planejamento
urbano, industrial e agropecuário.
Diferentemente dos trabalhos disponíveis na literatura para a área, foi desenvolvido
uma abordagem baseada em workflows científicos que utiliza validação cruzada baseada em
quatro métodos de preenchimento que permitem aos meteorologistas transformar
sistematicamente grandes volumes de dados inconsistentes em consistentes de qualidade e se
beneficiarem da proveniência incorporada ao processo.
Por limitação de escopo este texto não se discutem as questões ligadas ao desempenho
da abordagem nem as formas de recuperação de dados e de proveniência. Como trabalhos
1062
11º BreSci - Brazilian e-Science Workshop
Agradecimentos
Os autores agradecem ao programa ao Programa de Educação Tutorial, ao FNDE, a Red
BigDSSAgro CYTED e Microsoft Azure Research (CRM:0518152) pelos financiamentos.
Referências
ANA. Orientações para Consistência de Dados Pluviométricos. Disponível em
<http://arquivos.ana.gov.br/infohidrologicas/cadastro/OrientacoesParaConsistenciaDadosPluviometric
os-VersaoJul12.pdf. >. Acesso em 10 de fevereiro de 2017.
Bertoni, J. C.; Tucci, C. E. M. Precipitação. In.: Hidrologia: Ciência e Aplicação, Org. Carlos E. M. Tucci,
2ª ed., Porto Alegre: Ed. Universidade/UFRGS. 2001.
Callahan, S. P.; Freira, J.; Santos, E. et al. VisTrails: Visualization meets Data Management. In: Proc.
SIGMOD 2006, p. 745-747, USA, 2006.
Cardozo, F.; Tomaz, U. R.; Cruz, S. M. S. Avaliando Uma Estratégia Computacional Baseada Em
Workflows Científicos Apoiados Por Placas Gráficas Genéricas. In: ERSI 2016 p. 66-73, Brasil.
Goodall, J. L.; Essawy, B. T.; Xu, H.; Moore, R. W. Data processing workflows to support reproducible
data-drive research in hydrology. AGU Fall Meeting, 2015.
Guru, S. M.; Kearney, M.; Fitch, P.; Peters, C. Challenges in using scientific workflow tools in the
hydrology domain. 18th IMACS, Int. Congress on Modelling and Simulation, Austrália, p. 3514-
3520, 2009.
HidroWeb - Sistema HidroWeb. Disponível em: <http://hidroweb.ana.gov.br>. Acesso em 14 de jan de
2017.
Kohavi, R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. In:
Proc. 14th Int. Joint Conf. on Artificial Intelligence – v. 2. San Francisco, CA, USA, p. 1137-1143,
1995.
Lemos Filho, G. R.; Oliveira, E. S.; Lyra, G. B.; Cruz, S.M.S. Assimilação, Controle de Qualidade e
Análise de Dados de Meteorológicos Apoiados por Proveniência, VII e-Science Workshop, XXXIII
CSBC. 2013.
Marengo, J. A. Mudanças climáticas, condições meteorológicas extremas e eventos climáticos no Brasil,
p. 4-19. In: Marengo, J. A., Schaeffer, R.; Zee, D. M. W.; Pinto, H. S. Mudanças climáticas e eventos
extremos no Brasil. p. 1-76. Fundação Brasileira para o Desenvolvimento Sustentável, FBDS. 2009.
Murphy S.; Saint K.; End-to-End Workflows for Coupled Climate and Hydrological Modeling. In: Int.
Env. Modelling and Software Society. 8 pp. 2010.
Oliveira, L. F. C.; Fioreze, A. P.; Medeiros, A. M. M.; Silva, M. A. S. Comparação de metodologias de
preenchimento de falhas de séries históricas de precipitação pluvial anual. In: Rev. Bras. Eng. Agrícola
e Ambiental, 14(11) 1186-1192. 2010.
Moreau, L.; Missier, P.; Belhajjame, K. et al.. PROV-DM: The PROV Data Model. W3C
Recommendation REC-prov-dm-20130430, 2013.
Plale, B. The Challenges and Opportunities of Workflow Systems in Environmental Research. 2011.
Disponível em: http://citeseerx.ist.psu.edu/viewdoc/versions?doi=10.1.1.298.8237
Silva, F. D. S.; Ramos, R. M.; Costa, R. L.; Azevedo, P. V. Sistema de controle de qualidade para dados
diários de variáveis meteorológicas. Rev. Bras. de Geografia Física, vol, 07, n. 05, 2014.
1063
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The main objective of this work is the evaluation of two nature in-
spired meta-heuristics, Genetic Algorithms and Ant Colony, for the development
of an application that can generate optimized routes for aircraft, attending the
requirements of the Brazilian Navy. This work presents the methods developed,
complying with two main constraints: checkpoints mobility and limited aircraft
autonomy. It also presents the results of tests performed with the methods devel-
oped and an evaluation of their performances.
1. Introduction
In Brazil the sum of the areas of the Exclusive Economic Zone and Continental Shelf is
nearly 4.5 million square kilometers. This territory contains our reserves of oil and natural
gas and all the mineral wealth of the subsoil [Wiesebron 2013]. However, to exercise its
rights, Brazil must be able to exercise its maritime power. This work deals with the
problem of determining the best way to perform reconnaissance operations carried out by
naval force operating in a maritime area. The reconnaissance operations consist in the
search of useful information in a given area in order to guide the use of military means.
These operations are carried out by reconnaissance and attack helicopters carried on board
Navy vessels. The goal is to determine the best route that this rotary-wing aircraft will
do, in order to be able to identify the largest number of targets in a given area.
This problem is similar to the Traveling Salesman Problem (TSP), but has signif-
icant differences from the classical model, as both the point of origin and the destination
points are mobile. Also the “salesman” (in this case the helicopter) has a limit of distance
to travel and the points to be visited (the targets) can have different priority values.
1.1. Related Works
The use of meta-heuristics inspired by nature, in particular Genetic Algorithms (GA)
and Ant Colony Optimization (ACO), to solve NP-hard problems, like the TSP, have
shown good results [Yang et al. 2008, Chatterjee et al. 1996]. For this reason, we chose
to evaluate the use of these two meta-heuristics, GA and ACO, since the problem we are
dealing with is similar to the TSP. After an extensive review of the literature were found
works that make adaptations of these methods for the TSP problem, like [Li et al. 2008]
for ACO and [Hassan et al. 2013] for AG. However, no studies were found that adapt
these methods to the problem adressed in this work.
Based on the problem described, we developed some methods based on GA and
ACO to solve the problem of air reconnaissance of targets. This work proposes the eval-
uation of these meta-heuristics to determine the feasibility of its use to solve the problem
1064
11º BreSci - Brazilian e-Science Workshop
addressed, given the constraints for the problem. The methods developed, its evaluation
and results obtained are presented in Sections 3 and 4.
1065
XXXVII Congresso da Sociedade Brasileira de Computação
targets. The proposed methods and results obtained, applied on the two datasetss C1 and
C2, are presented next.
Functions Proposed for the Ant Colony Optimization
The Exploration Function is responsible for building the route of each ant. In
our proposal, the assembly of the route is always initiated by the target 0 (the mother
ship). The selection of the next steps is performed by a simple roulette method where the
probability of a target to be selected is directly proportional to the amount of pheromone
in the edge between the current target and the candidate target and inversely proportional
to the distance between them:
τ α .δ β
P ij ij β if j ∈ N
α
Pj = k∈N τik .δik (1)
if j ∈
0
/N
where i is the current and j the candidate target; τij the amount of pheromone between i
and j; δij = D1ij and Dij the distance between i and j; N is the set of all targets that have
not been selected yet; α and β are weights defining the importance given to each parcel.
This function is also responsible for invoking our Pheromone Deposit Function and the
Pheromone Evaporation Function functions [Yokoyama 2016]. For Tracks Initialization
Function, all edges are started with the same amount of pheromone (τij = 0.1). Tests
performed at this step using this functions are called ACO.
Functions Proposed for the Optimization Based on Genetic Algorithm
We implemented two functions for Individuals Generation to generate the initial
population. The first, Individuals Generation with equal probability of selection of tar-
gets, generates a random permutation of available targets, without any bias. It is always
initiated by the target 0 (the mother ship). Tests performed at this step that used this func-
tion are called GA. The second is the Individuals generation with a probability of choice
of target proportional to the distance. The creation of the chromosome is always initiated
by the target 0. The selection of the next alleles is performed by a simple roulette method,
where the probability of a target to be chosen is inversely proportional to the distance
between the current target and the candidate target given by the Equation 2.
δ2
P ij 2 if j ∈ N
Pj = k∈N δik (2)
0 if j ∈
/N
where i is the current and j the candidate target; δij = d1ij and dij the distance between i
and j; N is the set of all targets that have not been selected yet. The tests performed using
this function were called GA-2.
The Mutation function implemented for this stage randomly selects any two dif-
ferent alleles of the individual’s chromosome with the exception of the first allele of the
sequence, and swaps their respective positions.
The fitness function evaluates the fitness of each individual of the population. For
this step the fitness is given by a simple equation ( Equation 3 ), since this step focus only
on the impact of the mobility of the targets.
1066
11º BreSci - Brazilian e-Science Workshop
where dmin is the shortest distance observed in the assessed population, dmax a
greater distance observed and di the distance of the i-th individual.
Functions for Crossover and some other functions not presented here are detailed
in [Yokoyama 2016].
Results for datasetss C1 and C2: In Table 1 are related the lowest and highest error
obtained by each method (GA, GA-2 and ACO), the average error obtained in the tests
and the percentage of results above the tolerance of 20% of error, for datasetss C1 and
C2. The best values are shown in bold.
C1 C2
GA GA-2 ACO GA GA-2 ACO
Lower error (%) 0 3.07 0.61 0 0 1.54
Average (%) 12.77 5.49 17.01 15.45 10.80 10.75
Higher error (%) 49.85 28.90 31.41 55.19 31.74 22.59
Errors above 20% 25.4 0.01 25.8 29.7 9.2 0.6
Average runtime 18sec 18sec 1 sec 18sec 18sec 1 sec
Looking at Figure 1 and first columns of Table 1 we can observe the results for
dataset C1. Errors for GA-2 are mainly concentrated in the band of 4% (more than 60%
of occurrences). Although for GA the concentration peaks were similar as in GA-2, the
concentration was much lower, and the results were much more spread over the observed
error bands. For ACO the results were distributed between 10% to 21% ranges.
Figure 1. The combined histograms of the results for the datasetss C1 - Step 1.
In the final columns of Table 1 are presented results for data set C2 1 . For the three
methods, the higher concentration of results are between the error bands of 2% and 20%.
For ACO, the main concentration points are in 10 and 6% of error bands. For GA-2, the
highest concentration of results are in the bands of 2, 5, 6 and 10%. These results are
distributed over a much longer interval than in ACO, ranging from 0% to 31%, implying
1
The graphic is similar to C1, but is not been show by space limitations. The same in step 2. All graphics
are in [Yokoyama 2016].
1067
XXXVII Congresso da Sociedade Brasileira de Computação
in a lower quality of results than ACO. GA obtained the worst overall quality of results,
which are spread over a much longer interval than for other methods (up to range of 55%).
For both datasets, although execution times for GA and GA-2 were considerably
longer (about 18 seconds) than for ACO (one second), the times for the three methods
were considered very good. These times allow, for example, multiple executions of the
methods during the briefing of the mission, or even run the application during the flight
of the aircraft, if it were necessary to draw up a new route. These results point to the
feasibility of the methods proposed and implemented in this step.
C is a constant and dij is the distance of the edge (i, j) traversed by the ant k.
We proposed two versions of the Exploration Function. For both the route con-
struction is done in a similar way to that seen in step 1 and using the same Equation 1. In
the first version, after selecting each target (except for the mother-ship), the total distance
of the route is evaluated. If this distance is greater than the maximum autonomy limit
of the aircraft, the newly selected target is discarded, with only the previously selected
targets remaining, and the route construction process is completed. If the distance is less
than the autonomy limit, the route construction process continues until the limit distance
is exceeded, or all targets are selected. The total distance of the route is considered the
distance to the last selected target plus the return distance to the mother ship. During the
construction of the route, the pheromone deposit is also carried out at the edge between
the previously selected target and the newly selected target by means of the Pheromone
Deposition Function. At the end of route construction, if it has at least one valid target
(other than 0), it is stored until the total number of routes defined for each iteration. This
number is equal to the number of targets in the dataset. Then the evaluation function is
applied to the generated route set. After the evaluation of the routes the Pheromone Evap-
oration Function is applied on all the edges. This process is repeated at each iteration.
The tests with this version of the Exploration Function are called ACO.
1068
11º BreSci - Brazilian e-Science Workshop
In the second version of the Exploration Function, the check is not performed if
the route is still valid after insertion of each new target, as in the first version. As in step 1,
new targets are added to the route until all targets in the data set have been added. After the
route has been built, with all the available targets, the evaluation process begins. This is
an iterative process where the first iteration consists of evaluating the total distance of the
route with all steps. For each new iteration, the step number is decreased by 1, ignoring
the steps at the end of the route. This process continues until the only remaining target is
“0”. At each iteration, if the total distance of the route to the last evaluated target exceeds
the autonomy limit of the aircraft, this route target is replaced by ”0”. However, if the
total distance is less than or equal to the autonomy, the pheromone deposition function is
applied over the edges to the last target evaluated in the iteration. In this way, the invalid
portion of the route is deleted and the valid part is enforced. At the end of this process
the route is stored and the process of creating a new route is started. This process is
repeated until the number of routes stored is equal to the total number of targets as in the
first version quoted above. Pheromone Evaluation and Evaporation Functions are then
applied. This process is repeated at each iteration until it reaches the maximum number
of iterations. Tests with this version of the Exploration Function are called ACO-2.
For the Evaluation Function, unlike step 1, the evaluation is made based on route
distance and the number of enlightened targets in the route. So, that the greater the number
of targets the better the route, given by Equation 5.
s
i
fi = ((lsmin + lsmax ) − lsi ) ∗ (5)
S
where lsi is the average step-distance of the i-th route defined by lsi = slii ; lsmin is the
lowest value of lsi and lsmax is the largest value of lsi in the evaluated route set; li is the
total distance of the i-th route; si is the number of targets of the ith route; S is the total
number of targets in the input data set.
New functions for the Optimization Based on Genetic Algorithm:
Due to the fact that the parents individuals in this step can have different amounts
of targets, the Crossover Function need some adaptations. For Fitness Function, the
fitness (defined by Equation 5) is given by the distance of the route represented by each
individual and the number of enlightened targets, so that the shorter the route and the
greater the number of targets, the better the fitness.
The Mutation function implemented is similar to the one used in step 1 with two
alleles are selected to be swapped, but with the first one being selected from the alleles of
the individual on which the function is being applied, and then a set of candidate alleles
is created. This candidate set includes all targets of the input data set except for target
0 and target represented by the first allele selected for mutation. The second allele is
selected from the set of candidates, if this allele is part of the sequence of the individual,
the position of the two alleles are swapped. Otherwise, the first allele is replaced by
the second allele. In this way it is ensured that no element in the sequence is repeated
and also allows elements that were not part of the initial sequence to be included. This
function also randomly decides if the mutation operation will occur or not, it may even
occur multiple times.
The functions for Individuals Generation, Selection and Evolutions are presented
at [Yokoyama 2016].
1069
XXXVII Congresso da Sociedade Brasileira de Computação
In the graph of Figure 2 are presented the results for dataset C1. It can be seen
that ACO-2 had the concentration point in the range of 0% of error (98.9% of the results),
presenting the best overall quality of the results. It is followed by ACO, with 95.6% and
GA-2 with 32.3% and GA with 13.8% of the results in the range of 0% of error.
The results for dataset C2 are similar to C1. ACO and ACO-2 have a superiority
of the overall quality of the solutions, with respectively, 98.4% and 98.2% of the results
in the range 0% error and for both, the error did not exceed 6%. Although the GA-2
obtained a good amount of results in the 0% error range (66% of the results), the results
were spread over larger range of errors, reaching 23% of error. Thus, presenting a general
quality lower than ACO and ACO-2, but still being considered good. The GA obtained a
small amount of results in the 0% error range, with a considerable peak in the 15% error
range, resulting in a very low overall quality.
1070
11º BreSci - Brazilian e-Science Workshop
For both, C1 and C2 (Table 2), the execution times was on average 1 second for
ACO and ACO-2 and approximately 5 seconds for GA and GA-2. In general, these times
were considered very good for the four methods, allowing for example, multiple execution
of the methods during the mission briefing, or even to execute the application in-flight if
a new route is required.
Finally, with the results presented in this section, we observed that the methods
based on ACO (ACO and ACO2) have the best performance for all tests. In addition,
they presented greater stability in the results and also the lower maximum error value
observed for each dataset, as well as the shorter execution times. So, these methods could
be indicated to be used in the problem analyzed in this work.
5. Conclusion
Analyzing the results obtained with the two meta-heuristics, we could conclude that the
methods proposed and implemented are good approaches to solve the problem of air re-
connaissance of targets. Although both heuristics presented satisfactory results, the use
of the methods based on ant colony optimization are the most suitable for the problem
addressed in this work. Not only the ACO presented the best overall results but also the
best time to solution. However, it is important to note that, although this meta-heuristic
has been used quite successfully for optimizing solutions to combinatorial problems, they
tend to suffer with “traps” of local optimum depending on the size of the problems. In
addition, the time of execution tends to increase due to the size of the problem. The ex-
periments performed in this work were based on 20 targets, but preliminary tests support
the analysis presented here for up to 60 targets.
As future works are considered to adapt the methods developed in this work to
include three new restrictions (importance, obligatory identification and prioritization of
targets) and the optimization of the algorithm through the use of distributed computing.
References
Chatterjee, S., Carrera, C., and Lynch, L. (1996). Genetic algorithms and traveling sales-
man problems. European Journal of Operational Research, 93(3):490–510.
Hassan, M. R., Hasan, M. K., and Hashem, M. M. A. (2013). An improved acs algorithm
for the solutions of larger tsp problems. CoRR, abs/1304.3763.
Li, B., Wang, L., and Song, W. (2008). Ant colony optimization for the ts problem based
on ants with memory. In 4th International Conference on Natural Computation. IEEE.
Wiesebron, M. (2013). Amazônia azul: Pensando a defesa do territorio marı́timo
brasileiro. Rev. Brasileira de Estratégia e Relações Internacionais, 2(3):107 – 131.
Yang, J., Shi, X., Marchese, M., and Liang, Y. (2008). An ant colony optimization method
for generalized tsp problem. Progress in Natural Science, 18(11):1417 – 1422.
Yokoyama, A. M. (2016). Avaliação do uso de meta-heurı́sticas baseadas no com-
portamento da natureza em apoio a operações de esclarecimento por aeronaves
de asa móvel. Master’s thesis, Laboratório Nacional de Computaccão Cientı́fica.
http://comcidis.lncc.br/downloads/dissertacao/mestrado/
tIw2DDb3WqS.pdf.
1071
XXXVII Congresso da Sociedade Brasileira de Computação
1
Institute of Computing, Universidade Estadual de Campinas (UNICAMP)
Campinas - São Paulo - Brazil
2
Institute of Biology, Universidade Estadual de Campinas (UNICAMP)
Campinas - São Paulo - Brazil
leandrotacioli@gmail.com, toledolf2@yahoo.com, cmbm@ic.unicamp.br
1. Introduction
Audio recognition systems have been developed to several domains, such as
automatic speech recognition [Yu and Deng 2015], music information retrieval
[Grosche et al. 2012], and bioacoustics [Aide et al. 2013] - subject of this work. The
study of bioacoustics is related to every sound produced by or affecting all kinds
of living organisms, although it is a science oriented to animal communication
[Schöner et al. 2016]. The vast majority of researchers in this field are specialized in
few or only one animal group, hence most of the recognition tools in bioacoustics are
designed to meet the needs of the experts in question [Aide et al. 2013]. Algorithms have
been created or applied to automate identification of target animal groups, for instance,
amphibians [Noda et al. 2016] and birds [Stowell and Plumbley 2014].
Animal identification through their sounds allows, for example, the estimation
of population trends of key species in sensitive areas [Bardeli et al. 2010] or provides
changes in ecological communities over time [Frommolt and Tauchert 2014]. One advan-
tage of bioacoustics lies in the detection of animal sounds in the absence of an observer
[Bardeli et al. 2010]. Moreover, it is a popular non-invasive method to study animal pop-
ulations, biodiversity, and taxonomy [Frommolt and Tauchert 2014, Köhler et al. 2017].
Primary challenges during the development of sound retrieval systems are the
identification of effective audio features and classification techniques. Feature extraction
focuses on extracting meaningful information from audio signals, while classification use
these extracted data to match against the respective data of samples from a repository.
A major concern in audio recognition systems is how feature extraction is coupled to
the classification algorithms, preventing the reuse of code in other contexts and limiting
1072
11º BreSci - Brazilian e-Science Workshop
the ability of researchers to exchange features [McEnnis et al. 2005]. Furthermore, re-
searchers demand architectures that allows them to implement new algorithms without
major concerns with supporting infrastructure for data manipulation and scheme evalua-
tion [Hall et al. 2009].
Given this motivating and challenging scenario, the main contribution of this pa-
per is a novel architecture that supports multiple feature extraction and classification al-
gorithms to identify animals based on their sounds. The architecture is extensible and
can accommodate a number of new algorithms. It has been implemented in the WASIS1
software, also described in this paper.
2. Related Work
2.1. Audio Features
Audio features represent the way in which meaningful information is analyzed and ex-
tracted from audio signals to obtain highly reduced and expressive data that are suitable
for computer processing [Schuller 2013]. Note that the amount of data in raw audio files
would be too big for their direct processing; moreover, considerable information (e.g.,
frequency variation and timbre) would not be perceptible in their signal waveforms, often
inappropriate for audio retrieval [Mitrovic et al. 2010].
The feature extraction process generates output vectors that are normally called
feature descriptors. These feature descriptors are the fundamental information that clas-
sifiers use. A failure to capture these relevant information of audio signals will result in
poor performance, no matter how good the classifier is [McEnnis et al. 2005].
The performance of audio features may be affected by a series of factors in ani-
mal identification systems, such as the presence of background noise and the duration of
animal calls [Xie et al. 2016]. Feature fusion is a technique that is able to combine two or
more audio features and attenuate their disadvantages, as reported by [Noda et al. 2016].
1073
XXXVII Congresso da Sociedade Brasileira de Computação
3. Proposed Architecture
This work is focused on a novel architecture to support the identification of animal species
based on their sounds. This architecture combines multiple algorithms for audio feature
extraction and audio classification to a suite of data repositories. The WASIS software is
the first implementation of the proposed architecture - described in Section 4.
3.1. Overview
Figure 1 presents an overview of our architecture. The inputs are Audio Files, in which
users select Audio Segments - also known as regions of interest (ROIs). These ROIs are
forwarded to the Feature Extraction module (1). Several feature extraction techniques can
be performed for each audio segment, as well as the Fusion among these feature repre-
sentations (2). The results of this extraction process (3a; 3b) are the Feature Descriptors.
1074
11º BreSci - Brazilian e-Science Workshop
The Data Repositories component represents all the different repositories cre-
ated/accessed in the architecture. In particular, Descriptors and Species Models (bottom
circles of the figure) belong within the general Data Repositories - detailed in Section 3.2.
The Feature Descriptors can be either stored into the appropriate data repository
with the associated metadata of their audio files (4) or sent directly to the Classification
& Ranking module (5). The first choice (4) is more suitable for users who want to create
their own database for future identification. The second choice (5) is more appropriate for
those who just want to identify the animal species from the sound samples.
The Classification & Ranking module classifies the input ROIs. It receives Feature
Descriptors as inputs (5). For the Brute Force approach, the Brute Force Comparison
module calculates the similarities among the Feature Descriptors (6) and the descriptors
of audio segments previously stored in their appropriate repository (7). In the Class Model
approach, an Audio Model is created from the Feature Descriptors based on a machine
learning algorithm (8). Then, the Class Model Prediction module estimates the similarity
degrees among the Audio Model (9) and the Species Models stored in their repository (10).
Note that both Brute Force and Class Model approaches are processed totally
apart. There is no combination of their results, though both kinds of results are inde-
pendently ranked by the Rank of Matching Species (11). The final output shows a ranked
list of matching species (12).
1075
XXXVII Congresso da Sociedade Brasileira de Computação
• Metadata - Information used to identify, describe and organize the audio files. In
animal sound recognition, the most important information is scientific classifica-
tion, followed by recording location, date and time;
• Descriptors - The outputs of the Feature Extraction module;
• Species Models - Particularly used in machine learning-based classifiers, models
of animal species are trained from their respective feature descriptors to predict
whether an audio segment belongs to a specific species.
The Database Middleware provides a bridge between the modules of the architec-
ture and the data repositories. This access granted by the Database Middleware allows
the modules of the architecture to retrieve or persist information into the data repositories
for any desired module. Moreover, if new feature extraction techniques are implemented,
the Feature Extraction module is able to process the audio files and their ROIs already
stored in the data repository and generate its own Descriptors. The same goes for newly
implemented classifiers that can invoke the Class Model Builder module to generate their
own Species Models.
The Class Model Builder sets up two datasets with the metadata and features de-
scriptors. The Training Set is responsible for providing feature descriptors to the machine
learning algorithm that will create the Species Models. Using different data from those
used by the Training Set, the Testing Set is set up for the purpose of estimating how well
the models were trained and optimize the parameters of the models. Lastly, the final task
of the Class Model Builder is persisting the trained and optimized Species Models to the
appropriate data repository.
1076
11º BreSci - Brazilian e-Science Workshop
4. Implementation Aspects
The first prototype developed, WASIS, is based on Power Spectrum feature representation
and Pearson Correlation Coefficient, restricting the present prototype to the Brute Force
classification approach. Power Spectrum describes the distribution of audio signal’s max-
imum power over given frequency bins. Pearson Correlation Coefficient is a measure of
the strength of the association between two variables.
The prototype was implemented in Java platform, using MySQL and H2 database
technologies. Currently, the sound database contains sound samples from amphibians,
birds, and primates. Such samples were selected from Fonoteca Neotropical Jacques
Vielliard (FNJV)2 , considered one of the ten largest animal sound libraries in the world.
At present, additional features extraction algorithms are being implemented, such
as Mel Frequency Cepstral Coefficents (MFCC), Linear Predictive Coding (LPC), Lin-
ear Prediction Cepstral Coefficients (LPCC) and Perceptual Linear Predictive (PLP), as
well as the fusion among these feature representations. In addition, machine learning
algorithms for the Class Model approach are being implemented to perform audio classi-
fication, such as Hidden Markov Model (HMM) and Support Vector Machine (SVM).
1077
XXXVII Congresso da Sociedade Brasileira de Computação
data contained in the Descriptors repository using the Brute Force approach. A ranked
list of matching species is returned. The higher the correlation coefficient between two
audio segments, the higher the probability of a species being classified correctly. In this
example, the prototype indicates that the audio segment selected by the scientist belongs
to a Smooth-billed Ani (Crotophaga ani).
Figure 5. (A) shows the screen for audio comparison with its results, while (B)
shows the data of the scientist segment (magenta) against the data of a sample
from the Descriptors repository (blue).
The prototype also provides detailed information about the audio comparison.
Figure 5B illustrates a visual comparison between audio segments, providing more in-
formation about the features extracted. The Power Spectrum feature extraction employed
in the prototype shows the signal’s maximum power (vertical axis) over the frequency
bins (horizontal axis).
6. Acknowledgements
Work partially financed by CNPq (132849/2015-1; 300896/2016-6; 305110/2016-0),
FAPESP (2013/02219-0), FAPESP CCES (2013/08293-7), CNPq/INCT in Web Science
(557128/2009-9) and FAPESP-PRONEX (eScience project).
1078
11º BreSci - Brazilian e-Science Workshop
References
Aide, T. M., Corrada-Bravo, C., Campos-Cerqueira, M., Milan, C., Vega, G., and Alvarez,
R. (2013). Real-time bioacoustics monitoring and automated species identification.
PeerJ, 1:e103.
Bardeli, R., Wolff, D., Kurth, F., Koch, M., Tauchert, K.-H., and Frommolt, K.-H. (2010).
Detecting bird sounds in a complex acoustic environment and application to bioacous-
tic monitoring. Pattern Recognition Letters, 31:1524–1534.
Frommolt, K.-H. and Tauchert, K.-H. (2014). Applying bioacoustic methods for long-
term monitoring of a nocturnal wetland bird. Ecological Informatics, 21:4–12.
Grosche, P., Müller, M., and Serrà, J. (2012). Audio content-based music retrieval. In
Multimodal Music Processing, pages 157–174. Schloss Dagstuhl–Leibniz-Zentrum
fuer Informatik.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009).
The WEKA data mining software: An update. ACM SIGKDD Explorations Newsletter,
11:10–18.
Köhler, J., Jansen, M., Rodrı́guez, A., Kok, P. J. R., Toledo, L. F., Emmrich, M., Glaw,
F., Haddad, C. F. B., Rödel, M.-O., and Vences, M. (2017). The use of bioacous-
tics in anuran taxonomy: theory, terminology, methods and recommendations for best
practice. Zootaxa, 4251(1):1–124.
Liu, M. and Wan, C. (2001). A study on content-based classification and retrieval of audio
database. In International Symposium on Database Engineering and Applications.
McEnnis, D., Mckay, C., Fujinaga, I., and Depalle, P. (2005). jAudio: A feature extraction
library. In International Conference on Music Information Retrieval.
Mitrovic, D., Zeppelzauer, M., and Breiteneder, C. (2010). Features for content-based
audio retrieval. Advances in Computers, 78:71–150.
Noda, J. J., Travieso, C. M., and Sánchez-Rodrı́guez, D. (2016). Methodology for au-
tomatic bioacoustic classification of anurans based on feature fusion. Expert Systems
With Applications, 50:100–106.
Schöner, M. G., Simon, R., and Schöner, C. R. (2016). Acoustic communication in
plant–animal interactions. Current Opinion in Plant Biology, 32:88–95.
Schuller, B. (2013). Audio features. In Intelligent Audio Analysis, pages 41–97. Springer
Berlin Heidelberg.
Sharan, R. V. and Moir, T. J. (2016). An overview of applications and advancements in
automatic sound recognition. Neurocomputing, 200:22–34.
Stowell, D. and Plumbley, M. D. (2014). Automatic large-scale classifcation of bird
sounds is strongly improved by unsupervised feature learning. PeerJ, 2:e488.
Xie, J., Towsey, M., Zhang, J., and Roe, P. (2016). Acoustic classification of Australian
frogs based on enhanced features and machine learning algorithms. Applied Acoustics,
113:193–201.
Yu, D. and Deng, L. (2015). Automatic Speech Recognition: A Deep Learning Approach.
Springer-Verlag London.
1079
XXXVII Congresso da Sociedade Brasileira de Computação
1080
11º BreSci - Brazilian e-Science Workshop
1081
XXXVII Congresso da Sociedade Brasileira de Computação
1082
11º BreSci - Brazilian e-Science Workshop
1083
XXXVII Congresso da Sociedade Brasileira de Computação
1084
11º BreSci - Brazilian e-Science Workshop
1085
XXXVII Congresso da Sociedade Brasileira de Computação
1086
11º BreSci - Brazilian e-Science Workshop
1087
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A atividade tı́pica de um Cientista de Dados envolve a implementação de diversos proces-
sos que caracterizam experimentos de análise de dados. Tais experimentos dão origem a
1088
11º BreSci - Brazilian e-Science Workshop
2. Workflows Datacêntricos
Um workflow geralmente se refere ao processo de execução tanto de tarefas automati-
zadas, quanto manuais (com interação humana), integradas num mesmo fluxo, o qual
tem por objetivo a produção de um determinado resultado [Van Der Aalst et al., 2003].
Em função da complexidade de tal execução, torna-se necessário gerenciá-la por meio
de SGW. Os SGWs necessitam de linguagens de especificação de workflows, as quais
1089
XXXVII Congresso da Sociedade Brasileira de Computação
podem ser: (i) gráficas (normalmente associadas a grafos ou redes de Petri); (ii) baseadas
em XML (XPDL etc); ou (iii) baseadas linguagens de especificação próprias plain-text
[Deelman et al., 2009]. Em uma visão mais datacêntrica, um workflow é composto de ati-
vidades onde cada uma delas é um componente de software capaz de executar programas
considerando parâmetros de entrada e de saı́da [Ogasawara et al., 2011]. Tais parâmetros
são usados para definir as dependências entre as atividades de um workflow.
Diversos cenários de análise de dados podem ser modelados como grafos acı́clicos
direcionados (DAG). Em particular, também, são muito comuns problemas que recaem
em varredura de parâmetros, i.e., as análises devem ser executadas com vários conjun-
tos de parâmetros diferentes para que se possa escolher o melhor resultado. Isso vem da
caracterı́stica empı́rica dos experimentos cientı́ficos in-silico. Por exemplo, num experi-
mento de mineração de dados, para treinar modelos de classificação é necessário execu-
tar vários algorı́timos diferentes com vários parâmetros diferentes para encontrar o mo-
delo que apresenta melhor comportamento para um dado problema especı́fico. Desta
forma, mecanismos que otimizem a produção e consumo de resultados intermediários e
otimize quais atividades devem ser executadas antes e quais delas devem ser executadas
de modo agrupado (pipeline) passam a ser muito relevantes. As abordagens algébricas
[Jergler et al., 2015; Rheinländer et al., 2015; Ogasawara et al., 2011] procuram otimizar
a execução dos workflows, levando-se em consideração o contexto de execução, os dados
com os seus respectivos metadados e as informações de proveniência.
1090
11º BreSci - Brazilian e-Science Workshop
1091
XXXVII Congresso da Sociedade Brasileira de Computação
5. Discussão
Para fins de discussão, esta seção apresenta um workflow de ETL voltado a análise de
séries espaço-temporais aplicada em problema de mobilidade urbana. O ETL faz a
importação, limpeza e transformações nos dados obtidos de GPS dos ônibus do Rio de
Janeiro coletados a cada minuto. Estes dados são fornecidos pela prefeitura da cidade. O
perı́odo de análise engloba a Copa do Mundo de 2014 que aconteceu entre 12 de junho a
13 de julho. O intervalo de análise começa em 01/06/2017 e termina em 31/07/2014.
A álgebra de workflows [Ogasawara et al., 2011] descreve seis operadores
algébricos. No contexto do Wf F , optou-se por simplificar e fazer uso apenas de cinco
deles: Map, SplitMap, Reduce, Filter e JoinQuery. Este último é chamado apenas por
Query visando uma integração mais estreita com SparkSQL [Armbrust et al., 2015].
A Figura 2.a ilustra a especificação do workflow usando a linguagem Scala. Neste
1092
11º BreSci - Brazilian e-Science Workshop
ETL de exemplo, o workflow faz uso apenas de três operadores: (i) SplitM ap, (ii) M ap,
(iii) Query. No SplitM ap, representado por T ← SplitM ap(Y, R, a), tem-se que a ati-
vidade Y produz um conjunto de tuplas na relação de saı́da T para cada tupla consumida
na relação de entrada R. O conjunto de atributos a identifica as composições das tuplas
produzidas na operação de split. Na linha 6 do exemplo, para o intervalo estabelecido na
relação trajectory, são criadas 61 tuplas para coleta dos dados de mobilidade dos ônibus
correspondente a cada dia do perı́odo de 1 de junho de 2014 a 31 de julho de 2014.
As operações envolvendo M ap, seguem a notação T ← M ap(Y, R), onde a ati-
vidade Y produz uma única tupla na relação de saı́da T para cada tupla consumida na
relação de entrada R. Isto ocorre nas linhas de 7 a 10 e na linha 12 do workflow. Na linha
7, para cada dia, faz-se o download efetivo dos dados de trajetória dos ônibus. Trata-se
de um arquivo zip contendo um arquivo JSON por minuto. Em cada JSON, tem-se a
localização de todos os ônibus em transito no Rio de Janeiro. Na linha 8, cada arquivo zip
é processado e produz-se um arquivo RData com as observações minuto a minuto de to-
dos os ônibus para aquele dia. Esta atividade remove os registros duplicados. Na linha 9,
faz-se uma remoção de outliers por distribuição (velocidade instantânea, posicionamento
e distância percorrida). A linha 10 produz as estações virtuais, considerando-se um raio
para agrupamentos dos pontos de ônibus, a partir da malha de pontos de ônibus da cidade
do Rio de Janeiro [Silva et al., 2016].
trajectory st_aggreg_config
1 generate_download_info.py 3 create_virtual_stations.R
2 download.py
2 generateRData.R
2 remove_outliers.R
4 cross-product
5 st_aggregation.R
St_dataset
(a) (b)
1093
XXXVII Congresso da Sociedade Brasileira de Computação
6. Considerações finais
1094
11º BreSci - Brazilian e-Science Workshop
Referências
Armbrust, M., Xin, R. S., Lian, C., Huai, Y., Liu, D., Bradley, J. K., Meng, X., Kaftan, T.,
Franklin, M. J., Ghodsi, A., et al. (2015). Spark sql: Relational data processing in spark.
In Proceedings of the 2015 ACM SIGMOD International Conference on Management
of Data, pages 1383–1394. ACM.
CRAN (2017). The comprehensive r archive network. Technical report, https://cran.r-
project.org.
Deelman, E., Gannon, D., Shields, M., and Taylor, I. (2009). Workflows and e-Science:
An overview of workflow system features and capabilities. Future Generation Compu-
ter Systems, 25(5):528–540.
Fayad, M. and Schmidt, D. C. (1997). Object-oriented application frameworks. Commu-
nications of the ACM, 40(10):32–38.
Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computational
tasks: A survey. Computing in Science & Engineering, 10(3):11–21.
Jergler, M., Sadoghi, M., and Jacobsen, H.-A. (2015). D2worm: A Management In-
frastructure for Distributed Data-centric Workflows. In Proceedings of the 2015 ACM
SIGMOD International Conference on Management of Data, pages 1427–1432, New
York, NY, USA. ACM.
Liu, J., Pacitti, E., Valduriez, P., and Mattoso, M. (2015). A Survey of Data-Intensive
Scientific Workflow Management. Journal of Grid Computing, 13(4):457–493.
Ogasawara, E., Dias, J., Oliveira, D., Porto, F., Valduriez, P., and Mattoso, M. (2011). An
algebraic approach for data-centric scientific workflows. Proc. of VLDB Endowment,
4(12):1328–1339.
Ogasawara, E., Dias, J., Silva, V., Chirigati, F., de Oliveira, D., Porto, F., Valduriez, P.,
and Mattoso, M. (2013). Chiron: a parallel engine for algebraic scientific workflows.
Concurrency and Computation: Practice and Experience, 25(16):2327–2341. 00042.
Rheinländer, A., Heise, A., Hueske, F., Leser, U., and Naumann, F. (2015). SOFA: An
extensible logical optimizer for UDF-heavy data flows. Information Systems, 52:96–
125.
Salloum, S., Dautov, R., Chen, X., Peng, P. X., and Huang, J. Z. (2016). Big data analytics
on apache spark. International Journal of Data Science and Analytics, pages 1–20.
SciPy (2017). Python-based ecosystem of open-source software for mathematics, science,
and engineering. Technical report, https://www.scipy.org.
Silva, A. B., Porto, F., and Ogasawara, E. (2016). Identificação de Motifs em Agregações
de Séries Espaço-Temporais de Mobilidade Urbana. In WTDBD, Salvador, BA.
Simmhan, Y. L., Plale, B., and Gannon, D. (2005). A survey of data provenance in e-
science. ACM Sigmod Record, 34(3):31–36.
Van Der Aalst, W. M., Ter Hofstede, A. H., and Weske, M. (2003). Business process
management: A survey. In International conference on business process management,
pages 1–12. Springer.
Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M. J.,
Shenker, S., and Stoica, I. (2012). Resilient distributed datasets: A fault-tolerant abs-
traction for in-memory cluster computing. In Proceedings of the 9th USENIX confe-
rence on Networked Systems Design and Implementation, pages 2–2.
1095
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O Brasil detém uma vasta área marinha, denominada como a Amazônia Azul1, onde
habitam organismos de ocorrência restrita ao Brasil. Muitos destes organismos ainda
não são conhecidos, e são uma fonte potencial para a descoberta de novas informações
sobre genes, relativos aos organismos marinhos presentes na área, que podem levar ao
desenvolvimento de novas drogas ou biomarcadores (Andrade et al. 2017). Nesse
1
https://www.marinha.mil.br/content/amazonia-azul-0
1096
11º BreSci - Brazilian e-Science Workshop
2
http://biotecmar.com.br
1097
XXXVII Congresso da Sociedade Brasileira de Computação
ambientes de PAD, assim como possibilitar as análises dos resultados obtidos por meio
de consultas. O BioSciCumulus é voltado para atender aos requisitos, levantados em
Gesing et al. (2017), de modelagem de workflows científicos por meio de recursos
gráficos, de monitoramento da execução de workflows, de apoio à gerência da
infraestrutura computacional em ambientes de PAD e de análise de dados científicos.
Este portal adota o SciCumulus (Oliveira et al. 2010) como seu SWC com capacidade
de PAD. Apesar de o SciCumulus permitir consultas ad-hoc ao longo da execução do
workflow, a interface textual disponível dificulta essa interação por parte de um usuário
não familiarizado com computação, em especial na definição de workflows e consultas.
Além de prover a possibilidade de usuários executarem as consultas específicas para o
seu experimento, o BioSciCumulus também auxilia os usuários a definir a consulta e
analisar seu resultado, sem precisar conhecer a sintaxe de uma linguagem de consultas.
Do ponto de vista de aplicações, o BioSciCumulus foi instanciado para o domínio da
biologia marinha computacional propiciando a execução e a análise dos workflows
SciPhy (Ocaña et al. 2011b), SciEvol (Ocaña et al. 2012), SciHmm (Ocaña et al. 2011a)
e SciMG (Benza et al. 2015), sendo esses importantes no contexto da rede BiotecMar.
Este artigo está organizado em três seções, além dessa introdução. A Seção 2
discute os trabalhos relacionados. A Seção 3 apresenta o portal BioSciCumulus
mostrando a submissão de workflows e a análise de dados ao utilizar experimentos de
biologia marinha computacional. Finalmente, a Seção 4 conclui este artigo.
2. Trabalhos Relacionados
Existem diversos trabalhos na literatura que propõem portais para apoiar a modelagem
de workflows científicos e a análise de dados (Abouelhoda et al. 2012, Gesing et al.
2017, McLennan et al. 2015, Nguyen et al. 2015). O HubZero (McLennan et al. 2015)
agrupa no portal um conjunto de comandos que interagem com o SWC Pegasus para
definir a estrutura do workflow a ser executado, gerar um plano de execução do
workflow e, inclusive, monitorar a execução em ambientes de PAD. No que diz respeito
à análise de dados, o HubZero permite processar somente consultas após o término do
workflow, impossibilitando assim a análise em tempo de execução. Os demais portais,
incluindo a cobertura feita em Gesing et al. (2017), possuem consultas predefinidas,
sem a especificação de parâmetros para o acesso aos dados de domínio.
O Tavaxy (Abouelhoda et al. 2012) é um portal voltado ao domínio da
bioinformática, que permite a submissão de workflows científicos nos SWC Taverna e
Galaxy. O Tavaxy é capaz de gerenciar chamadas remotas de aplicações por meio de
serviços Web (utilizando o Taverna) e chamadas em infraestruturas locais (utilizando o
Galaxy). Entretanto, o Tavaxy permite apenas consultas fixas, que consideram alguns
valores de atributos em um mesmo conjunto de dados, ou baseadas em análises globais,
como o tempo de execução do workflow. O portal WorkWays (Nguyen et al. 2015) é
um portal semelhante ao Tavaxy, sendo que ele apoia intervenções em tempo de
execução, não é específico a um domínio e é baseado no SWC Kepler.
Diferentemente, o FireWorks (Jain et al. 2015) e o OpenMOLE (Reuillon et al.
2013) correspondem a portais que apoiam a gerência de workflows científicos com a
captura de dados de proveniência, favorecendo análises baseadas nos rastros de
proveniência gerados a partir da execução de experimentos científicos. Além disso,
semelhante ao WorkWays, tais portais apoiam intervenções durante a execução de
1098
11º BreSci - Brazilian e-Science Workshop
3. Portal BioSciCumulus
Para apoiar a submissão e a análise de workflows científicos no domínio de biologia
marinha, o Portal BioSciCumulus, baseado no SWC SciCumulus (Oliveira et al. 2010) e
nas suas extensões (Silva et al. 2014), segue a arquitetura apresentada na Figura 1, que
consiste em quatro componentes (representados em retângulos azul-escuros): Interface
Gráfica, Configuração de Workflows, Submissão de Workflows e Processamento de
Consultas. O componente Interface Gráfica consiste em uma aplicação Java Web com
Servlet, que recebe e processa requisições nos componentes de configuração e
submissão workflows, assim como no de processamento de consultas. Para o
desenvolvimento das páginas Web, utilizou-se a tecnologia JSP (Java Server Pages),
além de arquivos no formato HTML, CSS e JavaScript.
1099
XXXVII Congresso da Sociedade Brasileira de Computação
1100
11º BreSci - Brazilian e-Science Workshop
submetida ao portal, para que ela seja executada sobre a base de dados cadastrada no
portal, e o resultado é apresentado junto à descrição textual da consulta (Figura 4). No
caso da utilização de outros SWC, um cliente é criado para se comunicar com o sistema
de banco de dados do SWC, para que o portal seja usado com a mesma interface de
submissão de consultas.
1101
XXXVII Congresso da Sociedade Brasileira de Computação
4. Conclusão
Os workflows científicos no cenário de Biologia Marinha computacional auxiliam os
usuários em seus trabalhos diários de execução e análise de dados, desde o
sequenciamento, anotação e análise de genes/genomas até filogenia e redes metabólicas.
Apesar de representarem um avanço, os SWC existentes ainda oferecem apoio limitado
no que tange à análise dos dados para não-especialistas em computação. Portais
científicos possuem recursos mais voltados ao usuário não especialista, mas por serem
muito genéricos, também possuem apoio limitado para consultas a dados em domínios
específicos. Este artigo apresentou o Portal BioSciCumulus com uma instanciação no
domínio da rede de pesquisas BiotecMar. A modelagem do domínio e execução via
BioSciCumulus possibilitou a submissão de workflows científicos de uma forma mais
simples em ambientes de PAD como clusters e nuvens e facilitou o monitoramento e
análise da execução de workflows, com consultas sobre os dados de proveniência e de
domínio. Uma vantagem do BioSciCumulus em comparação com as abordagens
existentes é que ele não fixa as possíveis consultas, sendo um ambiente configurável por
parte do usuário. Como trabalhos futuros, pretende-se proporcionar um mecanismo de
geração automática de consultas em SQL, durante a fase de análise, de acordo com
restrições especificadas pelo usuário de uma forma gráfica e sua incorporação a outros
SWC, assim como a instalação e a configuração desta solução no portal da Rede
Nacional de Bioinformática (http://bioinfo.lncc.br) alocado ao Sistema Nacional de
Processamento de Alto Desempenho (https://www.lncc.br/sinapad) no LNCC.
Agradecimentos. Os autores gostariam de agradecer ao CNPq, Capes e FAPERJ pelo
financiamento parcial deste trabalho.
Referências Bibliográficas
Abouelhoda, M., Issa, S., Ghanem, M., (2012), "Tavaxy: Integrating Taverna and Galaxy
workflows with cloud computing support", BMC Bioinformatics, v. 13, p. 77.
Andrade, A. C., Fróes, A., Lopes, F. Á. C., Thompson, F. L., Krüger, R. H., Dinsdale, E., Bruce,
T., (2017), "Diversity of Microbial Carbohydrate-Active enZYmes (CAZYmes) Associated
with Freshwater and Soil Samples from Caatinga Biome", Microbial Ecology (Jan.)
1102
11º BreSci - Brazilian e-Science Workshop
Benza, S., Ocaña, K., Silva, V., Oliveira, D., Mattoso, M., (2015), "Modelling Data-intensive
Metagenomics Experiments Using Scientific Workflows". In: X-Meeting 2015 - 11th
International Conference of the AB3C + Brazilian Symposium of Bioinformatics, São Paulo.
Davidson, S. B., Freire, J., (2008), "Provenance and scientific workflows: challenges and
opportunities". In: ACM SIGMOD, p. 1345–1350, Vancouver, Canada.
Gesing, S., Dooley, R., Pierce, M., Krüger, J., Grunzke, R., Herres-Pawlis, S., Hoffmann, A.,
(2017), "Gathering requirements for advancing simulations in HPC infrastructures via
science gateways", Future Generation Computer Systems (Mar.)
Jagadish, H. V., Chapman, A., Elkiss, A., Jayapandian, M., Li, Y., Nandi, A., Yu, C., (2007),
"Making database systems usable". , p. 13
Jain, A., Ong, S. P., Chen, W., Medasani, B., Qu, X., Kocher, M., Brafman, M., Petretto, G.,
Rignanese, G.-M., et al., (2015), "FireWorks: a dynamic workflow system designed for high-
throughput applications", CCPE, v. 27, n. 17, p. 5037–5059.
Mattoso, M., Dias, J., Ocaña, K. A. C. S., Ogasawara, E., Costa, F., Horta, F., Silva, V., de
Oliveira, D., (2015), "Dynamic steering of HPC scientific workflows: A survey", FGCS, v.
46 (May.), p. 100–113.
McLennan, M., Clark, S., Deelman, E., Rynge, M., Vahi, K., McKenna, F., Kearney, D., Song,
C., (2015), "HUBzero and Pegasus: integrating scientific workflows into science gateways:
HUBZERO AND PEGASUS", Concurrency and Computation: Practice and Experience, v.
27, n. 2 (Feb.), p. 328–343.
Nguyen, H. A., Abramson, D., Kipouros, T., Janke, A., Galloway, G., (2015), "WorkWays:
interacting with scientific workflows", CCPE, v. 27, n. 16 (Nov.), p. 4377–4397.
Ocaña, K. A. C. S., Oliveira, D. de, Horta, F., Dias, J., Ogasawara, E., Mattoso, M., (2012),
"Exploring Molecular Evolution Reconstruction Using a Parallel Cloud-based Scientific
Workflow". In: BSBBSB, p. 179–191, Berlin, Heidelberg.
Ocaña, K. A. C. S., Oliveira, D., Dias, J., Ogasawara, E., Mattoso, M., (2011a), "Optimizing
Phylogenetic Analysis Using SciHmm Cloud-based Scientific Workflow". In: Proceedings
of the 7th IEEE International Conference on e-Science (e-Science)IEEE e-Science 2011, p.
190–197, Stockholm, Sweden.
Ocaña, K., Oliveira, D. de, Ogasawara, E., Dávila, A., Lima, A., Mattoso, M., (2011b), "SciPhy:
A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan
Genomes". In: Advances in Bioinformatics and Computational Biology, p. 66–70
Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., (2010), "SciCumulus: A Lightweight Cloud
Middleware to Explore Many Task Computing Paradigm in Scientific Workflows". In:
International Conference on Cloud ComputingInternational Conference on Cloud
Computing, p. 378–385, Washington, DC, USA.
Reuillon, R., Leclaire, M., Rey-Coyrehourcq, S., (2013), "OpenMOLE, a workflow engine
specifically tailored for the distributed exploration of simulation models", Future Generation
Computer Systems, v. 29, n. 8 (Oct.), p. 1981–1990.
Silva, V., de Oliveira, D., Valduriez, P., Mattoso, M., (2016), "Analyzing related raw data files
through dataflows", CCPE, v. 28, n. 8, p. 2528–2545.
Silva, V., Oliveira, D., Mattoso, M., (2014), "SciCumulus 2.0: Um Sistema de Gerência de
Workflows Científicos para Nuvens Orientado a Fluxo de Dados". In: Sessão de Demos do
XXIX Simpósio Brasileiro de Banco de Dados, Curitiba, Paraná.
Simon, C., Daniel, R., (2011), "Metagenomic Analyses: Past and Future Trends", Applied and
Environmental Microbiology, v. 77, n. 4 (Feb.), p. 1153–1161.
Wozniak, J. M., Armstrong, T. G., Wilde, M., Katz, D. S., Lusk, E., Foster, I. T., (2013),
"Swift/T: Large-Scale Application Composition via Distributed-Memory Dataflow
Processing". In: CCGrid, p. 95–102
1103
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Os cientistas de áreas como a biologia e a astronomia executam experimentos cientı́ficos
a fim de comprovar ou refutar suas hipóteses. Muitos desses experimentos são mode-
lados como Workflows Cientı́ficos [Mattoso et al. 2010]. Um workflow é composto por
atividades que possuem dependências de dados entre si, onde cada atividade invoca
programas de computador. Os workflows cientı́ficos são gerenciados por Sistemas de
Gerência de Workflows Cientı́ficos (SGWfC). Existem diversos SGWfCs como o Swift/T
[Wozniak et al. 2013] e o SciCumulus [de Oliveira et al. 2010], e a maioria deles, além
e gerenciar a execução, capturam dados históricos do workflow, chamados de dados de
proveniência [Freire et al. 2008].
Um mesmo workflow pode ser executado diversas vezes, variando-se parâmetros e
dados de entrada a fim de confirmar uma hipótese. Em muitos cenários, os cientistas não
sabem quais são os valores e parâmetros que produzem resultados satisfatórios, logo, os
mesmos tem que explorar uma gama de valores, similar a um processo de tentativa e erro.
A grande dificuldade desse processo é que algumas combinações de parâmetros podem
gerar erros de execução ou não produzir resultados úteis. Em ambos os casos, tais proble-
mas podem comprometer todo o experimento. Esse cenário torna-se ainda mais complexo
se considerarmos que muitos dos workflows são executados em ambientes de processa-
mento de alto desempenho que possuem custos associados, como as nuvens públicas (e.g.
Amazon AWS). Neste caso, tais erros podem gerar além de atrasos na execução (que já
são indesejáveis), prejuı́zo financeiro. Dessa forma, se torna fundamental que a execução
dos workflows seja minimamente impactada por falhas que sejam produtos de valores de
parâmetros e dados de entrada mal definidos pelos cientistas.
∗
Este artigo foi financiado parcialmente pelo CNPq, FAPERJ e CAPES
1104
11º BreSci - Brazilian e-Science Workshop
1105
XXXVII Congresso da Sociedade Brasileira de Computação
1106
11º BreSci - Brazilian e-Science Workshop
[Câmara et al. 2015] propõe uma abordagem para predição de falhas em work-
flows que utiliza árvores de decisão [Mitchell 1997]. Entretanto, árvores de de-
cisão usualmente produzem classificadores inferiores aos SVMs [Mitchell 1997]. Em
[Bala and Chana 2015] Bala desenvolveu um trabalho semelhante, no entanto usou
técnicas de aprendizado diferentes: Naive Bayes, Regressão Logı́stica, Redes Neurais
Artificiais e Random Forest. Em [Si et al. 2016], é proposto um algoritmo de predição
temporal de exceções onde as predições são baseados no estado de execução do work-
flow.
Utilizando uma abordagem Não-Supervisionada, usando o algoritmo de
clusterização K-Means, Samak et al. em [Samak et al. 2011], propõem que os atributos
necessários para a verificação de semelhança do workflow atual com algum dos clusters
previamente extraı́dos por meio de dados históricos sejam recomputados, de acordo com
a produção de dados de monitoramento das etapas de execução do workflow.
Gaikwad desenvolveu um trabalho que envolve a Detecção de Anomalias,
porém voltado para a infraestrutura do ambiente de execução do workflow. Em
[Gaikwad et al. 2016], procura-se detectar a degradação de desempenho de execução e
falhas de execução dos workflows em um ambiente de nuvem. Para a detecção, foi de-
senvolvido um algoritmo baseado em modelos Autoregressivos, porém tal método não
funciona bem se a maioria dos exemplos é positivo ou negativo.
1107
XXXVII Congresso da Sociedade Brasileira de Computação
CSV e enviados aos algoritmos de SVM (etapa 3). Então, os algoritmos de SVM podem
construir o modelo (de detecção de falhas e de anomalia) a partir dos dados extraı́dos. Fi-
nalmente, a partir dos modelos construı́dos, o PredFail pode realizar as predições com os
valores de parâmetros informados. Se algum valor de parâmetro for classificado como que
vai produzir erros, essa execução é abortada. Somente combinações que não produzirão
erros é que são enviadas ao escalonador (etapa 4) para serem efetivamente executados na
nuvem (etapa 5). O PredFail foi implementado em Python, usando o padrão Model-View-
Controller (MVC). A seguir apresentamos cada módulo do PredFail com mais detalhes.
3.1. Extração da Base de Dados a partir do Banco de Dados de Proveniência
Para extrair os dados de proveniência do Banco de Dados gerenciado pelo SciCumulus,
de forma que eles estejam em um formato manuseável por um algoritmo de Aprendizado
de Máquina, são executadas uma série de consultas SQL. É permitido que o usuário per-
sonalize as consultas SQL que o PredFail executa, de forma que mudanças no schema do
banco possam ser facilmente absorvidas.
A consulta SQL utilizada nos experimentos desse artigo extrai dados relativos
ao id de atividades, id da máquina virtual onde a atividade foi executada, a quantidade
de processadores que esta máquina possui e o exitstatus da execução da atividade, re-
presentando o sucesso ou falha da execução da mesma. A variável de classe é sempre
considerada como a última coluna extraı́da pela consulta SQL, i.e. se a atividade fa-
lhou ou não. Caso haja um erro na consulta SQL, o componente não permite que o
usuário continue o processo e envia todas as combinações de parâmetros para o Sci-
Cumulus, mesmo as que podem produzir falhas. O backup da base de proveniência
do SciCumulus e as consultas SQL utilizadas nos experimentos podem ser obtidos em
https://github.com/UFFeScience/PredFail.
3.2. Detecção de Falhas com Máquinas de Vetores de Suporte
Com a base de dados devidamente formatada, o componente constrói os modelos de
predição de falhas e detecção de anomalias com SVMs. Para tanto, o componente é
integrado à Biblioteca de Aprendizado de Máquina SciKit-Learn [Pedregosa et al. 2011].
Podem existir casos onde os dados de proveniência das execuções dos workflows
possua apenas dados de execuções de sucesso. Nestes casos, modelos supervisionados de
classificação não são capazes de serem treinados, devido à existência de dados de apenas
uma classe. No contexto deste artigo, foi usado o SVM One-Class para lidar com este
tipo de situação. Nesse caso, um conjunto de valores de atributos que fogem aos padrões
descobertos pelo algoritmo será considerado um caso de falha.
Quanto aos dados, a única diferença da predição de falhas com SVM e da
detecção de anomalias com o SVM One-Class, é que o primeiro requer uma variável
de classe. Ambos os algoritmos implementados na biblioteca SciKit requerem que dados
categóricos sejam codificados em numéricos, e para tanto usamos a codificação One-
Hot [Coates and Ng 2011], que transforma cada possı́vel valor de um atributo categórico
em binário.
4. Avaliação Experimental
A fim de avaliar experimentalmente o componente proposto, foram utilizados os dados
de proveniência coletados pelo SGWfC SciCumulus durante execuções do workflow ci-
1108
11º BreSci - Brazilian e-Science Workshop
entı́fico SciPhy [Ocaña et al. 2011] no ambiente de nuvem da Amazon AWS. O SciPhy
é um workflow cientı́fico da área da bioinformática desenvolvido para construir árvores
filogenéticas a partir de sequências de DNA, RNA e aminoácidos. Para mais informações,
favor consultar Ocaña et al.
Metodologia Experimental A consulta para extração dos dados em uma base de 150
execuções do SciPhy retornou 400 tuplas, sendo 376 exemplos de sucesso de execução e
24 exemplos de falha. Para executar o SVM One-class apenas os dados de sucesso foram
utilizados durante o treinamento, mas todos os dados foram utilizados para fins de teste.
Para o treinamento, foi utilizado um computador com processador Celeron(R) Dual-Core
CPU T3300 @ 2.00GHz x 2, memória de 4GB DDR2, e taxa de transferência de 300
MBps, e SO Linux-Ubuntu. Para a obtenção dos resultados quantitativos, foi utilizada a
abordagem Stratified 10-Fold Cross Validation[Refaeilzadeh et al. 2009], onde os exem-
plos são divididos em conjuntos, mas obedecendo a distribuição original das classes. A
cada iteração, k − 1 conjuntos são usados para treinamento e o conjunto restante é usado
para validação dos resultados.
Resultados do Classificador SVM Para a predição de falhas com o SVM foram expe-
rimentados os kernels (1) Sigmoid, (2) Linear, (3) Polinomial e (4) Radial Basis Function
(RBF). No terceiro caso, é necessário definir um parâmetro degree, que é o grau do po-
linômio usado para a fronteira de decisão do modelo. No quarto caso, que assume uma
distribuição Gaussiana para os exemplos, é necessário definir o parâmetro gamma, que
indica o quanto um único exemplo afeta o modelo. Este parâmetro será fixo com o valor
padrão auto. Todos os kernels requerem o parâmetro C, responsável por analisar se o
modelo está sendo aprimorado a cada iteração, e que será fixado com o valor 1. A Ta-
bela 1 apresenta as médias para os conjuntos de validação das métricas Acurácia, Recall,
F1-Score e Precisão [Han et al. 2012], obtidas a partir da execução do componente confi-
gurado com diferentes parâmetros do classificador SVM. Em uma primeira análise, pode
parecer que os kernels rbf e sigmoid apresentam os melhores resultados no que diz res-
peito a acurácia dos modelos (94%). No entanto, as demais métricas mostram que, devido
ao desbalanceamento do conjunto de treinamento, o modelo construı́do a partir de todos
os kernels acabou por favorecer a classe majoritária (casos de execuções de sucesso). As-
sim, podemos concluir que o modelo construı́do com o kernel polinomial e degree = 3,
foi o que obteve o melhor resultado, pois junto à acurácia de 76%, observou-se também
um recall de 32%.
1109
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Amer, M., Goldstein, M., and Abdennadher, S. (2013). Enhancing one-class support
vector machines for unsupervised anomaly detection. Proc. of the ACM SIGKDD
Workshop on Outlier Detection and Description, pages 8–15.
Bala, A. and Chana, I. (2015). Intelligent failure prediction models for scientific work-
flows. Expert Systems with Applications, 42(3):980 – 989.
Coates, A. and Ng, A. Y. (2011). The importance of encoding versus training with sparse
coding and vector quantization. In Proc. of the 28th Int. Conf. in Machine Learning,
pages 921–928.
1110
11º BreSci - Brazilian e-Science Workshop
1111
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O volume de dados genômicos disponíveis cresce em um ritmo acelerado devido às
recentes melhorias nas ciências biológicas e na computação, e.g, as tecnologias de
sequenciamento de próxima geração (SPG) e computação de alto desempenho (CAD).
Atualmente, um desafio para os bioinformatas na área da filogenia e filogenômica
molecular é analisar o grande volume de dados biológicos gerados, uma vez que o
conhecimento sobre processos evolutivos ou relações filogenéticas na atual era pós-
genômica é inferido no nível de genomas (Chen et al., 2012; Darling et al., 2014; Ocaña
e Dávila, 2011; Eisen, 2003).
A filogenômica utiliza princípios da filogenia molecular na análise evolutiva de
dados genômicos. Experimentos filogenômicos produzem árvores e estatísticas
utilizadas para inferir a história evolutiva das espécies (Eisen, 2003). Uma tarefa
importante do domínio da filogenômica é explorar informações evolutivas contidas
nessas árvores, mediante a exploração e identificação de características i.e., padrões ou
assinaturas que demonstrem a presença de determinado processo evolutivo (Eisen,
2003). Por exemplo, determinar quais são as sub-árvores frequentes (FST) em árvores
filogenômicas de famílias de proteínas, e.g., ortólogos universais (OU) (Ciccarelli et al.,
2006) pode confirmar que espécies muito relacionadas apresentam “assinaturas”
filogenéticas similares em várias dessas árvores, indicando padrões ou forças seleção de
1112
11º BreSci - Brazilian e-Science Workshop
1113
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
No melhor de nosso conhecimento, não existem workflows que propõem aplicação de
técnicas de MD em árvores filogenômicas de forma estruturada. Dessa forma,
apresentamos aplicações existentes que mineram árvores filogenômicas e que
facilmente poderiam ser incorporadas ao SciPhyloMiner. Um dos algoritmos mais
usados na identificação de padrões comuns, o FST, foi implementado pelo algoritmo
Evominer (Deepak et al., 2014), acoplado ao workflow SciPhyloMiner. Deepak et al.
(2014) apresentam uma revisão sobre os métodos mais usados na identificação da
informação filogenética. Dentre deles, o TreeMiner, o FREQT, o Chopper e XSpanner,
o Unot, o uFreqt, o CMTreeMiner, o DRYADE, o Phylominer e o HybridTreeMiner.
Nessa revisão, os autores afirmam que o único algoritmo de código acessível foi o
Phylominer, que e foi usado para as comparações de desempenho, onde o Evominer se
mostrou 100 vezes mais rápido.
O PhyloFinder (Chen et al., 2008) é uma aplicação baseada na Web para a
procura de árvores em banco de dados (TreeBASE); a entrada é uma árvore que é
comparada contra o TreeBase via consulta por palavra-chave ou nome do táxon,
podendo navegar pelos ancestrais e filhos desse táxon. O PhyloSift (Darling et al.,
2014) é uma ferramenta para análises filogenéticas em genomas focado na anotação e
análise funcional e taxonômica de metagenomas. O EnsemblCompara GeneTrees
(Vilella et al., 2009) é um pipeline computacional para agrupamento, Alinhamento
Múltiplo de Sequência (AMS) e geração de árvore, incluindo o tratamento de grandes
famílias de genes.
1114
11º BreSci - Brazilian e-Science Workshop
1. Construção de AMS
Sub-workflow 1: SciPhy
2. Conversão de AMS
Sub-workflow 3: Análise
R P G M 4. Construção da árvores filogenéticas
(Raxml, PhyML, Garli, MrBayes)
8. Junção de árvores
para análise sintática
Sub-workflow 2: Sub-árvores
9. Análise sintática de
árvores para representação 5. Junção de árvores para redução
6. Mineração de árvores
7. Representação de sub-árvores
frequentes
1115
XXXVII Congresso da Sociedade Brasileira de Computação
4. Avaliação Experimental
Esta seção, apresenta uma avaliação dos resultados obtidos pela nas execuções do
SciPhyloMiner, tanto sob a perspectiva biológica quanto no aspecto computacional. Do
ponto de vista biológico, destacamos o uso e vantagens na exploração de topologias de
árvores em um conjunto de genes denominados ortólogos universais (OU) presentes em
genomas protozoários (Ocaña e Dávila, 2011). O objetivo é detectar as FST
apresentadas nas árvores que podem sugerir uma assinatura filogenética representativa
de tais genes. Esta informação é útil para a categorização de novas espécies de
protozoários que possam ser sequenciados por metodologias genômicas/metagenômicas.
Do ponto de vista computacional, analisamos o desempenho da execução paralela do
SciPhyloMiner usando SciCumulus em nuvens de computadores. Implementamos todas
as aplicações de bioinformática MAFFT, ReadSeq, RAxML, PhyML, Garli, MrBayes,
Dendropy, bibliotecas e componentes do SciCumulus no ambiente do Amazon EC2.
A Amazon EC2 fornece diferentes tipos de máquinas virtuais (VM). A VM
c3.8xlarge (60 GB de RAM, 32 núcleos) foi a escolhida para as execuções do workflow.
Esta VM usa o Linux Cent OS 5 (64 bits) como sistema operacional e foi configurada
com os programas de bioinformática e bibliotecas necessários. Além de permitir o
acesso via SSH. A imagem utilizada na VM em questão foi a ami-2579d333, a qual está
disponibilizada na nuvem.
Para executar SciPhyloMiner em paralelo, nossos experimentos usam como
entrada um conjunto de dados de arquivos multi-fasta de sequências de proteínas
extraídas do NCBI (Ocaña e Dávila, 2011). Este conjunto de dados é formado por 200
arquivos multi-fasta, cada arquivo relacionado a um determinado gene OU encontrado
nas diferentes espécies de genomas de protozoários. Para realizar a análise
filogenômica, cada arquivo multi-fasta é processado usando as seguintes versões dos
programas: MAFFT versão 6.857, ReadSeq versão 2.1.26, ModelGenerator versão 0.85,
RAxML-7.2.8-ALPHA, PhyML 3.1, Garli 2.0.1.1067, MrBayes v3.2.6 x64 e Dendropy
v4. 0 com Python 2.7.
A Figura 2 apresenta as árvores construídas com os programas de filogenia
PhyML, RAxML, Garli e MrBayes. T1-T4 mostram as topologias das árvores
filogenéticas visualizadas no programa Mega. A Figura 3 apresenta o formato de tabela
legível que pode ser armazenada e consultada via SQL no banco de proveniência do
SciCumulus. O gene analisado apresenta árvores muito semelhantes (de T1 a T4)
baseado na topologia, comprimento de ramos nas árvores, o bootstrap e a probabilidade
a posteriori. O comprimento do ramo se refere à quantidade de mudanças genéticas ou
tempo decorrido. O bootstrap e a probabilidade a posteriori são técnicas estatísticas de
confiabilidade das estimativas das relações evolutivas corretas. Neste trabalho, eles
apresentaram valores altos (>95) indicando relações consistentes entre os táxons.
Em relação à avaliação de desempenho do workflow, executamos o
SciPhyloMiner com o SciCumulus na nuvem da Amazon EC2. Primeiramente,
medimos o desempenho do SciPhyloMiner quando executado em uma VM com um
1116
11º BreSci - Brazilian e-Science Workshop
núcleo para medir a otimização local antes de aumentar o número de núcleos. A seguir,
medimos o desempenho do SciPhyloMiner com uma VMs c3.8xlarge, que possui 32
núcleos virtuais.
0.02
0.02
8 0.02
8 0.02
8 8
100 100 0.33 0.27
0.32 0.32
0.01
9
0.00 0. 00
9 0.01
9 9
0.46
0. 56
2 0.55
2 0.45
2 2
0. 00
1 0.00
1 0.00
1
0.01
1
100 4 0.13 0.10
0.09 0.09
0. 06 100 0. 00
10 100 0.00
10 0.20
0.00
10 0.25
0.00
10
0. 30 0.06
0.07 0.05
0. 30
0.12
6 0.12
6 0.09
6
0.09
6
100 0.01
4 100 0.01
4 0.01
4
0.02
4
0.58 60 0. 57 0.42 0.01
4 0.03
0. 01 0.46
0.01
5
1000.00 5
1000.00
0.00
5 0.57
0.01
5
0.67 0.48
0.67
0.71
7 7 0.88
0.56
7
0.71 7
0.10
0.20 0.1
0.10
T1 T2 T3 T4
1117
XXXVII Congresso da Sociedade Brasileira de Computação
5. Conclusões
Neste artigo, apresentamos um experimento de mineração de dados filogenômicos
modelados no workflow científico SciPhyloMiner que foi executado em um ambiente de
nuvem pública (Amazon EC2) usando o SciCumulus para fornecer as capacidades de
paralelismo necessárias. Por meio do acoplamento de workflows científicos, SGWfC e
abordagens especializadas para paralelizar os workflows, o SciPhyloMiner permite: (i)
gerenciar os experimentos de mineração para filogenômica, (ii) extrair e consultar a
proveniência de dados do experimento, com foco em topologias de árvores e (iii) se
beneficiar do poder de processamento das nuvens.
O desempenho e a escalabilidade da execução do SciPhyloMiner envolveram
milhares de tarefas e arquivos de dados do experimento. Analisando o desempenho
geral, podemos afirmar que o desempenho do workflow melhorou em até 94,54%
quando comparado a uma execução sequencial do mesmo. A análise de speedup
mostrou que quando aumentamos o número de MVs, o speedup também aumentou com
uma leve degradação (aceitável). No entanto, o custo/benefício de adicionar MVs
precisa considerar vários aspectos, como o número e características das atividades do
workflow a serem executadas, o custo monetário e os ganhos esperados.
Agradecimentos. Os autores gostariam de agradecer ao CNPq e FAPERJ pelo
financiamento parcial deste trabalho.
Referências Bibliográficas
Chen, D., Burleigh, J.G., Bansal, M.S., Fernández-Baca, D., 2008. PhyloFinder: An intelligent
search engine for phylogenetic tree databases. BMC Evolutionary Biology 8, 90.
Chen, M., Zou, M., Yang, L., He, S., 2012. Basal Jawed Vertebrate Phylogenomics Using
Transcriptomic Data from Solexa Sequencing. PLoS ONE 7, e36256.
1118
11º BreSci - Brazilian e-Science Workshop
Ciccarelli, F.D., Doerks, T., von Mering, C., Creevey, C.J., Snel, B., Bork, P., 2006. Toward
automatic reconstruction of a highly resolved tree of life. Science 311, 1283–1287.
Clark, A.G., 2006. Genomics of the evolutionary process. Trends in Ecology & Evolution 21,
316–321.
Darling, A.E., Jospin, G., Lowe, E., Matsen, F.A., Bik, H.M., Eisen, J.A., 2014. PhyloSift:
phylogenetic analysis of genomes and metagenomes. PeerJ 2, e243.
Dávila, Kary A. C. S. Ocaña, 2011. Phylogenomics-Based Reconstruction of Protozoan Species
Tree. EBO 107.
Deepak, A., Fernández-Baca, D., Tirthapura, S., Sanderson, M.J., McMahon, M.M., 2014.
EvoMiner: frequent subtree mining in phylogenetic databases. Knowledge and
Information Systems 41, 559–590.
Eisen, J.A., 2003. Phylogenomics: Intersection of Evolution and Genomics. Science 300, 1706–
1707.
Karp, R.M., Rabin, M.O., 1987. Efficient randomized pattern-matching algorithms. IBM
Journal of Research and Development 31, 249–260.
Ocaña, K., Benza, S., Oliveira, D., Dias, J., Mattoso, M., 2014. Exploring Large Scale Receptor-
Ligand Pairs in Molecular Docking Workflows in HPC Clouds, in: IEEE 28th
International Parallel & Distributed Processing Symposium Workshops (HiComb
2014). IPDPS, Phoenix, Arizona, USA, pp. 536–545.
Ocaña, K.A.C.S., de Oliveira, D., Dias, J., Ogasawara, E., Mattoso, M., 2013. Designing a
parallel cloud based comparative genomics workflow to improve phylogenetic analyses.
Future Generation Computer Systems 29, 2205–2219.
Ocaña, K.A.C.S., Oliveira, D., Silva, V., Benza, S., Mattoso, M.L.Q., 2014. Exploiting the
Parallel Execution of Homology Workflow Variants in HPC Compute Clouds, in: 4th
International Workshop on Cloud Computing and Scientific Applications (CCSA 2014),
France.
Ocaña, K., Oliveira, D. de, Ogasawara, E., Dávila, A., Lima, A., Mattoso, M., 2011. SciPhy: A
Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan
Genomes, Adv. Bioinformatics Computational Biology, LNCS. Springer, pp. 66–70.
Oliveira, D., Ocaña, K.A.C.S., Ogasawara, E., Dias, J., Gonçalves, J., Baião, F., Mattoso, M.,
2013. Performance evaluation of parallel strategies in public clouds: A study with
phylogenomic workflows. Future Generation Computer Systems 29, 1816–1825.
Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., 2010. SciCumulus: A Lightweight Cloud
Middleware to Explore Many Task Computing Paradigm in Scientific Workflows,
International Conference on Cloud Computing. Washington, DC, USA, pp. 378–385.
Taylor, I.J., Deelman, E., Gannon, D.B., Shields, M., 2007. Workflows for e-Science: Scientific
Workflows for Grids, 1st ed. Springer.
Vilella, A.J., Severin, J., Ureta-Vidal, A., Heng, L., Durbin, R., Birney, E., 2009.
EnsemblCompara GeneTrees: Complete, duplication-aware phylogenetic trees in
vertebrates. Genome Res. 19, 327–335.
Wang, J.T.L., 2005. Data mining in bioinformatics. Springer, London.
1119
XXXVII Congresso da Sociedade Brasileira de Computação
2
Universidad de Málaga
1. Introdução
O advento de novas tecnologias de sequenciamento na área de bioinformática
está fazendo com que o gargalo migre da aquisição de dados para o processa-
mento e interpretação dos mesmos. Por outro lado, novas tecnologias de processa-
mento de alto desempenho de baixo custo tais como processadores gráficos, GPU’s
[Kirk and Wen-mei 2012], podem ser utilizadas para aumentar a taxa de processamento
dos dados.
Em recentes trabalhos, [Vilasboas et al. 2015] e [Vilasboas et al. 2016], foi ap-
resentado o algoritmo CFRK, desenvolvido para a contabilização da frequência de
repetição de k-mers em ambiente GPU que apresenta bom desempenho para aplicações
com valores de k menor ou igual a 5, tal como metagenoma. Neste trabalho apresentamos
a avaliação de desempenho do CFRK em um ambiente de workflow cientifico, o Swift,
um SWfMS (Scientific Workflow Management Systems) contendo GPU’s. Na Seção 2 ap-
resentamos os trabalhos relacionados. Na Seção 3 apresentamos a descrição do SCFRK.
Na Seção 4 apresentamos os experimentos e os resultados. Na Seção 5 apresentamos as
conclusões e os trabalhos futuros.
2. Trabalhos relacionados
Nesta seção relacionaremos o algoritmo SCFRK com o Jellyfish, um algoritmo
desenvolvido para processamento de k-mers e que é considerado o estado da arte nesta
tarefa.
O Jellyfish [Marçais and Kingsford 2011] é um algoritmo para contabilização da
frequência de repetição de k-mers especı́fico para genomas desenvolvido para processa-
mento em memória compartilhada. Ele utiliza várias estruturas lock-free, que são es-
truturas que permitem operações atômicas sem o bloqueio da memória e, por isso, não
degradam o desempenho em ambientes multiprocessáveis. A diferença mais importante
entre os algoritmos Jellyfish e SCFRK é que o SCFRK foi desenvolvido para o processa-
mento de metagenoma, enquanto o Jellyfish foi feito para o processamento de genoma. O
1120
11º BreSci - Brazilian e-Science Workshop
3. SCFRK
SCFRK é o acrônimo de Swift - Contabilizador da Frequência de Repetição de
K-mers, pois foi desenvolvido utilizando os recursos do Swift.
A execução do SCFRK é dividida em duas fases bem definidas: o pré-
processamento e o processamento. Na fase de pré-processamento é realizada a divisão
do arquivo que contém os reads. É utilizado uma aplicação em linguagem C que real-
iza o particionamento do arquivo em N partes iguais, onde N é um valor definido pelo
usuário. Na fase de processamento, o SCFRK é responsável pelas chamadas ao CFRK.
É fornecido para cada processo a localização do arquivo de entrada e do arquivo de saı́da.
Ao final do processamento, os arquivos de saı́da são escritos em disco.
A principal motivação para o desenvolvimento do SCFRK se deve à limitação da
execução do CFRK para arquivos de entrada com tamanho igual ou superior ao tamanho
da memória principal da estação de trabalho em uso. Ao ler um arquivo de entrada de
tamanho igual ou superior ao tamanho da memória principal, a estação de trabalho poderá
entrar em processo de paginação ou poderá entrar em colapso se não houver espaço em
disco para a paginação. Esta estratégia de paralelismo permite a divisão do arquivo de
entrada em arquivos que sejam do tamanho adequado para o processamento na estação de
trabalho.
4. Experimentos
Nesta seção serão apresentados os experimentos e resultados da execução do
SCFRK, bem como algumas comparações com o algoritmo Jellyfish.
4.2. Resultados
Os experimentos consistiram em executar os algoritmos SCFRK e Jellyfish com
o mesmo conjunto de dados. Os valores de k foram selecionados baseados em trabalhos
anteriores [Vilasboas et al. 2015] que demonstraram que o CFRK apresenta ganho em
relação ao Jellyfish para valores de k < 5. O tempo total de execução foi obtido através
do comando time do linux, sendo considerado apenas o tempo real. Para este trabalho foi
1121
XXXVII Congresso da Sociedade Brasileira de Computação
1122
11º BreSci - Brazilian e-Science Workshop
References
Foster, I. (1994). Task parallelism and high-performance languages. IEEE Parallel &
Distributed Technology: Systems & Technology, 2(3):27–36.
Kirk, D. B. and Wen-mei, W. H. (2012). Programming massively parallel processors: a
hands-on approach. Newnes.
Marçais, G. and Kingsford, C. (2011). A fast, lock-free approach for efficient parallel
counting ofoccurrences of k-mers. Bioinformatics (Oxford, England), 27(6):764–70.
Vilasboas, F., Osthoff, C., Trelles, O., and Vasconcelos, A. T. (2015). Desenvolvimento
de um algoritmo paralelo para contabilização da repetição de k-mers. 3a Conferência
Ibero Americana de Computação Aplicada 2015.
Vilasboas, F., Osthoff, C., Trelles, O., and Vasconcelos, A. T. (2016). Otimização de um
algoritmo paralelo para contabilização da repetição de k-mers. II Escola Regional de
Computação de Alto Desempenho do Rio de Janeiro.
1123
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
O Women in Information Technology (WIT) é uma iniciativa da SBC para discutir os
assuntos relacionados a questões de gênero em Tecnologia de Informação (TI) no Brasil
– histórias de sucesso, políticas de incentivo e formas de engajamento e atração de jovens,
especialmente mulheres, para as carreiras associadas à TI. Organizado na forma de
palestras convidadas e painéis, o workshop é centrado em debater problemas relacionados
à mulher e ao seu acesso à TI, tanto do ponto de vista de mercado de trabalho quanto de
inclusão e alfabetização digital. Os temas abordados se concentram na necessidade de
educar, recrutar e treinar mulheres, como uma política estratégica para o desenvolvimento
e competitividade nacional e regional.
O Fórum Meninas Digitais faz parte das atividades do WIT desde 2011 e é uma
das ações do Programa Meninas Digitais da SBC. Tal Programa é direcionado às alunas
do ensino fundamental, médio e tecnológico, para que conheçam melhor a área de
informática e das Tecnologias da Informação e Comunicação, de forma a motivá-las a
seguir carreira nessas áreas. Durante o evento os multiplicadores desta proposta
aproveitam a oportunidade para discutir projetos e parcerias, de forma a disseminar esta
ideia no território nacional.
1124
11º WIT - Women in Information Technology
Comitê Organizador
Coordenação Geral WIT
Sílvia Amélia Bim (UTFPR), Tanara Lauschner (UFAM)
Comitê de Organização
Cláudia Motta (UFRJ), Érica Calil Nogueira (UFRJ)
1125
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos aceitos
Oficina de Re(design) da Interação do Whatsapp para alunas da rede municipal de
Petrópolis
Luciana Salgado, Claudia Cappelli, Meirylene Rosa Emidio Avelino
Uma Pesquisa com Alunas do Ensino Fundamental e Médio sobre os Cursos da Área
de Computação
Maristela Terto de Holanda, Roberto Mourão, Guilherme N. Ramos, Aleteia Patrícia F.
de Araújo, Maria Emília T. Walter
1126
11º WIT - Women in Information Technology
1127
XXXVII Congresso da Sociedade Brasileira de Computação
1128
11º WIT - Women in Information Technology
luciana@ic.uff.br, claudia.cappelli@uniriotec.br,
meirylenerea@id.uff.br
Abstract. The Meninas Digitais Project aims at attracting girls to Computer
Science area. This work presents the conduction of a workshop at the LNCC
(National Computer Science Laboratory) in Petrópolis, Rio de Janeiro, for
two public elementary school classes. After a talk about the project, we
conducted a practical experience in a (re) design of Human-Computer
Interaction scenario. In this experience, the students would have to understand
the customer's need and present possible solutions to the problems presented.
Resumo. O Programa Meninas Digitais quer atrair meninas para a área de
computação. Este trabalho apresenta a execução de uma oficina no LNCC
(Laboratório Nacional de Ciência da Computação) em Petrópolis, Rio de
Janeiro, para duas turmas de ensino fundamental de escola pública. Após uma
palestra sobre o Projeto, conduzimos uma oficina para o (re)Projeto da
Interação Humano Computador, em um cenário de desenvolvimento de
software, onde os alunos teriam que entender o cliente e apresentar soluções
possíveis para os problemas apresentados.
1. Introdução
Mundialmente, programas e projetos são realizados para atrair mulheres para a
área de computação [Medeiros, 2005]. Uma ação que tem se mostrado bastante
promissora é a realização de oficinas junto a alunas do ensino fundamental e médio
[Amaral et al., 2015]. O maior objetivo é de fato estimulá-las a optarem por uma
atuação profissional na área de computação.
Este trabalho apresenta uma experiência de execução de uma oficina do
Programa Meninas Digitais [Maciel & Bim, 2016] durante a Semana de Ciência de
Tecnologia de 2016 no LNCC (Laboratório Nacional de Ciência da Computação)
localizado na cidade de Petrópolis no Rio de Janeiro. Nesta experiência foi realizada
uma palestra para 2 (duas) turmas de ensino fundamental de escola pública da cidade e
com estas foi feita uma experiência em um cenário de desenvolvimento de software.
A seção 2 descreve o planejamento, a execução e a análise da oficina realizada.
A seção 3 descreve as conclusões, limitações e perspectivas futuras.
1129
XXXVII Congresso da Sociedade Brasileira de Computação
1
https://www.whatsapp.com/?l=pt_br
2
https://www.youtube.com/watch?v=pOk4m_7I5Zc. (Como destruir relacionamentos)
1130
11º WIT - Women in Information Technology
1131
XXXVII Congresso da Sociedade Brasileira de Computação
exemplo, comentou: “Isso sempre acontece comigo! Minha mãe reclama quando leio e
não respondo a mensagem dela! Mas às vezes eu nem vi a mensagem!”
A última atividade teve como objetivo motivar os participantes a apresentarem
soluções novas e criativas para os dois problemas apresentados. Para o problema 1 um
dos grupos indicou que o emoticon enviado deveria ter um tamanho normal e caso o
usuário quisesse tornar ele em um tamanho maior dando mais ênfase, poderia ficar
pressionando a tecla e daí ele iria crescendo de tamanho. Muitos comentaram que
também não achavam útil esta solução de aumentar o tamanho de forma automática
quando se envia apenas um emoticon. Para o problema 2 o interesse por conversar e
tentar dar uma solução foi nítido. Alguns grupos pensaram em soluções alternativas,
como por exemplo: “O usuário deveria ser capaz de dizer se uma mensagem realmente
foi lida ou não. Esta ação deve ficar no controle do usuário”. Outra solução seria haver
algum tipo de reconhecimento de contexto (onde o usuário está). Esta solução foi
também apontada pela própria usuária JoutJout e eles concordaram que seria bastante
útil. Ao final da oficina, todos os alunos estavam bem empolgados e demostraram que
tinham gostado bastante da atividade.
3. Conclusões
Este artigo relata uma experiência de atividade de aproximação de adolescentes à
atividades típicas de profissionais de TI. Com a atividade proposta, os participantes se
colocaram no lugar de projetistas e tinham que propor soluções para problemas
relatados por um usuário. Com isto, experimentarem atividades típicas de um
profissional de TI: ouvir o usuário, registrar os problemas do usuário, avaliar
oportunidades de melhorias em uma aplicação, criar soluções alternativas e inovadoras.
Com as evidências, vimos que os participantes se mantiveram engajados durante
a atividade e perceberam que aplicações são feitas e usadas por usuários com
características e necessidades particulares (quem são os usuários?), em contextos
específicos (onde?), para finalidades distintas (para que?) e com diferentes tipos de
dispositivos (celulares, tablets,..). Desta forma, os praticantes mirins das técnicas e
métodos de IHC puderam participar, através de simples perguntas, de uma etapa inicial
de processo de (re) definição de aplicações computacionais.
O desenvolvimento de oficinas deste tipo evidencia que a aproximação das
meninas desde muito cedo nas escolas pode contribuir para desmistificar a computação
para elas.
Referências
Amaral, Marília Abrahão et al. Introducing Computer Science to Brazilian Girls in
Elementary School Through HCI Concepts. In: Design, User Experience, and
Usability: Users and Interactions. Springer International Publishing, 2015. p. 141-
152.
Digital Girls in Rio. https://www.facebook.com/digitalgirlsinrio/?fref=ts. Acessado em
09/05/2017.
Include Meninas. www.facebook.com/include.meninas.uff. Acessado em 09/05/2017.
Maciel, C., Bim, S. A. Programa Meninas Digitais - ações para divulgar
a Computação para meninas do ensino médio. In: Computer on the Beach 2016,
1132
11º WIT - Women in Information Technology
1133
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. The present work presents a preliminary research with high school
female students of Mato Grosso about their level of information with respect
to the subareas of computing and their level of interest in learning more about
these subareas.
1. Introdução
Dados do INEP revelam que no Brasil, desde 1991, as mulheres perderam 19,37% da
representatividade em cursos de ensino superior relacionados à área de Computação,
totalizando, apenas, 15,53% do quantitativo de alunos matriculados [INEP 2015].
Diversas pesquisas acadêmicas e da mídia procuram compreender o porquê do baixo
ingresso de jovens mulheres nestes cursos [Ahuja 2002, Figueiredo e Maciel 2016].
Um dos fatores apontados para um número inexpressivo de mulheres na
computação deve-se à falta de informação das jovens em geral sobre a carreira, áreas de
concentração e diferenças entre os cursos de Computação [ICMC/USP 2014]. As jovens
seriam ainda mais afetadas quando se leva em consideração a falta de incentivo social
para atuarem com tecnologia [Verbick 2002].
No Brasil, a Sociedade Brasileira de Computação (SBC) designa comissões
especiais que reúnem associados com interesses comuns em determinada subárea da
Computação, resultando na categorização de 27 subáreas da computação [SBC 2017].
Muito embora os cursos de graduação em computação abordem tais subáreas (alguns de
forma mais profunda e outros menos), não é comum que todas as subáreas sejam
popularmente divulgadas ou discutidas nas escolas, na mídia e nos círculos sociais de
jovens alunas de ensino médio, que estão em fase de ponderamento sobre qual carreira
e/ou curso seguirem após a conclusão dos anos escolares.
1134
11º WIT - Women in Information Technology
Desta forma, este artigo apresenta uma pesquisa preliminar - realizada com
alunas de ensino médio de uma escola do interior do estado de Mato Grosso com o
objetivo de medir o nível de informação acerca das subáreas da computação e o nível de
interesse em conhecer mais sobre as diversas subáreas. Nas seções a seguir são
apresentadas a metodologia, resultados e considerações desta pesquisa.
2. Metodologia
A presente pesquisa foi realizada com 35 alunas de ensino médio1 do Instituto Federal
de Mato Grosso na cidade de Campus Pontes e Lacerda em abril de 2015, durante uma
atividade do projeto Meninas Digitais Regional Mato Grosso. O projeto Meninas
Digitais Regional Mato Grosso tem como objetivo a realização de práticas de caráter
motivacional e informativo com alunas de Ensino Médio no estado de Mato Grosso
visando a equidade de gênero nas carreiras e cursos das áreas de Computação e
Tecnologias da região através do incentivo e promoção da participação feminina
[Figueiredo et al. 2016].
As alunas participantes da atividade possuem idade entre 14 e 19 anos,
compreendendo todos os anos do ensino médio, sendo algumas também alunas de nível
técnico nos seguintes cursos: Manutenção e Suporte em Informática (17 alunas),
Controle Ambiental (9 alunas) e Secretariado (4 alunas). A pesquisa foi realizada por
meio de questionário e, logo após, foi feita uma dinâmica, com o objetivo de discutir as
principais diferenças entre os cursos superiores de computação e suas possibilidades de
atuação. Por fim, realizou-se um debate acerca da interação das jovens com as
tecnologias que consomem no dia-a-dia.
O questionário aplicado continha as 27 subáreas da Computação listadas em
formato de grade e as seguintes opções para resposta: “Não conheço e nunca ouvi falar”,
“Não conheço, mas já ouvi falar”, “Conheço POUCO e tenho interesse em estudar mais
sobre o tema”, “Conheço POUCO e NÃO tenho interesse em estudar mais sobre o
tema”, “Conheço MUITO e tenho interesse em estudar mais sobre o tema”, “Conheço
MUITO e NÃO tenho interesse em estudar mais sobre o tema” e “Não sei avaliar o meu
interesse”.
3. Resultados
As 27 subáreas da computação dispostas nos questionários, conforme a SBC as divide
são: Algoritmos, Arquitetura de Computadores, Banco de Dados, Biologia
Computacional, Combinatória e Otimização, Computação Aplicada a Saúde,
Computação Gráfica e Processamento de Imagens, Computação Musical, Concepção de
Circuitos e Sistemas Integrados, Engenharia de Sistemas Computacionais, Engenharia
de Software, Geoinformática, Informática na Educação, Inteligência Artificial e
Inteligência Computacional, Interação Humano Computador, Jogos e Entretenimento
Digital, Linguagens de Programação, Métodos Formais, Processamento de Linguagem
Natural, Realidade Virtual, Redes de Computadores e Sistemas Distribuídos, Robótica,
Segurança de Informação e de Sistemas Computacionais, Sistemas Colaborativos,
1
Previamente autorizadas pelos responsáveis a participarem.
1135
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
O presente trabalho apresentou os resultados de uma pesquisa acerca das percepções de
alunas sobre os níveis de informação a respeito das subáreas da computação e o seu
interesse em conhecer mais sobre elas. A partir dos dados relatados, foi possível
1136
11º WIT - Women in Information Technology
perceber que as jovens tendem a interessar-se por subáreas mais lúdicas e mais
difundidas pela mídia, desde reportagens a filmes sobre o assunto. Assim, investir em
realizar atividades motivacionais e capacitativas com as alunas de ensino médio sobre
tais subáreas pode despertar mais o interesse dessas jovens em realizar um curso
superior em computação ou área afim.
Compreende-se que esta é uma pesquisa preliminar, que pode ser estendida para
ter resultados mais sólidos, incluindo também perguntas dissertativas.
A pesquisa também pode ser aplicada com um número maior de participantes,
inclusive com alunas de ensino superior. A realização desta pesquisa com alunas de
cursos de graduação em computação, poderia ajudar a entender melhor os seus
interesses para poder desenvolver estratégias curriculares com intuito de evitar a evasão
destas alunas ao longo do curso.
Referências
Ahuja, M. K. (2002) “Women in the information technology profession: A literature
review, synthesis and research agenda”, European Journal of Information Systems,
v. 11, n. 1, p. 20-34.
Comunidade Brasileira de Sistemas de Informação (2015) “Saiba de uma vez por todas
as diferenças entre os cursos superiores de TI”, Artigo de Cláudio Florenzano,
Disponível em: http://www.cbsi.net.br/2015/06/as-diferencas-entre-os-cursos-de-
TI.html#.VirQoSudBwB, Acesso: 23 de março de 2017.
Figueiredo, K.; Maciel, C. (2016) “Reflexões sobre Gênero, Tecnologia e Processo
Vocacional”, 10º WIT - Women in Information Technology, XXXVI Congresso da
Sociedade Brasileira de Computação, p. 2728- 2731.
Figueiredo, K.; Neto, P. C. da S., Maciel, C. (2016) “Meninas Digitais Regional Mato
Grosso: Práticas Motivacionais no Ensino Médio para a Equidade de Gênero nas
Carreiras e Cursos de Computação e Tecnologias”, 10º WIT - Women in
Information Technology, XXXVI Congresso da Sociedade Brasileira de
Computação, p. 2702- 2705.
ICMC/USP (2014) “A difícil escolha entre Ciências de Computação, Engenharia de
Computação e Sistemas de Informação”, Artigo de Denise Casatti, Disponível em:
http://conteudo.icmc.usp.br/Portal/Noticias/leituraNoticias.php?id_noticia=526&tip
oPagina=Noticias&tipoNoticia=Ensino, Acesso: 23 de março de 2017.
INEP (2015) “Resumo Técnico da Educação Superior 2013”, Diertoria de Estatísticas
Educacionais DEED, Instituto Nacional de Estudos e Pesquisas Educacionais
Anísio Teixeira, Brasília-DF, 82 p.
SBC (2017) “Sociedade Brasileira de Computação – Comissões Especiais”, Página da
Web, Disponível em: http://www.sbc.org.br/403-comissoes-especiais, Acesso: 23
de março de 2017.
Verbick, T. (2002) “Women, technology, and gender bias”, Journal of Computing
Sciences in Colleges, v. 17, n. 3, p. 240-250.
1137
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A conquista da igualdade de gênero está diretamente atrelada ao empoderamento da
mulher, que, por sua vez, caminha ao lado da educação formal e consequente
profissionalização [ONU Mulheres 2017]. Para tanto, deve-se investir fortemente na
adesão feminina em todos os campos do saber, sendo maior o desafio da inclusão na
área de Tecnologia da Informação e Comunicação (TIC), desmistificando o tradicional
pensamento que costuma associar as áreas de exatas a uma suposta "vocação
masculina".
A temática de empoderamento de mulheres na área de TIC vem sendo cada vez
mais estudada e discutida, tanto no ambiente acadêmico quanto no mercado
profissional. Conforme o National Center for Women & Information Technology
(NCWIT), no ano de 2015 as mulheres representavam apenas 25% das ocupações
relacionadas à Ciência da Computação [NCWIT 2016]. No cenário brasileiro, dados do
Instituto Nacional de Estudos e Pesquisas Educacionais (INEP) revelam que o
1138
11º WIT - Women in Information Technology
1139
XXXVII Congresso da Sociedade Brasileira de Computação
Gráfico 1. (a) Matriculados por Ano, (b) Situação das alunas por Ano.
O Gráfico 1(b) representa a situação da taxa de alunas matriculadas e a taxa de
desistentes do curso em função do ano. Considerando a desistência, esta representa as
estudantes que evadiram, abandonaram ou cancelaram sua matrícula. O Gráfico 1(b)
aponta que a taxa de alunas matriculadas cresceu paulatinamente a cada ano, tendo uma
maior participação de discentes matriculadas entre os anos de 2015 a 2016. Esse
resultado é bastante animador porque mostra que mais alunas estão permanecendo no
curso.
3.2 Faixa Etária
Ao tratarmos da faixa etária das alunas, o Gráfico 2 apresenta que a maioria das alunas
matriculadas está na faixa etária entre 18 e 23 anos, representando assim, um público
jovem. O menor índice de estudantes matriculadas é entre 30 e 40 anos de idade,
representando cerca de 10%. Também nesta faixa etária registrou-se o maior número de
desistentes. As alunas de 18 a 23 anos foram as que apresentaram menor índice de
desistência, girando em torno de 5%.
1140
11º WIT - Women in Information Technology
.
Gráfico 4. Situação das alunas por renda familiar.
1141
XXXVII Congresso da Sociedade Brasileira de Computação
1142
11º WIT - Women in Information Technology
Abstract. This paper presents the participation of the Mato Grosso state in the
Technovation Challenge in the 2017 edition. By the fact of most professionals
in the area of computing are men, participation in the event is intended to
influence the insertion of women in technology. By this, girls from 10 to 18
years old, elementary and middle school, can have their first contact with the
area, with the creation of mobile applications and, from there, create bonds
and pursue a career.
Resumo. Este artigo apresenta a participação do estado de Mato Grosso no
Technovation Challenge na edição de 2017. Pelo fato da maior parte dos
profissionais na área de computação serem homens, a participação no evento
tem a intenção de influenciar a inserção de mulheres na tecnologia. A partir
desta competição, meninas de 10 a 18 anos, do ensino fundamental e médio,
podem ter o seu primeiro contato com a área, com a criação de aplicativos
móveis e, a partir daí, criar vínculos e seguir carreira.
1. Introdução
De maneira recorrente, encontra-se em jornais e sites de notícias a existência de vagas
para profissionais na área de TI. Este profissional, sempre disputado por grandes
empresas, acaba empregado antes mesmo de se graduar. Atualmente, existem nas
universidades, diversas feiras e eventos nas quais empresas de grande porte buscam
novos colaboradores.
Figueiredo, Silva Neto e Maciel (2016) informam que pesquisas dentro do
ambiente acadêmico, mais precisamente em cursos de Computação, revelam que
mulheres ainda são minoria dentro das turmas e que houve uma regressão nesse número,
que em 1991 era de 34, 9% e, em 2013, data do último censo do INEP, era de apenas
15,53%.
Com o intuito de criar oportunidades que despertem, novamente, o interesse das
mulheres pelos cursos de computação, diversas iniciativas aparecem no âmbito
acadêmico e profissional. Dentro da própria Sociedade Brasileira de Computação
1143
XXXVII Congresso da Sociedade Brasileira de Computação
2. Technovation Challenge
Segundo a Technovation Brasil (2017), a competição é, atualmente, a maior do mundo
para meninas em tecnologia. O programa começou em 2009, em Mountain View,
Califórnia. Em 2013, foi aberto pela primeira vez para outros países, e contou com a
participação de mais de 600 meninas de países como Índia, China, Indonésia, Inglaterra,
Ucrânia, Gana, Nigéria e Brasil.
A competição possui seu currículo dividido em 12 semanas, tendo foco em um
tema diferente a cada semana. Durante este período, são recomendadas as atividades
referentes às etapas de programação do aplicativo, a criação do plano de negócios, a
produção dos vídeos de apresentação do projeto (pitch) e o vídeo de demonstração de
funcionamento do aplicativo [Technovation 2017].
As meninas são orientadas por mentores (coach), que lhes auxiliam nas tarefas.
Esses mentores são voluntários, que podem ser da mesma cidade e escola que as
meninas ou podem estar em locais diferentes, realizando uma mentoria virtual. Tanto os
mentores quantos as alunas se cadastram no sistema que administra o evento, o My
Technovation Challenge2.
1
STEM (Science, Technology, Engineering and Mathematics)
2
my.technovationchallenge.org
1144
11º WIT - Women in Information Technology
1145
XXXVII Congresso da Sociedade Brasileira de Computação
Com o ambiente virtual devidamente preenchido até a data limite, existem duas
formas de avaliação dos projetos: virtualmente, por juízes que se cadastram no sistema,
e por apresentações, chamadas de pitchs regionais, nas quais as equipes,
presencialmente, apresentam às ideias para juízes que assistem às apresentações e
avaliam os projetos.
4. Conclusões
A partir do Technovation Challenge, é apresentada para meninas de ensino fundamental
e médio uma oportunidade de conhecer e se integrar ao mundo da tecnologia, de forma
direta, participando de um evento de abrangência internacional. Esta competição é uma
ótima aliada dentro das ações de programas como o Meninas Digitais. A cada edição do
evento, o mesmo atinge um raio maior de disseminação e mais meninas têm a
oportunidade de conhecer e desenvolver ligações com a tecnologia.
Além disso, as habilidades das participantes são aprimoradas em relação ao
desenvolvimento de aplicativos móveis com as oficinas que são oferecidas, em relação
ao uso de padrões para desenvolvimento dos mesmos e em relação ao trabalho em
comunidade, visto que o desafio é realizado em grupos e existem reuniões semanais.
Em Mato Grosso, a participação vem aumentando e para as próximas edições, pretende-
se ampliar, ainda mais, a quantidade de equipes no estado.
1146
11º WIT - Women in Information Technology
Referências
Figueiredo, K. S., Silva Neto, P.C., Maciel. C. (2016) “ Meninas Digitais Regional
Mato Grosso: Práticas Motivacionais no Ensino Médio para a Equidade de Gêneros
nas Carreiras e Cursos de Computação e Tecnologias”, WIT - Woman In Information
Technology in Anais do XXXVI congresso da sociedade brasileira de computação, p.
2702-2705.
SBC (2015) “Programa Meninas Digitais”,
https://sbcmt.wordpress.com/meninasdigitais, March.
Technovation (2017) “Calling all innovators”, http://technovationchallenge.org/get-
started/, March.
Technovation Brasil (2017) “Sobre nós”, http://www.technovationbrasil.org/sobre-nos,
March.
1147
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This paper presents a project in which the goal is to collect data
about the female graduates of Computer Science of the Western Parana State
University in order to comprehend what their challenges were during and
after graduation. The research was applied through a form answered by 40
graduated out of a total of 102, and includes objective and open questions.
After data collection, information was obtained, among others, about which
were the graduate main areas of interest, as well if they suffered from
prejudice and criticism. It was possible to establish ways to attract and
motivate the permanence of women with interest in Computer area.
1. Introdução
É sabido que houve forte participação feminina na equipe que construiu o primeiro
computador da história: seis mulheres foram designadas para ingressar no grupo de
programação original do ENIAC [Goldstine 1980]. Muitas mulheres trabalharam
também no começo da história da programação de computadores.
A partir da década de 80, no entanto, com a evolução dos computadores, a área
passou a ser “coisa de menino” [Margolis and Fisher 2003]. Na época da construção do
1148
11º WIT - Women in Information Technology
ENIAC, uma das selecionadas relatou que as mulheres não recebiam promoções apesar
do grau de instrução, diploma de graduação ou título de doutorado. Era lhes dito que
somente homens podiam conseguir cargos gerenciais. A mudança veio após a Segunda
Guerra Mundial, quando a indisponibilidade de homens fez com que as mulheres
fossem colocadas em cargos de supervisão [Fritz 1994]. Ainda hoje, no entanto, há
relatos sobre discriminação entre cargos e salários entre homens e mulheres, embora, de
acordo com a American Association of University Woman [AAUW 2017], as
discrepâncias nas taxas gerais de remuneração entre homens e mulheres permaneceram
estagnadas na última década.
Na década de 70 a primeira turma de bacharelado em Ciência da Computação do
Instituto de Matemática e Estatística (IME) da Universidade de São Paulo (USP) tinha
70% de alunos do sexo feminino [Época Negócios 2015], talvez pelo fato desse curso
ter surgido a partir da licenciatura em Matemática. No entanto, esse percentual de
participação feminina nos cursos de graduação da área não se manteve, tendo, a partir
da década de 90, começado a diminuir e hoje há uma minoria de mulheres nos cursos da
área de computação no Brasil, sendo esta realidade também existente em outros países.
Na Universidad de los Andes, na Colômbia a participação feminina no curso de
Engenharia de Sistemas e Computação tem diminuído. No início dos anos 90 a
distribuição era de 65 homens e 35 mulheres. Dez anos após, o número de mulheres
caiu para 10 [Casallas et al. 2012].
Essa baixa representação feminina [Galpin, 2002] se tornou preocupante, e
muito se tem discutido sobre a atuação das mulheres tanto no meio acadêmico como na
indústria. Para Nelson (2014), grupos com maior diversidade, seja de gênero, de
educação, cultural ou experiência, são mais efetivos, pois produzem melhores resultados
financeiros e inovadores.
Várias iniciativas vem sendo realizadas a fim de estimular mulheres e meninas a
entrar na área de tecnologia, como as relatadas em [Lagesen 2017]. Há também
programas criados também para esse fim, a exemplo do IEEE WIE (Women in
Engineering) [IEEE-WIE 2017], uma iniciativa dedicada a promover a área das
engenharias às mulheres, facilitando o ingresso e permanência dessas nas áreas técnicas
em geral. No Brasil, há uma crescente de programas e projetos como essa mesma
finalidade, como o RodAda Hacker1, Pyladies2 e o Minas Programam3, além do
Meninas Digitais4 da Sociedade Brasileira de Computação (SBC).
A pouca participação das mulheres na área de Computação também é realidade
nos cursos de Ciência da Computação da Universidade Estadual do Oeste do Paraná,
dos campi de Cascavel e Foz do Iguaçu. Considerando esse panorama criou-se o projeto
DIVAS (Descobrindo e Investigando o Valor e a Abrangência da participação feminina
nas áreas computacionais) Digitais, a fim de coletar dados sobre as egressas com o
objetivo de identificar os desafios que foram enfrentados durante e após a graduação e
1
http://rodadahacker.org
2
http://brasil.pyladies.com/
3
http://minasprogramam.com/
4
Meninas.sbc.org.br/
1149
XXXVII Congresso da Sociedade Brasileira de Computação
2. A pesquisa realizada
Para a coleta de dados foi necessário buscar exaustivamente as egressas, pois o sistema
da universidade não filtra os dados cadastrais dos egressos por sexo, além do problema
dos dados desatualizados, uma vez que a universidade não possui controle de egressos.
No campus de Cascavel, de 1993 a 2015, o número de egressas de Ciência da
Computação totaliza 63, e no campus de Foz do Iguaçu, de 1995 a 2015 é de 39.
Houve dificuldade em adquirir os contatos atualizados. Houve, além do acesso
aos dados do sistema acadêmico da universidade, o auxílio dos professores do curso e
das próprias egressas, para atualização dos contatos, além de buscar as egressas em
redes sociais. O questionário online, no Google Forms, foi distribuído às egressas em e-
mails e via mensagem em seus perfis de redes sociais, previamente coletados.
O questionário foi elaborado com questões abertas e objetivas, abordando desde
dados pessoais; anos de ingresso e término do curso; áreas de interesse; posição que
ocupa no mercado; até o enfrentamento de preconceito, seja na universidade ou no
trabalho. Algumas destas questões foram formuladas usando a Escala de Likert, em que
as respostas especificam o nível de acordo ou desacordo com a questão, inserindo itens
com escala simétrica [Burns and Bush 2012] Neste questionário a escala foi: (1)
Concordo totalmente; (2) Concordo; (3) Indiferente; (4) Discordo; e, (5) Discordo
totalmente. O questionário foi aplicado entre os meses de novembro e dezembro de
2016 e das 102 egressas, houve retorno de respostas de 40.
1150
11º WIT - Women in Information Technology
4. Conclusões
A pesquisa possibilitou conhecer um pouco a realidade das egressas da área de
Computação da Universidade Estadual do Oeste do Paraná. Pode-se certificar que ainda
é preciso encontrar formas de motivar mulheres que já possuem interesse na área, e,
1151
XXXVII Congresso da Sociedade Brasileira de Computação
mais, criar meios para divulgar a Computação às que não a conhecem, o que pode
acarretar em manifestação de interesse. Além disso, há que lhes mostrar que para
quebrar o preconceito e as críticas ruins que ainda existem, elas devem se posicionar
firmemente durante e após a graduação, insistindo na área para a qual tem vocação.
Como continuidade deste projeto vislumbram-se ações de acompanhamento das
alunas no curso, bem como a implementação de ações de divulgação já citadas,
buscando também um esforço conjunto com outras sociedades representativas de áreas
das Ciências Exatas, para melhor esclarecer os objetivos e o perfil do egresso de cursos
da área da Ciência da Computação, desmistificando que é uma área masculina.
Ainda como trabalhos futuros pode-se citar a aplicação de questionário sobre a
atuação após a graduação aos egressos, de forma a comparar as realidades de vivências
experimentadas pelos homens com as descritas pelas egressas nessa pesquisa. Ainda,
comparar os resultados, dentro do que for possível, com pesquisas correlatas.
Referências
AAUW (2017). The Simple Truth about Gender Pay Gap. Spring 2017 Edition.
Technical Report. Disponível em: www.aauw.org/research/the-simple-truth-about-
the-gender-pay-gap/ Acessado em: 03 de maio de 2017.
Burns, A., Bush, R. (2012). Marketing Research (7 ed). New Jersey: Pearson Education.
Casallas, R., Rodríguez, D. H., Hernández, J. T., Ortega, M. F. (2012). Understanding
the women participation decline in systems & computing engineering: Case study at
the university of los andes, Colombia. In: XXXVIII Conferencia Latinoamericana En
Informatica (CLEI), p. 1–6.
Época Negócios (2015). Por que há menos mulheres no setor de tecnologia?
http://epocanegocios.globo.com/Informacao/Dilemas/noticia/2015/08/por-que-ha-
menos-mulheres-no-setor-de-tecnologia.html. Acessado em: 14 de março de 2017.
Fritz, W. B. (1994). Eniac – A Problem Solver. IEEE Annals of the History of
Computing, 16(1):25–45.
Galpin, V. (2002). Women in computing around the world. ACM SIGCSE Bulletin –
Women and Computing, New York, USA, 34(2):94-100.
Goldstine, H. H. (1980). The computer from Pascal to von Neumann. Princeton
University Press.
IEEE-WIE (2017). IEEE Women in Engineering (WIE). Disponível em
http://www.ieee.org/membership_services/membership/women/women_about.html
Acessado em: 13 de março de 2017.
Lagensen, V. A. (2017). The Strength Numbers: Strategies to Include Women into
Computer Science. In: Social Studies of Science, 37(1):67-92.
Margolis, J. and Fisher, A. (2003). Unlocking the clubhouse: Women in computing.
MIT press.
Nelson, B. (2014). The data on diversity. Communications of the ACM, 57(11):86–95
1152
11º WIT - Women in Information Technology
1153
XXXVII Congresso da Sociedade Brasileira de Computação
Maker, são uma possibilidade para aberturas neste sentido. Dessa forma, este
documento pretende apresentar perspectivas teóricas para uma reflexão acerca do que se
compreende como uma cultura da área da computação e como pode ser possível romper
as hegemonias culturais normativas percebidas por meio desta observação.
2. Alguns movimentos e espaços
O movimento Hacker surgiu entre as décadas de 50 e 60 no Massachusetts
Institute of Technology (MIT) entre um grupo de jovens aficionados por
ferromodelismo [Levy, 2001]. Este grupo desenvolvia artefatos para aprimorar seus
projetos e o espaço que tinha disponível. Dessa relação surgiram palavras utilizadas
pelos participantes na comunicação, construindo um vocabulário. Dentre os termos, está
o hack que significa um projeto desenvolvido não necessariamente com um objetivo
construtivo, mas por algum prazer selvagem ou o puro envolvimento [Levy, 2001]. Este
termo acabou por influenciar o nome do movimento que se desenvolveu a partir de
então, pautado em seu significado original.
O movimento Maker se intersecciona com o Hacker em diversos aspectos.
Apesar de não haver um consenso sobre as diferenças entre estes espaços [Mattos,
2015], no movimento Maker há um envolvimento de artefatos físicos e da ideia de
construção e prototipagem, podendo extrapolar artefatos digitais e eletrônicos, estes
mais relacionados ao Hacker. Blikstein (2013) relata que em meados dos anos 2000,
pesquisadores e educadores passaram a demonstrar interesses nestes movimentos em
espaços educativos, desenvolvendo ações para proporcionar laboratórios dessa natureza,
principalmente nos Estados Unidos. Acerca desta relação crescente em contextos
educacionais, é possível a construção do conhecimento acontecer de maneira mais
significativa com a manipulação de artefatos físicos em situações contextualizadas com
as realidades do sujeito ou sua comunidade [Freire, 1983].
Apesar da visão progressista frente às problemáticas da educação, é importante
construir uma reflexão crítica acerca dos sujeitos envolvidos nos espaços onde o
computar é concebido. Por meio dos variados sistemas de significados que os sujeitos
utilizam para conceber e regular condutas, a ação social torna-se significativa tanto para
aqueles que estão diretamente envolvidos, quanto para aqueles que estão em seu entorno
[Hall, 1997]. Com esta reflexão, indaga-se a possibilidade de os movimentos Hacker e
Maker poderem ser compreendidos como potenciais espaços para a construção coletiva
de empoderamento e apropriação do fazer computacional para a diferença.
Para a compreensão acerca dos espaços onde a computação é construída, é
preciso extrapolar os ambientes formais e institucionais. Dessa forma, compreendem-se
diferentes tipos de espaços onde distintos processos educacionais se desdobram. Alguns
laboratórios e iniciativas comunitárias1 figuram nesta perspectiva, aliando valores de
liberdade e experimentação, advindos da cultura hacker. Estes espaços podem ser
importantes para a construção cultural da área, pois muitas vezes atuam no papel de
envolvimento inicial com a computação. A presença da diferença nestes ambientes é um
importante caminho para repensar a computação, na dialógica entre diferença e norma.
3. Gênero e Sexualidade
Os autores Hall (1997) e Louro (2016) debatem os processos culturais de
maneira a compreender as construções e desconstruções constantes. Ao tratar dos
1
Algumas iniciativas brasileiras que seguem esta perspectiva e podem ser citadas são o MariaLab
Hackerspace <http://marialab.org/>, o Olabi Makerspace < http://olabi.co/> e sua iniciativa PretaLab
<https://olabi.typeform.com/to/qe4tsA>, a iniciativa Progra{m}aria < https://www.programaria.org/>.
1154
11º WIT - Women in Information Technology
1155
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Associação Brasileira de Lésbicas, Gays, Bissexuais, Travestis e Transexuais. Secretaria
de Educação. Pesquisa Nacional sobre o Ambiente Educacional no Brasil 2015: as
experiências de adolescentes e jovens lésbicas, gays, bissexuais, travestis e
transexuais em nossos ambientes educacionais. Curitiba: ABGLT, 2016.
Blikstein, P. Digital Fabrication and ’Making’ in Education: The Democratization of
Invention. In: Walter-Herrmann, J.; Büching, C (Eds.). FabLabs: Of Machines,
Makers and Inventors. Bielefeld: Transcript Publishers, 2013.
Butler, J. Performatividad, Preccariedad y PolíticasSexuales. Revista de Antropología
Iberoamericana, Madri, v.4, n.3, , p. 321-226, 2009.
Freire, P. Extensão ou Comunicação? Ed. 7. Rio de Janeiro: Paz e Terra, 1983.
Hall, S. A Centralidade da Cultura: notas sobre as revoluções culturais do nosso tempo.
Revista Educação e Realidade, Porto Alegre, v. 22 n. 2, jul/dez, p. 15-46, 1997.
Levy, S. Hackers: heroes of the computer revolution. Dell PublishingCo., 2001.
Louro, G. L. Um Corpo Estranho – Ensaios sobre sexualidade e teoria queer. 2ed. Belo
Horizonte: Autêntica, 2016.
Mattos, E. A. C.; Silva, D. F.; Kós, J. R. Hackerspaces: espaços colaborativos de
criação e aprendizagem. V!RUS, São Carlos, n. 10, 2015.
Stout, J. G.; Wright, H. M. Lesbian, Gay, Bisexual, Transgender, and Queer Students’
Sense of Belonging in Computing: An Intersectional Approach. Revista IEEE
Computing in Science & Engineering, Maio-Junho, 2016.
Trenshaw, K. F.; Hetrick, A.; Oswald, R. F.; Vostral, S. L.; Loui, M. C. Lesbian, Gay,
Bisexual, and Transgender Students in Engineering: Climate and Perceptions. IEEE
Frontiers in Education Conference (FIE), Oklahoma City, p. 1238-1240, 2013.
Varga, S; Diaz, E. V. A Colaboração No Ambiente Educativo Face As Novas
Tecnologias E A Ética Hacker. In: Amaral, S. F.; Pretto, N. de L. (Eds.). Ética,
Hacker e a Educação. Campinas, SP: FE/UNICAMP, 2012.
1156
11º WIT - Women in Information Technology
1
Programa de Pós-Graduação em Tecnologia e Sociedade - Universidade Tecnológica Federal do Paraná
(UTFPR) Av. Sete de Setembro, 3165 - CEP 80230-901 - Curitiba – PR
2
Departamento Acadêmico de Informática - Universidade Tecnológica Federal do Paraná (UTFPR).
pricilacas@hotmail.com,marilia.utfpr@gmail.com
1 Trata-se de um espaço para mostrar ao mundo que a programação é para todos, mobilizando cada vez mais pessoas em torno dessa causa. Para
isso, ele reúne as melhores e mais simples ferramentas para aprender e ensinar a programar. Todas elas são gratuitas, em português e não exigem
nenhum conhecimento prévio em programação. O propósito é “agregar ideais, soluções e dicas de gente experiente e inspiradora”
(PROGRAMAÊ, 2017). Disponível em: http://programae.org.br/#saibamais Acesso em: 02 de abril de 2017.
1157
XXXVII Congresso da Sociedade Brasileira de Computação
1158
11º WIT - Women in Information Technology
1159
XXXVII Congresso da Sociedade Brasileira de Computação
1160
11º WIT - Women in Information Technology
web, tendo em vista que as relações estabelecidas nestes espaços e fora deles, com os
sujeitos envolvidos são construídas historicamente.
O Programaê, em sua proposta, aponta para que os e as participantes venham a
conhecer e desenvolver a computação, mas de certa forma excluem sujeitos que não se
identificam com os estereótipos formados nos personagens. Os desdobramentos dessas
representações nas imagens do Programaê constroem e reforçam que a computação
ainda é um espaço de predominância da figura masculina, e para as mulheres se
aproximarem da área são estereotipadas com papéis de princesas e vídeos que as
associam à beleza. As representações das imagens do Programaê produzem maneiras de
ser, agir e pensar ao demonstrar homens e mulheres e quais os valores que são aceitos
socialmente para cada um e uma.
5. Referências
Abbate, J. “Recoding gender: women’a changing participation in computing”. [S.l.]:
MIT Press, 2012.
Furlani, J. “Representações da mulher e do feminismo na mídia impressa brasileira -
desconstruindo significados na Educação Sexual”. Sexualidade / Secretaria de Estado da
Educação. Superintendência de Educação. Departamento de Diversidades. Núcleo de
Gênero e Diversidade Sexual. – Curitiba : SEED – Pr. Curitiba: [s.n.], 2009. p. 216.
Louro, G. L. “Gênero, sexualidade e educação: uma perspectiva pós-estruturalista”.
Petrópolis: Editora Vozes : CNTE, Confederação Nacional dos Trabalhadores em
Educação, 1998.
Magalhães, I. Análise do discurso publicitário. v. 4, n. 1 e 2, p. 231–260, 2005.
Margolis, J; Fisher, A. “Unlocking the clubhouse: Women in computing”. 2002. ed. [S.l:
s.n.], 2002.
Pêcheux, M. “Ler o arquivo hoje”. Gestos de leitura: da história no discurso. 1994. ed.
São Paulo, SP: Editora da Unicamp, 1982. p. 55–66.
Programaê. “Website da empresa de programação para jovens do Brasil”. 2017.
Disponível em: http://programae.org.br/. Acesso em: 02 de abril de 2017.
Turkle, S; Papert, S. “Epistemological Pluralism and the Revaluation of the Concrete”.
Journal of Mathematical Behavior. v. 11, n. 1, 1991, 1990 1990. Disponível em:
<http://www.papert.org/articles/EpistemologicalPluralism.html>. Acesso em: 11 abr.
2016.
1161
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O Brasil tem em média apenas 17% de concluintes do sexo feminino em diferentes
cursos de computação nos anos de 2000 a 2013, envolvendo Ciência da Computação,
Engenharia da Computação, Sistema de Informação dentre outros (Maia, 2016).
Especificamente na Universidade de Brasília, que atualmente tem aproximadamente
30.000 alunos em cursos de graduação, a realidade é ainda pior, pois nos últimos 10
anos, segundo (Holanda et al, 2016) esta média é de apenas 10%. Essa realidade
também pode ser observada em outros países (Abbate, 2012),(Khan et al. 2016),
(Keinan, 2017), (Vardi, 2015), (Stout, 2017).
Com o intuito de ter informações a respeito do pensamento sobre os cursos de
computação, das meninas do ensino fundamental e médio, o Departamento de Ciência
da Computação da Universidade de Brasília, com o auxílio do Departamento de
Estatística, elaborou um questionário, composto por 14 questões de múltipla escolha,
preenchido pelas meninas de escolas do ensino fundamental e médio, entre 2011 e 2014.
Neste contexto, o objetivo deste artigo é apresentar uma análise dos dados coletados
nesta pesquisa e apresentar pontos para discussão, como a importância da família na
escolha do curso e o interesse pela área de Computação a partir do seu nível escolar.
1162
11º WIT - Women in Information Technology
Para isso, este artigo está dividido nas seguintes seções. Na Seção 2 é
apresentado o questionário aplicado na Pesquisa. Na Seção 3, os resultados
considerados mais importante são descritos, pois a pesquisa é composta por 14
questões, porém, por limitação de espaço apenas 4 são apresentadas. Na Seção 4 é
apresentada uma breve discussão dos resultados. Por fim, a Seção 5 apresenta algumas
considerações finais sobre os resultados apresentados.
2. A Pesquisa
Durante os anos de 2011 a 2014, no evento Semana Nacional de Ciência e Tecnologia
do Ministério de Ciência e Tecnologia (SNCT) do Brasil, realizado em Brasília,
envolvendo estudantes do ensino fundamental, médio e superior do Brasil, foram
aplicados os questionários da pesquisa. O público alvo da aplicação do questionário
deste artigo foi meninas do ensino fundamental e médio, que responderam sobre as suas
percepções em relação à Computação.
O questionário foi elaborado pelo Departamento de Computação, em
colaboração com o Departamento de Estatística, da Universidade de Brasília. O
formulário é composto por questões como: sexo; série escolar; qual área de estudos
pretende prestar vestibular (Exatas, Biológicas ou Humanas); se está pensando em fazer
um curso superior para Computação; questões gerais de percepção sobre computação,
tais como, o local onde costuma usar o computador, atividades realizadas no
computador; questões específicas, para serem respondidas com sim, não ou talvez, tais
como, trabalhar em computação dá prestígio? Quem trabalha em computação ganha
bem? Entre outras.
Os questionários foram impressos pelo CESPE (Centro de Seleção e Promoção
de Eventos da Universidade de Brasília), e após aplicados pelos membros do projeto
Meninas.comp na SCNT, o próprio CESPE faz a leitura e processamento os dados das
respostas dos participantes da pesquisa. Após isso, os resultados são devolvidos em
forma de planilha e imagem de todos os formulários das pesquisas.
3. Resultados da Pesquisa
Entre 2011 e 2014, o questionário de Percepção sobre a Computação foi aplicado para
meninas do ensino fundamental e médio, em escolas e feiras de ciências no Distrito
Federal. No total foram preenchidos 1.821 questionários em 2011, 944 em 2012, 517
em 2013 e 425 em 2014, totalizando 3.707 questionários respondidos. No primeiro ano
da coleta de dados, o questionário foi aplicado com uma equipe composta por cinco
docentes e 10 alunas bolsistas durante os sete dias da feira, coletando assim o maior
número de formulário. A diminuição do número de respostas ao logo dos anos deu-se
basicamente pela redução da equipe, composta inicialmente por 5 docentes e 10 alunas,
chegando ao final a ter apenas uma docente e cinco alunas voluntárias. Em 2016 o
evento não aconteceu como nos anos anteriores. Em seguida, são apresentados os
resultados de algumas análises.
A primeira análise realizada foi em relação à questão “Para qual área você
pretende fazer um curso superior?”. Como apresentado na Figura 1, a área de Ciências
Exatas (Exact Sciences) é a que tem menor interesse, comparando com a área de Saúde
(Biology-Health Sciences) e Ciências Humanas (Human Sciences).
1163
XXXVII Congresso da Sociedade Brasileira de Computação
Biology−Health Sciences
75 75 75 75
25 25 25 25 Exact Sciences
Human Sciences
50 50 50 50
Yes
75 25 75 25 75 25 75 25
No
Maybe
50 50 50 50
Figura 2. Resultado à Pergunta “Você está pensando em fazer um curso superior para Computação?”.
O próximo passo da análise objetivou ter informações de diferentes questões do
ponto de vista do interesse em fazer um curso de computação (CS_Interest). A Figura 3
apresenta o resultado da pergunta do interesse em cursar computação por nível escolar.
Aqui tem-se duas questões interessantes: i) o terceiro ano (Treatment High School-12th
grade) teve o menor índice de resposta SIM (Yes); ii) o ensino fundamental (Treatment
Middle School) teve o maior número de resposta SIM (Yes).
500
400
Treatment
300 High School (10th Grade)
Quantity
0
Maybe No Yes
CS_Interest
1164
11º WIT - Women in Information Technology
Em relação à questão “A sua família gostaria que você fizesse vestibular para
computação? “, o resultado é apresentado na Figura 4. E como pode ser notado, fica
clara a importância da aprovação da família na escolha de um curso de Computação.
Dentre as meninas que responderam que teriam interesse em fazer o curso de
computação (CS_Interest = Yes), a grande maioria tem a aprovação da família
(Treatment Yes).
600
Treatment
Quantity
400 Maybe
No
Yes
200
0
Maybe No Yes
CS_Interest
Figura 4. Resultado à Pergunta “A sua família gostaria que você fizesse vestibular para computação?”.
5. Conclusões
A área de Computação, nos últimos anos, tem tido uma nítida redução na
participação de mulheres, indicando que as meninas não têm tido interesse em se formar
e seguir carreira na área. Contudo, a presença feminina na área é fundamental, pois as
empresas precisam ter a visão dos dois gêneros na produção de tecnologia, pois a
tecnologia, embora produzida pelos homens, é consumida pelas mulheres também.
Em relação a pesquisa realizada, dois fatores importantes foram evidenciados,
sendo esses: (i) que ao longo dos anos as meninas começam a perder o interesse em
Computação, uma vez que ao comparar o número de alunas interessa em computação é
bem maior que as do ensino médio; (ii) a importância do apoio da família na escolha de
um curso superior.
1165
XXXVII Congresso da Sociedade Brasileira de Computação
Assim, este artigo apresentou alguns dados que podem subsidiar ações com o
intuito de trazer mais mulheres para a computação, realizar atividades com alunas do
ensino fundamental e apresentar para a família das alunas da área de computação e a
necessidade de ter mais mulheres no mercado de trabalho.
Como trabalho futuro, pretende-se melhorar a análise dos dados, aplicado
técnicas de mineração de dados, assim como também analisar um maior número de
várias, uma vez que o formulário é composto de 14 questões.
Referências
Abbate, J. (2012). Recoding gender: women a changing participation in computing. MIT Press.
Cambridge, Massachusetts.
Holanda, M., Walter, M. E. T., Araujo, A. (2016). Meninas.comp: Computação também é coisa
de Menina, Revista Participação, n. 26, pg. 9-29, ISSN 2238-6963. Disponível em:
http://periodicos.unb.br/index.php/participacao/article/view/18788. Acessado em Março de
2017.
Keinan, E.. (2017). "A New Frontier: But for Whom? An Analysis of the Micro-Computer and
Women’s Declining Participation in Computer Science". CMC Senior Teses. 1466.
Claremont Colleges. Disponível em http://scholarship.claremont.edu/cmc_theses/1466.
Acessado em Março de 2017.
Maia, Marcel Maggion. (2016). Limites de gênero e presença feminina nos cursos superiores
brasileiros do campo da computação. Cadernos Pagu. n.46, pp. 223-244. ISSN 1809-
4449. http://dx.doi.org/10.1590/18094449201600460223.
Sanboya, M. C. L. (2009). Alunas de Engenharia Elétrica e Ciência da Computação; estudar,
inventar, resistir. Tese de Doutorado da Universidade de São de São Paulo. Faculdade de
Educação.
Vardi, Moshe Y., What Can Be Done about Gender Diversity on Computing? A lot! OCTOBER
2015. 58 (10). Communications of The ACM.
Stout , Jane G., Victoria A. Grunberg, Tiffany A. Ito. Gender Roles and Stereotypes about
Science Careers Help Explain Women and Men’s Science Pursuits . Sex Roles (2016)
75:490–499 DOI 10.1007/s11199-016-0647-5
1166
11º WIT - Women in Information Technology
Abstract. Gender inequality in the context of Science and Technology (C & T), in
particular in Computing, has become a concern for researchers worldwide.
Studies show that even with incentive policies for the insertion of women in
computing areas, their participation in courses is still very small. In a case study
in the Paraíba, it can be seen that there are only incentive programs for
enrollment, and this has not been shown to be sufficient to prevent the
circumvention of women in computer courses.
1. Introdução
3 Nome da Universidade foi omitido para não fazer ligação com os autores do trabalho
1167
XXXVII Congresso da Sociedade Brasileira de Computação
1168
11º WIT - Women in Information Technology
apresentado uma média de estudantes do gênero feminino ingressantes decrescente até 2015 e
passa a crescer em 2016. Já o número de estudantes do gênero masculino que se matricularam
aumenta até 2015 e em 2016, a média baixa (Gráfico 3).
Essa retenção é calculada em função reprovação por média, reprovação por falta e
trancamentos. E acredita-se que essa pesquisa ainda seja válida até hoje, visto que a
estrutura dos componentes curriculares dos cursos estudados mudaram pouco ou quase
nada até hoje.
As disciplinas que apresentaram os maiores com índices de retenção são as disciplinas
1169
XXXVII Congresso da Sociedade Brasileira de Computação
3. Considerações Finais
Referências
1170
11º WIT - Women in Information Technology
1. Introdução
Introduzir tecnologia e o pensamento computacional na sala de aula está se tornando cada vez
mais importante visto a forte influência da tecnologia no cotidiano de crianças e jovens. Segundo
Wing (2006) a constituição do pensamento computacional apresenta-se como uma das mais
importantes contribuições da ciência da computação para o mundo, pois forma cidadãos com
competências e habilidades necessárias para conviver e prosperar em um mundo cada vez mais
tecnológico e global.
Em paralelo a tais reflexões, originam-se também debates e estratégias em prol da
democratização do saber e do acesso das meninas/mulheres nas áreas científica e tecnológica
visando quebrar estigmas e atingir o equilíbrio entre os gêneros no universo da Computação.
Neste sentido, tanto o ensino de Computação nas escolas, quanto o fomento por uma maior
inclusão das mulheres no segmento de Tecnologia da Informação (TI) têm sido uma preocupação
crescente e gerando diversas ações que direcionam esforços no sentido de atender as demandas
estabelecidas nestes cenários [Barcelos, 2012][Santos, 2016][Gomes et al., 2014][Wolber,2014]
[Maciel, 2016].
O projeto Meninas Digitais Tchê Missões insere-se neste elenco de trabalhos. Acredita-se
que ampliar a imagem mental dos jovens sobre o que significa ser um(a) cientista da computação
pode ajudar a esclarecer detalhes sobre a área atraindo mais meninas e inspirando novos talentos.
1171
XXXVII Congresso da Sociedade Brasileira de Computação
Para tanto faz-se uso de estratégias que permeiam diferentes abordagens incluindo ações
voltadas ao público feminino no espaço da educação básica, onde as primeiras expectativas de
futuro e planejamento de carreiras são construídas e, também no espaço do ensino superior
promovendo a permanência daquelas meninas que já optaram por estas carreiras. Neste cenário,
o principal objetivo é que tais ações sirvam como ponto de apoio à consolidação da imagem de
que os espaços de Ciência e Tecnologia são também lugares onde as mulheres podem e devem
ocupar.
Uma visão geral das ações no âmbito do projeto é apresentada nas próximas seções,
destacando a metodologia empregada na execução do projeto (Seção 2), os resultados obtidos
(Seção 3) e as considerações finais (Seção 4).
2. Metodologia
O presente projeto apresenta-se como um convite para refletir, se inspirar e aprender. Para tanto
a metodologia adotada pelo projeto inclui atividades que visam evidenciar o potencial criativo, a
competência, a inteligência e as habilidades que as meninas possuem para produzir tecnologias e
não apenas para utiliza-las. As atividades incluem a promoção de discussões a respeito dos
benefícios providos pela tecnologia para a sociedade, reflexões sobre a importância do papel da
mulher nesse universo, geração de conhecimentos teóricos, práticos e operacionais. A Figura 1
descreve, em termos gerais, as principais atividades propostas.
1172
11º WIT - Women in Information Technology
1173
XXXVII Congresso da Sociedade Brasileira de Computação
3. Resultados Obtidos
Os resultados desta experiência permitiram uma aproximação maior com a realidade das meninas
no que se refere ao contato com a tecnologia. Todas as meninas participantes do projeto foram
indagadas se já haviam tido contato ou sido incentivadas a programar antes de ingressar no
Meninas Digitais. Dentre as declarações destacam-se: "Nunca. Eu nunca tive uma oportunidade
dessas, mas estou amando tudo que estou aprendendo.” (B.B, 16 anos); “Apenas coisas básicas
de blogs. Nunca havia me aprofundado nesse assunto.” (J.W, 17 anos); “Não. Está sendo uma
experiência incrível.” (R.X, 17 anos); “Não. Me chamou atenção justamente por isso.” (R. G.
A, 18 anos). A partir destas declarações percebe-se que há interesse das meninas pela área
tecnológica, o que falta são iniciativas que oportunizem o contato das mesmas com este universo.
Destaca-se ainda que apenas 5 equipes participaram do Desafio. Esta questão foi
averiguada e as meninas das demais equipes mencionaram que por estarem envolvidas com
vestibular e provas do Enem, não puderam participar. Segundo elas se as atividades tivessem
sido promovidas no 1º semestre do ano teriam maior disponibilidade de tempo. Estes dados
permitiram a realização de ajustes no cronograma das ações a serem promovidas pelo projeto na
sua segunda edição.
Evidencia-se ainda como resultado desta experiência o interesse das escolas em participar
das novas edições do projeto. Inclusive outras escolas da cidade e região entraram em contato e
demonstraram interesse das alunas em participar. Isso demonstra a boa repercussão do projeto
nos espaços escolares.
Por fim, considera-se o projeto Meninas Digitais Tchê Missões uma iniciativa em
processo de desenvolvimento e inovação que, contudo, já conta com resultados de sucesso,
considerando os resultados obtidos na 1ª Edição, e um novo olhar da comunidade envolvida em
relação ao tema Mulheres em TI.
1174
11º WIT - Women in Information Technology
Referências Bibliográficas
Wing, J. M. (2006) “Computational Thinking”, In: Communications of the ACM, pages 33-35,
March 2006/Vol. 49, No. 3, USA HANEY.
Barcelos, T. and Silveira, I. F. “Pensamento Computacional e Educação Matemática: Relações
para o Ensino de Computação na Educação Básica”. In: XX Workshop sobre Educação em
Computação, 2012, Curitiba. Anais do XXXII CSBC, 2012.
Maciel, C. and Bim, S. A. (2016) Programa Meninas Digitais - Ações para divulgar a
Computação para meninas do ensino médio, In: Computer on the Beach 2016,
Florianópolis, SC. pp.327-336, 2016.
Santos, Elisângela Ribas et al. Estímulo ao Pensamento Computacional a partir da Computação
Desplugada: uma proposta para Educação Infantil/Stimulus to computational thinking: a
proposal for elementary school. Revista Latino-americana de Tecnología Educativa-
RELATEC, v. 15, n. 3, p. 99-112, 2016.
Gomes, Wesckley Faria, et al. "Incentivando meninas do ensino médio à área de Ciência da
Computação usando o Scratch como ferramenta." Anais do Workshop de Informática na
Escola. Vol. 20. No. 1. 2014.
Wolber, D., Abelson, H. and Friedman, M. Democratizing Computing with App Inventor.
Newsletter GetMobile: Mobile Computing and Communications - ACM, v. 18, n. October,
p. 53–58, 2014.
1175
XXXVII Congresso da Sociedade Brasileira de Computação
1176
11º WIT - Women in Information Technology
mulheres se destacaram na área [Schwartz et al. 2006] e ainda se destacam, como por
exemplo, no que diz respeito às produções cientı́ficas mais significativas e de maior qua-
lidade [Rosa and Quirino 2017].
Como forma de incentivar a diversidade de gênero dentro das organizações, mui-
tas empresas de tecnologia investem em comunidades para o empoderamento de mu-
lheres na área. As comunidades mostram-se boas iniciativas para promover trabalho,
troca e produção de conhecimento [Moretti 2013]. Além disso, a comunicação desen-
volvida nesse espaço permite a criação de um vı́nculo social entre os membros do grupo
[Sartori and Roesler 2004].
Além das comunidades incentivadas por organizações, existem outras que par-
tem de iniciativas próprias, sobretudo de mulheres. Em geral, essas comunidades sur-
gem como um projeto para divulgar a área da tecnologia para outras meninas e mulheres
[Moreira et al. 2016, Maciel et al. 2013] ou para manter relações entre mulheres que já
são da área, como é o caso da comunidade apresentada neste estudo. Dessa forma, é obje-
tivo do trabalho apresentar esse grupo, suas iniciativas e verificar se o fato da comunidade
ser composta somente por mulheres faz com que as mesmas se sintam mais confortáveis,
conforme apontam estudos recentes [Hirsch et al. 2017].
2. A comunidade
A comunidade ”Minas da TI” foi criada no final do ano de 2015, após idealização das
fundadoras, que são desenvolvedoras e, com frequência, sentiam sua capacidade questio-
nada. Além disso, relatos de conhecidas, amigas e outras mulheres da área foram levados
em conta para concluir a criação da comunidade voltada ao público de mulheres na área
de tecnologia.
Diferentemente da maioria das comunidades já existentes voltadas a esse tema,
essa optou por ser restrita à participação de mulheres. Isso porque observou-se que várias
outras comunidades voltadas para o empoderamento feminino na região contavam com
palestras ministradas, em sua maioria, por homens. E, além disso, nos encontros promo-
vidos, a maioria dos participantes eram do sexo masculino. Dessa forma, o perfil atingido
pela comunidade são jovens mulheres em sua maioria com idade entre 18 e 34 anos.
Entretanto, na página da comunidade no Facebook, existe uma pequena parcela mascu-
lina, 24% do total de seguidores, que segue as publicações do grupo apesar dos eventos
divulgados nessa página serem restritos ao público feminino.
Os encontros promovidos pelo grupo acontecem duas vezes por mês, contam com
a presença de 20 a 25 mulheres e variam muito de formato. Em geral, ocorrem debates,
palestras, dojos e workshops. Cada evento possui sua particularidade mas busca sem-
pre levar o aprendizado de uma nova tecnologia. É muito importante que os encontros
ocorram com certa periodicidade para que se crie uma rede de contatos e conexões mais
fortes entre as participantes. Além disso, com o objetivo de divulgar e ganhar a adesão de
mais mulheres, a comunidade incentiva as participantes veteranas a levarem outras mu-
lheres para os encontros. Dessa forma, elas se sentem parte da comunidade e auxiliam no
enriquecimento e crescimento da mesma.
Além do apoio recebido pelas próprias participantes dos eventos, o grupo conta
com o apoio de várias empresas da região que contribuem cedendo espaços, patrocinando
1177
XXXVII Congresso da Sociedade Brasileira de Computação
3. Estudo Quantitativo
Baseado no fato de que existem muitas comunidades mistas voltadas às mulheres na área
de tecnologia, a principal questão que se deseja compreender é se o fato do grupo ser
composto somente por mulheres faz com que, de fato, as membros se sintam mais con-
fortáveis. Para isso, um questionário foi elaborado com duas perguntas principais, sendo
elas: ”Como você se sente estando em um grupo somente de mulheres?” e, caso a membro
também participe de grupos mistos, ”Como você se sente estando em um grupo misto?”.
Para ambas as perguntas, foi criada uma escala de 1 a 5, onde 1 representa desconfortável
e 5 indica confortável. Além disso, para compor o perfil das mulheres que responderam
ao questionário, foram feitas perguntas relacionadas à idade e escolaridade das mesmas.
O questionário foi enviado para o e-mail de todas as mulheres que fazem parte
do grupo no Meetup com o objetivo de limitar o sexo das respondendes do questionário,
ou seja, somente mulheres responderem o mesmo. O questionário ficou disponı́vel por 5
dias e, ao todo, obtivemos 82 respostas. Com base na análise dessas respostas, foi possı́vel
confirmar o pefil das mulheres que compõem a comunidade no Facebook. As mulheres
que responderam ao questionário são, em geral, jovens com idade entre 18 a 34 anos e
com ensino superior em andamento ou concluı́do, assim como o perfil de mulheres que
curtem a página da comunidade.
Os resultados para as duas perguntas principais mostram que a grande maioria,
72%, se sente confortável em um nı́vel máximo na escala em grupos formados somente
por mulheres. Enquanto que dos 72% das mulheres que participam de grupos mistos,
45,8% se sentem confortáveis nesse mesmo nı́vel. Além disso, a porcentagem restante
para os nı́veis de conforto em grupos formados somente por mulheres se distribui pelos
nı́veis 3 e 4 que somam 26,9% e nı́vel 2 com 1,2%. Já para os nı́veis de conforto em grupos
mistos, os nı́veis 1 e 2 recebem 1,7% cada, e os nı́veis 3 e 4 somam 58,8%. Conforme
mostram, respectivamente, as Figuras 1(a) e 1(b).
Além disso, é possı́vel perceber que o grau de conforto atribuı́do às comunidades
mistas é, em geral, inferior ao atribuı́do às comunidades em que a participação é restrita às
mulheres. Dessa forma, pode-se inferir que, as mulheres, de fato, percebem diferenças ao
participar desses dois tipos de comunidade. Isso fica evidente ao avaliar as distribuições
entre os nı́veis de conforto para as comunidades.
1178
11º WIT - Women in Information Technology
(a) Conforto das mulheres que participam de gru- (b) Conforto das mulheres que participam de gru-
pos formados somente por mulheres pos mistos
Sendo assim, acredita-se que a comunidade ”Minas da TI” propicia um ambiente fa-
vorável para essas mulheres, uma vez que a maioria delas encontram-se também inseridas
em grupos mistos. Dessa forma, a comunidade não pretende se abrir para a entrada de
membros do sexo masculino.
Mesmo acreditando que diversidade de gênero é fundamental para se alcançar a
igualdade de gênero, o grupo busca, em um primeiro momento, fortalecer a participação
das mulheres no mercado de TI e amparar justamente o grupo que se sente mais con-
fortável em participar de comunidades formadas somente por mulheres.
Referências
Borges, K. F. C., IDE, M. d. S., and Durães, S. J. A. (2010). Mulheres na educação
superior no brasil: estudo de caso do curso de sistema de informação da universidade
estadual de montes claros (2003/2008). In Congresso Ibero-Americano de ciência,
tecnologia e gênero, volume 8.
de Freitas, L. B. and da Luz, N. S. Os estudos de gênero, ciência e tecnologia no brasil:
Uma análise a partir de periódicos de gênero.
Hirsch, L. S., Berliner-Heyman, S., Cano, R., and Cusack, J. L. (2017). The effectiveness
of single-gender engineering enrichment programs: A follow-up study.
Lima, F. A. d. (2014). Mulheres na tecnociência: depoimentos e vivências de mulheres
nos cursos de computação da universidade tecnológica federal do paraná. Master’s
thesis, Universidade Tecnológica Federal do Paraná.
Lima, M. P. (2013). As mulheres na ciência da computação. Estudos Feministas, pages
793–816.
Maciel, C., Bim, S. A., and Boscarioli, C. (2013). Hci with chocolate: Introducing hci
concepts to brazilian girls in elementary school. In CLIHC, pages 90–94. Springer.
Mattos, A. I. S. (2016). Desigualdades de gênero: Uma revisão narrativa. Saúde. com,
11(3).
Moreira, J., Mattos, G., Barreto, L., Cavaco, I., and Moreira, R. (2016). Atraindo meninas
para a ciência da computação: Métodos e ferramentas. In Anais dos Workshops do
Congresso Brasileiro de Informática na Educação, volume 5, page 1255.
1179
XXXVII Congresso da Sociedade Brasileira de Computação
1180
11º WIT - Women in Information Technology
1
Programa de Pós-Graduação em Informática (PPGIa) – Pontifícia Universidade
Católica do Paraná (PUCPR)
Rua Imaculada Conceição 1155 – 80.215-901 – Curitiba – PR – Brasil
2
Programa de Pós-Graduação em Educação Especial (PPGEES) - Universidade Federal
de São Carlos (UFSCar)
Rod. Washington Luís km 235 - 13565-905 - São Carlos - SP - Brasil
Tech Ladies
4
Curitiba – PR - Brasil
ana.moises@ppgia.pucpr.br, {izaperkoski, khalyandra, anessaromankiv}
@gmail.com
Abstract. The discussion about gender stereotyping has been a concern for the
future of women in the fields of science, technology, engineering and math
(STEM). In order to change this scenario, many initiatives for women in
technology are emerging. In this direction, this paper presents the objectives,
structure and work carried out during the first year of Tech Ladies network, as
an initiative that connects, teaches and empowers women in the area of
technology.
Resumo. A discussão sobre estereótipos de gênero é uma preocupação para o
futuro da mulher nas áreas da ciência, tecnologia, engenharia e matemática
(STEM). Visando mudar esse cenário, muitas iniciativas para as mulheres na
tecnologia estão surgindo. Nessa direção, este artigo apresenta os objetivos, a
estrutura e o trabalho realizado durante o primeiro ano da rede Tech Ladies,
como uma iniciativa que conecta, ensina e empodera mulheres na área da
tecnologia.
1. Introdução
Recentemente o Fórum Econômico Mundial publicou o Relatório de Desigualdade
Global de Gênero 2016, onde cita que o Brasil está 79º posição no que diz respeito a
paridade econômica de gêneros nas áreas de acesso à Educação, Saúde e Sobrevivência,
Oportunidade Econômica e Empoderamento Político [World Economic Forum 2016]. O
relatório conclui que o progresso para equidade de gênero ocorre de forma lenta no
contexto mundial. Com o progresso tecnológico a maioria dos postos de trabalhos com
predominância feminina tende a se reduzir demandando assim urgência na adesão de
mulheres nas áreas de ciência, tecnologia, engenharia e matemática (STEM).
Neste cenário, buscam-se meios de incentivar mulheres a ingressarem e
permanecerem na tecnologia e alguns movimentos que vêm acontecendo ao longo dos
1181
XXXVII Congresso da Sociedade Brasileira de Computação
anos. No Brasil, ainda de acordo com o estudo de [Nunes et al. 2016], surgiram 16
iniciativas desde 2005, criadas por universidades, entre elas destacam-se os projetos
Meninas Digitais [Maciel e Bim 2016] e Emili@s [Bim 2016]. Essas iniciativas
promovem palestras, oficinas, congressos e até mesmo blogs. Além da contribuição das
universidades com projetos de extensão com este foco, as iniciativas privadas
(organizações não governamentais, startups, comunidades e pessoas físicas) estão se
organizando e se unindo. Um exemplo disso é o Mapa das Minas1 criado para listar
todas essas iniciativas no Brasil.
Com intuito de continuar incentivando meninas a entrarem na área de TI,
compartilhar conhecimentos adquiridos na profissão, colaborar com as diversas
iniciativas existentes, promover oficinas, palestras, eventos, integrar universidades,
espaços de coworkings e empresas, nasceu a rede apresentada neste artigo.
Este artigo está organizado da seguinte maneira: a Seção 2 apresenta a rede; na
seção 3 são descritos os resultados atingidos pela rede até o momento; e a seção 4
conclui o artigo.
2. Apresentação e Motivação
A rede Tech Ladies foi criada a partir da percepção e vivência da fundadora a respeito
da baixa participação e alto índice de desistência das mulheres na área de tecnologia,
tanto no mercado de trabalho quanto em cursos acadêmicos. Essa percepção é
confirmada por uma pesquisa relacionada à baixa participação de mulheres na área de
TI que teve como foco entrevistas com alunas dos cursos de Sistemas de Informação e
Engenharia da Computação [De Lima 2014]. Outra pesquisa em andamento, busca
explicar o motivo da exclusão feminina [Castelini 2016] confrontando a masculinização
da área e o imaginário estabelecido socialmente de que a mulher não é capaz, não pode
ser aluna ou profissional da área da computação
Preocupada com todo esse contexto, a rede se apresenta como um espaço para
troca de conhecimento, ascensão profissional, desenvolvimento pessoal e valorização da
mulher nas áreas de exatas.
2.1 Objetivos
É uma rede de empoderamento feminino na tecnologia visando incentivar, inspirar,
conectar e imergir as meninas e mulheres no universo da tecnologia. Pretende-se, por
meio da inovação tecnológica e empreendedorismo, aumentar a participação das
mulheres no mercado tecnológico promovendo a equidade de gênero.
Atua na realização, colaboração e participação de iniciativas, projetos, oficinas,
palestras e eventos. A rede apoia e conecta as diversas iniciativas distribuídas no
território nacional com o objetivo de unir as mulheres da área de forma colaborativa.
Articula projetos de aplicativos mobile, sistemas web, robôs e sensores com o objetivo
de aprimorar os conhecimentos em novas tecnologias e permitir que as participantes
coloquem em prática os conhecimentos adquiridos nas oficinas. As palestras
1
https://www.google.com/maps/d/viewer?mid=1PFfESBALPxGFuMPJNcTq-ZRT9lk&hl=en_US&ll=-
7.454682350012113%2C-35.112382976562515&z=8
1182
11º WIT - Women in Information Technology
2.2 Estrutura
A estrutura da Tech Ladies é composta por embaixadoras, equipe técnica e
integrantes. As embaixadoras são mulheres professoras e empresárias que desde o início
da rede apoiam os trabalhos e são exemplos de superação e dedicação. A equipe técnica
é formada por mulheres profissionais de diversas áreas, como marketing, psicologia,
administração e computação, que organizam eventos, palestras e oficinas. As
integrantes são mulheres e meninas que querem aprender mais sobre a área e que
participam de eventos promovidos pela rede.
Dentro dessa estrutura é possível perceber diferentes perfis de acordo com
objetivo e história de vida de cada integrante. Neste contexto, participam da rede:
o Mulheres atuantes na tecnologia, que trabalham com tecnologia da
informação, web design, testes, engenharias, programação, gerentes de
projetos, analista de negócio, ensino e diversas outras áreas.
o Mulheres e meninas que buscam uma área para iniciar sua vida
profissional na tecnologia, normalmente são alunas do ensino médio que
estão pretendendo ingressar numa das áreas de STEM e procura por
orientação profissional e o que a mulher precisa enfrentar dentro da área.
o Mulheres que já desistiram de atuar na tecnologia e com o apoio da rede
estão retornando e acreditando que elas podem trabalhar na área e serão
reconhecidas.
Percebe-se que as integrantes da rede se sentem à vontade para compartilhar e
aprender, estão entusiasmadas com a rede e procuram sempre participar dos eventos.
3. Resultados do Projeto
1183
XXXVII Congresso da Sociedade Brasileira de Computação
No decorrer do ano de 2016 e início de 2017 a rede participou de diversos eventos para
divulgação das suas atividades: palestras, mentorias em hackathons2, eventos e oficinas.
O primeiro dos eventos promovidos pela rede foi o lançamento da iniciativa
ArduLadies, focada no ensino de eletrônica com Arduino3 para mulheres, incentivando
a capacidade de realizar projetos por si mesmas - movimento maker4. Além disso, foram
quatro palestras sobre introdução ao Arduino e apresentação da rede nos eventos:
Paraná DevDay - SEBRAE, TechDay - EBANX, Charneira - PUCPR, Jornada de
Atualização em Informática - UniCuritiba.
Depois disso, para divulgar a rede, foram reunidas mulheres inspiradoras em um
evento onde 10 palestras foram ministradas sobre os seguintes temas: programação,
design, negócios, jornalismo, inclusão das mulheres na tecnologia. Esse evento obteve
100 inscritas e 80 participantes e contou com o apoio da Universidade Positivo, TopTal,
Agência Liderança Feminina, Just - Assistente Virtual, Rede Mulher Empreendedora
(RME). As integrantes da rede estiveram presentes em quatro hackathons, sendo que em
três deles com mentorias de desenvolvimento, design e negócios (Hackathon Paraná,
Hackathon OAB, Hackathon Copel SENDI) e uma equipe que desenvolveu uma
solução para durante o Hackathon SESI.
Uma outra iniciativa foi a Oficina Django Girls, que orientou o desenvolvimento
de um blog no framework Django com Python. Foi realizada em parceria com a Aldeia
Coworking, e contou com 7 tutoras da rede e tutores de outras comunidades. O evento
contemplou 30 participantes, das quais 80% das mulheres não eram da área de TI, e
gerou uma lista de espera de mais 90 pessoas. Também foi organizado o Dojô de
Arduino com programação intuitiva por meio do Scratch for Arduino (S4A), evento
realizado em conjunto com a Eletron e em parceria com O Penal coworking, contou
com a participação de 10 meninas.
Por fim, a rede organizou também a oficina de empoderamento feminino,
realizado em parceria com o Centro Europeu e Unistart, com o objetivo de inspirar as
integrantes e mostrar que todas as mulheres possuem força, garra, inteligência e controle
emocional por meio de técnicas de Coaching [Navarro 2015]. O evento teve um total de
13 participantes das 18 inscritas.
4. Considerações Finais
Este artigo apresentou detalhes sobre a rede, com a motivação para a sua criação, seus
objetivos e os trabalhos realizados. Todo esse movimento está sendo realizado por
diferentes perfis de mulheres: atuantes na tecnologia, as que buscam uma área para
iniciar sua vida profissional e as que já desistiram de atuar na tecnologia e com o apoio
2
https://en.wikipedia.org/wiki/Hackathon
3
https://www.arduino.cc/
4
https://en.wikipedia.org/wiki/Maker_culture
1184
11º WIT - Women in Information Technology
da rede estão retornando e acreditando que elas podem trabalhar na área e serão
reconhecidas. Embora ainda sem dados sistemáticos, é possível observar
preliminarmente alguns impactos da criação da rede no ecossistema local, promovendo
diversidade e inclusão no mercado de tecnologia. A recepção das participantes parece
ser bastante positiva, com uma procura crescente pelos eventos e oficinas promovidos
pela rede e engajamento voluntário de cada vez mais mulheres. O envolvimento de
profissionais, estudantes e interessadas pela área de tecnologia em iniciativas como essa
rede permite que as mulheres criem relações seguras, de confiança e cooperação, em um
ambiente motivador e positivo.
No futuro, espera-se que a rede seja capaz de fortalecer e ampliar a participação
feminina no mercado de tecnologia de forma cada vez mais efetiva e ampla.
Referencias
Bim, S. A.; Amaral, M. A.; Kozievitch, N. P.; Emer, M. C. F. P.; Setti, M. O. G.;
Pellison, L. A.; Merkle, L. E.. Divulgar para Atrair, Motivar para Manter. In: 10º
WIT - Women in Information Technology, 2016, Porto Alegre. Anais do XXXVI
congresso da sociedade brasileira de computação:
#Computaçãoeinterdisciplinaridade. Porto Alegre: EDIPUCRS Editora Universitária
da PUCRS, 2016. p. 2665 – 2669
Castelini, P.; Amaral, M. A.; Barbosa E., Silva, R. Women and the imaginary in
Computer courses at UTFPR. In: XI JORNADAS LATINOAMERICANAS DE
ESTUDOS SOCIAIS DA CIENCIA E DA TECNOLOGIA, ESOCITE 2016:
ESOCITE 21 Anos: Trajetórias plurais entre passados e futuros, 2016.
De Lima, Alves Fabiane. Mulheres na Tecnociência: depoimentos e vivências de
mulheres nos cursos de Computação da Universidade Tecnológica Federal do
Paraná. Disponível em:
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/1007/1/CT_PPGTE_M_LIMA
%2c%20Fabiane%20Alve s%20de_2014.pdf, March.
Nunes, M.A.S.N.; Louzada, C. S.; Salgueiro, E. M. ; Carvalho, B. T. A. ; Lima, P. S. ;
Figueredo, R. M. C. T.; Mapeamento de iniciativas brasileiras que fomentam a
entrada de mulheres na Computação . In: 10° WIT, 2016, Porto Alegre. X Women in
Information Technology. In: CSBC. Porto Alegre: SBC, 2016. v. 1. p. 2692-2696.
Maciel, C., Bim, S. A. Programa Meninas Digitais ações para divulgar a Computação
para meninas do ensino médio. In: Computer on the Beach, 2016, Florianópolis.
Anais [do] Computer on the Beach, 2016. p. 327336.
Navarro, R,: Poder do Coaching: Aumente seu nível. Aprenda. Supere. Conquiste,
Instituto Coaching Financeiro e Editora Momentum, ISBN 978-85-66788-04-4,
2014.
World Economic Forum (2016); “The Global Gender Gap Report 2016,
http://www3.weforum.org/docs/GGGR16/WEF_Global_Gender_Gap_Report_2016.
pdf, March.
1185
XXXVII Congresso da Sociedade Brasileira de Computação
cfaria@inf.puc-rio.br
1. Introdução
A diversidade de profissionais em todas as áreas é fundamental para que seja possı́vel
representarmos todos os indivı́duos da sociedade moderna e, portanto, termos soluções
mais adequadas aos problemas por ela enfrentados. Diante desta afirmativa é preocupante
o baixo número de mulheres atuando na área de Tecnologias da Informação. Segundo
o PNAD, em 2009 somente 18,84% dos profissionais de Tecnologia da Informação (TI)
eram mulheres [de Castro 2013].
A dificuldade de inclusão de mulheres em ambientes dominados por homens não é
um problema atual, e traz à tona fatores importantes como o papel da mulher na sociedade,
cujas regras são impostas e criadas por homens [de Beauvoir 1949]. Mais especificamente
na área de TI, temos atualmente grandes congressos e grupos formados com o objetivo
1186
11º WIT - Women in Information Technology
de estudar esse problema e tentar revertê-lo. Podemos citar, por exemplo, o congresso
Grace Hopper Celebration of Women in Computing do Instituto Anita Borg [Gra ] e a
Association for Women in Mathematics [AWM ].
Dentro desse contexto, diversos projetos nacionais foram criados, o principal
deles sendo o Programa Meninas Digitais da Sociedade Brasileira da Computação
(SBC) [Cristiano Maciel 2016]. Esse programa tem como objetivo motivar alunas do
Ensino Médio e Fundamental a seguir carreira na área de Tecnologias da Informação. Ele
já possui alguns parceiros como o Emili@as [emi ], o Cunhatã Digital [cun ], o #include
<meninas.uff > [Inc ] e também filiais na Região Sul e no Mato Grosso.
Este artigo descreve alguns resultado obtidos após mais de um ano de atividades
realizadas pelo Projeto #include <meninas.uff>, do Instituto de Computação (IC) da
Universidade Federal Fluminense (UFF). O projeto, além de trabalhar junto a alunas do
Ensino Médio e Fundamental, busca atuar junto às alunas do Instituto, visando apoiar sua
expressão e bem-estar como minoria de gênero, bem como evitar eventuais evasões em
face deste tipo de problema.
2. Objetivo
Pela terceira vez, o Projeto #include <meninas.uff> organizou uma atividade com
os alunos recém-inscritos no curso de Ciência da Computação da UFF, no contexto
do Evento de Acolhimento dos Calouros, promovido pelo Diretório Acadêmico do
curso [Mochetti et al. 2016]. No primeiro semestre de 2017 tivemos a participação de
5 alunas de 35 alunos no total (14%). A mesma porcentagem foi verificada no primeiro
semestre de 2016. Já no segundo semestre de 2016 tivemos uma porcentagem ainda me-
nor com 4 alunas num total de 40 alunos (10%).
O curso de Ciência da Computação da UFF existe desde 1985. Dos mais de
3000 alunos que já passaram pelo Instituto de Computação da UFF, somente 16% eram
mulheres. Nota-se, contudo, que esse número já pequeno diminuiu muito nos últimos
anos, chegando a valores alarmantes como a inscrição de somente uma menina em
2008 [Mochetti et al. 2016]. Com base nessa grave estatı́stica, nosso projeto pretende
contribuir para que esse problema seja contornado, motivando alunas do Ensino Médio
e Fundamental a seguir carreira na área de TI e emponderando as alunas de graduação e
pós-graduação já inclusas na área.
3. Metodologia
A estrutura da atividade foi mantida da mesma forma nos 3 perı́odos em que foi reali-
zada [Mochetti et al. 2016]. Ela é composta de 3 partes: Primeiramente, os alunos parti-
cipantes da atividade são posicionados em um grande cı́rculo na intenção de que cada um
se apresente para os demais. Ao final desta etapa pedimos a alguns dos participantes que
dissessem o nome de algum outro colega, selecionado por nós, pesquisadoras.
Na segunda etapa os alunos foram divididos em grupos, com uma menina por
grupo, se possı́vel. No segundo perı́odo de 2016 a porcentagem de meninas foi tão baixa
que foi necessário criar um grupo somente com meninos. A divisão é feita dando-se
um número para cada menina na frente de todos, enquanto cada garoto ao receber seu
número deveria procurar a menina correspondente. Desta forma, queremos que as meni-
nas tenham a função indireta de liderança, sem que essa tenha sido imposta diretamente
1187
XXXVII Congresso da Sociedade Brasileira de Computação
por nós. Nessa dinâmica cada grupo deve desvendar uma dica de uma caça ao tesouro
baseada em uma Cifra de Substituição [Luciano 1987]. A cada perı́odo o tipo de cifra e
a chave são alterados para evitar que os alunos que já realizaram a atividade em perı́odos
anteriores passem alguma dica para os novos calouros.
A terceira etapa promove um debate aberto com os alunos sobre os motivos pelo
qual o número de mulheres na área de Tecnologias da Informação ser cada vez mais baixo.
4. Resultados
Diferentemente do que ocorreu nas duas primeiras edições da acolhida, em 2017, no inı́cio
de umas das atividades um aluno comentou que a atividade possivelmente estava relacio-
nada com mulheres na computação já que éramos 2 professoras e 3 alunas. Podemos notar
que um grupo de mulheres numa área tão masculina é incomum e, portanto, rapidamente
chama a atenção e indica o motivo da atividade.
Na primeira etapa da atividade, percebemos o mesmo comportamento todas as
vezes. Ao se posicionarem no cı́rculo as alunas normalmente ficam todas juntas, próximas
das professoras que estão organizando a atividade. No momento que elas se apresentam
todos se calam para escutá-las, o que não acontece com seus colegas. O nome de todas
também é rapidamente lembrado por todos, que em alguns casos já sabem o nome delas
antes mesmo que estas se apresentarem. Normalmente as garotas que se afastam do grupo
de meninas são as mais introvertidas e quietas. Este fato se manteve mesmo quando
ocorreu uma interação prévia entre os calouros (a atividade realizada no primeiro semestre
de 2017 ocorreu após alguns eventos sociais entre os alunos e os calouros).
Na segunda etapa da atividade percebemos que a maioria das alunas tem o papel
com a dica retirado de sua mão rapidamente por algum dos garotos. Além disso, é possı́vel
notar em alguns grupos que apesar de tentar opinar ou recuperar o papel com a dica, elas
por vezes são ignoradas pelos colegas, logo desistindo de participar ou tentando decifrar
sozinha sem participação do seu time.
O grupo vencedor no terceiro perı́odo de atividade, no entanto, teve a aluna como
lı́der o tempo todo. Ela não deixou que retirassem o papel de sua mão e decifrou rapida-
mente a mensagem praticamente sozinha, levando todos do seu time até o prêmio. Ela se
mostrou independente e emponderada o tempo todo. Durante a última etapa da atividade,
descobrimos que sua mãe é professora de matemática na universidade e que seu interesse
pela área começou desde cedo. Por ter uma pessoa próxima na área, ela já imaginava que
o número de meninas seria baixo.
Em todas as atividades percebemos que a presença de veteranos – mesmo que
somente dois – coı́be os calouros, que têm receio de se expressar na etapa da atividade de
discussão. Essa presença independe do sexo, já que veteranas também atrapalharam a boa
evolução da atividade. Apesar disso, as meninas sempre parecem interessadas e dispostas
a compartilhar suas histórias e experiências. Percebemos no discurso da maioria que
apesar de saberem da baixa porcentagem de mulheres no curso elas ainda se assustam
com o baixo número assim que sai a lista de aprovados.
Atualmente temos no Projeto #include <meninas.uff> duas alunas que partici-
param da atividade como calouras no primeiro semestre de 2016. Segunda elas, após
a apresentação do Projeto #include <meninas.uff>, muitos meninos comentaram que
1188
11º WIT - Women in Information Technology
acharam ótima elas terem compartilhados suas experiências e que não tinham ideia de
como era a sensação de ser uma menina na área de TI. Além disso, elas se sentem felizes
e surpresas ao verem mulheres bem sucedidas na área e ao terem o apoio de um projeto
dedicado somente a elas. Assim, podemos concluir que o projeto está tendo um efeito
positivo na inclusão de meninas nos primeiros dias de aula.
5. Conclusão
A análise das recorrências em três edições do acolhimento dos calouros de ciência da
computação visando a reflexão sobre a posição das meninas no curso e na carreira revelou,
através de inúmeras evidências verbais que:
• Desde a escolha da carreira as meninas sentem-se desmotivadas pela sociedade
(inclusive pela famı́lia) a procurar carreira nas ciências exatas. Isto reforça a im-
portância dos projetos de incentivo à carreira no Ensino Médio e Fundamental,
mas também revela que aquelas que escolhem a carreira o fazem sob a pressão da
minoria e podem necessitar de apoio para reafirmar e permanecer firmes em sua
escolha ao longo do estudo na graduação.
• O incentivo à inserção de alunas que já participaram do acolhimento no Projeto
#include <meninas.uff> é forte incentivo para a permanência na carreira além de
exemplo e motivação para as calouras que encontram nessas veteranas exemplos
de sucesso na opção.
• O papel dos veteranos na atividade, independente de gênero, é hoje mais de
obstáculo do que de colaboração. O desafio, para edições futuras, é a definição de
ações que permitam que os veteranos se transformem em aliados do projeto.
Trabalhos futuros mostram-se interessantes em relação ao acompanhamento da
evolução das participantes do acolhimento no curso de Ciência da Computação e no le-
vantamento mais aprofundado da percepção dos meninos quanto à atividade realizada.
Referências
Association for Women in Mathematics. sites.google.com/site/awmmath.
Cunhatã Digital. www.facebook.com/cunhantadigital.
Emili@as. https://www.facebook.com/emiliasarmacaoembits.
Grace Hopper Celebration of Women in Computing. ghc.anitaborg.org.
#include <meninas.uff >. www.facebook.com/include.meninas.uff.
Cristiano Maciel, S. A. B. (2016). Programa meninas digitais - ações para divulgar a
computação para meninas do ensino médio. In Computer on the Beach.
de Beauvoir, S. (1949). O Segundo Sexo. Nova Fronteira.
de Castro, B. G. (2013). Afogados em contratos: o impacto da flexibilização do trabalho
nas trajetórias dos profissionais de TI. PhD thesis, UNICAMP.
Luciano, D. G. P. (1987). Cryptology: From caesar ciphers to public-key cryptosystems.
The College Mathematics Journal, 18.
Mochetti, K., Salgado, L., Zerbinato, A. V., Souza, B. L., and Avelino, M. R. E. (2016).
Ciência da computação também é coisa de menina! Women in Information Technology
at Brazilian Computer Society Congress.
1189
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This paper presents a panorama that reflects a mapping and analysis carried
out with high school girls, with the purpose of identifying important aspects to be
contemplated in the planning of actions for the democratization of the knowledge and
attraction of girls to the area of Computing. The results depict the discrepancies
identified in the different spheres outlined in the mapping.
Resumo. Este artigo apresenta um panorama que reflete um mapeamento e análise,
realizado junto a meninas do ensino médio, com vistas a identificar aspectos
importantes a serem contemplados no planejamento de ações voltadas à
democratização do saber e atração de meninas para a área de computação. Os
resultados retratam as discrepâncias identificadas nas diferentes esferas delineadas no
mapeamento.
1. Introdução
A participação de meninas na área de tecnologia e ciências da computação se constituiu uma
temática no debate acerca da importância do equilíbrio entre os gêneros nessas áreas. Neste
sentido, diversas estratégias estão sendo adotadas com a finalidade de democratizar o saber e o
acesso de meninas nas áreas científicas e tecnológicas e quebrar estigmas que foram
culturalmente estabelecidos.
Vieira et al. (2013) propôs a produção de peças teatrais como estratégia para possibilitar
aos participantes compreender os fundamentos da computação de forma clara e divertida. Já
França (2015) propôs o uso do modelo penC em um curso de construção de jogos digitais como
forma de introduzir conceitos de lógica de programação em iniciantes na área. Além desta, várias
outras iniciativas estão sendo promovidas como forma de desenvolver habilidades por meio da
lógica de programação, sendo recorrente o uso de ambientes visuais de programação tais como
Scratch [Souza et al., 2015][Rodrigues et al., 2015], App Inventor [Garcia et al., 2016] e
RoboMind [Schoeffel et al., 2015].
Tais iniciativas, apesar de utilizarem diferentes estratégias, convergem em sua finalidade
disseminando o pensamento computacional como forma de atrair as meninas para a área de
computação e, a partir disso, inspirar novos talentos. Estas iniciativas demonstram resultados
positivos e negativos em seus desenvolvimentos e tais resultados são importantes para que as
ações possam ser otimizadas e replicadas em outras regiões do país.
No entanto, a elaboração de novas estratégias ou a replicação de iniciativas bem sucedidas
perpassa pelo entendimento da realidade do público-alvo para o qual a estratégia será aplicada.
Neste contexto, insere-se este trabalho que tem como intuito realizar um levantamento de dados
1190
11º WIT - Women in Information Technology
2. Procedimentos Metodológicos
Para adquirir informações sobre os diferentes matizes de meninas do ensino médio em relação à
área de computação elaborou-se um questionário composto por 31 questões divididas,
conceitualmente, em quatro (4) principais esferas:
(1) Mapeamento do perfil do público-alvo
(2) Comportamento em relação ao uso da tecnologia;
(3) Conhecimento em relação a área de computação e,
(4) Interesse do público em relação a cursos relacionados com a área de computação.
Na esfera 1 foram consideradas questões relacionadas à idade das meninas, ano escolar
que está sendo cursado, se estuda em rede pública ou privada, se já decidiu em que carreira
seguirá os estudos, qual a área de sua preferência e a renda salarial média da família. Já, na esfera
2 as questões envolvem identificar se há o costume do uso de tecnologias no desenvolvimento de
trabalhos escolares, com que frequência tais recursos são utilizados, que tipo de recursos mais
utiliza e se possui computador em casa.
Para a esfera 3 foram definidas 14 questões que envolvem, por exemplo: “Você sabe o faz
um profissional de computação e quais as funções que podem desempenhar?”; “Você sabe como
funciona um programa de computador?”; “Um curso de computação só ensina a usar
softwares?”; “Trabalhar em computação permite que você exerça sua criatividade?”; dentre
outras.
Na esfera 4 as questões estão relacionadas com o interesse do público-alvo pela área
incluindo questões como: “Você pensa em seguir carreira na área de computação?”; “Você
gostaria de ser criadora de um aplicativo que auxiliaria diversas pessoas?”; “Você já realizou
algum curso relacionado com a área de computação?”; “Você gostaria de participar de cursos
para aprender mais sobre a área de computação?”; dentre outras.
O questionário foi aprovado pelo Comitê de Ética em Pesquisas com Seres Humanos da
instituição executora sob o número 032-04/PPH-09, obtendo-se o termo de consentimento livre e
esclarecido. A aplicação foi realizada em 5 escolas do município. A resposta aos questionários
ocorreu de forma anônima e voluntária.
3. Resultados Obtidos
Nesta seção são apresentados os resultados significativos das análises gráficas provenientes de
questionários respondidos por 198 meninas, sendo: 24% do primeiro ano, 36% do segundo ano e
40% do último ano do ensino médio (esfera 1). Das meninas participantes da pesquisa, 53%
estudam em escolas públicas e 47% em escolas privadas; 48% já decidiram em que carreira
seguirão seus estudos, enquanto 52% estão em dúvida ou ainda não decidiram. Quanto a área de
preferência, 40% indicaram Humanas, 32% Exatas e 28% Biológicas. A renda salarial média das
famílias é de R$2.800,00 em 45% dos casos.
Quanto ao uso de tecnologias (esfera 2), 82% afirmam usar frequentemente recursos
tecnológicos para o desenvolvimento de trabalhos escolares e 18% só utilizam quando o
1191
XXXVII Congresso da Sociedade Brasileira de Computação
professor solicita. Os recursos mais utilizados são Internet, editores de texto, editores de imagens,
redes sociais e e-mail. Recursos como programação e robótica foram citados por apenas 13% das
meninas. Todas as participantes indicam que usam tecnologias diariamente; 79% possuem
computador em casa.
Com relação a esfera 3, 12% indicam saber quais as competências e funções que um
profissional de computação pode exercer, 88% têm apenas uma noção ou não sabem; 68%
percebem que a área é promissora com ampla demanda por profissionais e com várias
possibilidades de atuação; 20% veem a computação como uma área difícil que envolve muita
matemática e 12% relacionam a área com o público masculino. Para as demais questões
relacionadas a esta esfera, obteve-se os seguintes resultados: 5% acreditam que um curso de
computação somente ensina a utilizar software, 25% não sabem o que é ensinado e 70% não
vinculam um curso de computação apenas a utilização de softwares; 52% acreditam ser
necessário saber utilizar o computador para fazer um curso superior na área de computação; 48%
acreditam que não ser necessário ou não sabem; 60% acham que é difícil a inserção de
profissionais da área no mercado de trabalho; 87% indicam que trabalhar em computação permite
que exercer a criatividade; 41% acreditam que quem trabalha em computação recebe bons
salário, entretanto, 51% não sabem qual a faixa salarial para a profissão.
Quanto ao interesse do público-alvo em relação à área (esfera 4) obteve-se os seguintes
resultados: 69% não pensam em seguir carreira na área de computação, enquanto 31% cogita ou
pensa em seguir carreira na área; 66% gostariam de desenvolver aplicativos, desde que hajam
incentivos para a aprendizagem (cursos); 62% gostariam de participar de cursos para aprender
mais sobre computação; 75% nunca realizaram cursos.
4. Discussões e Direcionamentos
A partir dos resultados obtidos e do estabelecimento de correlações entre as diferentes esferas é
possível fazer inferências que podem servir como ponto de partida para a articulação de um plano
de ações que conduza a intervenções na realidade atual. A Tabela 1 apresenta algumas
inferências realizadas.
Tabela 1. Correlações entre esferas e inferências
Correlações entre as esferas Inferências
Esferas 1 e 2: 52% estão em dúvida ou ainda não Meninas que tem interesse em programação e robótica
decidiram a carreira a seguir; 13% citaram o uso podem ser motivadoras das meninas que ainda estão em
de programação e robótica na confecção de dúvida ou ainda não optaram pela carreira.
trabalhos escolares.
Esferas 1 e 3: 88% das meninas tem apenas uma Falta explanações mais claras sobre a área
noção ou não sabem quais as competências de um Muitas meninas que têm preferências pela área de Exatas
profissional da computação; 32% têm preferência podem estar em dúvida sobre a carreira a seguir. Se tais
pela área das exatas; 52% estão em dúvida ou não meninas receberem informações de forma que
decidiram que carreira irão seguir compreendam melhor a área poderão decidir-se pela
computação.
Esferas 1 e 4: Renda salarial média da família de A renda familiar pode ter influenciado pelo alto
R$2.800,00 em 45% dos casos; 75% nunca percentual de meninas que nunca realizaram nenhum curso
realizaram nenhum curso na área; 62% gostariam na área.
de participar de cursos
Apesar de não optarem por seguir carreira na área, têm o
interesse na qualificação por meio de cursos para aprender
mais sobre a área.
1192
11º WIT - Women in Information Technology
Esferas 3 e 4: 87% indicam que trabalhar em Grande parte das meninas associam a concepção de
computação permite que exercer a criatividade; aplicativos como forma de expressar a criatividade e
70% acreditam que a área da computação vai demonstram interesse em seu desenvolvimento, no entanto,
além da simples utilização de software; 66% carecem de cursos.
gostariam de desenvolver aplicativos; 75% nunca
realizaram cursos
Esferas 3 e 4: 30% acreditam que cursos de Grande parte das meninas que não pensam em seguir
computação tratam apenas da utilização de carreira se deve ao fato do desconhecimento do que é
software ou não sabe o que é ensinado; 60% abordado em cursos de computação e dos desdobramentos
acham que é difícil a inserção de profissionais da quanto à função e atuação de profissionais da área.
área no mercado de trabalho; 51% não sabem
qual a faixa salarial para a profissão; 69% não
pensam em seguir carreira na área de
computação.
Ao se considerar as particularidades do contexto local pode-se elencar diferentes planos de ação
que auxiliem na escolha de estratégias. Neste sentido sugere-se que sejam considerados aspectos
como:
Factibilidade (Diante do mapeamento realizado que alternativas podem intervir na
situação identificada? É possível realizar? Há coerência entre a dimensão do problema e a
dimensão do plano de ação?);
Interesse (A ação proposta desperta o interesse? Mobiliza afetivamente? Realmente há
interesse em ver a situação modificada?);
Novidade (A proposta é nova, no sentido de ser um novo momento, um novo grupo? Traz
novas perspectivas, novas estratégias? Gera novas ideias e produz mobilizações locais?);
Ética (A iniciativa é ética? O plano de ação leva em conta os valores e princípios da
realidade local?) e,
Relevância (o problema é relevante? Significativo? Sua solução gerará muitas
aprendizagens? Melhorará uma dada realidade?).
5. Considerações Finais
Este trabalho teve como objetivo traçar um panorama que retratasse a computação sob a ótica de
meninas do ensino médio. O mapeamento realizado apresenta-se como uma estratégia eficaz para
auxiliar a visibilidade da área e para articular soluções que impulsionem ações transformadoras.
Embora tenha ocorrido dificuldades na operacionalização do questionário dado a falta de
abertura e o tempo de retorno das escolas, obteve-se um número expressivo de participantes, o
que proporcionou a realização das inferências e demais desdobramentos delineados nesta
pesquisa.
Além das correlações apresentadas, outras induzem a novos questionamentos abrindo espaço
para a condução de novas pesquisas com vistas a ampliar a compreensão da situação atual e a
articulação de ações. Cabe destacar que os dados obtidos e análises servem de subsídio para o
desenvolvimento de um plano de ações a ser executado como próxima etapa do projeto. A
confirmação ou refutação das inferências apresentadas neste estudo carecem da realização e
avaliação das atividades traçadas no plano de ação.
1193
XXXVII Congresso da Sociedade Brasileira de Computação
Referências Bibliográficas
França, Rozelma. and Tedesco, Patrícia. "Desafios e oportunidades ao ensino do pensamento
computacional na educação básica no Brasil." Anais dos Workshops do Congresso Brasileiro
de Informática na Educação. Vol. 4. No. 1. 2015.
Garcia, Victor Ronchi, et al. "Despertando Jovens Talentos com o Conhecimento da
Computação." Anais do Workshop de Informática na Escola. Vol. 22. No. 1. 2016.
Rodriguez, C. et al. (2015). Pensamento computacional: transformando ideias em jogos digitais
usando o Scratch. In: Anais do Workshop em Informática na Educação. Sociedade Brasileira
de Computação, 2015.
Schoeffel, Pablo, et al. "Uma Experiência no Ensino de Pensamento Computacional para Alunos
do Ensino Fundamental." Anais dos Workshops do Congresso Brasileiro de Informática na
Educação. Vol. 4. No. 1. 2015.
Souza, Suenny Mascarenhas, et al. "Oficinas de Programação com Ambientes Lúdicos para
Meninas do Ensino Fundamental." (2015).
Vieira, A., Passos, O. and Barreto, R. Um Relato de Experiência do Uso da Técnica Computação
Desplugada. In: Anais do XXI Workshop sobre Educação em Computação. SBC, 2013. p.
670-679.
1194
11º WIT - Women in Information Technology
Abstract. This paper presents the impact of the realization of local computer
events as a method to increase the interest of the students in programming
competitions. Analyzing a brief history of the female participation in these
competitions, this work discusses the reasons related to the low representation
of woman in this segment, a problem which is beyond local frontiers,
following a world trending, and presents some actions taken to change this
scenery in a private university from Manaus.
1. Introdução
A Computação é uma área com predominante presença masculina. Esta característica é
presente também nas escolhas de ensino superior. Segundo o INEP (2014), somente
29,8% dos ingressantes no ensino superior que optam por cursos na área de Ciências,
Matemática e Computação são do sexo feminino, e dentre estes somente 15% optam
pelos cursos de computação [Nunes, SBC 2015] [Oliveira et al., 2014].
É possível observar esta tendência em atividades que envolvem participação em
competições tecnológicas, como Maratonas de Programação e Hackatonas. Em 2015,
durante a realização da final mundial da competição organizada pela ICPC-ACM, foi
comemorado um avanço de 1500% no número de participantes, quando comparado ao
ano de 1997. Nesta edição participaram 384 competidores, sendo somente 9 do sexo
feminino, representando 2% do total de participantes [ICPC-ACM, 2016].
Esta realidade se repete no Brasil, inclusive na Região Norte, mas existem várias
iniciativas na tentativa de minimizar esta diferença [Freitas et al., 2016] [Lauschner et
1195
XXXVII Congresso da Sociedade Brasileira de Computação
al., 2016]. Neste contexto, a Faculdade Fucapi1, uma universidade privada de Manaus –
AM, a partir de 2012, começou a desenvolver ações acadêmicas que, de forma indireta,
incentivaram a participação de meninas em competições. Neste artigo é apresentado um
diagnóstico com base na participação de mulheres em competição de programação
tecnológica de um evento científico regional e algumas ações que foram desenvolvidas
para contribuir com a mudança do cenário em questão na Faculdade Fucapi.
2. Cenário anterior
Até o ano de 2011 a Faculdade Fucapi participava da Maratona de Programação [MP,
2016], parte do International Contest Programming Contest da Association of
Computing Machinery (The ICPC-ACM) [ICPC-ACM, 2016], e geralmente era
representada por uma equipe onde não havia mulheres entre os membros. Por não haver
políticas de incentivo à participação dos alunos neste tipo de competição, as equipes
eram formadas a partir de convites de professores interessados em engajar os alunos em
atividades extraclasses que ajudassem a desenvolver suas habilidades em programação.
A Universidade Federal do Amazonas sempre foi a única instituição a sediar a
competição e desenvolve um trabalho de conscientização da importância deste tipo
atividade para a formação acadêmica, porém, é perceptível a dificuldade em envolver
instituições privadas na competição. Diante deste cenário, a Faculdade Fucapi definiu
políticas para aumentar o número de alunos em competições e de eventos científicos.
Entre estas políticas está a organização do Encontro Regional de Computação e
Sistemas de Informação (ENCOSIS2), evento que no ano de 2017 está em sua sexta
edição e tem o apoio da SBC. O diferencial deste evento é que as principais atividades
da sua programação estão concentradas no turno noturno, buscando incentivar também
alunos de instituições privadas da região norte a participarem de maneira mais efetiva
em eventos que estimulem a produção científica. Uma das atividades principais do
evento é a realização de uma Maratona de Programação, como descrita a seguir.
1
www.fucapi.br
2
www.encosis.com.br
1196
11º WIT - Women in Information Technology
1197
XXXVII Congresso da Sociedade Brasileira de Computação
Inclusão
Nesta etapa foi realizado um conjuntos de atividades para incentivar as alunas a
participarem de competições tecnológicas. Entre as atividades estão: 1) Encontros para
conversas informais e palestras motivacionais com pesquisadores, competidores, ex-
competidores e treinadores; 2) Inclusão, na programação do ENCOSIS, de atividades
relacionadas à participação de meninas na área de tecnologia, em parceria com o
Movimento Cunhatã Digital [Lauschner et al., 2016]; 3) Palestras na Faculdade Fucapi
para ressaltar o papel da mulher no mundo da computação; e 4) Promoção de atividades
de competições individuais;
Treinamento
Nesta etapa buscou-se desenvolver um conjunto de atividades direcionadas ao
desenvolvimento de habilidades individuais e em grupo, necessárias para a participação
em competições, tais como: 1) Sugestões sobre ambientes de competições a todos os
novos integrantes do grupo; 2) Orientações e dinâmicas para composição de equipes
(desde a chegada de novos membros até a definição das equipes que participaram das
competições); 3) Orientação sobre técnicas de trabalho em equipe.
4. Considerações Finais
Este artigo apresentou um diagnóstico a respeito da participação feminina nas
Maratonas de Programação do ENCOSIS. Como base nesse diagnóstico e incentivado
pelos Programas Meninas Digitais [Maciel, 2016] e Cunhatã Digital [Lauschner et al.,
2016] da SBC, foram propostas ações para incentivar a participação de alunas da
Faculdade Fucapi em competições de programação tecnológicas, através da criação de
um evento científico, como uma Maratona de Programação. Uma das conquistas do
ENCOSIS foi aumentar a participação de estudantes da Faculdade Fucapi na Maratona
de Programação [MP, 2016] uma vez que a partir de 2012 a instituição participou de
todas as edições com no mínimo três equipes.
Quando considera a participação feminina, a partir de 2014, início das ações
descritas neste artigo, sempre tem integrantes do sexo feminino nas equipes
representantes da Faculdade Fucapi na Maratona de Programação [MP, 2016]. No ano
de 2014 a instituição participou com uma equipe só de meninas e neste mesmo ano, foi
a única instituição a ter representantes femininos na Maratona de Programação do
ENCOSIS, conforme apresentado no Gráfico 2. O objetivo inicial de divulgar e gerar
cultura de competições de programação em IES privadas não foi alcançado uma vez que
nas últimas duas edições houve uma redução no número de instituições privadas
participantes. Porém, observou-se o aumento de número de equipes na etapa regional da
Maratona de Programação [MP, 2016].
Uma outra observação em relação à Faculdade Fucapi é que foi crescente a
participação de mulheres nas competições de programação do ENCOSIS. No ano de
2014, 100% das competidoras são da Faculdade Fucapi e nos anos de 2015 e 2016, 50%
1198
11º WIT - Women in Information Technology
das meninas participantes são da Faculdade Fucapi. Nas próximas edições do evento,
pretende-se fazer um trabalho de incentivo à participação de mulheres de tal forma que
estes percentuais de participação aumentem - não só na instituição promotora como em
outras IES - e, com o tempo, trabalhar a melhoria no desempenho, uma vez que na
metodologia utilizada não se analisou o desempenho. Entre as ações estão programadas
palestras dentro e fora da instituição, criação de grupos de estudo para treinamento de
competidores, uma maratona somente feminina e avaliações diagnósticas.
Agradecimentos
Um agradecimento especial ao Projeto Cunhatã Digital pela disponibilidade em
participar de atividades do ENCOSIS e pela parceria nas últimas edições, em especial à
professora Rosiane de Freitas Rodrigues, da Universidade Federal do Amazonas, não só
pela atuação no projeto Cunhatã Digital como também pela histórica atuação, na região
norte, no que diz respeito a competições de programação tecnológicas, sendo a maior
incentivadora deste trabalho.
4. Referências
Freitas, R. et al (2016) "Projeto SciTechGirls: desenvolvimento de aplicativos e
participação em competições de programação científicas e tecnológicas" In: XXXVI
Congresso da Sociedade Brasileira de Computação 2016, Porto Alegre, p 2723-2727.
ICPC-ACM (2016). International collegiate programming contest. Association for
Computing Machinery (ACM). Disponível em https://icpc.baylor.edu/.
Lauschner, T. et al. (2016). “Cunhantã Digital: programa de incentivo à participação de
mulheres da região amazônica na Computação e áreas afins”. In XXXVI Congresso
da Sociedade Brasileira de Computação 2016, Porto Alegre, p 2656-2660.
Maciel, C., Bim, S. A. (2016) Programa Meninas Digitais - ações para divulgar a
Computação para meninas do ensino médio, In: Computer on the Beach 2016,
Florianópolis, SC, pp.327-336.
MP (2016). Maratona de programação. The ICPC-ACM South America - Brazil.
Sociedade Brasileira de Computação. Disponível em http://maratona.ime.usp.br/.
Nunes, D.J. (2015) "Educação Superior em Computação Estatísticas - 2015".
http://www.sbc.org.br/documentos-da-sbc/category/133-estatisticas.
Oliveira, A.C. et al. (2014) "Perfil Feminino em Computação: Análise Inicial", In:
XXXIV Congresso da Sociedade Brasileira de Computação - CSBC 2014, Brasília,
WEI - XXII Workshop sobre Educação em Computação, p 1465-1474.
Sinopse Estatística da Educação Superior, (2014) http://portal.inep.gov.br/sinopses-
estatisticas-da-educacao-superior.
Site da Sociedade Brasileira de Computação. “Programa Meninas Digitais da Sociedade
Brasileira de Computação (SBC) incentiva participação de mulheres no mercado de
TI” http://www.sbc.org.br/noticias/1855-programa-meninas-digitais-da-sociedade-
brasileira-de-computacao-sbc-incentiva-participacao-de-mulheres-no-mercado-de-ti.
1199
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Embora vários nomes femininos tenham feito contribuições significativas na área de
Tecnologia da Informação (TI), há pouca visibilidade de modelos femininos. A
exclusão de mulheres em ambientes profissionais e estudantis, a falta de incentivo para
seguirem carreira nas exatas e a cultura masculina criada na Computação são alguns
fatores citados para a área ter menos mulheres ao longo dos anos [Burge e Suarez 2005;
Beaubouef e Zhang 2011]. Nesse contexto, ações têm sido desenvolvidas para
incentivar a participação feminina na área, a exemplo do programa Meninas Digitais, da
Sociedade Brasileira de Computação (SBC) [CSBC 2011].
Deste modo, levando em conta a necessidade de ser debatida inserção da mulher
na Computação e o desconforto de acadêmicas dos cursos Ciência da Computação e
Engenharia de Software da Unipampa com a realidade apresentada, organizou-se o
Fórum Gurias na Computação [Ferrão e Melo 2016]. A amplitude de assuntos e
possibilidades identificadas durante as edições do Fórum, impulsionou a organização
1200
11º WIT - Women in Information Technology
2. Metodologia
A equipe executora da Gurias na Computação é composta por sete discentes e três
docentes dos cursos de Ciência da Computação e Engenharia de Software da Unipampa,
a maioria do gênero feminino e todos voluntários. Além disso, discentes e docentes do
curso de Análise e Desenvolvimento de Sistemas do Instituto Federal Farroupilha -
Campus Alegrete são parceiros nas ações desenvolvidas.
A equipe executora do Gurias na Computação realiza reuniões periódicas, nas
quais são discutidas e organizadas, de forma colaborativa, as ações a serem executadas.
Parte do trabalho desenvolvido pelos extensionistas é realizado a distância com o apoio
de ferramentas gratuitas que facilitam a organização, a comunicação, a colaboração e o
compartilhamento de ideias e de artefatos. Suas ações são avaliadas por todos os
envolvidos - participantes e membros da equipe executora.
A comunicação da Gurias na Computação com a comunidade é realizada, na
maioria das vezes, através da página em uma rede social e por compartilhamentos de
suas publicações nessa rede. Os membros da comunidade podem assumir diferentes
papéis nas ações de extensão, como: ouvintes, partes interessadas, coautores,
palestrantes e avaliadores.
O Quadro 1 sumariza as ações desenvolvidas desde a criação da atividade Gurias
na Computação, em março de 2016, bem como seu público alvo.
1201
XXXVII Congresso da Sociedade Brasileira de Computação
3. Resultados
Durante o I Encontro Gurias na Computação, com o tema “O Protagonismo Feminino”
[Lopes, Ferrão e Mello 2016], compartilharam-se perfis de mulheres que atuam na
Computação e os participantes se divertiram e aprenderam com o jogo de tabuleiro
Mulheres na Computação, composto por um conjunto de perguntas elaborado com base
no perfil de mulheres de destaque na história da área [Lopes et al. 2016]. O encontro
originou a divulgação periódica do perfil de mulheres de destaque na área da
Computação na página Gurias na Computação, na rede social Facebook. Assim, tem-se
a expectativa que um número maior de pessoas perceba que muitas mulheres
contribuíram e continuam a contribuir para o avanço da Computação no Brasil e no
mundo.
O envolvimento de meninas na divulgação dos cursos da área da Computação a
estudantes da educação básica do município (ex.: Feira do Livro, Feira de Ciências da
EEEF Arthur Hormain) tem mostrado, através do exemplo, que a Computação também
é lugar de mulheres. Destaca-se o projeto Codificar, em parceria com o Instituto Federal
Farroupilha. Além de envolver meninas do Ensino Médio em atividades de
programação para dispositivos móveis, o projeto apresenta em sua equipe executora
mulheres de ambas as instituições - entre elas, professoras e alunas.
O II Encontro Gurias na Computação trouxe para o debate o Feminismo,
contando com a colaboração de uma professora da Educação Básica do município, que
tem estudado e debatido o tema. Clarificou-se, assim, o papel do Feminismo e a sua
inter-relação com a inserção da mulher na área de TI. Além disso, acadêmicas da área
1202
11º WIT - Women in Information Technology
4. Considerações Finais
A Gurias na Computação tem proporcionado às acadêmicas dos cursos de Computação
do município espaços de escuta e trocas de experiências, fortalecendo-as em sua
formação na área da Computação. Além disso, tem incentivado a participação das
acadêmicas nas ações que divulgam a área a meninas da Educação Básica, que podem
tê-las como modelo e referência, passando a reconhecer os cursos da área da
Computação como alternativa de formação profissional.
Algumas ações já foram desenvolvidas voltadas tanto à comunidade interna
quanto externa à Universidade. Nas ações voltadas à comunidade interna, pretende-se
ampliar o número de participantes, inclusive do gênero masculino, visto que questões de
gênero devem ter o envolvimento de todos. Quanto às ações voltadas à comunidade
externa, busca-se ampliar a relação com a Educação Básica, por exemplo, pela
participação em Feiras das Profissões das Escolas e divulgação do jogo Gurias na
Computação em versão digital.
5. Referências
Beaubouef, T., Zhang, W. (2011) “Where are the women computer science students?”,
In: Journal of Computing Sciences in Colleges, v. 26, n. 4, p. 14-20.
Burge, J., Suarez, T. (2005), “Preliminary Analysis of Factors Affecting Women and
African Americans in the Computing Sciences, TAPIA’05.
CSBC, “Fórum Meninas Digitais”,
http://www.dimap.ufrn.br/csbc2011/eventos/wit.php, 2011.
Ferrão, I., Melo, A. (2016), “I Fórum Gurias na Computação: relato de experiências e
desdobramentos”, CSBC 2016.
Lopes, G., Ferrão, I., Mello, A. (2016), “I Encontro Gurias na Computação: O
Protagonismo Feminino”, SIEPE 2016.
Lopes, G., Santos, P., Oliveira, A., Mello, A. (2016), “Jogo Mulheres na Computação:
uma Forma de Divulgar o Protagonismo Feminino”, SIEPE 2016.
Mello, A.; Melo, A. (2017) “Programa C - Comunidade, Computação, Cultura,
Comunicação, Ciência, Cidadania, Criatividade, Colaboração”, Interações dialógicas:
ações extensionistas das engenharias e da computação com a sociedade, C. Tolfo,
Bagé, Ediurcamp, p. 11-30.
1203
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A desproporcionalidade entre homens e mulheres nos ramos de ciência e
tecnologia (C & T) é considerada evidente entre os pesquisadores da área. Há vários
fatores responsáveis pelo número inferior de mulheres neste campo, sejam
socioculturais, econômicos, educativos (SOARES, 2001). Estes, contudo, ainda são de
difícil compreensão em nossa sociedade que, muitas vezes, recorre a estereótipos ao se
referir à relação profissional e intelectual de mulheres com a informática.
Segundo Schiebinger (2001, p.37) “a ciência moderna é um produto de centenas
de anos de exclusão das mulheres, o processo de trazer mulheres para a ciência exigiu, e
vai continuar a exigir, profundas mudanças estruturais na cultura, métodos e conteúdo
da ciência”. A exemplo disso, apenas no ano de 1913 a participação de mulheres na
ciência se tornou objeto de escrita e, no Brasil, estudos significativos a esse respeito
foram realizados apenas em 1998 e posteriormente, em 2003. Deste modo, assim como
acontece na ciência de maneira geral, na informática, tida como área afim ou subárea da
ciência, também não são perceptíveis as ações femininas (SCHWARTZ et al., 2006).
Nosso país possui um histórico de industrialização recente e, portanto, C & T
são áreas igualmente recentes - já que acompanham o processo industrial. Contudo,
1204
11º WIT - Women in Information Technology
2. Iniciativas de empoderamento
De acordo com Bertrand Russel et al. (1979), poder se relaciona à capacidade de suprir
desejos, vontades, objetivos, ainda que contra resistências de quaisquer natureza. Nesse
sentido, empoderamento, tal como aqui empregamos, significa o acesso à recursos de
capacitação, autoestima e pró-atividade que permitam a indivíduos ou grupos conquistar
maior poder em diferentes âmbitos: social, econômico, político, cultural. Empoderar,
por conseguinte, constitui no processo de construção da autonomia objetivando a
transformação da realidade em que sujeitos e grupos estão inseridos.
Conforme Schwartz et al. (2006), no que se refere à área de informática, ainda
que inúmeras pioneiras sejam reconhecidas como parte importante da história deste
campo científico, tais como Augusta Ada Byron e Grace Murray Hopper, a relevância
da atuação feminina para a evolução tecnológica vem sendo negligenciada e mesmo
omitida, o que contribui para a delimitação das áreas de atuação profissional ligadas à
informática como atividades supostamente masculinas.
Por isso, a significativa evasão feminina em cursos de nível médio, técnico e
superior ligados a esta área; além da reduzida quantidade de mulheres em carreiras
científicas no Brasil, tornam as iniciativas de empoderamento e inserção femininas,
parte de estratégias importantes para a equalização das relações de gênero neste campo.
As referidas ações podem ser diversas, adotando as mais diferentes metodologias
de sensibilização e formação. A tabela abaixo (Tabela 1) aponta atividades já
desenvolvidas ou a serem realizadas, que identificamos como profícuas para o
empoderamento feminino no campo da informática, combatendo a evasão escolar.
1205
XXXVII Congresso da Sociedade Brasileira de Computação
Tabela 1. Propostas de atividades do projeto em desenvolvimento
1206
11º WIT - Women in Information Technology
3. Considerações finais
As atividades de empoderamento feminino apresentadas neste trabalho são parte
integrante da metodologia do projeto, sob a ótica da permanência das meninas nos
cursos de Tecnologia da Informação. Com os primeiros resultados positivos, obtidos
após a aplicação de questionários referentes às ações concluídas, pretende-se prosseguir
com as atividades em prol de resultados mais concisos e um acompanhamento constante
dessas estudantes. Ressaltamos que todas as referidas ações vêm sendo desenvolvidas
localmente, através de projetos de pesquisa e extensão, que contam com a participação
de alunas do curso Técnico em Informática para Internet Integrado ao Ensino Médio, e
estudantes do curso de bacharelado em Sistemas de Informação.
Em nossa perspectiva, a visibilidade nestes dois níveis escolares pode contribuir
tanto para alterar o quadro de evasão escolar feminina nos cursos ligados à informática,
quanto para estimular maior inserção no mercado de trabalho em TI, possibilitando
assim a multiplicação dessas ações, inclusive através das redes sociais, a fim de que
outras jovens sintam-se motivadas em suas carreiras profissionais.
4. Referências
Castro, B. (2013) “Os gargalos para o ingresso e a permanência das mulheres no
mercado de TI no Brasil”, In: XII Conferencia Regional sobre la Mujer de la
America Latina y Caribe.
Leta, J. (2003) “As mulheres na ciências brasileira: crescimento, contrastes e um perfil
de sucesso”, Estudos Avançados, São Paulo, v. 17, n. 49, p. 271-284.
Pisa em foco (2015) “O que está por trás da desigualdade de gênero na educação?”,
https://www.oecd.org/pisa/pisaproducts/pisainfocus/PIF-49%20(por).pdf, Março.
Russel, B. et al. (1979) “O poder: uma nova análise social”, Rio de Janeiro, RJ: Zahar.
Sales, A. S. et al. (2014) “Dificuldades para o ingresso e permanência na ciência e
engenharia da computação: um olhar feminino”, In: 18 REDOR.
Schiebinger, L. (2001) “O feminismo mudou a ciência?”, Bauru, SP: Edusc, 1ª edição.
Schwartz, J. et al. (2006) “Mulheres na informática: quais foram as pioneiras?”,
http://www.scielo.br/pdf/cpa/n27/32144.pdf, Março.
Soares, T. A. (2001) “Mulheres em ciência e tecnologia: ascensão limitada”, Química
Nova, São Paulo, v. 24, n. 2, p. 281-285.
1207
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. This paper presents the profile of the students of the course of the
Department of Computer Science of the University of Brasília. The profile is
composed by analysis of the difference between the students (girls and boys) of
the courses of Computer Science, Computer Engineering and Degree in
Computing on the questions: entrance of the students; Reason for school
dropout and academic grades.
Resumo. Este artigo apresenta o perfil das alunas do curso do Departamento
de Computação da Universidade de Brasília. O perfil é composto por análise
da diferença entre os alunos e alunas dos cursos de Ciência da Computação,
Engenharia da Computação e Licenciatura em Computação nos quesitos:
ingressantes nos cursos; motivo de desligamento e rendimento acadêmico.
1. Introdução
O Brasil tem em média apenas 17% de concluintes do sexo feminino em diferentes
cursos de computação nos anos de 2000 a 2013, envolvendo Ciência da Computação,
Engenharia da Computação, Sistema de Informação dentre outros (Maia, 2016). Essa
realidade também pode ser observada em outros países (Keinan, 2017), (Vardi, 2015),
(Stout, 2017).
Com o objetivo de diminuir esta disparidade, foi iniciado o projeto
Meninas.comp: Computação também é coisa de menina!. Uma das ações deste projeto
foi identificar o perfil das alunas nos cursos do Departamento da Computação da
Universidade de Brasília (UnB). Este artigo apresenta uma análise dos dados
acadêmicos das alunas nos cursos de Ciência da Computação, Engenharia da
Computação e Licenciatura da Computação desta universidade.
Para isso, este artigo está dividido nas seguintes seções. Na Seção 2 são
apresentados os dados dos ingressantes e desligados nos cursos do Departamento de
Ciência da Computação da Universidade de Brasília. Na Seção 3 uma análise do
desempenho acadêmico dos estudantes (alunos e alunas) desses cursos. E for fim, na
Seção 4 as conclusões.
1208
11º WIT - Women in Information Technology
120
100
80
60
40
20
0
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
Um outro dado que fez parte da nossa análise está relacionado com o
desligamento no curso (evasão), como pode ser observado na Figura 2. Para
entendermos melhor o motivo que levaram os estudantes a se desligarem do curso,
apresentamos na Figura 3 uma comparação entre meninas (lado esquerdo) e meninos
(lado direito) do motivo que os levaram a serem desligados dos cursos de Ciência da
Computação, Licenciatura em Computação e Engenharia da Computação. Os motivos
de desligamento de estudantes em cursos na UnB envolvem as seguintes possibilidades:
1209
XXXVII Congresso da Sociedade Brasileira de Computação
não cumpriu condição, o estudante tem um número mínimo de disciplinas que precisa
ser aprovado ao longo de um ano, caso o estudante não cumpra esse requisito ele entra
no estado de “Em condição”, sendo necessário um plano de estudo para sair dessa
condição, caso o aluno não cumpra esse plano de estudo ele é desligado da UnB;
reprovação 3 vezes na mesma disciplina é outra regra da UnB que leva ao desligamento
do estudante; transferência; desligamento voluntário pelo estudante; abandono do
estudante; novo vestibular; e Outros.
70
60
50
40
30
20
10
0
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Ciência da Computação Masculino Ciência da Computação Feminino
1210
11º WIT - Women in Information Technology
1211
XXXVII Congresso da Sociedade Brasileira de Computação
4. Conclusões
O artigo apresenta um resumo da análise do perfil dos estudantes dos Cursos do
Departamento de Ciência da Computação da UnB, analisando os três indicadores:
ingressantes nos cursos; desligamentos dos alunos; e rendimento acadêmico.
Identificamos a diminuição de ingressantes meninas em todos os cursos de computação
da UnB. Em relação ao desligamento, os motivos de desligamento são bem variados em
relação aos cursos. Em desempenho acadêmico, meninos e meninas tem média próxima
de notas, porém olhando todas as disciplinas dos cursos as alunas têm, em média, um
desempenho ligeiramente superior aos dos alunos.
Referências
Keinan, E.. (2017), "A New Frontier: But for Whom? An Analysis of the Micro-
Computer and Women’s Declining Participation in Computer Science". CMC Senior
Teses. 1466.
Claremont Colleges..
Maia, M. M.. (2016), Limites de gênero e presença feminina nos cursos superiores
brasileiros do campo da computação. Cadernos Pagu. n.46, pp. 223-244. ISSN 1809-
4449.
Vardi, M. Y., (2015), What Can Be Done about Gender Diversity on Computing? A lot.
n 58 (10). Communications of The ACM.
Stout, J. G., Grunberg, V. A., Ito, T. A. (2016), Gender Roles and Stereotypes about
Science Careers Help Explain Women and Men’s Science Pursuits. Sex Roles
75:490–499 DOI 10.1007/s11199-016-0647-5.
1212
11º WIT - Women in Information Technology
1. Introdução
A representatividade das mulheres, estudantes, nos cursos da área de Computação vem
decrescendo desde 2001 [Oliveira et al., 2014]. De acordo com o último relatório1
divulgado pela Sociedade Brasileira de Computação (SBC), observa-se que em 2015 nos
cursos de Computação 14,65% das(os) matriculados(as) são mulheres e, dessas, 16%
concluem o curso.
Como tentativa de aumentar a proporção de mulheres na área de Tecnologia de
Informação (TI), existe uma preocupação em diversas universidades, instituições de
fomento e empresas em criar ações de incentivo que promovam o aumento da
representatividade das mulheres na Computação.
Em 2011, a Sociedade Brasileira de Computação (SBC) começou a apoiar sua
regional no Mato Grosso a desenvolver o Programa Meninas Digitais, sendo oficialmente
institucionalizado por essa sociedade em 2016. Tal iniciativa visa “divulgar a área de
Computação para despertar o interesse de estudantes do ensino
1 http://sbc.org.br/documentos-da-sbc/summary/133-estatisticas/1074-educacao-superior-em-
computacao-estatisticas-2015
1213
XXXVII Congresso da Sociedade Brasileira de Computação
2. Método de Pesquisa
Para realizar a análise dos artigos publicados nos anais do X WIT, realizou-se uma revisão
sistemática com as seguintes etapas: (1) definição das questões de pesquisa; (2) leitura
dos artigos; (3) extração dos dados; e (4) análise dos resultados obtidos.
A questão principal da pesquisa era: Quais projetos para aumentar a
representatividade das mulheres na área da Computação no Brasil são relatados nos
trabalhos publicados no X WIT? Em seguida, três perguntas foram derivadas desta
questão. São elas: QP1 - Em quais estados esses projetos foram criados? QP2 - Quem são
as instituições responsáveis por esses projetos? QP3 - Quais ações foram realizadas por
estes projetos?
Com intuito de responder às Questões de Pesquisa, foi realizada a leitura dos vinte
e cinco artigos publicados nos anais do X WIT2. Nesta etapa, todos os trabalhos foram
primeiramente analisados para verificar se tratavam de relatos sobre projetos no contexto
brasileiro. Desta forma, um artigo foi descartado para a próxima etapa pois apresentava
um levantamento de ações estrangeiras. Embora relevantes, outros seis artigos foram
descartados pois relatavam pesquisas realizadas sobre o tema Mulheres na Computação.
E por fim, mais dois artigos foram descartados, um deles por ser um relato de experiência
vivencial e o outro por ser uma proposta de jogo.
Na etapa de extração de dados, os dezesseis artigos selecionados na etapa anterior,
foram novamente lidos em busca de respostas para as Questões de Pesquisa. A seção a
seguir apresenta a última etapa da pesquisa: a análise dos resultados.
3. Resultados
Neste tópico serão apresentados os resultados, categorizados por Questão de Pesquisa.
QP1 - Em quais estados esses projetos foram criados?
A Figura 1 ilustra a quantidade de projetos descritos nos artigos por estado
brasileiro. É possível observar que há ações em todas as regiões do Brasil.
É necessário ressaltar que o fato do evento (X WIT) ter sido realizado em Porto
Alegre pode ter influenciado na quantidade de projetos do estado do Rio Grande do Sul.
Isto reforça a importância do caráter itinerante do evento, que a cada ano, juntamente com
2 http://ebooks.pucrs.br/edipucrs/anais/csbc/#/evento/10wit
1214
11º WIT - Women in Information Technology
Figura 1. (a ) Projetos realizados por estados brasileiros. (b) Percentual por região
3 Nome do projeto não é citado no artigo. Entretanto, o artigo relata ações referentes “ao projeto”.
1215
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
Por meio da análise dos trabalhos publicados no X Women in Information Technology
(WIT), com base nas três questões de pesquisa, foi possível identificar alguns projetos
brasileiros, suas instituições responsáveis e seus estados de origem. Tais projetos
propõem uma visão mais ampliada da educação com o estabelecimento de alianças entre
docentes, profissionais da área e estudantes em busca do mesmo objetivo: mais mulheres
na Computação.
Os indícios encontrados nessa pesquisa, apontam que grande parte das ações
promovidas pelos projetos são organizadas por docentes e estudantes universitárias(os),
que trabalham de forma voluntária.
Entretanto, é importante ressaltar que a análise aqui realizada concentra-se em um
único evento. Inúmeras outras ações e projetos são realizados no Brasil por diversos
grupos independentes, empresas e outras instituições de ensino. É imprescindível
intensificar a chamada de trabalhos das próximas edições do WIT para que projetos e
ações realizadas em outros contextos, além dos acadêmicos da área de Computação,
compartilhem suas experiências.
Para o Programa Meninas Digitais, dado que a maioria dos projetos relatados tem
relação com esta ação da SBC, este estudo contribui para o alcance das estratégias
planejadas para consolidação do programa [Maciel; Bim, 2016], entre as quais está o
1216
11º WIT - Women in Information Technology
estímulo a pesquisa e publicação de artigos das ações realizadas. Ainda, a coleta e análise
de dados sobre o programa e seus projetos é fundamental para sua consolidação.
Por fim, apesar da crescente discussão sobre a presença das mulheres na área de
TI ainda há muito trabalho a ser feito para alcançar a equidade de gênero dentro deste
espaço. Como trabalho futuro, sugere-se a análise dos trabalhos publicados no X WIT que
relatam pesquisas, experiências e outras estratégias. Além disto, o mapeamento de todas
as ações realizadas no Brasil é imprescindível para que se crie uma rede mais articulada e
mais coesa, fortalecendo os esforços para termos mais mulheres na Computação.
Referências
Maciel, C., Bim, S. A. (2016) “Programa Meninas Digitais - ações para divulgar a
Computação para meninas do ensino médio”, In: Computer on the Beach 2016,
Florianópolis, SC. pp.327-336, http://www.computeronthebeach.com.br/arquivos-
2016/Anais completos - Computer on the Beach 2016.pdf. Março.
Oliveira, A. C.; Moro, M. M.; Prates, R.O. (2014) “O. Perfil feminino em computação:
Análise inicial”. In: Anais do XXXIV Congresso da Sociedade Brasileira da
Computação – Workshop de Ensino de Computação (WEI2014). pp. 1465 – 1474.
1217
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
“Cidades inteligentes” tem sido um termo recorrente nas discussões sobre o
desenvolvimento das políticas de crescimento urbano. Estão os desafios complexos das
cidades distantes do que se entende como qualidade de vida. Tal problemática ascende e
alavanca a questão de: como a administração pública pode construir estratégias para
solucionar problemas sociais fazendo uso de dados abertos? Ou como a sociedade civil
1218
11º WIT - Women in Information Technology
1 Hackathon significa maratona de programação. O termo resulta de uma combinação das palavras
inglesas “hack” (programar de forma excepcional) e “marathon” (maratona).
2
Todos os resultados foram obtidos pelo YouGov. O tamanho total da amostra foi de 2.518 mulheres:
1.013 na Inglaterra, 503 no Brasil, 500 na Tailândia e 502 na Índia. O trabalho de campo foi realizado
entre os dias 3 e 11 de maio de 2016. A pesquisa foi realizada online. Os números foram ponderados e são
representativos de todas as mulheres maiores de idade em cada país. Para a pesquisa, foram considerados
assédios atos indesejados, ameaçadores e agressivos contra as mulheres, podendo configurar abuso verbal,
físico, sexual ou emocional. Fonte: ActionAid (actionaid.org.br)
1219
XXXVII Congresso da Sociedade Brasileira de Computação
1220
11º WIT - Women in Information Technology
3. Sororidade Ciberfeminista
Filas, tumulto, aperto e sufoco. Transporte público, fluxo, corpo vulnerável, disponível,
online. Munidas de aparelhos digitais, cada mulher torna-se um alvo móvel. O último
senso publicado pela Agência Nacional de Telecomunicações (ANATEL) mostra que o
Brasil registrou, em maio de 2015, 284,15 milhões de linhas móveis ativas com
densidade de distribuição de 139,16 acessos por 100 habitantes.
A articulação com outras desenvolvedoras a partir do grupo Women Who Code
Recife, na rede social Facebook, deu início ao desenvolvimento da rede Nina. A rede
visa empoderar as mulheres através de um aplicativo que denuncie tipos de violência
que estas sofrem dentro dos espaços públicos, com recorte inicial para transportes
públicos. A mulher passa a ter o poder de transformar, em poucos cliques, o seu celular
em um “canivete eletrônico” – termo introduzido por Jenkins (2009) – de mapeamento
de violência e sororidade3. Ao fazer a denúncia ativa-se uma rede de apoio de outros
usuários Nina próximos à vítima.
(…) Floss (free libre open source software) para a expansão das redes digitais.
Trata-se de comunidades de hackers que desenvolvem programas de
computador com o código fonte aberto e com licenças de propriedade
permissivas que permitem usar, copiar, estudar completamente, melhorar e
distribuir as mudanças realizadas no software. O código-fonte de um software
contém as rotinas lógicas detalhadamente encadeadas, escritas em uma
linguagem de programação, mostrando tudo que o programa realiza. O código-
fonte, uma vez transformado em linguagem de máquina, torna-se um código
executável. De posse do código-fonte é possível conhecer, alterar e melhorar o
software. Todavia, isso não é possível de posse somente do código executável,
pois ele converteu o código-fonte em binário, em um conjunto de zeros e uns,
que não podem ser entendidos pelos programadores a não ser que realizem um
complexo processo de engenharia reversa. (SILVEIRA, 2010, p. 35).
A construção do aplicativo faz-se híbrido por motivos de não haver necessidade
de equipes com conhecimento específicos em desenvolvimento mobile para iOS,
Android e Windows, o que, teoricamente, requer pouco tempo e menos custos por
recursos. Tendo em vista que as integrantes do grupo possuem conhecimentos em
tecnologias Web como CSS, HTML e Java Script, optou-se por utilizar o Ionic. O Ionic
Framework é um SDK4 de código aberto que permite aos desenvolvedores criar
aplicativos móveis de alta qualidade e de alto desempenho usando tecnologias web
familiares (HTML, CSS e JavaScript). O aplicativo foi desenvolvido na versão 1.7 do
Ionic, porém, devido o lançamento da v.3, mais recente, pretende-se migrar o que se tem
do projeto para a nova versão, utilizando o Angular45 desenvolvido por uma parceria
4 SDK é a sigla para Software Development Kit (ou Software Developers Kit – pacote de
desenvolvimento de software). É esse pacote que permite à programadores elaborarem aplicativos para
rodarem em uma plataforma específica.
5 É um framework JavaScript open source, mantido pelo Google, que auxilia na execução de single-page
applications. Seu objetivo é aumentar aplicativos que podem ser acessados por um navegador web, foi
1221
XXXVII Congresso da Sociedade Brasileira de Computação
Referências bibliográficas
Castells, Manuel. (2003) “A Galáxia da Internet: Reflexões sobre a internet, os
Negócios e a Sociedade”, http://migre.me/wkoT7. Acesso em: 30 de outubro de
2016.
Castells, Manuel. (2009) “Comunicación y poder”, http://migre.me/wkoZZ. Acesso em:
30 de outubro de 2016.
Jenkins, Henry. (2009). “Cultura da Convergência”. Pág. 28 – 30. Aleph.
Levy, S. (2003) “Hackers - Heroes of the computer revolution”,
classes.visitsteve.com/hacking/wp-content/Steven-Levy-Hackers-ch1+2.pdf. Acesso
em: 30 de out. de 2016.
Martins, B. C. (2006) “Cooperação e Livre fluxo da informação. A influência da Cultura
Hacker na Definição dos Padrões da Comunicação Mediada por Computador”,
http://migre.me/wkujp. Acesso em: 29 de outubro de 2016.
Silveira, Sérgio Amadeu. (2010) “Ciberativismo, cultura hacker e o individualismo
colaborativo”, http://migre.me/wkqdc. Pág. 35. Acesso em: 03 de agosto de 2016.
7O Apache Cordova oferece um grupo de APIs que permitem desenvolver uma aplicação com HTML,
CSS e JavaScript encapsulada como aplicação móvel nativa. A aplicação é executada no dispositivo
móvel e pode acessar as funções nativas do dispositivo, como GPS ou câmera.
1222
11º WIT - Women in Information Technology
1. Introdução
As mulheres ainda são minoria no ingresso e permanência nos cursos de Computação e
Ciências Exatas em geral. As estatísticas mostram que, nas universidades de todo o
Brasil, há uma discrepância na procura dos cursos de Computação por mulheres em
relação aos homens nesta área (Lima, 2013).
Segundo Lima (2013), a concentração de homens em cursos de Ciência da
Computação chega a 79,9%. Em alguns casos, o cenário local pode ser ainda mais
crítico que o nacional. Por exemplo, na UFPB, especificamente no Campus IV, no
semestre em andamento existem 248 alunos regularmente matriculados no curso de
Licenciatura em Ciência da Computação. Destes, só 41 são do sexo feminino, o que
representa pouco mais de 16% do total. Entre os alunos ingressantes no período
anterior, havia apenas uma mulher. Além do ingresso nos cursos de Computação ser
menor pelas mulheres, dados mostram que, das mulheres que ingressam nestes cursos,
79% abandonam a faculdade no primeiro ano (SINDPD/SP, 2015).
Segundo Paula et al (2011), uma das principais causas da evasão está na falta de
preparo dos alunos ingressantes nas faculdades. Acostumados com o ensino tradicional,
baseado em perguntas e respostas prontas, os alunos têm dificuldade de formular novos
1223
XXXVII Congresso da Sociedade Brasileira de Computação
2. Metodologia
A literatura define Dojo de Programação como um encontro de programadores visando
à solução de um desafio de programação (Bossavit et al. 2011). Entre seus princípios
básicos, está a criação de um ambiente não competitivo e propício ao aprendizado
contínuo, permitindo que participantes estejam motivados a contribuir. O Dojo é uma
atividade dinâmica e que favorece o aprendizado, incluindo e incentivando os alunos a
participar do processo de aprendizado de forma colaborativa (Bossavit et al. 2011) e
(Sato et al. 2008).
Para que fosse possível a realização de sessões Dojo de Programação junto às
discentes dos cursos de Computação da UFPB, Campus IV, foram definidas três etapas
importantes: um estudo sobre os diferentes formatos de Dojo e suas diretrizes, uma
pesquisa sobre problemas de programação adequados ao nível de conhecimento das
discentes, e um planejamento sobre a avaliação da experiência pelas alunas.
1224
11º WIT - Women in Information Technology
3. Resultados e Discussão
Foram realizadas duas sessões Dojo, uma no mês de setembro e outra em novembro,
com a participação de sete alunas dos cursos de Licenciatura em Ciência da
Computação e Bacharelado em Sistemas de Informação. Em ambas as ocasiões, as
apresentadoras, que também são alunas dos cursos da instituição, introduziram os
problemas a serem resolvidos, e logo em seguida iniciaram a dinâmica da troca de
duplas na construção colaborativa da solução.
A primeira sessão foi mais longa, com duração de duas horas, para que as alunas
tivessem tempo de se adaptar à técnica e ao trabalho em duplas, uma vez que todas
relataram não terem conhecimento algum sobre o Dojo. Já a segunda sessão teve uma
participação mais ativa das discentes, que conseguiram resolver o problema proposto
em apenas uma hora.
Após as sessões, todas as participantes responderam o questionário de avaliação
previamente elaborado, e foi possível obter informações relevantes sobre as percepções
delas. Quando questionadas sobre o grau de satisfação em participar da atividade, as
respostas se dividiram entre bom (50%) e muito bom (50%). Quanto à comunicação das
apresentadoras durante as sessões, 83,3% delas consideraram a comunicação muito boa,
e 16,7% julgaram que foi boa. Esses dois indicadores indicam que as alunas aprovaram
a técnica, e a forma como foram conduzidas as sessões.
Já em relação à adequação do tempo de cada sessão para os problemas
propostos, 66,7% consideraram que foi regular, e 33,33% acharam que foi bom. Quando
questionadas sobre o grau de dificuldade dos problemas apresentados, as respostas se
dividiram entre bom (16,7%), regular (33,3%), e ruim (50%). Esses dois indicadores
evidenciam a necessidade de reformulação futura das sessões, de modo que sejam
1225
XXXVII Congresso da Sociedade Brasileira de Computação
escolhidos problemas mais simples e que possam ser resolvidos no tempo proposto
confortavelmente.
No campo discursivo do formulário em que eram pedidas sugestões, as
participantes afirmaram que é preciso experimentar dinâmicas como as do Dojo,
relataram a importância da iniciativa, e destacaram o quanto gostariam que outros
problemas do mundo real fossem usados nas próximas sessões, como exercício das
habilidades de programação.
4. Considerações Finais
Além das dificuldades comumente encontradas para compreender lógica de
programação, muitas vezes as mulheres que ingressam em cursos de tecnologia se vêem
também inibidas por serem minoria e não se sentem à vontade para fazerem perguntas
em sala, o que pode tornar o aprendizado de programação solitário e frustrante.
Com o objetivo de entrosar mais as alunas e incentivá-las na área de
programação, este trabalho teve por objetivo utilizar uma técnica diferente de ensino-
aprendizado, as sessões Dojo. Embora tenham sido realizadas poucas sessões, e o
número de participantes tenha sido pequeno, essa experiência foi fundamental para que
a equipe se familiarizasse com a técnica, e pudesse obter um importante feedback para a
realização de futuras sessões. Além disso, todas as alunas envolvidas aprovaram a
iniciativa, e venceram algumas de suas limitações, aprendendo de forma participativa e
colaborativa.
Espera-se que novas sessões Dojo sejam realizadas, envolvendo também alunas
de outras disciplinas de programação dos cursos, e que possam ser analisados dados que
evidenciem o impacto dessa técnica no desempenho acadêmico das discentes.
Referências
Bossavit, L., Gaillot, E. and Bache, E. (2011). Coding Dojo Wiki: What Is Coding
Dojo. Wiki. http://codingdojo.org/cgi-bin/wiki.pl?WhatIsCodingDojo.
Bravo, M. (2011). Abordagens para o ensino de práticas de programação extrema.
Dissertação de Mestrado, Universidade de São Paulo, São Paulo, SP.
Cukier, D. (2009). Padrões para introduzir novas ideias na indústria de software.
Dissertação USP 2009.
Fontes, B. (2011). Coding dojo: novas possibilidades para o ensino de programação.
Projeto de Diplomação, Universidade Federal Fluminense, Niterói, RJ.
Lima, M. P (2013) “As mulheres na Ciência da Computação”. Rev. Estud. Fem. vol 21
no.3. Florianópolis.
Paula, L. Q., PIVA JR., D., FREITAS, R. L. A Importância da Leitura e da Abstração
do Problema no processo de formação do raciocínio lógico-abstrato em alunos de
Computação. Anais do XVII Workshop sobre Educação em Informática. São
Leopoldo – RS, Brasil, 2009.
1226
11º WIT - Women in Information Technology
Sato, D. T., Corbucci, H. and Bravo, M. (2008). Coding Dojo: an environment for
learning and sharing agile practices. In Proceedings of the Agile 2008. . IEEE
Computer Society. http://dx.doi.org/10.1109/Agile.2008.11.
SINDPD/SP (2015). Número de contratações supera demissões no setor de TI no 1º
semestre.
<http://convergenciadigital.uol.com.br/cgi/cgilua.exe/sys/start.htm?infoid=40683>.
Acessado em 21/03/2017.
1227
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Sabe-se que a mulher foi de grande importância para o desenvolvimento e disseminação
da ciência. Ada Lovelace, com a criação do primeiro algoritmo, Grace Hopper,
idealizadora do conceito de sub-rotinas e Dana Urely, primeira mulher engenheira a
participar de um projeto na NASA, foram algumas das pioneiras a ingressar e exercer
influência em um ambiente majoritariamente masculino. Entretanto, mesmo com esta
importante participação feminina na ciência, continua pequeno o número de mulheres
que ingressa nos cursos. Segundo Oliveira et al. (2014) a partir dos anos 80 houve um
decréscimo no número de mulheres concluintes nos cursos de computação. Estes índices
se reproduzem em atividades que envolvam competições de programação tecnológicas.
Para Fisher (2016), o desinteresse feminino em competições de programação
acontece, entre outros fatores, pois as competições são originalmente pensadas para
participação masculina. Apesar disso, várias iniciativas surgem para tentar aumentar a
participação feminina nestas competições. Este artigo apresenta uma estratégia para
aumentar a participação feminina na Universidade do Estado do Amazonas - UEA, em
Manaus, através da criação de grupo de treinamento e pesquisa, conforme descrito neste
artigo.
1228
11º WIT - Women in Information Technology
3. Estratégia do grupo
O grupo é formado por qualquer aluno da universidade que mostre interesse em
programação, inclusive de outros cursos como Matemática, Engenharia de Produção e
Elétrica, mesmo que mantenha a maioria de seus integrantes oriundos dos cursos de
computação. A dinâmica do grupo segue as etapas descritas nesta seção.
Seleção
Nesta etapa é realizado um conjunto de atividades para incentivar os alunos a
participarem do grupo de pesquisa e treinamento. Entre as atividades estão: 1) Visita às
salas de aula dos alunos ingressantes na universidade para divulgar o grupo e convidá-
los a fazer parte; 2) Palestras proferidas por competidores e ex-competidores; 3)
1229
XXXVII Congresso da Sociedade Brasileira de Computação
Treinamento
Nesta etapa são definidos critérios que desenvolvam as habilidades individuais e
em grupo, como: 1) Orientações aos novos integrantes do grupo a respeito de ambientes
de competições; 2) Cada novo integrante recebe um aluno veterano que vai ajudá-lo a
treinar e tirar as dúvidas mais frequentes; 3) São realizadas orientações e dinâmicas para
composição de equipes (desde a chegada de novos membros até a definição das equipes
que participarão das competições); 4) Orientação sobre técnicas de trabalho em equipe.
Desenvolvimento
Nesta etapa são realizadas atividades que busquem melhorar a eficácia de todos
os participantes. Cada um identifica suas habilidades e potencialidades individuais e em
grupos e o desempenho em ambientes de competição real. Entre as atividades estão: 1)
Desenvolvimento de competições internas (simulados) em ambiente de programação
real, preferencialmente acontecendo uma vez por semana; 2) Desenvolvimento de
competições por tema (segundo cronograma especificado); 3) Participação em
competições oficiais (seguindo o cronograma de eventos da região); 4) Encontro
semanal para debate e troca de soluções.
Avaliação
Nesta etapa são realizadas as avaliações dos resultados alcançados, das soluções
das equipes, dos aspectos que precisam ser melhorados e a definição de novos objetivos.
Esta avaliação acontece após cada competição e tem as seguintes atividades: 1) Debate e
discussão de soluções; 3) Avaliação do treinamento e identificação das necessidades das
equipes; 4) Definição dos objetivos individuais e em grupos.
4. Resultados Alcançados
Em 2015, 1ª edição da etapa regional da Maratona de Programação [MP, 2016] após a
criação do grupo, a UEA participou com 6 equipes, sendo que em uma delas havia 2
mulheres. Estas equipes participaram também das competições locais que aconteceram.
Para o ano de 2016, o grupo tinha como meta dobrar quantidade de meninas
competindo. Foram realizadas reuniões com calouros, os professores do departamento
fizeram um trabalho motivacional e com isto, o número de mulheres participante da
etapa regional aumentou para 6, triplicando, desta forma, a participação feminina, além
de que, o número de equipes participantes aumentou para 7. Além das competições de
programação que aconteceram na cidade, uma equipe participou da VIII Competição
Iberoamericana Interuniversitária de Matemática.
Para tentar conhecer a percepção dos integrantes do grupo, foi realizada pesquisa
e perguntado a que eles atribuem o aumento da participação feminina nas competições
de programação tecnológicas, 90% dos participantes responderam que atribuem à
criação do grupo, conforme apresenta o Gráfico 2.
1230
11º WIT - Women in Information Technology
3. Conclusão
Este artigo apresentou uma estratégia para aumentar o número de participantes em
competições tecnológicas, dando ênfase à participação feminina, através da criação de
um grupo de estudo e pesquisa. A criação do grupo foi eficiente em vários aspectos,
desde a melhoria na qualidade dos alunos em sala de aula até no desempenho em
competições. O grupo teve equipes em todas as competições realizadas na cidade e em
50% delas conquistou o primeiro lugar. Em relação à participação feminina, houve um
grande avanço e cada vez mais se percebe o interesse em participar do grupo e, por
consequência, das competições. Algumas ações estão sendo previstas, entre elas a
criação de um subgrupo somente com as mulheres.
Agradecimentos
Agradecemos à diretoria regional da Maratona de Programação (The ACM ICPC), em
especial à professora Rosiane de Freitas Rodrigues, pesquisadora da Universidade
Federal do Amazonas e uma das principais impulsoras na região amazônica de projeto
que incentivam a participação em competições tecnológicas, especialmente a
participação feminina. Aos participantes do Projeto Cunhatã Digital agradecemos o
1231
XXXVII Congresso da Sociedade Brasileira de Computação
4. Referências
Fisher, M., and Cox, A. (2006) "Gender and Programming Contests: Mitigating
Exclusionary Practices" In Informatics in Education 5 (1): p47-62.
Freitas, R., Gomes, L., Conte, T. (2016) "Projeto SciTechGirls: desenvolvimento de
aplicativos e participação em competições de programação científicas e tecnológicas"
In: XXXVI Congresso da Sociedade Brasileira de Computação 2016, Porto Alegre.
Anais CSBC 2016, p 1465-1474.
Lauschner, Tanara (2016). Cunhantã Digital: programa de incentivo à participação
demulheres da região amazônica na Computação e áreas afins. XXXVI Congresso da
Sociedade Brasileira de Computação.
Manzoor, S. (2006) "Analyzing programming contest statistics", In Perspectives on
computer science competitions for (high school) students.
http://www.bwinf.de/competition-workshop/RevisedPapers/13_Manzoor_rev-
better.pdf.
MP (2016). Maratona de programação. The ICPC-ACM South America - Brazil.
Sociedade Brasileira de Computação. Disponível em http://maratona.ime.usp.br/.
Oliveira, A.C., Moro, M.M., Prates, R.O. (2014) “Perfil Feminino em Computação:
Análise Inicial” In: XXII Workshop sobre Educação em Computação, Brasília, DF, p.
14651474.
1232
11º WIT - Women in Information Technology
1
Instituto de Computação – Universidade Federal do Amazonas(IComp/UFAM)
{fabiola,llag,rosiane,tmas,analuciamachado,tanara}@icomp.ufam.edu.br
1. Introdução
Segundo dados do PNAD divulgados em 2016, a maioria das mulheres que ingres-
sam no ensino superior em áreas tecnológicas, abandonam o curso no primeiro ano
[Programaria 2016]. Em relação aos ingressantes em cursos de computação, o percen-
tual fica em torno de 10% a 12% em universidades como Unicamp, UFRJ e UFMG
[Schmidt et al. 2016]. Já em relação à conclusão do curso, do total de formados nos
cursos de informática do Brasil, apenas 16% correspondiam à mulheres no ano de 2014
segundo a Sociedade Brasileira de Computação (SBC) [Felitti 2015] [Maciel and Bim ]
[Monard and Fortes 2013]. Outra estatística que confirma haver desvios entre a expec-
tativa social construída para cada gênero é que na escola, 74% das meninas demonstra
interesse nas áreas de ciência, matemática, engenharia e tecnologia, mas apenas 0,4%
escolhe a graduação em Ciência da Computação [Programaria 2016].
1233
XXXVII Congresso da Sociedade Brasileira de Computação
Visando contornar este preocupante cenário, no ano de 2015 foi criado o Cu-
nhantã Digital: um programa de apoio e incentivo à mulheres na área de Computação e
Tecnologia na região Norte do Brasil [Lauschner et al. 2016]. O Cunhantã Digital que
associou-se ao movimento em nível nacional, capitaneado pelo Programa Meninas Digi-
tais [Maciel and Bim ], na luta pela igualdade de gênero e redução de estereótipos sociais
e culturais que limitam a possibilidade de escolhas das mulheres em suas áreas profissio-
nais.
Deste modo, na busca por entender este processo nos cursos do Instituto de Com-
putação da Universidade Federal do Amazonas (IComp/UFAM), este trabalho apresenta
uma análise da participação feminina tomando como fonte de investigação seus três cur-
sos de graduação na área de computação: Ciência da Computação(CC), Engenharia da
Computação(EC) e Sistemas de Informação(SI).
O restante do texto está organizado como segue. Na Seção 2, serão analisados os
dados quantitativos e qualitativos coletados na pesquisa com os cursos do IComp/UFAM,
considerando o ingresso, evasão e formação, da seguinte forma: a Subseção 2.1 apresenta
os dados históricos gerais da UFAM e alguns dados específicos das alunas recém matri-
culadas na Universidade, além de dados de alunas do ensino médio relativos ao interesse
na área de Tecnologia da Informação (TI). A Seção 2.2 apresenta os dados de evasão e
os principais motivos de desistência da área. A Seção 2.3 retrata dados sobre a formação
atual das ingressantes do curso de Computação da UFAM. Já a Seção 2.4, mostra o avanço
das egressas que concluíram os cursos de TI. Na Seção 3 são apresentadas as perspectivas
futuras.
1234
11º WIT - Women in Information Technology
1235
XXXVII Congresso da Sociedade Brasileira de Computação
no mínimo, as mulheres são 20% nesta amostra, mas destacam-se os anos de 2002 para o
Mestrado e de 2015 para o Doutorado, porque nestes anos as mulheres foram maioria.
O gráfico da Figura 5 mostra o percentual de Formandos nos Programas de Mes-
trado e Doutorado, divididos por gênero. Percebe-se o comportamente parecido com os
cursos de graduação, ou seja, a relação percentual entre homens e mulheres que defen-
dem a dissertação ou tese é praticamente igualitária, tendo alguma vantagem feminina ou
masculina dependendo do ano, sendo bem diferente da relação de alunos ingressantes.
1236
11º WIT - Women in Information Technology
taxa de sucesso dessas mulheres é melhor. Fazendo um paralelo com o fato de que elas
escolhem os seus cursos com base na vocação e oportunidade de trabalhar com coisas
novas e não pensando principalmente em salários e mercado de trabalho, é possível dizer
que elas fazem escolhas mais coerentes em relação às suas afinidades e expectativas.
O aumento das matrículas femininas em 2017 no curso de Ciência da Computação
do IComp/UFAM em relação ao dado de que 32% dessas meninas declararam terem sido
alcançadas por alguma iniciativa de incentivo à participação feminina nas áreas de TI,
mostra a iportância de programas como o Cunhantã Digital e o Meninas Digitais para o
aumento do quantitativo e do talento feminino nesses cursos.
Os dados e resultados apresentados neste trabalho terão grande relevância na aná-
lise de pontos de melhorias e escolhas estratégicas para futuras ações do programa Cu-
nhantã Digital, como: pesquisa com mulheres no mercado de trabalho de Manaus para
verificar informações qualitativas sobre o ambiente que estão inseridas bem como políti-
cas de gênero existentes nas empresas e estudos da situação atual das egressas dos cursos
do IComp/UFAM.
O fato é que Queremos Crescer Mais! A partir desses resultados, serão elaboradas
novas metas com o intuito de melhorar os índices regionais e até mesmo nacionais de
participação feminina na área de Computação.
Referências
Felitti, G. (2015). Especial: conheçaa mulheres inspiradoras da Área de TI. Época
Negócios. Disponível em <http://idgnow.com.br/ti-pessoal/2017/03/08/mulheres-
inspiradoras-da-area-de-ti/>. Acessado em: 20-03-2017.
Lauschner, T., de Freitas, R., Nakamura, F., and de Aguiar Gomes, L. L. (2016). Cunhantã
digital: programa de incentivo a participação de mulheres da região amazônica na
computação e áreas afins. In 10o Women in Information Technology (WIT 2016), Porto
Alegre, RJ, In: Anais do XXXVI Congresso da Sociedade Brasileira de Computação
(CSBC 2016).
Maciel, C. and Bim, S. Programa meninas digitais - ações para divulgar a com-
putação para meninas do ensino médio. In In: Proceedings of the Compu-
ter on the Beach 2016, Florianópolis, SC. pp.327-336. 2016. Disponível em
<http://www.computeronthebeach.com.br/arquivos-2016/Anais
Monard, M. C. and Fortes, R. P. (2013). Uma visão da participação nos cursos de ciên-
cia da computação no brasil. In VI Latin American Women in Computing Congress
(LAWCC 2013), Naiguatá Vargas, Venezuela. 39o Latin American Computing Confe-
rence (CLEI 2016).
Programaria (2016). Ser mulher em tech. Site Programaria. Disponível em
<https://www.programaria.org/sermulheremtech/>. Acessado em: 28-03-2017.
Schmidt, A. E., Britto, H., and Koehler, M. (2016). Levantamento e análise dos dados
da presençaa feminina discente no curso de bacharelado em sistemas de informação
do instituto federal catarinense, campus camboriú. In 10o Women in Information Te-
chnology (WIT 2016), Porto Alegre, RJ, In: Anais do XXXVI Congresso da Sociedade
Brasileira de Computação (CSBC 2016).
1237
XXXVII Congresso da Sociedade Brasileira de Computação
Hora do Vestibular:
o que as estudantes do ensino médio almejam fazer?
Fabíola Nakamura1 ,Taynah Almeida1 ,
Rosiane de Freitas1 , Tanara Lauschner1
1
Instituto de Computação – Universidade Federal do Amazonas(IComp/UFAM)
{fabiola,tmas,rosiane,tanara}@icomp.ufam.edu.br
1. Introdução
Mulheres representam apenas 30% da força de trabalho em áreas tecnológicas, se-
gundo dados de um relatório divulgado pelas onze maiores empresas de tecnologia do
mundo[Cheng 2015]. Tal situação é fruto da baixa representatividade de mulheres nas
área de exatas, que se dá desde muito cedo, inclusive nas atividades escolares. Por outro
lado, essa baixa traz reflexos para os indivíduos, em nível mais pessoal, e para a socie-
dade. Em nível pessoal, as mulheres acabam achando que não tem chance de atuar nessas
áreas e, em nível social perde-se um grande potencial econômico ao se negligenciar 50%
da força produtiva[Cater-Steel and Cater 2010].
Algumas iniciativas com meninas secundaristas já foram realizadas. O Projeto
GETSMART (Get Everyone to Study Math and Related TEchnologies) é um projeto de-
senvolvido na Universidade de Tampa, na Flórida, que aproxima mulheres da área de TI
- que são líderes na indústria, pesquisadoras, recém formadas - e estudantes do ensino
superior e ensino médio, formando uma rede de colaboração e apoio, bem como incenti-
vando que mais meninas procurem as áreas de STEM (Science, Technology, Engineering
1238
11º WIT - Women in Information Technology
and Math) [Feltri et al. 2010]. Pode-se citar também os vários projetos chancelados pelo
Programa Meninas Digitais, uma iniciativa da Sociedade Brasileira de Computação e que
visam, prioritariamente, ações que incentivem meninas dos ensinos fundamental e médio
a escolherem as áreas de TI [Maciel and Bim ].
Blickenstaff fez um estudo sobre um grande número de motivos que podem afastar
mulheres da área de STEM, alguns deles o autor julga sem mérito, outros perigosos e há
também os bastante complexos. Porém, deixa um questionando sobre se não é o próprio
meio científico o responsável pela exclusão. Ao final são propostas algumas mudanças na
própria educação em ciências para ajudar no problema [Blickenstaff 2005].
Deste modo, neste trabalho, são apresentados os resultados de uma pesquisa rea-
lizada com estudantes de ensino médio na 7a. Edição da Feira Norte do Estudante(FNE),
que é em um evento específico para discutir e divulgar carreiras. A FNE reune em um
único ambiente todos os principais agentes das atividades educacionais e de carreira pro-
fissional do Amazonas, oferecendo um amplo espaço para que jovens em formação ou em
busca de reposicionamento de carreira possam ter acesso gratuito a um número enorme
de informações.
A pesquisa realizada visa descobrir o que atrai e o que não atrai estas meninas
para a área de exatas, STEM e TI em geral.
A Feira Norte do Estudante é um evento realizado anualmente, com foco nos estudan-
tes do ensino médio e que ocorre desde 2010. Atende um público de cerca de trinta mil
pessoas durante seus três dias de realização. No evento, os estudantes podem conhecer
melhor as Instituições de Ensino Superior(IES) da cidade, bem como conversar com pro-
fessores e alunos destas instituições e com profissionais das mais diversas áreas. A Feira
conta também com palestras vocacionais e técnicas com o intuito de esclarecer dúvidas e
apresentar novas perspectivas a estes jovens.
Segundo Censo Escolar do IBGE em 2012 o número de jovens no Ensino Mé-
dio em Manaus era de 97.791, sendo 85.687 da rede pública estadual, 1.937 da rede
pública federal e 10.167 da rede privada, divididos entre 103, 4 e 51 escolas públicas
estaduais, públicas federais e privadas. As escolas públicas federais são todas escolas
técnicas[IBGE 2012].
O Programa Cunhantã Digital [Lauschner et al. 2016] participou da Feira com
palestras e um stand onde era possível conversar com as estudantes, apresentar as áreas de
TI, mostrar alguns jogos de lógica e pedir que respondessem a um questionário sobre seus
interesses em relação à escola e carreira. Como se tratava de uma feira, onde os estudantes
querem circular e conhecer várias profissões, o questionário foi escrito de modo a não
exigir muito tempo para ser respondido, contendo apenas questões de múltipla escolha.
As meninas que voluntariamente chegavam ao espaço do Cunhantã Digital na feira,
eram convidadas a responder as perguntas de forma anônima. Durante três dias vários
estudantes de Ciência da Computação e Sistemas de Informação da Universidade Federal
do Amazonas se revezaram de forma voluntária e se dedicaram acima das expectativas no
trabalho de apresentar o curso que escolheram às jovens no ensino médio.
1239
XXXVII Congresso da Sociedade Brasileira de Computação
Em outra questão as alunas respondiam "Em qual área você pretende escolher o
seu curso superior?". Com as opções sendo: Ciências Agrárias, Ciências Exatas, Ciências
Humanas e Ciências Biológicas e da Saúde. Os resultados são mostrados no gráfico à
direita da Figura 2. Comparando-se os dois gráficos da Figura 2 percebe-se que, ainda
1240
11º WIT - Women in Information Technology
que as ciências exatas figurem como a preferência dentre as disciplinas do ensino médio,
na hora de escolher um curso superior tal opção passa a figurar em terceiro lugar, atrás
das áreas de Biológicas e Saúde e da área de Humanas.
1241
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
Os dados e resultados apresentados neste trabalho terão grande relevância na análise de
pontos de melhorias e escolhas estratégicas para futuras ações do programa Cunhantã
Digital. Constatou-se que, embora as meninas gostem das áreas de exatas nas disciplinas
do ensino médio, não se sentem em condições de escolherem um curso superior em tec-
nologia. Como trabalho futuro pode-se investigar que fatores as levam a não se sentirem
preparadas o suficiente ou de não acharem que possuem a vocação para esta área.
Vale ressaltar também a influência negativa da família e amigos o que ressalta a
importância de ações que desmistifiquem a imagem de que as carreiras em TI são princi-
palmente para homens. Uma ação futura é realizar palestras com pais de alunas, buscando
que eles entendam melhor o que um profissional de computação faz e o que poderá con-
quistar, para que deixem de exercer um papel negativo na influência das escolhas de suas
filhas pelas áreas tecnológicas.
A participação do Cunhantã Digital na Feira Norte de Estudantes foi extrema-
mente positiva, não apenas pelo fato de fazer com que muitas meninas que não conside-
ravam escolher a área te tecnologia passassem a pelo menos conhecer o que faz o profis-
sional desta área. Mas também, a fomentar o envolvimento das próprias alunas e alunos
das graduações em computação que buscaram, com convicção, convencer as meninas do
ensino médio de que fizeram uma boa escolha e que elas deveriam fazer o mesmo. O
projeto Cunhantã Digital procurará repetir e ampliar este tipo de ação.
Referências
Blickenstaff, J. C. (2005). Women and science careers: leaky pipeline or gender filter?
Gender and Education, 17(4):369–386.
Cater-Steel, A. and Cater, E. (2010). Women in Engineering, Science and Technology:
Education and Career Challenges. SCOPUS, 1st edition.
Cheng, R. (2015). Women in tech: The numbers don’t add up.
https://www.cnet.com/news/women-in-tech-the-numbers-dont-add-up/.
Feltri, N. V., Webb, H. W., and Papp, R. (2010). Getsmart - an academic-industry part-
nership to encourage female participation in science, technology, engineering and math
careers. In Women in Engineering, Science and Technology: Education and Career
Challenges. SCOPUS, 1st edition.
IBGE (2012). Cidades@ - ensino - matrículas, docentes e rede escolar. Disponível em:
http://cod.ibge.gov.br/17txu. Accessado em: 08-05-2017.
Lauschner, T., de Freitas, R., Nakamura, F., and de Aguiar Gomes, L. L. (2016). Cunhantã
digital: programa de incentivo a participação de mulheres da região amazônica na
computação e áreas afins. In 10o Women in Information Technology (WIT 2016), Porto
Alegre, RJ, In: Anais do XXXVI Congresso da Sociedade Brasileira de Computação
(CSBC 2016).
Maciel, C. and Bim, S. Programa meninas digitais - ações para divulgar a
computação para meninas do ensino médio. In Proceedings of the Compu-
ter on the Beach 2016, Florianópolis, SC. pp.327-336. 2016. Disponível em
<http://www.computeronthebeach.com.br/arquivos-2016/Anais
1242
11º WIT - Women in Information Technology
Abstract. The objective of the present work is to analyze the results of the
public reaction to situations of gender-related prejudice and exemplified in
small dramatizations developed by the Revanche Drama Company in the event
of International Women's Day organized by the Emíli@s extension project.
The results reveal that the male´s and female´s perception is strongly
divergent.
Resumo. O objetivo do presente trabalho é analisar os resultados da reação
do público frente a situações de preconceito relacionado a gênero e
exemplificadas em pequenas dramatizações desenvolvidas pelo grupo de
Teatro Revanche em evento do Dia Internacional da Mulher, organizado pelo
projeto de extensão Emíli@s. Os resultados revelam que as percepções de
pessoas dos gêneros masculinos e femininos são bastante divergentes.
1. Introdução
Nos últimos anos, no contexto da Computação, diversas ações são realizadas
mundialmente para aumentar a participação das mulheres nesta área [Nunes et al.
2016a, 2016b]. No Brasil novas iniciativas, tanto no cenário educacional quanto
empresarial, são criadas a cada ano.
O projeto Emíli@s – Armação em Bits é um exemplo destas iniciativas,
desenvolvido como extensão na Universidade Tecnológica Federal do Paraná (UTFPR),
campus Curitiba. O principal objetivo do projeto é apresentar a Computação para
meninas, estudantes do ensino médio, de modo que elas possam considerar a área como
uma possibilidade de atuação profissional. Busca-se alcançar este objetivo através de
mesas redondas, palestras sobre temas diversos da Computação e áreas afins, relatos de
vida e motivacionais, encontros e oficinas.
O grupo de teatro Revanche existe na UTFPR-Curitiba como um projeto de
extensão desde 2011. Sempre com a proposta de desenvolver textos sociais e políticos,
o Revanche já produziu, em seu repertório, 5 peças. O projeto é fruto de uma disciplina
optativa do curso de Licenciatura em Letras e atualmente o grupo conta com a
participação de estudantes egressos(as) e licenciandos(as) da área e estudantes de
Design, Comunicação Institucional e Arquitetura.
Neste artigo relata-se a primeira atividade em parceria entre estes dois projetos
de extensão.
1243
XXXVII Congresso da Sociedade Brasileira de Computação
2. Metodologia
A partir de nove cenas curtas1, o grupo de teatro Revanche teve o intuito de denunciar
casos baseados em relatos reais de violência, muitas vezes silenciosa, enfrentados
cotidianamente pelas mulheres. As cenas foram apresentadas como parte da
programação em alusão ao Dia Internacional da Mulher em 2017. No momento da
apresentação, executada por 7 dos 13 atores do grupo de teatro, estavam presentes
aproximadamente 40 espectadores(as), convidados(as) de todos os cursos e
departamentos da UTFPR-Curitiba.
Para cada pessoa do público presente foi entregue um formulário para avaliarem
as nove cenas. Neste formulário consta uma tabela, em que para cada cena numerada
são dadas as opções de frequência: nunca, raramente, às vezes, frequente e muito
frequente. Logo após cada rápida dramatização (em média de 2 a 3 minutos), o público
foi instruído a responder marcando com um “x” com que frequência se dá a situação
recém-representada. O formulário também pede que a pessoa autodeclare seu gênero
para que possibilitasse uma análise de reação quanto a este fator.
O mote das pequenas dramatizações durante o evento foi, essencialmente,
desdobrar uma discussão sobre a temática de o assédio moral estar relacionado ao
gênero feminino principalmente no ambiente profissional. Este tema é relevante não
somente no âmbito acadêmico, mas também social, uma vez que o Brasil, segundo
dados da OMS de 2013, reiterados no Mapa da Violência de 20152, está classificado
como o quinto país mais violento para mulheres no mundo. Ademais, o objetivo
estendeu-se igualmente em levantar questões humanísticas acerca das relações
interpessoais baseadas, em sua grande maioria, nos discursos hegemônicos advindos da
sociedade estruturalmente patriarcal e heteronormativa. Através desta atividade espera-
se possibilitar ao(à) espectador(a), a partir do conceito do Teatro Didático3 [Brecht
1978], assimilar conteúdos de natureza da violência subjetiva, como o assédio moral,
explicitado nas pequenas dramatizações.
Na próxima seção apresentamos os resultados gerados a partir das respostas
fornecidas pelos(as) participantes do evento.
1
O texto integral produzido para essa apresentação pode ser encontrado em: http://bit.ly/dim17cenas
2
http://www.mapadaviolencia.org.br/pdf2015/MapaViolencia_2015_mulheres.pdf
3
Teatro Didático foi desenvolvido por Bertolt Brecht, na Alemanha, entre os anos de 1928 e 1932. As
peças teatrais tinham teor político e social e o trabalho consistia em apresentá-las em fábricas e escolas
sem preparação prévia dos atores
4
Em 2017.1, por exemplo, em Sistemas de Informação: 298 homens e 55 mulheres matriculadas(os).
Engenharia de Computação: 372 homens e 48 mulheres matriculadas(os). Conforme dados informados
pelo coordenador do curso de Sistemas de Informação em 31/03/2017.
1244
11º WIT - Women in Information Technology
(a) (b)
A Cena 2 relata uma avaliação docente pelo discente onde o uso de maquiagem
e as roupas utilizadas pela professora se tornam alvo de crítica, enquanto que a
avaliação deveria ter o foco na prática docente da professora e não na sua aparência.
Esta expectativa retrata a valorização excessiva da profissional mulher de acordo com
sua aparência e não conforme o seu currículo, como relatado na Cena 1. A Figura 2
mostra novamente a discrepância de percepção por parte do público masculino tendo
declarado, em sua maioria, como se nunca ocorresse, e mesmo quando sinalizam que
ocorre, ainda é de forma rara.
(a) (b)
1245
XXXVII Congresso da Sociedade Brasileira de Computação
(a) (b)
4. Considerações finais
Esta primeira experiência já revela que a percepção das situações de preconceito de
gênero é muito distinta para o público feminino e o público masculino. O fato de o
evento ter maior participação do público feminino, embora tenha sido realizado em uma
instituição cuja maioria do corpo discente é do gênero masculino, já indica que um
evento que tem referência às mulheres não atrai o público masculino.
As reações do público masculino nos mostra que as ações de conscientização
com relação a preconceito devem buscar mais a sensibilização do público masculino e
externalizando como essas situações podem ser tratadas. Além disto, iniciativas como
essa, de representar as cenas de preconceito por meio de Teatro Didático, podem ser
uma forma lúdica de aproximação da realidade ao público alvo.
5. Referências
BOURDIEU, P. (1989) O poder simbólico. Rio de Janeiro: Bertrand Brasil S.A, 1989.
BRECHT, B. (1978) Estudos sobre teatro. Trad. F. P. Brandão. Rio de Janeiro: Nova
Fronteira, 1978.
NUNES, M.A.S.N., LOUZADA, C., SALGUEIRO, E., ANDRADE, B., LIMA, P.S.,
MONTEIRO, R. (2016) Mapeamento de iniciativas brasileiras que fomentam a
entrada de mulheres na computação. In.: Anais do XXXVI Congresso da Sociedade
1246
11º WIT - Women in Information Technology
1247
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
As mulheres sempre estiveram presentes na construção cientı́fica das tecnologias, da
computação, da matemática e engenharias, mas foram apagadas dos registros históricos,
dos relatos e da história da ciência. Mulheres como Ada Lovelace, reconhecida mundial-
mente como a criadora do primeiro programa de computador da história, até pouco tempo
permaneciam num quase anonimato. Tinham seus feitos questionados e praticamente
desacreditados pelos grandes escritores.
Quem é mulher na área de Tecnologia da Informação (TI), sabe da obviedade de
que não existe diferença em termos de potenciais e capacidades intelectuais apenas por
questão de gênero. Existem bons e maus profissionais e para isso não importa o gênero.
Uma mulher pode ser femininamente inteligente e competente na área de informática.
Um homem pode não se sair tão bem assim [Oliveira et al. 2016].
Importantes avanços estão sendo feitos para a inclusão de mulheres na
computação, o próprio evento do Women in Information Technology (WIT)1 é um de-
les, pois o evento abre um indispensável espaço para discussões nas questões de gênero,
1
Evento organizado anualmente pelo Congresso da Sociedade Brasileira da Computação.
1248
11º WIT - Women in Information Technology
permite também o acesso a informações das construções históricas que a mulher tem feito
durante sua trajetória, além de reforçar a busca pela equidade de oportunidades.
Este trabalho visa demonstrar de forma resumida o ingresso e a participação
das mulheres no curso de Licenciatura em Computação e Bacharelado em Sistemas de
Informação, na Universidade Federal Rural da Amazônia (UFRA) na cidade de Belém
do Pará. No que se concentra o desenvolvimento desse trabalho, o mesmo segue orga-
nizado da seguinte forma: apresentamos na Seção 2 sobre mulheres na computação e na
sociedade; na Seção 3 sobre o quantitativo da participação de mulheres na computação,
na Seção 4 os resultados dos dados analisados na seção anterior; por fim, na Seção 5 as
nossas considerações finais.
Apesar do número de mulheres nas universidades ser crescente, observou-se que elas
escolhiam predominantemente áreas relacionadas à educação, saúde, artes e não as en-
genharias, matemáticas e também, nosso objeto de estudo, a computação. O mais pre-
ocupante, segundo [Velho et al. 2012] é que as mulheres quando não escolhem as áreas
de exatas o fazem de forma inconsciente, e este ainda é um problema recorrente. Para as
autoras isto é um problema que vem das escolas, das etapas primárias do ensino, onde os
meninos são incentivados a gostar de matemática e fı́sica e as meninas não.
Para que estas mulheres possam ser atuantes no mercado de trabalho, promovendo
a igualdade social, é necessário que seja garantido o acesso e a permanência destas nas
universidades, principalmente nos cursos relacionados a área da computação. O relatório
com dados do Censo 2015, cedido pelo INEP e SBC2 , demonstra que no cenário nacio-
nal é possı́vel observar que a entrada destas mulheres nas universidades (nos cursos de
Computação e afins) foi mais significativa nos últimos 8 anos, mas o número de concluin-
tes ainda permanece abaixo da média.
Embora pareça animador o número de mulheres ter crescido no mercado de traba-
lho, nas universidades e até mesmo na polı́tica, este ainda é um fator novo para a sociedade
que precisa compreender o papel da mulher e compreender que seu potencial é idêntico
ao masculino [Oliveira et al. 2016].
2
Disponı́vel em: http://www.sbc.org.br/documentos-da-sbc/summary/133-estatisticas/1074-educacao-
superior-em-computacao-estatisticas-2015
1249
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados
Nos cursos de TI da UFRA, o número de ingressantes do sexo masculino é superior ao de
mulheres, sendo o número de discentes mulheres maior em Licenciatura em Computação
(Tabela 1). Já o número de formados tem uma quantidade quase idêntica para os dois
gêneros, mesmo assim o número de mulheres formandas é menor (Tabela 2). Um fator
animador a ser observado é que a quantidade de ingressantes mulheres nos cursos é quase
proporcional ao de formadas, o que pode demonstrar que estas mulheres estão ingressando
e conseguindo ter condições de concluir o curso. Desmonstra também o quanto o cenário
tem mudado para as mulheres, quanto veem ocupando os espaços na universidade.
Em Licenciatura em Computação (LC), 27 discentes responderam o questionário,
já em Bacharelado em Sistemas de Informação (BSI), com o público respondente menor,
apenas 18 discentes responderam. Analisando os dois cursos, percebemos que 13,33% de
1250
11º WIT - Women in Information Technology
alunas pertencem a turmas anteriores a 2013, das turmas de 2013 e 2014 a quantidade de
mulheres é superior em comparação as outras turmas.
Destacamos alguns pontos importantes para a nossa análise, de modo geral,
57,78% afirmaram que o curso foi escolhido como primeira opção. Em todas as turmas
de LC, a faixa etária é superior a 19, com exceção da turma de 2016, composta apenas
por alunas de idade superior a 30. Já em BSI, a faixa etária é diferente, em 2013, todas
estão na faixa de 22 a 25 anos, nas demais turmas a faixa etária é superior a 19. As alunas
de LC, entre 19 a 25 anos, são na maioria solteiras e sem filhos, acima de 26 anos, são
solteiras, casadas ou possuem outro tipo de estado civil, dentre essas, apenas 8 mulheres
têm de 1 a 2 filhos. Em BSI, a maioria são solteiras e 8 têm 1 ou 3 filhos.
Sobre se há algo que possa atrapalhar a formação no curso, obtivemos 46,67%
de respostas “Sim”, os principais motivos foram: greve, disciplinas pendentes, dificul-
dade nas disciplinas de programação, dificuldade em conseguir estágio, Trabalho de Con-
clusão de Curso (TCC) incompleto, trabalho, problemas pessoais e preconceito. Inclusive,
53,33% das discentes de LC e BSI confirmaram ter sofrido algum tipo de preconceito por
ter optado esta área (Figura 1).
Destacamos nesta pesquisa, a quantidade de mulheres que trabalham e/ou esta-
giam. Em LC, apenas 13 trabalham em diferentes áreas (saúde, TI, educação e área
financeira), de 14 mulheres que não trabalham, 9 fazem estágio em diversas áreas de TI.
Em BSI, 12 trabalham em diversas áreas (vendas, saúde, TI, administração, educação), de
6 mulheres que não trabalham, todas fazem estágio em áreas de TI. Dentre as mulheres
que trabalham, a maioria delas fazem estágio em Manutenção e Suporte de Computado-
res. De modo geral, as alunas estagiam na área de TI, principalmente em Manutenção e
Suporte de Computadores.
Sobre a participação em um ou mais Programas de Extensão e/ou Ensino oferta-
dos pela Universidade, de 27 discentes de LC, 21 participam do PIBID, 6 do Sementes
Digitais, os dois programas são voltados ao ensino de Computação, já em BSI, apenas
uma aluna participou de algum dos Programas. Quanto a composição e aprovação de
artigos, apenas uma discente de LC teve artigo aprovado, e 2 alunas de BSI escreveram
artigos, mais apenas de uma foi aprovado. O número parcial de mulheres de LC e BSI,
fizeram algum curso para formação complementar, sendo principalmente voltado para
Programação e Manutenção e Suporte de Computadores. 92,59% das discentes de LC
têm interesse em estudar uma pós-graduação, enquanto que as de BSI, todas pretendem
estudar ao completar a graduação.
De acordo com a Figura 1, de modo geral, 57,78% das mulheres tinham os cursos
de TI como primeiras opções de escolha para ingresso na universidade, que demonstra
que elas tinham interesse em ingressar nesta área, embora ainda seja um número pequeno
dentro de um universo de 100%. Quando questionadas sobre existência de fatores que as
pudessem impedir de continuar o curso, 46,67% delas acreditam haver inúmeros. Como
os cursos são noturnos surgiu então a necessidade de questionar se estas mulheres já estão
inseridas no mercado de trabalho, mesmo que não seja o da área em que estudam, e
55,56% respondeu que “Sim”. Já quanto ao estágios, 64,44% respondeu que estagia na
área de TI, este número é muito animador, pois estas mulheres estão tendo a oportuni-
dade de obter alguma experiência no mercado de trabalho de TI, aumentando inclusive a
1251
XXXVII Congresso da Sociedade Brasileira de Computação
5. Considerações Finais
O artigo apresentou uma análise da participação das mulheres em dois cursos da área
de TI de uma Universidade. A pesquisa possibilitou conhecer o perfil das discentes em
ambos os cursos e a diferença na escolha do curso. Evidenciando que a Licenciatura atrai
mais mulheres que o curso de Bacharelado. Percebeu-se que a participação das mulheres
nos dois cursos vem diminuindo, o que é preocupante, incentivando o investimento em
polı́ticas públicas para motivar a participação feminina em curso superior na área de TI.
Os desafios para as mulheres na área de TI são grandes, porém motivantes, pois
a maioria pretende continuar os estudos através de uma pós-graduação. O que entristece
é que poucas tentaram escrever artigos cientı́ficos durante a graduação. O Women in In-
formation Technology (WIT) é uma excelente oportunidade para se discutir e analisar a
participação das mulheres na área de TI. Como trabalho futuro, pretende-se analisar a
participação das discentes graduadas dos dois cursos da Instituição no mercado de traba-
lho.
Referências
Oliveira, A. C., Oliveira, K., Alves, E., Tassyany, M., Cabral, Y., Sousa, T., and Batista,
F. (2016). Você é o melhor menino desse grupo! In Anais do X WIT Women in
Information Technology.
Velho, L., León, E., et al. (2012). A construção social da produção cientı́fica por mulheres.
cadernos pagu.
1252
11º WIT - Women in Information Technology
1. Introdução
O Programa Meninas Digitais, chancelado pela Sociedade Brasileira de Computação
(SBC), propõe ações voltadas a alunas do Ensino Médio/Tecnológico ou nos anos finais
do Ensino Fundamental, para que conheçam a área de Informática, Computação e das
Tecnologias da Informação e Comunicação (TIC), de forma a motivá-las a seguirem
carreiras nessas áreas. O Programa aglutina iniciativas de outras instituições que passam
a atuar como parceiras e multiplicadoras da proposta, de forma a disseminar esta ideia
no território nacional [Figueiredo, Neto e Maciel, 2016].
Em maio de 2016, foi implantado o projeto de extensão Meninas Digitais –
Regional Bahia. Isso ocorreu no contexto da Universidade Federal da Bahia onde a taxa
de mulheres nos cursos de graduação e pós-graduação em Computação é bastante
reduzida, aproximando-se de 10% no Bacharelado em Ciência da Computação, 10% no
Bacharelado em Engenharia da Computação, 16,7% na Licenciatura em Computação,
17,8% no Bacharelado em Sistemas de Informação, 22,4% para o Mestrado em Ciência
da Computação e 25% no Doutorado em Ciência da Computação.
Este artigo apresenta os primeiros passos do Projeto Meninas Digitais –
Regional Bahia, sua metodologia e experiência, mostrando as ações desenvolvidas que
podem ser adotadas por outras organizações e instituições para popularização da área de
1253
XXXVII Congresso da Sociedade Brasileira de Computação
3. Os Primeiros Bits
Dentre as ações já realizadas com foco na participação de mulheres na IC destacam-se:
● Mesa Redonda “Meninas Digitais: para além dos estereótipos (de gênero,
raciais e étnicos) nas práticas sociais e educacionais”: realizada no workshop
anual do POD, em 2015, a mesa abordou a violação de direitos humanos e suas
implicações, principalmente no tocante às relações raciais e de gênero, nos meios
digitais e trouxe à tona a discussão sobre as influências dos estereótipos de gênero,
raciais e éticos nos ambientes educacionais e nas relações de trabalho, com foco na
1
Reafirmar preconceitos para a partir da discussão desconstruir conceitos estabelecidos.
1254
11º WIT - Women in Information Technology
1255
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações Finais
Esperamos que a experiência e metodologia do Projeto Meninas Digitais – Regional
Bahia possa estimular outras organizações e instituições para popularização da área de
exatas, mais especificamente a de Informática e Computação, para as mulheres. A boa
aceitação das ações, repercussão na mídia e grande procura por cursos e atividades
voltadas para mulheres apontam positivamente para continuidade e expansão das ações.
5. Agradecimentos
Agradecemos às/aos estudantes que colaboraram, colaboram e abraçam esta causa.
Estendemos nossos agradecimentos à Pró-Reitoria de Extensão Universitária da UFBA
e ao MEC, por meio do Edital Proext/MEC/SESu 2015, pelo apoio financeiro ao
nascimento deste projeto.
Referência
Figueiredo, K. S., Neto, P. C. S., Maciel, C. (2016) "Meninas Digitais Regional Mato
Grosso: Práticas Motivacionais no Ensino Médio para a Equidade de Gêneros nas
Carreiras e Cursos de Computação e Tecnologias". X Women in Information
Technology (WIT), Porto Alegre. In: Anais do XXXVI Congresso da Sociedade
Brasileira de Computação. Porto Alegre, SBC. p. 2702-2705.
1256
11º WIT - Women in Information Technology
1. Introdução
Ainda não há estudos conclusivos sobre a participação de negros e negras no corpo
docente de programas de pós-graduação em Ciência da Computação. Todavia, estudos
sérios têm sido realizados para discutir a presença, a atuação e os perfis de mulheres
atuantes na Ciência da Computação, como os realizados por Oliveira, Moro e Prates
(2014).
Ainda assim, há um longo caminho a se fazer no sentido de mais estudos
históricos, antropológicos e sociotécnicos para autoconhecimento da Ciência da
Computação. Nesse sentido, os autores encaminharam uma pesquisa piloto para
identificar casos de professores e professoras negros e negras atuantes como docentes
da pós-graduação em Ciência da Computação. O principal objetivo por trás dessa
pesquisa foi descortinar trajetórias de sujeitos cuja formação se deu em uma época em
que não havia largos debates sobre ações afirmativas na graduação, tampouco na pós-
graduação.
Por meio de questionário e entrevista, identificou-se elementos qualitativos que
podem caracterizar as trajetórias de alguns desses sujeitos com a perspectiva de
incentivar outros estudos sobre a trajetória de negras e negros na Ciência da
Computação.
Neste artigo, apresentaremos um recorte, em que apresentamos dados
introdutórios sobre o perfil das mulheres negras investigadas. Os resultados desta
pesquisa devem ser disponibilizados pela Fundação Carlos Chagas ainda em 2017.
2. Metodologia
Dada a natureza do objeto de investigação, descritivo-analítico, e dos objetivos de
pesquisa, foram utilizadas duas técnicas fundamentais para coleta de dados (em duas
1257
XXXVII Congresso da Sociedade Brasileira de Computação
1258
11º WIT - Women in Information Technology
durante a trajetória acadêmica, sendo que uma delas precisou interromper os estudos de
nível superior em algum momento. Três trabalharam durante a graduação para se
sustentar ou sustentar a família. Duas dessas três cursaram o mestrado sem bolsas de
estudos e uma com bolsa parcial de estudos. As demais cursaram o mestrado
integralmente com bolsa. Na fase de doutorado, excetuando-se as duas que não tiveram
bolsa de estudos durante o mestrado, as demais cursaram o doutorado com bolsa de
estudos integral. Das duas que cursaram o mestrado sem bolsa de estudos, uma cursou o
doutorado com bolsa de estudos parcial e a outra não cursou o doutorado.
Quadro 1. Perfil resumido das professoras de cursos de pós-graduação stricto-sensu
Educação em Computação,
Informática na Educação 40 a 44 anos Norte Preta E
Engenharia de Software,
Segurança da Informação e de
60 a 64 anos Sudeste Preta F
Sistemas Computacionais,
Sistemas Tolerantes a Falhas
Educação em Computação,
Informática na Educação,
45 a 49 anos Nordeste Parda G
Inteligência Artificial,
Computação e Sociedade
1259
XXXVII Congresso da Sociedade Brasileira de Computação
dentre outros aspectos não puderam ser abordados. Desta forma, elas foram contatadas
sobre a possibilidade de participar de entrevistas, sendo entrevistadas as professoras A,
F e G. As reais identificações foram suprimidas por motivos éticos.
Por meio das entrevistas conseguimos relatos que seriam difíceis de exprimir
nos questionários. A permanência dos estudantes em condições sociais e econômicas
desfavoráveis era difícil mesmo quando este ia em busca de oportunidades, como pode
ser visto no relato: “Aí ela disse “a secretária já me olhou de cima a baixo e aí eu falei
para ela que eu tava vendo possibilidade de você vir de ter uma bolsa, de não sei o quê
e ela já foi logo cortando”. “Ah, sua filha não vai se dar bem aqui, porque o cursinho é
muito puxado, porque precisa ter tido uma boa base no ensino fundamental e tal,
porque não sei o quê”, e minha mãe, “não, mas ela sempre foi muito boa aluna na
escola”, “ah, mas escola pública a senhora sabe como é que é” isso naquela época,
quando escola pública ainda era muito boa. Mas na verdade o que minha mãe sentia:
negro, pobre, aqui eu não quero.” (Professora F)
É possível ver até mesmo reprodução de atos racistas por professores, como o
relato da professora G: “Fui me lembrar...ainda no ensino o quê? fundamental...acho
que fundamental II. Uma professora de português que isso ficou na minha cabeça...que
eu chegava lá..aí ela...ela gostava de mim assim porque eu sempre fui muito boa
aluna...aquela menina né, muito bem comportada. Mas ela chegou assim e falou: “mas
minha filha, sua mãe não penteia seu cabelo não é quando você vem?” Aí puxava meu
cabelo assim pra amarrar pra ficar com o coquezinho todo comportado. Agora eu
pensei assim: Nossa, acho que a mulher...ela avaliava assim essa menina tão boa
aluna, mas...Entendeu né? Esse tipo de coisas né?”
4. Considerações finais
A equipe continua analisando os dados levantados nessa pesquisa e pretende por meio
de triangulação dos dados com a abordagem de Margolis et al. (2017), iniciar alguma
teorização sobre esse tema no Brasil. Nessa teorização espera-se construir
conhecimento sobre trajetória escolar e acadêmica dessas mulheres de modo que
possam endereçar ações de fomento à participação feminina na Computação,
especialmente pelas jovens, sejam elas negras ou não.
5. Agradecimentos
Agradecemos à Ford Foundation1 e à Fundação Carlos Chagas2 pelo provimento de
recursos para financiamento desta pesquisa, por meio do Concurso de Pesquisa Negras
e Negros nas Ciências.
Referências
Margolis, J.; Estrella, R.; Goode, J.; Holme, J. J.; Nao, K. (2017). Stuck in the Shallow
End - Education, Race, and Computing. EUA, MIT Press.
Oliveira, A. C.; Moro, M. M.; Prates, R. O. (2014). Perfil Feminino em Computação:
Análise Inicial. XXII Workshop sobre Educação em Computação, Brasília. In: Anais
do XXIX Congresso da Sociedade Brasileira de Computação. Porto Alegre, SBC. p.
1465-1474.
1
www.fordfoundation.org
2
www.fcc.org.br
1260
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Apresentação
O SBSC (Simpósio Brasileiro de Sistemas Colaborativos) é um evento da Comissão
Especial de Sistemas Colaborativos (CESC) da SBC que vem ocorrendo desde 2003. Ao
longo desse tempo, o SBSC se consolidou como o mais importante fórum nacional de
debate para docentes, pesquisadores e profissionais da área de Sistemas Colaborativos
refletirem, analisarem e avaliarem aspectos relacionados à criação, desenvolvimento e
uso destes sistemas. O escopo do evento inclui redes sociais, ambientes de
desenvolvimento distribuído de software, sistemas de compartilhamento de arquivos,
mundos virtuais, editores cooperativos, wikis, sistemas de gestão de conhecimento e
ferramentas de comunicação, como videoconferência e blogs. O SBSC 2017, alinhado ao
CSBC 2017, traz à discussão o tema “Computação para tudo e tod*s” com a preocupação
de explorar os vários aspectos desta temática contemporânea, assim como promover o
debate sobre os desafios técnicos, sociais, materiais e teóricos que envolvem tanto a
utilização quanto o desenvolvimento de sistemas que dão suporte à colaboração entre
pessoas. Tratam-se de tecnologias que permitem novas formas de viver e trabalhar juntos
independentemente das localizações geográficas, dando apoio a processos corriqueiros,
tais como a comunicação entre pessoas/familiares distantes, reuniões de negócios, dentre
outros. O desenvolvimento e o uso de sistemas colaborativos afetam grupos,
organizações, comunidades e redes como meio de comunicação e desenvolvimento de
atividades coletivas.
A submissão de artigos ao SBSC2017 foi realizada envolvendo duas trilhas:
artigos de pesquisa concluída, com até 15 páginas e artigos de pesquisa em andamento,
com até 10 páginas. Foram recebidos um total de 51 artigos que foram avaliados por
membros do comitê de programa. Foram aceitos um total de 26 artigos que abordam
desafios das pesquisas em sistemas colaborativos e trazem contribuições maduras ao
simpósio. Destes 26 artigos, 17 são artigos de pesquisa concluída e 9 pesquisa em
andamento.
1261
XXXVII Congresso da Sociedade Brasileira de Computação
Comitê Organizador
Coordenação Geral
Maria Amelia Eliseo (Universidade Presbiteriana Mackenzie), Jane de Almeida
(Universidade Presbiteriana Mackenzie)
Comitê de Programa
Adriana Vivacqua (DCC-IM/UFRJ), Alberto Castro (UFAM), Alberto Raposo (PUC-
Rio), Ana Cristina Garcia (UFF), Andrea Magdaleno (UFF), Beatriz Pacheco
(Universidade Presbiteriana Mackenzie), Bruno Gadelha (UFAM), Carla Berkenbrock
(UDESC), Carlos Ferraz (UFPE), Celso Hirata (ITA), Claudia Cappelli (UNIRIO),
Claudia Motta (UFRJ), Cleidson de Souza (ITV e UFPA), Clever Farias
(FFCLRP/USP), Crediné de Menezes (UFRGS), Daniel Paiva (UFF), Denise Filippo
(UERJ), Edeilson Milhomem Silva (CEULP/ULBRA), Flavia Santoro (UNIRIO), Hugo
Fuks (PUC-Rio), Igor Steinmacher (UTFPR), Ivan Ricarte (UNICAMP), Jauvane
Oliveira (LNCC), João Porto de Albuquerque (USP), Jorge Correia Neto (UFRPE), José
Maria David (UFJF), Lesandro Ponciano (PUCMG), Marco Mangan (PUCRS), Marco
Aurelio Gerosa (IME - USP), Marcos Borges (UFRJ), Melise Paula (UNIFEI), Pedro
Porfirio Farias (Universidade de Fortaleza), Rafael Prikladnicki (PUCRS), Raquel
Prates (UFMG), Rita Suzana Pitangueira Maciel (UFBA), Roberta Gomes (UFES),
Roberto Willrich (UFSC), Rosiane de Freitas (UFAM), Sabrina Marczak (PUCRS),
Thais Castro (UFAM), Vagner Santana (IBM Research), Vaninha Vieira (UFBA)
1262
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Palestras
The Sensor Network is the Computer
Brett Stalbaum (presenter), Cicero da Silva (co-author)
The Earth has forever been a geological, oceanographic, atmospheric and magnetic
computer, albeit of an analog type. The very recent development - less than a century in
practical terms - of digital computing has accelerated explosively in cultural and
economic time, but even more so in a geological time scale. It is uncontroversial that
computation has been a key component of the Anthropocene and accelerationism. This
research seeks to trace out some of the computational trajectories of this explosion by
looking at the spread of computation from the "data center", "desktop" and "touch", all
the way to the surface of the planet. We speculate on potential near futures, dangers,
opportunities and the ultimate indifference of silicon and radio spectrum. Of particular
interest is the trajectory of parallel computing and the possibility that technology that was
originally developed to continue the battle to sustain Moore's Law is about to participate
in something different and quite novel: the rise of a co-extensive geographic scale of
digital computation that begins to rival the analog nature of the planet's original
computational ability, where the violent historical motion of compute from the "data
center" toward the "probe heads" of the sensor network portend a planet with radically
altered defenses against humanity.
Cicero Inacio da Silva is a researcher and professor in the field of digital technologies
applied to education, health, culture, arts and media. He is coordinator of the Brazilian
Telehealth Networks Program and teaches at the Open University of Brazil. He was a
deputy coordinator of the Open University of Brazil (UAB) and member of the
Governance Committee at the Federal University of São Paulo (Unifesp). Cicero
Coordinates the Software Studies group in Brazil and the Walkingtools Lab, both in
partnership with the University of California, San Diego (UCSD) and CUNY. He was
Digital Art curator for the Brazilian Digital Culture Forum (Ministry of Culture/RNP),
Digital Communities honorary mention at the Prix Ars Electronica in 2010. He was a
1263
XXXVII Congresso da Sociedade Brasileira de Computação
visiting professor at UCSD from 2006 to 2010 and a visiting scholar at Brown University
(2005).
1264
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Today, most professions rely on computers to generate, capture, filter, analyze and
visualize data. These troves of data are invaluable to scientists as they explore the raw
information and evidence needed for new insights and discovery; however, making those
insights is an ever more complicated task, as the scale and complexity of data continue to
grow at unprecedented rates. Today's Big Data comes from supercomputers, data stores,
and sensors. To make sense of all this information, researchers need advanced
cyberinfrastructure that includes Big Displays connected to these Big Data Generators
via Big Networks. The Electronic Visualization Laboratory (EVL) at the University of
Illinois at Chicago specializes in the design and development of high-performance
visualization, virtual-reality and collaboration display systems and applications utilizing
advanced networking. This presentation presents an overview of EVL’s research agenda,
and how the Lab is helping enhance immersive simulation exploration and information-
rich analysis, and enabling scientific discovery through interdisciplinary collaboration.
Bio: Maxine Brown is director of the Electronic Visualization Laboratory (EVL) at the
University of Illinois at Chicago (UIC) and responsible for fundraising, outreach,
documentation, and promotion of its research activities. Her research interests are
computer graphics, scientific visualization, collaboration, human-computer interfaces,
high-performance computing, and international network infrastructure. Brown is active
in ACM SIGGRAPH organization and SIGGRAPH and ACM/IEEE Supercomputing
conferences; general Co-Chair of IEEE Visualization 2015. Maxine Brown was a
recipient of the Academic Professional Excellence (CAPE) award (1990) by UIC
Chancellor’s; ACM SIGGRAPH Outstanding Service Award (1998); UIC Merit Award
(2001). One of 15 Global Visionaries by Chicago’s award-winning multimedia public
affairs series “Chicago Matters: Beyond Burnham” due the co-developing the StarLight
national/international communications exchange, located in downtown Chicago.
1265
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos completos
iLibras como facilitador na comunicação efetiva do surdo: uma ferramenta
colaborativa móvel
Simone Erbs da Costa, Carla Diacui Medeiros Berkenbrock, Fabiola Sucupira Ferreira
Sell, Gian Ricardo Berkenbrock
1266
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1267
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos em andamento
Coordenando permissões de postagem em blogs por meio de Web fingerprinting
Jordan Queiroz, Samantha Correa, Eduardo Feitosa, Bruno Gadelha
1268
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
si.gen@terra.com.br, carla.berkenbrock@udesc.br,
fabiola.sell@udesc.br, gian.rb@ufsc.br
1. Introdução
A comunicação é utilizada pelos seres humanos desde o início da sua existência, sendo a
linguagem (fala, escrita ou sinais) a principal forma de o homem transferir conhecimento
e interagir na sociedade em que vive ao se comunicar. Onde existe linguagem, existe
comunicação, pois a linguagem está associada aos fenômenos comunicativos. A lingua-
gem é a maneira pela qual o conhecimento é adquirido, e na qual o homem expressa suas
ideias, pensamentos, mensagens e sentimentos.
A aquisição dessa linguagem é algo complexo. Existe uma relação no ato de falar
e compreender, e de ler e escrever. O conhecimento da linguagem da fala é o alicerce da
leitura e o canal de comunicação mais utilizado pelas pessoas ao se comunicarem. Para
Gadamer (2002, p. 176) “é aprendendo a falar que crescemos, conhecemos o mundo,
conhecemos as pessoas e por fim conhecemos a nós próprios.”. Assim, para que uma
1269
XXXVII Congresso da Sociedade Brasileira de Computação
pessoa possa se comunicar, vários fatores estão envolvidos, como: gestos, sons, escritas e
imagens são necessários. Os problemas de audição vão além dos problemas de não ouvir,
estão relacionados com o desenvolvimento da pessoa.
Pessoas com necessidades especiais possuem mais dificuldades ao se comunica-
rem devido à a ausência ou problemas em um ou mais dos sentidos. Nesses casos, se faz
necessário utilizar mais de uma linguagem, ou seja, mais de um canal de comunicação,
ocorrendo os problemas de falhas e as dificuldades (ruídos) de comunicação. A perda
dessa comunicação natural é o maior prejuízo do surdo ou pessoas com problemas na au-
dição, já que para se ter uma comunicação efetiva é fundamental utilizar o mesmo canal
de comunicação (ROSA, 2009).
Alguns pesquisadores, visando reduzir as barreiras de acesso à comunicação, bem
como apoiar a comunicação das pessoas surdas, tecem algumas considerações. Nasci-
mento, Fortes e Kessler (2015) colocam que a utilização de recursos tecnológicos em
conjunto com as devidas estratégias promovem o aprender de forma interativa, propici-
ando, assim, uma melhor comunicação do surdo. Para Trindade (2013, p. 4) “atividades
colaborativas têm relevância para a formação humana, social, histórica, e política e podem
contribuir para a construção do conhecimento e da identidade do surdo.”.
A comunicação, conforme Pimentel, Gerosa e Fuks (2012) é um dos pilares dos
Sistemas Colaborativos (SC); contudo, ela é mais umas das barreiras enfrentadas pelas
pessoas surdas. Neste sentido, a popularização das TDIC e o uso crescente dos dispo-
sitivos móveis têm causado um grande impacto na sociedade, mudando a forma de as
pessoas interagirem e estabelecerem suas relações pessoais. Para Machado et al. (2016),
esse avanço tecnológico e o uso dos dispositivos móveis em SC criam um ambiente in-
terativo e motivador, propício para se trabalhar de forma colaborativa. Tendo em vista
apoiar esse ambiente em um sistema computacional colaborativo que trate as questões re-
lacionadas com a comunicação, coordenação e cooperação, neste trabalho será utilizado
o Modelo 3C (M3C) de colaboração (PIMENTEL et al., 2006).
Neste tocante, desenvolver condições de acessibilidade comunicacional bilíngue
de pessoas surdas pode ser uma das estratégias para lhes garantir melhores condições
de acesso às informações e à comunicação. As Tecnologias Digitais da Comunicação
e Informação (TDIC) potencializam a acessibilidade comunicacional. Por meio delas
é possível criar conteúdos digitais com múltiplas linguagens e mídias, onde as TDICs
podem ser utilizadas como Tecnologias Assistivas (TA).
O presente trabalho apresenta uma abordagem para apoiar a comunicação de pes-
soas surdas e usuários de Língua Brasileira de Sinais - Libras por meio de ferramentas
computacionais móveis e colaborativas. A hipótese é que a revolução digital e da infor-
mação em conjunto com os SC e as tecnologias adaptativas criem ambientes propícios
para interagir e se relacionar de forma atrativa, apoiando a comunicação de pessoas sur-
das e usuários de Libras. A abordagem utilizada na metodologia de pesquisa é do Design
Science Research (DSR) e Participativo (DP). Dessa forma, conjectura-se explorar conhe-
cimentos para melhor compreender os usuários e construir os recursos computacionais
para comunicação.
2. Comunicação e Comunicabilidade
Para que a comunicação seja estabelecida alguns processos são envolvidos, a saber: emis-
sor e receptor, mensagem a ser comunicada, o contexto que esta mensagem está inserida
1270
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
(lugar, tempo, valores, relações sócio-econômica e afins), o código utilizado para trans-
mitir a mensagem. Além do significado da mensagem, está a percepção do emissor diante
da mensagem, assim como a percepção do receptor, levando à ambiguidade da mensagem
ou problemas de entendimento em muitos casos. As relações estabelecidas entre os inter-
locutores da mensagem e o seu contexto de referência podem propiciar uma comunicação
lógica e objetiva (CYBIS, 2003).
Ao se relacionar com outras pessoas se faz necessário utilizar algum meio de co-
municação, sendo necessária compreender os sistemas de comunicação e os mecanismos
conversacionais. Os mecanismos conversacionais servem como facilitadores no fluxo da
conversa e é uma das três principais categorias de mecanismos sociais usados para co-
ordenação em SC (PREECE; ROGERS; SHARP, 2005), assim como a coordenação e a
percepção, tornando possível uma relação de como os recursos e sistemas tecnológicos
podem ser projetados para facilitá-los. Preece, Rogers e Sharp (2005) também colocam
que esses mecanismos devem prover de estratégias para a coordenação das ações dos
usuários, e os mecanismos de percepção são usados para saber o que cada qual está fa-
zendo.
Com relação aos sistemas de comunicação, eles abrem novos horizontes, possi-
bilitam novas formas de se comunicar e escrever, sendo necessário a troca de saberes.
Dessa forma, a comunicação precisa ser eficiente, para tal, é necessário que o emissor
e o receptor tenham a mesma compreensão na comunicação, ou seja, o receptor precisa
compreender a comunicação da mesma forma que o emissor idealizou. Rosa (2009) ob-
serva que para uma pessoa, uma instituição ou uma nação obterem sucesso é necessário
que exista uma comunicação eficaz e eficiente, apoiando e flexibilizando as comunica-
ções e propiciando, conforme Pimentel, Gerosa e Fuks (2012, p. 67), uma conversação
para ação.
O termo de conversação-para-ação nasceu com o objetivo de apoiar tanto as ações
de comunicação quanto as de coordenação, ambos presentes no M3C de comunicação e
utilizados nesta pesquisa. Pode-se dizer que são “um conjunto de estados” e cada vez que
ocorre uma mudança de um estado para outro, ou seja, uma transição, ocorre um ato de
fala (PIMENTEL; GEROSA; FUKS, 2012, p. 67–68). Segundo os autores, a compreen-
são da teoria dos atos de fala mudou a forma como a comunicação é vista, a informação é
utilizada para realizar ações além de as transmitir.
Para que exista a conversação-para-ação ou a comunicação efetiva, se faz neces-
sário o processo de comunicação. De acordo com Rosa (2009), para que ocorra uma
comunicação de forma eficaz é necessário respeitar algumas condições a saber: (i) a co-
municação é determinada pelo emissor, de acordo com sua posição, status social, repu-
tação e experiência; (ii) o emissor não pode dizer algo de muito diferente daquilo que
o receptor espera dele, caso contrário, a comunicação terá um resultado negativo; (iii)
a comunicação é influenciada pela oportunidade e o momento em que dizemos algo; e
(iv) uma comunicação eficiente depende de adaptar as tentativas de intercomunicação à
ocasião, à situação, ao tema e às pessoas envolvidas.
Ainda relacionado com as estratégias de comunicação na conversação para ação,
Libras e intérpretes de Libras são ferramentas importantes para o surdo (NASCIMENTO;
FORTES; KESSLER, 2015); assim como imagens representativas. O uso de recursos
tecnológicos em conjunto com as devidas estratégias fomentam o aprender de forma in-
1271
XXXVII Congresso da Sociedade Brasileira de Computação
terativa, melhorando a comunicação entre surdo e ouvindo. Nesse sentido, Moura (2015,
p. 23) observa que “[...] atividades colaborativas são importantes, pois promovem co-
municação, cooperação e coordenação entre o professor e alunos, de modo a tornar o
processo de ensino-aprendizagem mais produtivo.”. Assim, atuam como facilitadores no
processo comunicacional do surdo.
Dois conceitos nesse cenário ainda se fazem necessários e são importantes para
o presente estudo, modelos de comunicação e comunicabilidade. Pode-se dizer que na
busca de um modelo ideal de comunicação, cada modelo possui características próprias,
elementos e formas que estes se relacionam entre si e com o todo. Independente da
maneira com que o pesquisador realizará a conduta da sua pesquisa se faz necessário
identificar e classificar os serviços de comunicação utilizados no sistema de comunicação.
Comunicabilidade é o meio de transmissão utilizado na comunicação aliado com
uma comunicação eficiente. Não basta que o projetista apenas elabore um bom sistema, o
sistema deve ser capaz de apresentar o seu funcionamento e possibilidades de interação,
de forma que os usuários possam explorar o máximo de seu potencial A comunicabili-
dade é uma comunicação efetiva potencializada com as tecnologias, termo este em que o
presente estudo está fundamentado. A comunicabilidade será realizada por meio de um
recurso computacional de forma colaborativa para dispositivos móveis, que ao entrar com
uma palavra possibilite que a sua saída possa ter diferentes representações como: escrita
de sinais (signwriting), Libras, imagem e/ou som. A ferramenta permitirá a entrada de
diferentes formatos ou representações, mas isso não significa que todos os formatos serão
apresentados.
1272
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1273
XXXVII Congresso da Sociedade Brasileira de Computação
3.2. Artefatos
Os artefatos são criados por meio de ciclos, e os ciclos se repetem até que o nível de-
sejado seja atingido, nesse caso, o ciclo final. Cada ciclo finalizado gera uma base de
conhecimento, sendo essa a base de conhecimento instanciado no próximo ciclo (HEV-
NER, 2007).
O presente trabalho tem foco na definição de dois artefatos de software entendíveis
para a comunicação de pessoas surdas. O primeiro artefato é um MCE ou MC que foi
modelado pela equipe de desenvolvimento de sistemas e aplicado ao segundo artefato
produzido pela pesquisa. Um protótipo de telas e seus componentes, intitulado iLibras,
sendo um facilitador na comunicação da pessoa surda. Nesse processo, conforme visto
nas seções 1 e 2, para que a comunicação ocorra se faz necessário que a mensagem seja
transferida e recebida por meio de um canal de comunicação. Neste trabalho, esse canal
é apoiado pelo software desenvolvido, e conterá a linguagem utilizada na comunicação,
forma de expressar o pensamento pela fala, escrita ou gestos e será utilizado por grande
parte das interações. Assim, o contexto da pesquisa utiliza o MCE modelado visando o
1274
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
O primeiro passo do ciclo 1 do design realizado diz respeito aos usuários que irão intera-
gir, colaborar e comunicar com pessoa surda. Nesse sentido, Hevner (2007) coloca, que
em pesquisas de sistemas de informação se faz necessário conhecer os elementos relaci-
onados com os paradigmas da “ciência do comportamento” e da “ciência do design”. A
ciência do comportamento diz respeito às necessidades e regras de negócio identificadas
e a ciência do design aborda a pesquisa em si, do seu próprio desenvolvimento, e de como
serão realizados as avaliações dos artefatos projetados.
O ciclo da ciência do comportamento na Figura 1 se refere a busca do conheci-
mento dos usuários, seus problemas e dificuldades, analisando os problemas na comuni-
cação e os seus fatores influenciadores. No estudo, a ciência comportamental investiga
os requisitos necessários para apoiar o uso das TA por pessoas surdas por meio do uso de
dispositivos móveis e SC (seção 2). O usuário possui o conhecimento necessário para pro-
duzir o artefato, motivo pelo qual a pesquisa utilizou a abordagem de UCD, fortalecendo
a estratégia de foco nas necessidades dos usuários.
A ciência do design da referida figura desenvolve, testa, avalia e refina os artefatos
do MCE aplicado ao protótipo de telas e componentes de comunicação para dispositivos
móveis de forma colaborativa, utilizando a abordagem da prototipação. A técnica da pro-
totipação possibilitou verificar e validar junto ao usuário final as funcionalidades de co-
municação, assim como torna possível avaliar se os artefatos produzidos de comunicação
atenderão as suas reais necessidades. A última fase do ciclo, diz respeito à sua avaliação
por especialistas onde é possível identificar os sucessos e fracassos dos artefatos de comu-
nicação produzidos. Desta forma, os artefatos são projetados pela ciência do design em
conformidade com as conjecturas teóricas fundamentadas pela ciência do comportamento
e a avaliação do artefato produzido. Na imagem a direita da Figura 1 pode ser vista a base
de conhecimento adquirido ao se fazer uso da metodologia de pesquisa do DSR na busca
da solução da pesquisa, e para aquisição do mesmo foram executadas as etapas do DSR,
utilizando a abordagem de UCD no referido ciclo e visando identificar (i) necessidades
dos usuários; (ii) usuários; (iii) cenários de uso.
O processo de identificar as reais necessidades da pessoa surda no processo de
comunicação se deu em dois momentos. No primeiro momento, foi realizada um estudo
com 38 educadores (11 intérpretes de Libras e 27 professores) no estado de Santa Cata-
rina no trabalho de (COSTA et al., 2016b), tendo esse se iniciado na pesquisa realizada
1275
XXXVII Congresso da Sociedade Brasileira de Computação
1276
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
O segundo ciclo do design envolve o MCE, alicerce para o Ciclo 3 do design, que se refere
ao Ciclo do Protótipo de Comunicabilidade em conjunto com o M3C de colaboração e
dos elementos necessários para a comunicação de pessoas surdas na comunicação. Na
busca da solução para apoiar a comunicação da pessoa surda se faz necessário conhecer
os fundamentos e conceitos mais importantes abordados na seção 2, assim como precisam
ser considerados os cinco parâmetros de configuração de mãos, a saber: configuração de
mãos, movimento, direção, ponto de articulação e expressão facial/corporal.
Os parâmetros se relacionam no estudo no que se refere a compreender e iden-
tificar os processos comunicacionais por meio das diferentes configurações de mãos na
1277
XXXVII Congresso da Sociedade Brasileira de Computação
modalidade de sinais, assim como também entender a importância das diferentes mo-
dalidades, Libras e escrita de sinais (signwriting). Também se faz necessário considerar
alguns pontos mais: (i) influência e “poder” que os dispositivos móveis possuem em atrair
e manter pessoas, visto nas seções 1 e 2; (ii) SC; (iii) características da escrita de sinais
(signwriting) e da Língua de sinais (Libras); (iv) TDIC, TA, TD e os recursos computaci-
onais; (v) acessibilidade comunicacional; (vi) DU, desenho de interação e experiência de
interface; (vii) avaliação de acessibilidade comunicacional para dispositivos níveis e para
surdo; (viii) avaliação de desenho e alguns outros se faz necessário conhecer, assim como
utilizar as devidas técnicas.
Na busca da identificação dos recursos computacionais móveis que apoiem o pro-
cesso comunicativo da pessoa surda, se faz necessário identificar quais tipos de sistemas
de modelos de comunicação que a aplicação faz uso. No presente estudo não será visto
o MCE modelado, entretanto, para a pesquisa em questão é importante saber que o fluxo
entre os interlocutores (emissor e receptor) da mensagem é bidirecional, ou seja, existe de
fato uma comunicação efetiva.
1278
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
As funcionalidades podem ser divididas em três tipos: (i) pela classe comunicador:
se refere se faz necessário fazer uma busca da palavra na língua portuguesa textual e
a partir dessa consulta o resultado ser apresentado em diferentes formatos, tais como:
vídeo em Libras e legenda em português (primeira tela da Figura 2); tela na escrita de
sinais (signwriting) (segunda tela da Figura 2); tela da representação da palavra em forma
de figura (terceira tela da Figura 2); ela pode ser ouvida pelo ícone localizado na parte
superior no canto direito; (ii) pela classe cooperador: o aplicativo iLibras possibilita ao
usuário ampliar seu vocabulário e trabalhar de forma colaborativa.
Para se ter acesso a essa tela é necessário ter realizado o login e ter perfil de co-
operador. O acesso a essa tela pode ser feito de qualquer tela do iLibras, ao “tocar” no
ícone “+” que se encontra dentro do círculo vermelho. Sua interface permite incluir nova
palavra, conforme mostra a quarta tela da Figura 2. Na referida figura são apresenta-
das as operações para colaborar com o vídeo em Libras, com a imagem na escrita de
sinais (signwriting), com a voz e com a imagem que representa a palavra; (iii) pela classe
coordenador: o aplicativo possibilita ao usuário da classe coordenador, na persona de in-
térprete de Libras da escola, atribuir o perfil no cadastro do usuário. Somente os usuários
com esse perfil e que realizarem o login no aplicativo poderão colaborar; (iv) pelas três
classes: se referem as demais funcionalidades, conforme Figura 3.
1279
XXXVII Congresso da Sociedade Brasileira de Computação
1280
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
para os papéis (seção 3.3.3). A Figura 4 apresenta na sua totalidade as questões, bem
como o resultado da aplicação da avaliação. A técnica de Oficina do DP possibilitou
identificar duas situações que não estavam contempladas no aplicativo iLibras: (i) a pri-
meira diz respeito a ter um campo que contemple o contexto ou significado da palavra na
língua brasileira; (ii) ter busca da palavra pelo sinal. Esses foram os dois pontos que a
solução prevista não contemplava, encerrando, o ciclo 3 do design. A técnica de “Avali-
ação de Questionário Quantitativo”, com resposta “Sim” ou “Não”, possibilitou avaliar a
acessibilidade comunicacional e a experiência de usuário na pessoa dos especialistas.
Algumas das recomendações adotadas estão relacionadas com a realização de
questionários na avaliação para experiência de usuário em aplicativos móveis para surdos,
tais como: (i) planejar com foco na acessibilidade; (ii) focar na experiência de usuário;
(iii) definir papéis para o time de avaliação; (iv) elaborar e aplicar questionários voltados
à acessibilidade; (v) uso de tecnologias de suporte à observação. A avaliação da aces-
sibilidade comunicacional é encontrada na intersecção das áreas de interface de usuário,
desenho universal e acessibilidade do Desenho de Interface.
A avaliação de acessibilidade comunicacional foi aplicada para 5 especialistas,
sendo 2 deles especialistas no Registro dos resultados obtidos sobre oportunidades no uso
de dispositivos móveis para facilitar a comunicação da pessoa surda ou usuário de Libras,
e os outros 3 especialistas da educação, sendo 2 deles da educação da pessoa surda. Outro
ponto identificado no estudo diz respeito que o questionário deve ser aplicado primeiro
com intérprete de Libras ouvinte, devido a percepção da mesma ser diferente de uma
intérprete de Libras com surdez. Com relação a elaborar e aplicar questionários voltados
para acessibilidade comunicacional da pessoa surda, foi identificado que o questionário
para pessoas surdas e ouvintes não devem ser o mesmo no sentido de escrita das perguntas,
e as respostas devem fazer uso de emotion em Libras ao invés de texto.
Em relação a resposta, o presente estudo optou por usar emotions também no
questionário de ouvinte, pelo fato de o mesmo ser aplicado em especialistas das áreas
da ES, educação e educação especial, o que possibilitou avaliar com os especialistas de
Libras as imagens adotadas no questionário em Entrevista Aberta após a validação dos
mesmos no uso do protótipo iLibras e da aplicação do questionário quantitativo. Dos 3
especialistas de acessibilidade comunicacional do surdo, dois são especialistas da escola
onde experimento está sendo realizado e a outra é uma especialista de Libras externa
a escola. Dentre eles, 100% responderam “Sim” para todas as questões avaliadas. O
gráfico da Figura 4 apresenta as 12 perguntas realizadas, assim como um comparativo das
respostas afirmativas e das negativas.
1281
XXXVII Congresso da Sociedade Brasileira de Computação
4. Considerações finais
Este estudo teve como objetivo apresentar uma abordagem para apoiar a comunicação de
pessoas surdas por meio de ferramentas computacionais móveis e colaborativas. Nessa
busca, a metodologia de pesquisa de Design Science Research (DSR) e Design Partici-
pativo (DP) se mostraram adequadas, possibilitando explorar os conhecimentos na busca
de melhor compreender os usuários e construir um protótipo do Modelo de Comunica-
ção Efetiva (MCE) aplicado ao iLibras. A pesquisa realizada neste estudo foi de cunho
exploratório, pois teve como objetivo proporcionar maior familiaridade com o problema
para torná-lo explícito, permitindo a construção de hipóteses ou proposições. Ou seja, a
abordagem adotada na pesquisa na busca da solução que resultou em um “MCE modelado
aplicado ao aplicativo iLibras” atendeu o presente estudo no sentido de que foi possível
verificar o uso do aplicativo quanto a acessibilidade comunicacional da pessoa com surdez
e também usuários de Libras, assim como questões de uso do aplicativo iLibras.
Com relação aos trabalhos futuros, conjectura-se detalhar os conhecimentos ex-
plorados para melhor compreender os usuários e as tecnologias assistivas para comunica-
ção, assim como detalhar as abordagens e técnicas que guiam a pesquisa a saber, DSR;
DP; Design Centrado no Usuário (UCD) e Interação (DI), no que se refere as questões re-
lacionadas com o desenho universal; a acessibilidade e experiência do usuário, tendo em
sua interseção a avaliação da acessibilidade comunicacional de pessoa com surdez para
dispositivos móveis.
Referências
ALAN, R. H. V. et al. Design science in information systems research. MIS quarterly,
Springer, v. 28, n. 1, p. 75–105, 2004.
COSTA, S. E. d. et al. Uma revisão sistemática da literatura para investigação de
estratégias de ensino colaborativo. In: IEEE. Anais... XVIII Simpósio Brasileiro de
Sistemas Colaborativos. [S.l.], 2016. p. 1537–1548.
COSTA, S. E. d. et al. Desafios na arte se ensinar inclusiva: A relação professor
e intérprete na inclusão do surdo. v. 14, n. 2, 2016. Disponível em: <http:
//www.seer.ufrgs.br/renote/article/view/70647>. Acesso em: 2017-05-09.
CYBIS, W. d. A. Engenharia de usabilidade: uma abordagem ergonômica. Florianópolis:
Laboratório de utilizabilidade de informática, 2003.
1282
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1283
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
O crescente desenvolvimento tecnológico e a demanda por soluções de Tecnologia da
Informação (TI) que potencializam a experiência satisfatória dos usuários (do inglês,
User Experience – UX), têm exigido da Engenharia de Software constantes melhorias
em seus processos, métodos e suas técnicas [Chaves, 2010]. Nesse sentido, cada vez
mais, as atividades de desenvolvimento de software exigem pessoas treinadas,
processos bem definidos e ferramentas adequadas [Chaves, 2010].
Contudo, segundo Chaves (2010) e Pressman (2011), ainda existe uma carência
de ferramentas, bem difundidas, em algumas áreas relacionadas à produção de software.
Essa carência faz com que algumas etapas do desenvolvimento de software sejam
realizadas de forma manual ou com ferramentas inadequadas (e.g., ferramentas não
específicas), tornando os processos de desenvolvimento, gestão e qualidade de software
menos produtivos e mais propensos a erros [Chaves, 2010][Pressman, 2011].
Uma das etapas do desenvolvimento de software que possuem pouco suporte de
ferramentas é a avaliação de interfaces por inspeção. Nessa etapa, o modelo de interface
e interação do software desenvolvido é inspecionado e avaliado, sob a perspectiva de
1284
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1285
XXXVII Congresso da Sociedade Brasileira de Computação
Desse modo, esse trabalho é relevante porque, além de suportar todas as etapas
da Avaliação Heurística e contribuir com a automação de atividades previstas nesse tipo
de avaliação (e.g., geração de gráficos e relatórios), a THEM motiva novos trabalhos
relacionados que visam desenvolver e delinear as vantagens e desvantagens de
ferramentas que suportam a execução dos métodos de avaliação de interface.
2. Trabalhos Relacionados
Na literatura foi possível encontrar trabalhos que apresentam ferramentas para suportar
processos de avaliação por inspeção em diferentes perspectivas. Por exemplo, as
ferramentas GrIP, IBIS e ISPIS, propostas respectivamente por Halling e outros (2002),
Lanubile e outros (2003) e Kalinowski (2004) foram desenvolvidas para apoiar a
inspeção de artefatos de software produzidos ao longo de todo o processo de
desenvolvimento (e.g., documentação, código fonte, interfaces). Em outras palavras, as
ferramentas não foram construídas especificamente para avaliação de interfaces de
usuários por inspeção.
No âmbito de softwares para suportar as avaliações de interfaces por inspeção é
possível encontrar ferramentas como a TOWABE [Itakura e Vergilio, 2002], SUIT
[Ardito et al., 2006], Heva [Oeiras et al., 2008], APIU [Santos, 2011], MISTool [Jesus e
Silva, 2010] e ApplicSIM [Dias e Prates, 2013]. Contudo, a maioria delas não foca nas
avaliações por inspeção guiadas por heurísticas, como a Avaliação Heurística.
Por exemplo, as ferramentas TOWABE e SUIT suportam o processo de
inspeção de usabilidade baseado na técnica Systematic Usability Evaluation (SUE).
Essa técnica guia as atividades dos inspetores por meio de tarefas que descrevem, com
precisão, os objetos da aplicação a serem procurados e quais ações devem ser
executadas durante a inspeção para analise de tais objetos [Itakura e Vergilio,
2002][Ardito et al., 2006].
Por sua vez, a Ferramenta APIU permite executar a inspeção de usabilidade,
independente do método de avaliação. Contudo, os experimentos com a ferramenta
indicaram que o principal diferencial da APIU se mostrou um empecilho para sua
utilização, já que sua generalidade em relação aos métodos de inspeção a tornaram
pouco usual [Santos, 2011]. Nesse sentido, Santos (2011) argumenta sobre a
importância de oferecer ferramentas flexíveis, porém que estejam alinhadas com
métodos de avaliação por inspeção específicos.
Nessa linha, as ferramentas MISTool [Jesus e Silva, 2010] e ApplicSIM [Dias e
Prates, 2013] foram propostas para apoiar a execução do Método de Inspeção Semiótica
(MIS). O MIS é um método de inspeção que avalia a comunicabilidade da interface, que
não faz uso de heurísticas durante a avaliação [de Souza et al., 2006].
Por sua vez, a ferramenta Heva, apresentada por Oeiras e outros (2008), provê
suporte à aplicação da Avaliação Heurística. Segundo Oeiras e outros (2008), a
ferramenta foi criada para minimizar a sobrecarga de trabalho que o processo manual de
execução do método exige (e.g., obtenção dos dados e consolidação de relatórios). Os
experimentos iniciais com a ferramenta apontaram erros e problemas de usabilidade que
demandaram correções. Além disso, os autores ressaltaram que a Heva demanda por
evoluções, uma vez que está limitada por ser uma extensão do Mozilla Firefox,
permitindo apenas a avaliação de aplicações web compatíveis com esse navegador
[Oeiras et al., 2008].
1286
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1287
XXXVII Congresso da Sociedade Brasileira de Computação
1288
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1289
XXXVII Congresso da Sociedade Brasileira de Computação
1290
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1291
XXXVII Congresso da Sociedade Brasileira de Computação
1292
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1293
XXXVII Congresso da Sociedade Brasileira de Computação
Independência
do Método de Não Não Sim Não Não Não Não
Inspeção
Método de
Checklist, Checklist,
inspeção Todos MIS MIS AH AH
SUE SUE
suportado
Voltado para
as
Sim Sim Não Sim Sim Sim Sim
necessidades
do método
Apoio a todo o Não
Não Sim Sim Não Não Sim
processo informado
Geração de
Sim Sim Sim Não Não Sim Sim
Relatórios
Executada em
diferentes Sim Sim Sim Não Sim Não Sim
plataformas
Suporte a Não Não Não
Não Não Não Sim
Colaboração informado informado informado
A partir da Tabela 1 é possível perceber que THEM é a única ferramenta que
explicitou o suporte a colaboração. Além disso, é a única ferramenta que suporta
avaliações de interfaces baseadas na Avaliação Heurística (AH), que não apresenta
restrições no tipo de interface a ser avaliada e auxilia em todo o processo de execução
focando nas necessidades específicas do método (e.g., geração de indicadores
1294
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5. Avaliação da THEM
A THEM foi avaliada na perspectiva dos usuários por meio de um Teste de Usabilidade.
Esta técnica consiste em um método de avaliação de usabilidade que envolve a
participação de usuários e prevê as seguintes fases: preparação, execução e análise
[Prates e Barbosa, 2003][Rubin e Chisnell, 2008].
A fase de preparação e subdividida nas etapas de: (1) determinação dos objetivos
do teste; (2) definição das tarefas que serão executadas; (3) seleção dos participantes;
(4) considerações sobre os aspectos éticos; e (5) execução do teste piloto. Essas etapas
geram artefatos que são posteriormente utilizados durante o passo de execução do Teste
de Usabilidade [Prates e Barbosa, 2003][Rubin e Chisnell, 2008].
A execução representa a fase em que ocorre a avaliação da usabilidade do
sistema sob a perspectiva dos usuários. O avaliador conduz essa fase, seguindo os
seguintes passos: (1) recebimento do usuário; (2) apresentação do sistema; (3)
consentimento formal dos usuários, utilizando para isso o termo de consentimento; (4)
questionamento pré-teste; (5) observação das tarefas executadas pelos usuários e (6)
entrevista pós-teste. Já na terceira fase do método, os dados coletados são analisados
pelos avaliadores [Prates e Barbosa, 2003][Rubin e Chisnell, 2008].
Para avaliar a usabilidade da THEM o Teste de Usabilidade foi conduzido com a
participação de seis usuários que possuem formação superior na área da Computação e,
pelo menos, 1 ano de experiência em avaliações de interfaces baseadas na Avaliação
Heurística. Essa quantidade de usuários se justifica, uma vez que, segundo Nielsen
(2000), testes de usabilidade devem ser executados por 3 a 5 usuários.
Em relação às tarefas, os usuários interagiram com os principais cenários de
interação da THEM. Os cenários considerados foram: (T1) criar uma conta de usuário,
(T2) efetuar login, (T3), criar um projeto de avaliação, (T4) convidar
avaliadores/colaboradores para executar a avaliação, (T5) definir as heurísticas da
avaliação, (T6) definir as possíveis gravidades para caracterizar os problemas
identificados na avaliação, (T7) registrar dados da avaliação, (T8) gerar relatório da
avaliação e (T9) exportar relatório da avaliação.
Para cada tarefa executada por um usuário, o avaliador observava e registrava
como a tarefa era concluída (i.e., concluída sem erro, concluída com erro ou não
concluída). Não era permitido ao longo da execução que o avaliador respondesse a
perguntas referentes à interface ou a alguma funcionalidade da THEM. Este tipo de
pergunta seria respondido somente no período após cada tarefa, quando também seriam
discutidas as dúvidas, dificuldades e sugestões dos usuários. Cada teste foi executado
em, no máximo, uma hora.
A partir dos dados obtidos, os resultados foram analisados de forma a
caracterizar os indicadores de conclusão das tarefas pelos usuários e o grau de
adequação da THEM aos princípios de usabilidade. Por meio dessas medidas foi
possível caracterizar a usabilidade da THEM na perspectiva de seus usuários. Os
resultados obtidos são discutidos a seguir.
1295
XXXVII Congresso da Sociedade Brasileira de Computação
1296
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
ter sido baseada no método Avaliação Heurística (Nielsen, 1994), principal método de
avaliação por inspeção guiada por heurísticas, que segue um processo sequencial para
execução de suas tarefas. Contudo, será avaliada a viabilidade de melhorar a
flexibilidade da THEM.
Por outro lado, pelo menos 80% dos participantes indicaram que a THEM
atende completamente os princípios de facilidade de aprendizado, produtividade,
satisfação e utilidade. Esses resultados reforçam a relevância da ferramenta mediante
seu propósito, sobretudo na utilidade e produtividade. Isso porque, ao ser caracterizada
a partir desses dois princípios é possível reforçar o argumento de que a THEM, de fato,
auxilia os usuários no processo de avalição de interface por inspeção baseadas na
Avaliação Heurística. Conclui-se então que, apesar das demandas por ajustes, a THEM
está adequada ao uso de seus usuários.
Referências
Ardito, C. et al. A tool to support usability inspection. Proceedings of the working
conference on Advanced visual interfaces - AVI’06, p. 278–281, 2006.
Barbosa, S. D. J. e Silva, B. S. da. Interação humano-computador. Rio de Janeiro:
Elsevier, 2010.
Chaves, G. L. DE M. 2010. Desenvolvimento de software com ferramentas livres e de
baixo custo: metodologia e estudo de caso. Cad. CPqD Tecnologia, v. 6, n. 1, p. 57–
64, 2010.
1297
XXXVII Congresso da Sociedade Brasileira de Computação
de Souza, C. S., Leitão, C. F., Prates, R. O., and da Silva, E. J. 2006. The semiotic
inspection method. In: Proc. of IHC’06, p. 148-157.
Dias, J. S. e Prates, R. 2013. O. Suporte à aplicação do método de inspeção semiótica
por uma ferramenta online. In: Proc. of the 12th IHC, 2013.
Gupta, P., Toledo, R. M. e Monger M. 2012. Utilizing ASP.NET MVC in web
development courses. J. Comput. Sci. Coll. 27, 3 (January 2012), 10-14.
Halling, M.; Biffl, S. e Grünbacher, P. 2002. A groupware-supported inspection process
for active inspection management. Conference Proceedings of the EUROMICRO, p.
251–258, 2002.
Itakura, F. T. e Vergilio, S. R. 2002. TOWABE – Uma Ferramenta para Avaliação de
Usabilidade em Aplicações para Web. Simpósio Brasileiro de Engenharia de
Software, p. 462–467, 2002.
Jesus, A. M. de. e Silva, E. J. da. 2010. MISTool : um ambiente colaborativo de apoio
ao Método de Inspeção Semiótica. In Proc. of IHC ’10, p. 217–220, out. 2010.
Kalinowski, M.; Spínola, R. O. e Travassos, G. H. 2004. Infra-estrutura Computacional
para Apoio ao Processo de Inspeção de Software. In Proc. of Simpósio Brasileiro de
Qualidade de Software, p. 15, 2004.
Lanubile, F.; Mallardo, T. e Calefato, F. 2003. Tool support for geographically
dispersed inspection teams. Software Process Improvement and Practice, v. 8, n. 4, p.
217–231, 2003.
Nielsen., J. 2000. Why you only need to test with 5 users. 2000. Available in: <
https://goo.gl/qik9ZN>. Last access: Mar – 22, 2017.
Nielsen, J. Heuristic evaluation. In: Nielsen, J. and Mack, R. L. (Eds.). Usability
inspection methods. New York: John Wiley & Sons, 1994. p. 25–62.
Pressman, R. S. Engenharia Software Pressman. 7a ed. São Paulo: Makron Books,
2011.
Prates, R. O e Barbosa, S. D. J. 2003. Avaliação de Interfaces de Usuário - Conceitos e
Métodos. Jornada de Atualização em Informática (JAI), XXIII Congresso da SBC,
2003.
Oeiras, J. Y. Y., Bentolila, D. L. M. e Figueiredo, M. C. 2008. Heva: Uma Ferramenta
de Suporte à Avaliação Heurística para Sistemas Web. In Proc. of VIII IHC’ 08.
Rubin, J. e Chisnell, D. 2008. Handbook of usability testing: how to plan, design and
conduct efective tests. John Wiley & Sons (2008)
Santos, F. H. O. dos. 2011. Apoio ao processo de inspeção de usabilidade para
aplicações de software. Dissertação (Mestrado em Informática). Manaus:
Universidade Federal do Amazonas, 3 mar. 2011.
1298
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Abstract. With the diversity of information, content, products and services cur-
rently available, the search for items that are of interest to the user became a
chore. This article presents a proposal for a Recommender System of acade-
mic itens, based on a hybrid recommendation approach, which aims to facilitate
access to academic items and support the research of the teachers and students.
1. Introdução
A evolução tecnológica tem contribuı́do para que cada vez mais os usuários tenham acesso
a um grande volume de informações, conteúdos, produtos, e serviços. Consequentemente,
torna-se uma tarefa árdua para um usuário escolher uma opção entre as várias disponı́veis.
De acordo com [Baeza-Yates and Ribeiro-Neto 1999], este problema é conhecido na lite-
ratura como Sobrecarga de Informação e tem motivado o desenvolvimento de ferramentas
para facilitar o acesso pelos usuários.
No ambiente acadêmico também ocorre o problema da Sobrecarga de Informação,
pois uma diversidade de obras acadêmicas é produzida por instituições de ensino e pes-
quisa. Neste contexto, na Universidade do Estado do Amazonas (UEA), é produzido um
grande volume de obras acadêmicas. No entanto, seus professores, alunos e pesquisado-
res ainda não dispõem de uma ferramenta que possa facilitar o acesso as obras acadêmicas
produzidas pela instituição. Vale ressaltar que ferramentas de apoio à pesquisa, normal-
mente, são disponibilizadas em bibliotecas digitais e portais de universidades para que
os acadêmicos possam realizar buscas por obras acadêmicas, contudo essas ferramentas
raramente empregam abordagens de acesso personalizado e com recomendação.
1299
XXXVII Congresso da Sociedade Brasileira de Computação
2. Fundamentação Teórica
Nesta seção são descritos os principais conceitos e técnicas que serviram de base para o
desenvolvimento deste trabalho.
1300
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
De acordo com [Chen 2005], a FC trabalha combinando as opiniões de pessoas que ex-
pressaram inclinações similares no passado para predizer o que poder ser de interesse
agora para uma determinada pessoa. Mais minuciosamente, conforme [Zanette 2008],
estes tipos de sistemas tentam predizer itens aos usuários de acordo com itens avaliados
por outros usuários. Basicamente, o sistema utiliza informações da base de dados para
encontrar os pares (pessoas com interesses similares) para assim gerar a recomendação de
acordo com os pares. Desta forma, os usuários passam a colaborar com os sistemas para
serem beneficiados com recomendações a partir das informações que os próprios usuários
forneceram ao ambiente.
Segundo [Silva 2011], os Sistemas de Recomendação baseados em FC se diferen-
ciam dos demais, justamente porque não exigem um processamento das caracterı́sticas
(descrições) dos conteúdos. Em contraste, esta técnica procura explorar o intercâmbio de
experiências entre usuários e usa as opiniões para predizer os interesses de outros. Para
obter os vizinhos mais próximos, ou seja calcular a similaridade entre os perfis de usuários
podem ser empregadas métricas como Pearson e Cosseno. Uma descrição detalhada da
FC pode ser encontrada em [Zhou et al. 2008].
1301
XXXVII Congresso da Sociedade Brasileira de Computação
na literatura é possı́vel encontrar algumas propostas para combinação das técnicas FBC e
FC como segue:
• combinação linear dos resultados da FBC e FC que consiste em usar as técnicas
de forma separada de forma que os resultados possam ou não serem combinados;
• incorporar na FC algumas caracterı́sticas da FBC e vice-versa; e
• construção de um modelo unificado que incorpora as caracterı́sticas de ambas
técnicas.
Para o desenvolvimento da recomendação hı́brida empregada no sistema descrito
neste artigo foi empregada a combinação linear do resultados obtidos pela FC e FBC.
3. Trabalhos Relacionados
O objetivo desta seção consiste em apresentar uma análise de alguns trabalhos encontra-
dos na literatura que abordam o tema Sistema de Recomendação de itens acadêmicos. Os
trabalhos analisados empregam diferentes abordagens para recomendar itens acadêmicos
e se correlacionam com o Sistema de Recomendação apresentado neste artigo, buscando
assim posicionar este trabalho em relação aos demais.
[Cazella et al. 2008] apresentam um Sistema de Recomendação de artigos
acadêmicos baseado em FC para ambientes móveis. Sistema que recomenda somente
artigos cientı́ficos e emprega uma única técnica de filtragem. Já em [Cazella et al. 2009],
apresentaram um Sistema de Recomendação de artigos acadêmicos que utiliza a técnica
de FBC, também para ambientes móveis. Da mesma forma que o primeiro trabalho, o
sistema recomenda somente artigos cientı́ficos e emprega uma única técnica de filtragem.
Do mesmo modo, em [Barcellos et al. 2007] foi construı́do um sistema de recomendação
de artigos acadêmicos integrado a um sistema de busca que utiliza a técnica de FBC.
Neste trabalho, além de ser aplicada uma única técnica de filtragem, a recomendação é
fornecida somente quando o usuário realiza uma pesquisa por uma determinada obra.
Em [Tantanasiriwong 2011] algoritmos de clusterização foram comparados e em-
pregados em um Sistema de Recomendação de artigos extraı́dos do repositório SCI cor-
pus. A recomendação consiste em agrupar os artigos que possuem caracterı́sticas simila-
res. Em contraste à solução proposta neste artigo, neste sistema não foi empregada ne-
nhuma técnica de filtragem de informação no processo de recomendação, porém o mesmo
foi baseado somente em clusterização.
Em [Casagrande et al. 2015] foi feita a aplicação de um sistema de recomendação
em um repositório digital de obras literárias. Neste trabalho foi empregada a técnica de
FH incorporando caracterı́sticas da FC na FBC, com o agrupamento de perfis de usuário,
porém sem a construção explı́cita de um perfil de usuário o qual não o permite deter-
minar ou modificar as suas preferências e também sem a combinação linear dos resul-
tados obtidos. Da mesma forma, em [Costa et al. 2011] foi construı́do um Sistema de
Recomendação personalizada de artigos cientı́ficos para Bibliotecas Digitais. Nesse tra-
balho também foi aplicada a técnica de FH, porém o sistema não permite a especificação
e modificação do perfil pelo usuário.
O Sistema de Recomendação proposto neste artigo se difere com relação aos de-
mais trabalhos apresentados por empregar uma abordagem de recomendação hı́brida que
combina as duas técnicas de filtragem de informação. Como também, o perfil de usuário
1302
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
pode ser modificado pelo mesmo para personalizar a sua recomendação. Além disso, o
sistema recomenda não somente artigos acadêmicos, mas também TCCs, dissertações e
teses, bem como possibilita que os próprios usuários cadastrem suas obras públicas.
Este componente é responsável por executar a FH que consiste em gerar uma lista final
de recomendação de obras por meio da combinação linear das lista de obras filtradas
1303
XXXVII Congresso da Sociedade Brasileira de Computação
Tudo que compete a interação entre o usuário e sistema, acontece por meio deste compo-
nente. Ele é responsável por capturar as ações do usuário, monitorar as obras acessadas e
1304
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
avaliadas. Além disso, gerencia o fluxo de navegação entres telas e operações permitindo
solicitações de recursos ao sistema, tais como: recomendações de obras, perfil do usuário,
interesses, e detalhes de obras.
Todo o fluxo de comunicação de dados entre front-end e back-end acontece por meio
do componente gerenciador de requisição responsável por estabelecer a conexão com o
servidor (back-end) e encaminhar qualquer requisição de recurso. O back-end é conectado
ao front-end por meio de uma conexão de dados via Internet baseada em REST e no
formato JSON para troca de dados.
Estes componentes são responsáveis pelo gerenciamento dos dados dos perfis do usuário
e das obras acadêmicas. Além disso, também são os responsáveis pela implementação
das técnicas de filtragem de informação.
1305
XXXVII Congresso da Sociedade Brasileira de Computação
1306
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1307
XXXVII Congresso da Sociedade Brasileira de Computação
5. Testes e resultados
Nesta seção são descritos os testes que foram realizados com o sistema de recomendação
e os resultados que foram obtidos.
5.1. Dados
Para que seja possı́vel analisar a qualidade das recomendações e, consequentemente, o de-
sempenho do sistema, foram estipulados dados a serem analisados. São eles: quantidade
de obras recomendadas pelo sistema, quantidade de obras avaliadas (por cada usuário) e
quantidade de obras recomendadas pelo sistema e que o usuário julga relevantes.
5.2. Métricas
A eficiência de um sistema de recomendação pode ser mensurada por meio das métricas:
precisão, revocação e medida F como constam em [Jiangshan et al. 2010]. É possı́vel
encontrar inúmeros trabalhos que empregam tais técnicas para análise e estudo de desem-
penho de um sistema de recomendação.
• Precisão: segundo [Jiangshan et al. 2010], conforme o seu nome indica, mensura
o quão precisa foi a resposta, em uma proporção de itens recomendados que seja
realmente relevantes. Obedecendo, logo, a fórmula:
(Artigosrelevantes ) ∩ (Artigosretornados )
Pr = (1)
(Artigosrelevantes )
(Artigosrelevantes ) ∩ (Artigosretornados )
Rev = (2)
(Artigosretornados )
2 ∗ (P r ∗ Rev)
MF = (3)
P r + Rev
1308
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
da UEA. O perı́odo de testes ocorreu durante o perı́odo de férias, onde os alunos que de-
senvolvem projetos frequentam a EST com um horário mais flexı́vel e costumam passar
o dia na universidade.
A EST disponibilizou um computador para este trabalho, no laboratório de proje-
tos, onde os alunos convidados para os testes também frequentam. Na semana anterior à
realização da semana de testes, foram instalados nesta mesma máquina todos os progra-
mas necessários e foi carregado o banco de dados com TCCs provenientes da própria EST,
onde foram recolhidos em sites de professores da instituição que fazem o upload desses
arquivos que são, em suma, de seus orientandos. Os usuários que testaram o sistema fo-
ram no total 8 alunos, sendo 5 provenientes de EC e 3 de SI. Como os usuários não tinham
aulas e passavam o dia na universidade, eles podiam utilizar o sistema no horário que lhes
fosse melhor. Cada usuário utilizou o Tenebris 1 vez por dia, durante 5 dias, no decorrer
de uma semana. Em seu primeiro contato com o sistema o usuário era explicado sobre
suas funcionalidades, funcionamento e aplicabilidade. Prosseguindo, cada usuário criou
seu próprio login com senha e indicou a sua faculdade de origem e, após isso, alimentou
o banco de dados ao relacionar breves tags relacionadas aos seus interesses com relação
ao conteúdo dos artigos. A tela dessa aplicação consta na Figura 4(b).
Após a especificação de suas tags, o usuário avaliava 5 obras, ou seja, usava de
seus próprios critérios para classificar uma obra entre 1 até 5 estrelas, sendo 1 estrela
um artigo que não é de seu interesse e 5 estrelas um artigo que é de seu interesse e muito
relevante. Para essa avaliação, o usuário estava livre para navegar e escolher os artigos que
quisesse e utilizasse dos critérios que bem preferisse para avaliar – é importante ressaltar
que embora os membros da equipe estivessem por perto para sanar possı́veis dúvidas que
pudessem surgir sobre o sistema, os mesmos buscaram por não influenciar a avaliação
de nenhum usuário para com obra nenhuma para que se tivesse uma avaliação clara e
coesa, que representasse o interesse do usuário da melhor possı́vel. Também é necessário
esclarecer o número estabelecido de 5 avaliações por dia para cada usuário, isto ocorreu
porque se viu necessário estabelecer um número fixo de obras a serem avaliadas porque o
sistema constava de somente 50 TCCs e 5 trabalhos variados. Se os usuários avaliassem
várias obras, poderia ocorrer um cenário indesejado onde a FC não colabora, pois não
recomenda uma obra para o usuário sendo esta uma obra que ele mesmo já informou ao
sistema explicitamente que é de seu interesse ou não, sendo então desnecessária a sua
recomendação. Após a avaliação das 5 obras, o usuário solicitava uma recomendação ao
sistema que assim o recomendava. Para cada obra retornada pelo sistema era necessário
que o usuário respondesse se aquela obra recomendada seria de seu interesse, ou seja, se
ele a leria e se concordava que o sistema havia lhe retornado uma obra relevante. Esses
dados são importantes para mensurar a qualidade das recomendações naquele dia e em
diante, o que possibilita o estudo da curva de aprendizado do sistema que será alvo de
discussão na próxima subseção.
Assim, cada usuário utilizou o Tenebris uma vez por dia, no horário que lhe fosse
desejado, sempre acompanhado de um membro da equipe desenvolvedora e sem tempo
pré-estabelecido, pois cada usuário tinha seu tempo e sua forma de escolher para avaliar
obras. Inicialmente, a ideia de se estipular uma determinada quantidade de tempo foi
concebida, mas descartada após ser constatado que era desnecessária uma vez que todos
os usuários poderiam utilizar o sistema no mesmo dia, em qualquer horário.
1309
XXXVII Congresso da Sociedade Brasileira de Computação
1310
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Figura 5. Precisão
Figura 6. Revocação
Figura 7. Medida-F
1311
XXXVII Congresso da Sociedade Brasileira de Computação
Agradecimentos
Os autores agradecem a Luiz E. F. Bentes e a Elloá B. Guedes pelas discussões técnicas ao
longo deste trabalho. O autor L. G. C. Evangelista agradece ao apoio financeiro provido
pela Fundação de Amparo à Pesquisa do Amazonas (FAPEAM) pela bolsa de iniciação
cientı́fica concedida pelos PAIC/UEA 2015-2016 e 2016-2017.
Referências
Adomavicius, G. and Tuzhilin, A. (2005). Toward the next generation of recommender
systemas: A survey of the state-of-the-art and possible extensios. In Lin, X. and Chen,
L., editors, IEEE Transactions on Knowledge and Data Engineering, pages 734–749.
IEEE.
Baeza-Yates, R. A. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. PREN-
TICE HALL, 1th edition.
Barcellos, C. D., Musa, D. L., Brandão, A. L., and Warpechowski, M. (2007). Sistema de
recomendaçao acadêmico para apoio a aprendizagem. RENOTE, 5(2).
Burke, R. (2002). Hybrid recommender systems: Survey and experiments. User modeling
and user-adapted interaction, 12(4):331–370.
Casagrande, M. F. R., Kozima, G., and Willrich, R. (2015). A recommendation technique
based on metadata for digital repositories oriented to learning. Brazilian Journal of
Computers in Education, 23(2):69–70.
Cazella, S. C.and das Chagas, I. C., Barbosa, V., J. L., and Reategui, E. B. (2008). Um
modelo para recomendação de artigos acadêmicos baseado em filtragem colaborativa
aplicado à ambientes móveis. In Tarouco, L. M. R., editor, RENOTE – Revista Novas
Tecnologias na Educação, pages 12–21. UFRGS.
Cazella, S. C., Reategui, E., Machado, M., and Barbosa, J. (2009). Recomendação de ob-
jetos de aprendizagem empregando filtragem colaborativa e competências. In Crespo,
S., editor, Anais do SBIE 2009. SBC.
Chen, A. (2005). Context-aware collaborative filtering system: predicting the user’s pre-
ferences in ubiquitous computing. In CHI’05 Extended Abstracts on Human Factors
in Computing Systems, pages 1110–1111. ACM.
Costa, E. B., Oliveira, T. T., Silva, A. P., and Bittencourt, I. I. (2011). Sistema de
recomendação hı́brido para bibliotecas digitais que suportam o protocolo oai-pmh. In
Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática
na Educação-SBIE), volume 1.
Das, A. S., Datar, M., Garg, A., and Rajaram, S. (2007). Google news personalization:
scalable online collaborative filtering. In Williamson, C. and Zurko, M. E., editors,
16th international conference on World Wide Web Pages, pages 271–280. ACM.
1312
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Geva, S. and Trotman, A., editors (2014). The Thirty-Seventh Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval. ACM.
Jiangshan, X., Zhang, L., Lu, H., and Li, Y. (2010). The develpment and prospect of
personalized tv program recommendation system. In Dutta, A. and Paul, S., editors,
2010 IEEE 4th International Conference on Internet Multimedia Services Architecture
and Application. IEEE.
Kobsa, A. and Zhou, M., editors (2014). RecSys ’14: Proceedings of the 8th ACM Con-
ference on Recommender Systems, New York, NY, USA. ACM. 609146.
Linden, G., Smith, B., and York, J. (2003). Amazon.com recommendations: item-to-item
collaborative filtering. In Blake, M. B., editor, IEEE Internet Computing – Volume 3,
Issue 1, pages 76–80. ACM.
McCandless, M., Hatcher, E., and Gospodnetic, O. (2012). Lucene in action. Manning
Publication, 1th edition.
MEC (2017). Portal Periódico Capes/MEC. URL: www-periodicos-capes-gov-br Access
in 2017–03–27.
Owen, S., Anil, R., Dunning, T., and Friedman, E. (2012). Mahout in action. Manning
Publication, 2th edition.
Richarddon, L. and Ruby, S. (2007). RESTful Web Services-Web services for the Real
World. 2007. O’Reilly Media, 1th edition.
Silva, F. S. (2011). PersonalTVware: uma infraestrutura de suporte a sistemas de
recomendação sensı́veis ao contexto para TV Digital Personalizada. PhD thesis, Uni-
versidade de São Paulo.
Tantanasiriwong, S. (2011). A comparison of clustering algorithms in article recom-
mendation system. In Zeng, Z. and Li, Y., editors, Volume 8349 Fourth International
Conference on Machine Vision (ICMV 2011): Machine Vision, Image Processing, and
Pattern Analysis. SPIE.
UEA (2017). Sistema Integrado de Bibliotecas – UEA. URL:
http://biblioteca.uea.edu.br/biblioteca/index.php Access in 2017–03–20.
UFMG (2017). Sistemas de Bibliotecas da UFMG. URL: https://www.bu.ufmg.br/bu/
Access in 2017–03–20.
USP (2017). Biblioteca Digital de Teses e Dissertações da USP. URL:
http://www.teses.usp.br/ Access in 2017–03–20.
Valet-Harpe, I. (2013). The JSON Data Interchange Format. ECMA International, 1th
edition.
Zanette, L. R. (2008). Sistema de recomendação de itens baseado na rede de confiança
do usuário. Master’s thesis, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
Programa de Pós-Graduação em Informática.
Zhou, Y., Wilkinson, D., Schreiber, R., and Pan, R. (2008). Large-scale parallel col-
laborative filtering for the netflix prize. In International Conference on Algorithmic
Applications in Management, pages 337–348. Springer.
1313
XXXVII Congresso da Sociedade Brasileira de Computação
Abstract. Online Social Networks (OSN) allow users to share content of any
kind. In these networks, users can be considered as social sensors, where
their opinions and comments about an event can be studied (e.g., characteri-
zing events, recognizing influential entities). OSN can be modeled as complex
networks, where the entities are represented by the vertices and the edges cha-
racterize the connection between them. Using this approach, we can determine
which are the most influential entities in the studied context through centrality
measures (e.g., Betweenness and Pagerank). Based on this, this article presents
an analysis of the most influent entities from the perspective of an event in Online
Social Networks and an study of the detected communities. As results we realize
that the measures of centrality have different influential entities, this shows that
although all the entities are part of the same event, some have greater influence
depending on the studied aspect. Regarding the community detection we notice
that entities that were grouped together, are directly linked to a sub-event within
the studied context.
Resumo. Redes Sociais Online (RSO) permitem aos usuários compartilhar
conteúdo de qualquer tipo. Nestas redes, os usuários podem ser vistos como
sensores sociais, onde suas opiniões e comentários a respeito de um evento po-
dem ser utilizados para estudo (e.g., caracterização de eventos, reconhecimento
de entidades influentes). RSO podem ser modeladas como redes complexas,
onde as entidades são representadas pelos vértices e as arestas caracterizam a
conexão entra elas. Utilizando esta abordagem, podemos determinar quais são
as entidades mais influentes no contexto estudado através de medidas de cen-
tralidade (e.g., Betweenness e Pagerank). Com base nisto, este artigo apresenta
uma análise das entidades mais fluentes sob a perspectiva de um evento em Re-
des Sociais Online e apresenta um estudo das comunidades detectadas. Como
resultados percebemos que as medidas de centralidade apresentam diferentes
entidades influentes, isto demonstra que embora todas as entidades façam parte
do mesmo evento, algumas tem influência maior dependendo do aspecto estu-
dado. Com relação a detecção de comunidades percebemos que entidades que
foram agrupadas juntas, estão diretamente ligadas a um sub-evento dentro do
contexto estudado.
1. Introdução
Com a disseminação da Internet, as Redes Sociais Online (RSO) emergiram possibili-
tando a conexão de pessoas através de ambientes virtuais, que disponibilizam recursos
1314
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
como compartilhamento de fotos, vı́deos, opiniões e percepções pessoais [Atefeh and Kh-
reich 2015; Benevenuto et al. 2011]. Atualmente, essas RSO fazem parte do cotidiano de
pessoas e empresas (e.g., Twitter possui 313 milhões de usuários mensais1 ), fornecendo
recursos cada vez mais atrativos aos seus usuários. Com o aumento da conectividade,
as RSO podem ser utilizadas como fontes de dados para pesquisas, pois possuem uma
elevada quantidade de dados produzidas pelos seus usuários [Souza et al. 2016].
Partindo desse princı́pio, cada usuário nesses ambientes pode ser visto como um
sensor colaborativo, onde suas opiniões e percepções a respeito de um determinado acon-
tecimento podem ser utilizadas para caracterizar eventos [Sakaki et al. 2010], reconhecer
entidades influentes [Cha et al. 2010] e analisar sentimentos [Almeida et al. 2016]. Nesse
contexto, técnicas de aprendizagem de máquina supervisionadas e não-supervisionadas
são possı́veis soluções para extrair estas informações [Souza et al. 2016; Petrović et al.
2010]. Outra abordagem que também pode ser utilizada são as Redes Complexas, onde
as interações de usuários ou informações compartilhadas podem ser modeladas através
de arestas, e as entidades representadas por nós, que em conjunto formam a rede [Mis-
love et al. 2007]. Essa estratégia tem sido amplamente utilizada para reconhecimento
de perfis influentes e principais entidades, disponibilizando métodos e métricas para tais
finalidades.
A partir desse cenário, existem trabalhos recentes de Redes Complexas que fo-
ram capazes de definir as entidades mais influentes de acordo com diferentes métricas
de centralidade [Rostami and Mondani 2015; Beveridge and Shan 2016]. Outros autores
utilizaram essas métricas no contexto de Redes Sociais Online [Mislove et al. 2007; Oli-
veira et al. 2015] e estudaram sua estrutura e evolução [Kumar et al. 2010]. Entretanto, as
soluções existentes não apresentam uma abordagem que combine a extração de entidades
em textos, verificação das relações entre entidades e a representação através de Redes
Complexas para reconhecimento de principais entidades dentro de um evento comentado
nas mı́dias sociais.
Com isso, as principais contribuições deste trabalho são: (i) uma abordagem para
modelar redes complexas a partir de comentários compartilhados nas RSO; (ii) a análise
que demonstra o impacto de diferentes métricas de centralidade aplicadas nesse contexto,
a fim de identificar as entidades mais influentes (entidades que possuem maior relevância
no contexto estudado) em um evento. Para validação da abordagem proposta, realizamos
um estudo de caso considerando as 15 fases da Operação Lava Jato em 2016.
Este artigo está organizado da seguinte maneira. Na Seção 2 são discutidos os
trabalhos relacionados. Em seguida, a Seção 3 apresenta a abordagem proposta. Os
resultados são demonstrados na Seção 4. Por fim, a Seção 5 apresenta as considerações
finais e direções futuras.
2. Trabalhos Relacionados
Medidas de centralidade foram criadas como forma de medir a importância de um nó em
uma rede [Newman 2003]. Por possuı́rem essa caracterı́stica, essas métricas vêm sendo
empregadas em redes sociais [Jamali and Abolhassani 2006] com o intuito de identificar
quais entidades são as mais influentes.
1
https://about.twitter.com/company
1315
XXXVII Congresso da Sociedade Brasileira de Computação
1316
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
(ii) avaliar diferentes medidas de centralidade a partir de dados de Redes Sociais Online;
(iii) identificar as entidades mais influentes em um evento comentado em mı́dias sociais.
3. Abordagem Proposta
A abordagem proposta neste trabalho consiste das seguintes etapas (ilustradas na Figura
1): (i) coleta de dados provenientes das Redes Sociais Online para a construção da base
dados; (ii) pré-processamento dos dados, a fim de retirar ruı́dos existentes na base de da-
dos; (iii) reconhecimento das entidades nomeadas; (iv) cálculo das ocorrências conjuntas
de entidades presentes no mesmo documento, para a geração da rede complexa; e (v)
análise das comunidades e principais entidades da rede complexa modelada.
X
D
F(a,b) = f((a,b),j) (1)
j=1
1317
XXXVII Congresso da Sociedade Brasileira de Computação
Reconhecimento
Instituições
de entidade
Pessoas
na rede (grafo) e com isso, poderı́amos somar os valores das frequências, como por exem-
plo, as entidades “X” e “Y” tem frequência igual a 20, e a inversão “Y” e “X” tem
frequência igual a 30, com isso, ao final terı́amos uma única relação entre as duas en-
tidades com peso igual a 50.
X
vi = avi ,vk . (2)
k∈V
1X
vi = ak,i vk (3)
λ k
1318
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
equação 4, onde ak,i é a matriz de vértices adjacentes do nó a qual aplicamos a equação,
dk é o grau de saı́da do vértice k, α e β são constantes e vk é o valor de pagerank do
vértice vizinho [Brandes and Erlebach 2005].
X ak,i
vi = α vk + β (4)
k
dk
1
C(v) = P (5)
y d(y, x)
X σst (i)
vi = (6)
s6=t6=z
σst
hP P 2 i hP P 2 i
∆Q = +ki,in +ki
− ki 2 , (7)
in
2m
− tot
2m 2m
in
− tot
2m
− 2m
P P
onde in é a soma dos pesos das arestas na comunidade C, tot é a soma dos pesos
das arestas incidentes nos nós em C, ki é a soma dos pesos das arestas incidentes no nó
i, ki,in é a soma dos pesos das arestas partindo do nó i para todos os nós em C e m é
a soma dos pesos de todas as arestas da rede. Todo esse processo é aplicado repetidas
vezes, quando a modularidade máxima é alcançada, ou seja, nenhum nó i pode aumentar
sua modularidade, o processo é interrompido.
1319
XXXVII Congresso da Sociedade Brasileira de Computação
4.1. Metodologia
Neste trabalho, criamos uma base de dados a partir de informações coletados do Twitter,
onde utilizamos a Search API do Twitter, que permite a coleta de dados históricos publi-
cados pelos usuários. Para filtrar dados referentes ao evento em estudo, utilizamos um
recurso disponı́vel pela API para filtrar informações de acordo com palavras-chave.
Nesse contexto, a nossa coleta de tweets foi feita utilizando a palavra-chave “Lava
Jato”, uma vez que nossa base de dados é relativa a Operação Lava-Jato, deflagrada em
2014 pela Polı́cia Federal do Brasil, cujo objetivo consiste em investigar a prática de
crimes financeiros e desvio de recursos públicos. Vale ressaltar, que a coleta é relativa ao
perı́odo de 01/01/2016 à 20/11/2016, pois consideramos somente as fases realizadas em
2016, ou seja, da 22a à 36a fase.
Ao longo da criação da base, observamos que existiam tweets que apresentavam
o termo “Lava Jato”, porém não estavam conectados aos acontecimentos do evento es-
tudado, como por exemplo, chekins feitos em postos de lavagem. Com isso, elimina-
mos esses documentos que não estavam relatando opiniões ou notı́cias sobre as fases da
Operação Lava Jato. Ao final, nossa base consiste em 652.210 tweets escritos em por-
tuguês que mencionavam o termo “Lava Jato” e tinham ligação ao contexto em estudo.
Após a geração da base de dados, realizamos o pré-processamento, onde remove-
mos as urls e menções dos tweets e utilizamos o PolyGlot-NER2 [Al-Rfou et al. 2015]
para reconhecimento de entidades nomeadas, pois apresenta suporte para o idioma Por-
tuguês em tarefas de processamento de linguagem natural.
Para a construção do grafo, utilizamos a ferramenta Gephi3 , que disponibiliza re-
cursos de plot de redes, assim como detecção de comunidade. Para o cálculo das medidas
de centralidade, utilizamos a ferramenta graph-tool4 . Por fim, é valido ressaltar que para
a geração da rede estudada, consideramos apenas tweets que possuı́am duas ou mais enti-
dades citadas ao longo do texto, além disso, as entidades que representavam componentes
desconexos do grafo foram descartadas, uma vez que não possuı́am informações perti-
nentes. Totalizando assim, 59 entidades detectadas que atendiam essa condição.
1320
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Lula
Dilma
Sergio Moro
STF
PT
Odebrecht
PF
Michel Temer
Eduardo Cunha
test 0 1 0 1 0 1 0 1 0 1 0 1
Betweenness e Closeness
Primeiro comparamos duas métricas de centralidade que dão uma visão geral da rede, são
elas Closeness e Betweenness. A Closeness apresenta a distância média de um vértice
para todos os outros da rede. Nessa medida, os valores de todas as entidades ficaram
bem próximos, conforme apresentado na Figura 3(b). Isso demonstra que todas as entida-
des estão relativamente próximas uma das outras, pois todas elas fazem parte do mesmo
evento. A entidade que apresenta maior Closeness é a “Odebrecht”, pois a sua distância
média é a menor em relação a todas as outras entidades, uma vez que a empreiteira é uma
das entidades mais citadas na operação Lava Jato.
Conforme apresentado na Seção 3 o Betweenness mede a frequência que um
vértice i aparece nos caminhos mı́nimos entre os vértices s e t. Assim, percebemos por
essa medida que a entidade “Dilma” é a mais influente, logo podemos inferir que é a enti-
dade que possui uma ligação mais central em relação aos outros, ou seja, para os usuários
do Twitter, a entidade “Dilma” é a que possui maior relacionamento com as outras entida-
des da Lava Jato. Outro fator a se observar, é que a entidade “Odebrecht” aparece como
segundo nó mais influente de acordo com essa medida de centralidade, uma vez que mui-
tos dos escândalos relacionados à operação Lava Jato estão relacionados à empreiteira,
logo as entidades envolvidas têm conexão com a empresa.
1321
XXXVII Congresso da Sociedade Brasileira de Computação
Pagerank e Eigenvector
Degree e Weighted Degree são analisadas juntos pois são duas medidas de centralidade
que levam em consideração somente as arestas incidentes no vértice em questão. Do
mesmo modo que Pagerank e Eigenvector, as Figuras 3(e) e 3(f) ilustram “Lula” e
“Dilma” como as entidades mais influentes, pois ambas possuem o maior número de
arestas incidentes, além do peso de suas arestas serem maiores que as das demais entida-
des, ou seja, são as entidades que mais possuem ligações com outras entidades na Lava
Jato, além disso essas ligações são as que mais se repetem na rede.
Porém, é válido ressaltar a diferença de influência da entidade “Odebrecht”. En-
quanto na medida Degree é a quarta entidade mais importante, no Weighted Degree é a
nona mais influente, como ilustra a Figura 3(f). Isto é explicado pelo fato de que por mais
que a “Odebrecht” possua várias arestas incidentes, o peso das mesmas é baixo, o que a
torna pouco influente nessa métrica.
4.3. Avaliação de Comunidades
A Figura 4 ilustra a rede social modelada a partir do contexto estudado. No grafo apre-
sentado, cada comunidade é representada por uma cor distinta. O tamanho dos vértices
corresponde ao seu valor de PageRank, enquanto tamanho de seu rótulo (nome) representa
a medida de centralidade Betweenness. A espessura das arestas representa seu peso.
Na rede estudada foram detectadas 5 comunidades (Figura 4). Porém, por se
tratar de um algoritmo guloso, dependendo do nó de origem escolhido, o número de
1322
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Furnas
Aecio
Dilma STF
PSDB
Michel Temer
Eike Batista
Renan Calheiros MPF
Joao Santana
Delcidio
Gilmar Mendes
Dirceu PF
Mantega PT Janot Valdir Raupp
Celso de Mello
Teori
Odebrecht
Renato Duque
BNDES
TSE
Andrade Gutierrez
Palocci Lula OAS
Lewandowski
PGR CUT
Paulo Okamoto
Cervero
OAB
Petrobras Bumlai
Figura 4. Rede social gerada a partir dos tweets dos usuários em relação a
operação Lava Jato. A cor do vértice indica sua comunidade. O tamanho do
vértice corresponde ao seu valor PageRank, e o tamanho do seu rótulo corres-
ponde ao seu Betweenness. A espessura das arestas representa seu peso.
1323
XXXVII Congresso da Sociedade Brasileira de Computação
4.4. Discussão
Percebemos que os dados coletados a partir de sensores colaborativos (usuários de redes
sociais), servem para detecção de entidades influentes a partir de medidas de centrali-
dade. Embora não haja uma medida de centralidade geral, Como pode ser observado na
Tabela 1, cada medida fornece informações complementares sobre a rede, dependendo do
que está sendo analisado, ou seja, analisá-las em conjunto apresenta diferentes aspectos
da rede e de seus personagens.
1324
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
possuindo uma forte ligação entre elas e entre os nós vizinhos, demonstrando assim que
são peças chaves da operação Lava Jato.
Em relação à detecção de comunidades, observamos que o algoritmo de Louvain
é uma abordagem viável a ser aplicada ao contexto de Redes Sociais Online. Ainda mais,
demonstramos que as comunidades geradas agruparam as entidades que possuem ligação
dentro de um mesmo sub-evento. Onde cada comunidade apresenta um cenário diferente
que pode ser estudado em particular.
5. Conclusão
Neste trabalho apresentamos uma análise de entidades influentes sob a perspectiva dos
comentários de usuários a respeito de um determinado evento em Redes Sociais Online,
para isto utilizamos medidas de centralidade com o intuito de identificar quais são essas
entidades influentes, além disso separamos as entidades de acordo com sua comunidade,
utilizando o algoritmo de Louvain.
Os resultados apresentados demonstram que o pré-processamento automatizado
proposto, é viável para modelar a rede. Com relação a medidas de centralidade, percebe-
mos que não há uma métrica geral a ser aplicada no contexto de Redes Sociais Online,
como cada medida fornece diferentes informações sobre a rede, elas se complementam.
Percebemos que dependendo da medida de centralidade estudada, as entidades mais in-
fluentes variaram de acordo com o aspecto da métrica, isto demonstra que embora todas
as entidades façam parte do mesmo evento, algumas tem influência maior dependendo
do que está sendo estudado. No que diz respeito a detecção de comunidades, percebe-
mos que o algoritmo de Louvain agrupou as entidades que estão diretamente ligadas a um
sub-evento dentro do contexto da Operação Lava Jato.
Como trabalhos futuros podem ser utilizadas outras bases sobre o mesmo evento
para comparação se há diferença de influência entre as entidades de acordo com a base
estudada, além disso pode-se aplicar outras medidas de centralidade para analisar outros
aspectos da rede e das relações entre as entidades.
Referências
Al-Rfou, R., Kulkarni, V., Perozzi, B., and Skiena, S. (2015). Polyglot-ner: Massive
multilingual named entity recognition. In Proceedings of the 2015 SIAM International
Conference on Data Mining, pages 586–594. SIAM.
Almeida, T. G., Souza, B. A., Menezes, A. A., Figueiredo, C. M., and Nakamura, E. F.
(2016). Sentiment analysis of Portuguese comments from Foursquare. In Proceedings
of the 22Nd Brazilian Symposium on Multimedia and the Web, pages 355–358. ACM.
Atefeh, F. and Khreich, W. (2015). A survey of techniques for event detection in twitter.
Computational Intelligence, 31(1):132–164.
Barrat, A., Barthelemy, M., Pastor-Satorras, R., and Vespignani, A. (2004). The architec-
ture of complex weighted networks. Proceedings of the National Academy of Sciences
of the United States of America, 101(11):3747–3752.
Benevenuto, F. R., Silveira, D., Bombonato, L., Fortes, R., and Pereira Junior, Á. R.
(2011). Entendendo a twitteresfera brasileira. In Proceedings of the 8th Simpósio
Brasileiro de Sistemas Colaborativos.
Beveridge, A. and Shan, J. (2016). Network of thrones. Math Horizons, pages 18–22.
1325
XXXVII Congresso da Sociedade Brasileira de Computação
Blondel, V. D., Guillaume, J.-L., Lambiotte, R., and Lefebvre, E. (2008). Fast unfol-
ding of communities in large networks. Journal of statistical mechanics: theory and
experiment, 2008(10):P10008.
Brandes, U. (2001). A faster algorithm for betweenness centrality. Journal of mathema-
tical sociology, 25(2):163–177.
Brandes, U. and Erlebach, T. (2005). Network analysis: methodological foundations,
volume 3418. Springer Science & Business Media.
Cha, M., Haddadi, H., Benevenuto, F., and Gummadi, P. K. (2010). Measuring user in-
fluence in twitter: The million follower fallacy. In Proceedings of the 4th International
AAAI Conference On Web and Social Media, pages 335–338. AAAI.
Freeman, L. C. (1978). Centrality in social networks conceptual clarification. Social
networks, 1(3):215–239.
Jamali, M. and Abolhassani, H. (2006). Different aspects of social network analysis. In
Proceedings of the International Conference on Web Intelligence, pages 66–72. IEEE.
Kumar, R., Novak, J., and Tomkins, A. (2010). Structure and evolution of online so-
cial networks. In Link mining: models, algorithms, and applications, pages 337–357.
Springer.
Liu, X. F., Liu, Y.-L., Lu, X.-H., Wang, Q.-X., and Wang, T.-X. (2016). The anatomy of
the global football player transfer network: Club functionalities versus network proper-
ties. PloS One, 11(6):e0156504.
Mislove, A., Marcon, M., Gummadi, K. P., Druschel, P., and Bhattacharjee, B. (2007).
Measurement and analysis of online social networks. In Proceedings of the 7th of
Internet Measurement Conference, pages 29–42. ACM.
Newman, M. E. (2003). The structure and function of complex networks. SIAM review,
45(2):167–256.
Newman, M. E. (2006). Modularity and community structure in networks. Proceedings
of the national academy of sciences, 103(23):8577–8582.
Newman, M. E. (2008). The mathematics of networks. The new palgrave encyclopedia
of economics, 2(2008):1–12.
Oliveira, L. S., Amaral, M. S., and Aguiar, I. S. (2015). O parlamento brasileiro no twitter:
uma análise de rede social. In Proceedings of the 12th Simpósio Brasileiro de Sistemas
Colaborativos, pages 138–143.
Petrović, S., Osborne, M., and Lavrenko, V. (2010). Streaming first story detection with
application to twitter. In Human Language Technologies: The 2010 Annual Conference
of the North American Chapter of the Association for Computational Linguistics, pages
181–189. Association for Computational Linguistics.
Rochat, Y. (2009). Closeness centrality extended to unconnected graphs: The harmonic
centrality index. In Proceedings of the 6th International Conference on Applications of
Social Network Analysis.
Rostami, A. and Mondani, H. (2015). The complexity of crime network data: A case
study of its consequences for crime control and the study of networks. PloS one,
10(3):e0119309.
Sakaki, T., Okazaki, M., and Matsuo, Y. (2010). Earthquake shakes Twitter users: real-
time event detection by social sensors. In Proceedings of the 19th International Confe-
rence on World Wide Web, pages 851–860. ACM.
Souza, B. A., Almeida, T. G., Menezes, A. A., Nakamura, F. G., Figueiredo, C. M., and
Nakamura, E. F. (2016). For or against?: Polarity analysis in tweets about impeach-
1326
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1327
XXXVII Congresso da Sociedade Brasileira de Computação
1328
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1. Introdução
Crianças e adolescentes (aqui referenciados como jovens) são usuários frequentes de di-
ferentes redes sociais online (RSO) [Kontostathis et al. 2010]. Segundo Livingstone et al.
[2010], 59% dos jovens1 possuem um perfil em alguma rede social, e utilizam a Internet
principalmente em casa (87%) e na escola (63%). Embora nesses locais os responsáveis
estejam normalmente por perto, é impossı́vel manter a supervisão por tempo integral dos
jovens e de suas interações em ambientes online. O anonimato proporcionado pela In-
ternet apresenta riscos [Reis et al. 2016], que esses jovens usuários podem não possuir
maturidade para perceber. Além disso, os modelos de privacidade atuais em RSOs nem
sempre oferecem proteção adequada para os diferentes perfis de usuários [Silva et al.
2016]. Como consequência, RSO, em especial as baseadas em mensagens instantâneas,
representam uma ameaça real para crianças e adolescentes que podem ser assediados por
pedófilos2 . Portanto, a identificação automática de conversas de pedofilia representa uma
importante ferramenta para proteção de jovens usuários de RSO.
Os principais desafios relacionados à identificação automática de conversas de
pedofilia incluem: (a) bases de dados escassas e desbalanceadas e (b) erros de digitação,
abreviações e gı́rias incomuns. As bases de dados são escassas devido à sensibilidade dos
dados e à proteção das vı́timas. Como resultado, as bases desbalanceadas podem levar a
conclusões enganosas contaminadas pela alta acurácia das classes mais frequentes [Liu e
Chawla 2011]. Os erros, abreviações e gı́rias (e.g., pls que significa please e sexx ao
invés de sex) podem ser utilizados propositalmente para enganar observadores externos
(algoritmos ou pessoas).
Os métodos atuais mais eficazes para a identificação de conversas de pedofi-
lia são baseados na abordagem Bag of Words (BoW) que utiliza todas as palavras e
suas ocorrências como caracterı́sticas para alimentar um algoritmo de aprendizagem
de máquina (e.g., support vector machine - SVM) [Villatoro-Tello et al. 2012]. Estas
soluções são computacionalmente intensas e, frequentemente, trabalham com um voca-
bulário dinâmico e crescente. Portanto, estas soluções não são escaláveis em ambientes
de redes de troca de mensagens instantâneas como Whatsapp, onde as mensagens não são
processadas por servidores, mas trocadas ponto-a-ponto entre celulares ou dispositivos
móveis. Nesse tipo de ambiente com restrições severas de privacidade e de processa-
mento, os métodos tradicionais para identificação de mensagens de pedofilia apresentam
um custo proibitivo para processamento local e, o processamento em nuvem não é, nor-
malmente, uma opção viável, pois as mensagens são armazenadas apenas localmente.
A principal contribuição deste trabalho é um método baseado em quantificado-
res de Teoria da Informação para identificação de mensagens de pedofilia em RSO de
troca de mensagens. O método proposto utiliza entropia de Shannon e divergência de
Jensen-Shannon para reduzir a dimensão dos dados e aumentar a eficiência (menor custo
computacional) mantendo uma eficácia próxima a 90%, considerando as métricas F1 e
F0,5 . Os resultados mostram que para conversas com mais de 2.500 palavras o método
proposto chega a ser 72,8% mais rápido que o estado-da-arte.
1
Pesquisa realizada com 25.142 crianças e adolescentes entre nove e dezesseis anos.
2
Pedófilo é um adulto cujas fantasias focam em jovens como parceiros sexuais [Lanning et al. 2010].
1329
XXXVII Congresso da Sociedade Brasileira de Computação
O restante deste artigo está organizado como descrito a seguir. A seção 2 apresenta
os principais trabalhos relacionados com a identificação de conversas de pedofilia. A
seção 3 detalha a abordagem proposta. Os resultados, comparando o método proposto
com o estado-da-arte, são apresentados e discutidos na seção 4. A seção 5 apresenta as
conclusões e trabalhos futuros. A tı́tulo de referência rápida, o apêndice A apresenta
alguns conceitos utilizados ao longo do artigo (TF-IDF, F1 e F0,5 ).
2. Trabalhos Relacionados
Pendar [2007] foi o primeiro autor a abordar o tema de detecção de pedofilia em conversas
online, utilizando a base de dados da organização Perverted Justice3 . Como estratégia
de pré-processamento, para cada conversas as linhas escritas pelo pedófilo e pela vı́tima
foram separadas em arquivos diferentes e as stop words4 foram removidas. Para extrair
caracterı́sticas destas conversas, o autor testou N-Gram de grau 1, 2 e 3 e ponderando os
termos utilizando TF-IDF (term-frequency, inverted document frequency). O algorı́timo
kNN foi utilizando, obtendo 94% de medida F1 , utilizando trigramas como caracterı́sticas.
Villatoro-Tello et al. [2012] venceram a competição PAN 20125 para classificar
conversas de pedofilia, altualmente representado o estado-da-arte em relação à eficácia na
detecção desse tipo de conversa. Os autores utilizaram a base de dados do próprio evento,
que inclui a base Perverted Justice em sua composição. Os autores filtraram as conversas
com: (a) apenas um autor; (b) menos de seis linhas escritas por cada autor; e (c) longas
cadeias de caracteres não-ascii; afirmando que estas conversas não possuem informação
suficiente. As caracterı́sticas utilizadas foram os valores de TF-IDF de todas as palavras
do corpo de conversas. O resultado foi um F1 de 95% utilizando o SVM.
Peersman et al. [2012] apresentaram uma abordagem em três etapas que combina
previsões dos três nı́veis de uma conversa: o nı́vel de mensagem individual, o nı́vel de
usuário, e a conversa inteira como combinação das duas anteriores. As caracterı́sticas
utilizadas são os valores de TF-IDF dos termos das conversas, e das linhas de cada autor,
separadamente, para permitir a previsão em três etapas. Foram utilizados dois classifica-
dores SVM: um para detectar uma linha de uma conversa predatória; outro para classificar
um participante da conversa como um pedófilo ou não pedófilo. Os resultados desses dois
classificadores foram combinados para nivelar o resultado final balanceando a precisão e
revocação de cada classificador, obtendo 90% de medida F1 .
Cheong et al. [2015] identificaram pedófilos em uma base de conversas e men-
sagens de fóruns do jogo infantil Movie Star Planet, coletados durante 15 minutos de
jogo. Como estratégia de pré-processamento, as linhas das conversas foram agrupadas
em vı́timas e pedófilos, por usuário/indivı́duo, sendo que nesse último caso foram manti-
das apenas as linhas onde há claramente um discurso predatório. Os autores utilizaram o
TF-IDF para obter informações léxicas das conversas, análise de sentimento para detectar
o comportamento de rule-breaker e a seleção manual dos trechos finais das conversas.
Para a classificação, os autores utilizaram o Naive Bayes, obtendo 53% de medida F1 .
Morris e Hirst [2012] utilizaram caracterı́sticas léxicas e comportamentais para
identificar conversas de pedofilia. Os autores também utilizaram TF-IDF para representar
3
http://www.perverted-justice.com.
4
Stop words são palavras muito frequentes e pouco discriminantes.
5
http://pan.webis.de/clef12/pan12-web/.
1330
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
3.1. Pré-Processamento
De forma semelhante a Rosso et al. [2009], o pré-processamento utilizado neste traba-
lho consiste no mapeamento das palavras em dois grandes grupos gramaticais: as pala-
vras funcionais e as léxicas. O grupo de palavras funcionais é composto de palavras que
possuem significado semântico fraco, útil apenas para estruturação das frases, raramente
admite novas palavras. As classes gramaticais que compõem este grupo são verbos auxi-
liares, pronomes, conjunções, preposições, determinantes e modais. O grupo de palavras
1331
XXXVII Congresso da Sociedade Brasileira de Computação
léxicas inclui palavras que fornecem significado semântico para as sentenças e é composto
por substantivos, verbos principais, adjetivos, interjeições e advérbios.
Nesta etapa, utilizamos o Stanford Core NLP [Manning et al. 2008; 2014] para
descobrir a classe gramatical de cada palavra e em seguida verificar se ela se encaixa no
grupo de funcionais ou léxicas. O passo seguinte é a filtragem das palavras funcionais,
consideradas stop words.
1332
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1333
XXXVII Congresso da Sociedade Brasileira de Computação
3.3. Classificação
Para a elaboração do modelo, utilizamos o SVM para realizar as predições, pois conforme
mostram os trabalhos relacionados (seção 2), o SVM produz os resultados mais precisos.
O ajuste de parâmetros e escolha do kernel foram feitos de forma empı́rica, com o objetivo
de maximizar a eficácia da classificação segundo as medidas F1 e F0,5 . A metodologia de
ajustes dos parâmetros é detalhada a seguir.
4. Avaliação Experimental
Nesta seção, descrevemos a metodologia de avaliação utilizada, bem como os parâmetros
escolhidos, e apresentamos uma discussão dos resultados referentes à: (1) eficácia da
classificação; (2) análise de complexidade dos métodos; e (3) eficiência da execução.
1334
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Diferente do BoW, no H+JSD, o histograma de referência não é o estado final das ca-
racterı́sticas, mas nessa etapa é importante descobrir um tamanho de vocabulário que
não sacrifique os resultados de classificação e que reduza o custo computacional total.
Sendo assim, para encontrar empiricamente os valores ideais de dimensão do vocabulário
e configuração do SVM, realizamos uma série de experimentos onde testamos os tama-
nhos de vetor 50, 500 e 5.000 e os valores de γ iguais a 1, 10 e 100 para o kernel Gaussi-
ano. Por fim, observamos os valores de medida F1 geral obtidos. Os resultados, exibidos
na figura 3, mostram que um vocabulário de tamanho 5.000 e γ = 10 é o suficiente para
obtermos um valor próximo a 90% de F1 . Portanto, esta será a configuração utilizada no
método proposto (H+JSD).
4.2. Resultados
Esta seção apresenta uma avaliação quantitativa entre o H+JSD e o BoW, que inclui
avaliações experimentais e analı́ticas (complexidade computacional). A análise de com-
1335
XXXVII Congresso da Sociedade Brasileira de Computação
O H+JSD possui uma eficiência (velocidade) muito maior que o BoW. Isto ocorre por-
que o vetor de caracterı́sticas compacto do H+JSD resulta um custo computacional muito
menor que o BoW. Na etapa de extração de caracterı́sticas ambos os métodos possuem o
mesmo grau de complexidade O(pm), onde p é a quantidade de palavras (termos) e m
é a quantidade de conversas. A complexidade da etapa de classificação é composta pelo
1336
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
custo do treino e teste do modelo. O treino do SVM tem custo O(kt2 ) onde t é o tamanho
da coleção de conversas de treino e k é a quantidade de caracterı́sticas que representa cada
instância, este custo é referente às operações de produto escalar que o classificador realiza
para encontrar o hiperplano ótimo de separação das instâncias. O teste tem custo O(kv)
onde v é o tamanho da coleção de teste. Nesse aspecto, o H+JSD leva vantagem signi-
ficativa em relação ao BoW, pois independente da quantidade de conversas consideradas
no estudo, ou da quantidade de palavras únicas encontradas na coleção, o H+JSD utiliza
apenas seis caracterı́sticas, tornando o custo de classificação no treino igual a O(t2 ) e o de
teste igual a O(v), enquanto que para o BoW, apesar de fixarmos o tamanho do vetor de
caracterı́sticas em 5.000 palavras por motivos de eficiência, esta quantidade é, a princı́pio,
igual ao tamanho do vocabulário.
1337
XXXVII Congresso da Sociedade Brasileira de Computação
1338
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5. Conclusão
Neste trabalho, apresentamos um método para identificação de conversas de pedofilia em
redes sociais de mensagens instantâneas. O método proposto (H+JSD) alcança valores
de F1 e de F0,5 próximos a 90%, comparados a 94% do estado-da-arte (BoW). Contudo,
conforme demonstramos, o estado-da-arte não é escalável e seu custo computacional é
proibitivo para dispositivos móveis. Em contraste, a solução proposta é escalável, com
um custo computacional reduzido comparado ao BoW. Esta escalabilidade é um requisito
chave para implementação de filtros de pedofilia em aplicativos móveis como Whatsapp,
pois as mensagens são armazenadas apenas localmente não sendo desejável (ou possı́vel)
que as conversas sejam processadas na nuvem sem a prévia autorização de todos os parti-
cipantes da conversa.
Embora a solução proposta seja significativamente mais eficiente (até 72,8% mais
rápida que o estado-da-arte) ainda há espaço para redução do custo computacional e au-
mento da eficácia (qualidade da classificação). Como trabalhos futuros, estamos ava-
liando outras métricas de dissimilaridade comumente usadas em Teoria da Informação,
Recuperação de Informação e Análise de Dados, tais como as distâncias de Hellinger,
Jaccard, Cosseno e Bray-Curtis.
|C|
idft,C = log , (5)
|{d ∈ C : t ∈ d}|
1339
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Bogdanova, D., Rosso, P., e Solorio, T. (2012). On the impact of sentiment and emo-
tion based features in detecting online sexual predators. In In Proceedings of the 3rd
Workshop in Computational Approaches to Subjectivity and Sentiment Analysis, pages
110 – 118, Jeju, Korea. Association for Computational Linguistics.
Cheong, Y., Jensen, A. K., Gudnadottir, E. R., Bae, B., e Togelius, J. (2015). Detecting
predatory behavior in game chats. Transactions on Computational Intelligence and AI
in Games, 7(3):220 – 232.
Kontostathis, A., Edwards, L., e Leatherman, A. (2010). Text Mining and Cybercrime,
pages 149 – 164. John Wiley & Sons, Ltd, West Sussex, United Kingdom.
Lanning, K. V., for Missing & Exploited Children, N. C., et al. (2010). Child molesters: A
behavioral analysis for professionals investigating the sexual exploitation of children.
National Center for Missing & Exploited Children with Office of Juvenile Justice and
Delinquency Prevention, Virginia, USA.
Lin, J. (1991). Divergence measures based on the shannon entropy. IEEE Transactions
on Information theory, 37(1):145–151.
Liu, W. e Chawla, S. (2011). Class Confidence Weighted kNN Algorithms for Imbalanced
Data Sets, pages 345 – 356. Springer Berlin Heidelberg, Berlin, Heidelberg.
Livingstone, S., Haddon, L., Görzig, A., e Ólafsson, K. (2010). Risks and safety on the
Internet: the perspective of European children. LSE: EU Kids Online, London, United
Kingdom.
MacKay, D. J. C. (2003). Information Theory, Inference and Learning Algorithms. Cam-
bridge University Press.
Manning, C. D., Raghavan, P., e Schutze, H. (2008). Introduction to Information Retrie-
val. Cambridge University Press.
Manning, C. D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., e McClosky, D. (2014).
The Stanford CoreNLP natural language processing toolkit. In Association for Compu-
tational Linguistics (ACL) System Demonstrations, pages 55–60.
Morris, C. e Hirst, G. (2012). Identifying sexual predators by svm classification with
lexical and behavioral features. In Working notes of the 3rd Conference and Labs of the
Evaluation Forum, Evaluation Labs and Workshop, volume 12, pages 1 – 29, Rome,
Italy. The CLEF Initiative.
1340
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Parapar, J., Losada, D., e Barreiro, A. (2012). A learning-based approach for the iden-
tification of sexual predators in chat logs. In Working notes of the 3rd Conference
and Labs of the Evaluation Forum, Evaluation Labs and Workshop, volume 12, pages
1 – 12, Rome, Italy. The CLEF Initiative.
Peersman, C., Vaassen, F., Van Asch, V., e Daelemans, W. (2012). Conversation level
constraints on pedophile detection in chat rooms. In Working notes of the 3rd Confe-
rence and Labs of the Evaluation Forum, Evaluation Labs and Workshop, volume 12,
pages 1 – 13, Rome, Italy. The CLEF Initiative.
Pendar, N. (2007). Toward spotting the pedophile telling victim from predator in text
chats. In In Proceedings of the International Conference on Semantic Computing
(ICSC), volume 1, pages 235 – 241, California, USA. IEEE.
Reis, J., Miranda, M., Bastos, L., Prates, R., e Benevenuto, F. (2016). Uma análise do
impacto do anonimato em comentários de notı́cias online. In Anais do 13o. Simpósio
Brasileiro de Sistemas Colaborativos (SBSC), pages 1290–1304. SBC.
Rosso, O. A., Craig, H., e Moscato, P. (2009). Shakespeare and other english renais-
sance authors as characterized by information theory complexity quantifiers. Physica
A: Statistical Mechanics and its Applications, 388(6):916 – 926.
Silva, C., Barbosa, G., Silva, I., Silva, T., e Mourão, F. (2016). Privacidade para crianças
e adolescentes em redes sociais online sob a lente da usabilidade: Um estudo de caso
no facebook. In Anais do 13o. Simpósio Brasileiro de Sistemas Colaborativos (SBSC),
pages 1245–1259. SBC.
Villatoro-Tello, E., Juárez-González, A., Escalante, H. J., Montes-y Gómez, M., e Pineda,
L. V. (2012). Two-step approach for effective detection of misbehaving users in chats.
In Working notes of the 3rd Conference and Labs of the Evaluation Forum, Evaluation
Labs and Workshop, volume 12, pages 1 – 12, Rome, Italy. The CLEF Initiative.
1341
XXXVII Congresso da Sociedade Brasileira de Computação
lesandrop@pucminas.br, lfwgoes@pucminas.br
Resumo. O Twitter é uma das maiores redes sociais da atualidade. Ela é uti-
lizada por milhões de pessoas. Além de pessoas, esta rede social também é
populada por robôs, que são programas de computador que agem na rede so-
cial realizando as mesmas ações que seres humanos realizam. Neste trabalho
apresenta-se uma análise de 27 robôs no Twitter com o objetivo de investigar
características dos conteúdos publicados, atuação e atenção recebida por eles.
Três métricas são consideradas: visibilidade, atividade e popularidade. Os
robôs são analisados de forma individual e por tipo de robô, que são: informa-
tivos, inteligentes interativos e inteligentes não-interativos. Os resultados mos-
tram que os robôs diferem muito entre eles em termos do nível de atividade. Eles
também têm visibilidade e popularidade diferentes. Análises de correlação re-
velam que popularidade e visibilidade são características que estão fortemente
correlacionadas. Robôs inteligentes interativos exibem maior nível atividade.
Maior visibilidade e popularidade são obtidas por robôs informativos. Diver-
sas implicações desses resultados são apresentadas e discutidas.
1. Introdução
Nos dias atuais, redes sociais online são um importante meio de entretenimento, interação
e comunicação entre pessoas em todo o mundo. A atuação das pessoas nessas redes
1342
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
tem sido objeto de estudo em diversas perspectivas [Ellison et al. 2007, Alves et al. 2012,
Figueiredo et al. 2014]. Entre as principais redes sociais atualmente estão o Facebook,
Instagram, Flickr e o Twitter. O Twitter é uma rede social onde usuários podem publicar
fotos, vídeos e/ou mensagens curtas de no máximo 140 caracteres. Essa rede conta com
mais de 313 milhões de usuários ativos diariamente [Twitter 2017a]. Eles utilizam a rede
para compartilhar conteúdos sobre seus interesses e assuntos diversos. Devido à grande
quantidade de usuários e de conteúdos produzidos por eles, o Twitter vem sendo objeto
de diversos tipos de estudos [Cha et al. 2010, Wald et al. 2013, Bruns and Stieglitz 2013,
Araújo et al. 2013, Chae 2015].
Usuários geralmente utilizam o Twitter por meio de sua página Web
(www.twitter.com) ou por meio de aplicativos para dispositivos móveis. Entretanto, outra
forma de utilização do Twitter é por meio de sua interface de programação de aplicação
(API, do inglês Application Programming Interface), acessível por meio de Streaming,
REST e Firehose [Twitter 2017b]. A API possibilita que programadores de computado-
res construam programas que realizem todo tipo de função que um usuário comum pode
realizar na rede social, como seguir outros usuários e compartilhar conteúdos. Dessa
forma, tratam-se de programas de computador que, a partir da API, agem na rede so-
cial realizando as mesmas ações que os usuários que são seres humanos realizam. Estes
usuários automatizados são chamados de robôs [Ferrara et al. 2016]. Um estudo recente
estima que entre 9% e 15% dos usuários ativos no Twitter são robôs [Varol et al. 2017].
Os robôs geralmente são programados para tratar de conteúdos específicos e
atrair a atenção de determinado segmento de usuários da rede social. Muitos usuá-
rios seguem e até mesmo interagem com os robôs através de conversas e/ou com-
partilhando os conteúdos que eles publicam. Em alguns contextos, os usuários con-
sideram os robôs dignos de confiança, atraentes e competentes em suas comunica-
ções [Edwards et al. 2014]. Diversos estudos têm se dedicado à identificação e análise
de robôs no Twitter [Wald et al. 2013, Edwards et al. 2014, Ferrara et al. 2016]. Apesar
desse esforço, os motivos pelos quais os robôs acabam por serem seguidos e gerarem
interesse em uma quantidade de usuários do Twitter ainda não estão bem definidos.
O objetivo principal deste trabalho é investigar características dos conteúdos pu-
blicados pelos robôs e dados quantitativos de atenção e atuação dos robôs na rede so-
cial Twitter. Considerando propostas de artigos anteriores, são utilizadas três métricas
para analisar os robôs: visibilidade, atividade e popularidade [Bruns and Stieglitz 2013,
Cha et al. 2010]. Por meio dessas métricas é possível identificar, respectivamente, o
quanto que o conteúdo postado por determinado robô é distribuído e visto pelos usuá-
rios da rede social, a frequência com que o robô publica conteúdos e a quantidade de
outros usuários que gostariam de serem notificados sobre as publicações do robô. Essas
métricas já foram utilizadas para analisar o comportamento de usuários do Twitter que
são seres humanos, mas ainda não foram empregadas para analisar o comportamento de
robôs.
Estudos sobre robôs no Twitter têm focado principalmente em detectar automa-
ticamente se um usuário é um robô ou em analisar sua influência [Edwards et al. 2014,
Varol et al. 2017]. Neste estudo adota-se uma abordagem diferente. Analisa-se um con-
junto de usuários que estão claramente identificados como robôs. O foco do estudo está
em investigar a atividade, popularidade dos robôs na rede social associado à análise do
1343
XXXVII Congresso da Sociedade Brasileira de Computação
tipo de conteúdo publicado por eles. Por exemplo, alguns robôs publicam conteúdos de
interesse público, como alertas de terremotos. Outros robôs, entretanto, focam na publi-
cação de conteúdos de entretenimento, como piadas e fatos curiosos. O propósito desta
análise por tipo é identificar se algum comportamento e/ou conteúdo faz um robô prefe-
rido entre os usuários do Twitter.
O estudo conduzido utiliza uma base de dados com informações sobre 27 robôs.
Considerando as características de conteúdo publicado pelos robôs e a interação com os
usuários da rede social, os robôs são classificados em 3 diferentes tipos, são eles: infor-
mativos, inteligentes interativos e inteligentes não-interativos. Os robôs são analisados
considerando as métricas visibilidade, atividade e popularidade isoladamente e as rela-
ções entre elas. Os resultados mostram que os robôs diferem muito entre eles em termos
do nível de atividade na rede social. Há um pequeno subconjunto de robôs altamente
ativos e uma maior quantidade de robôs com pouca atividade. Os robôs também têm visi-
bilidade e popularidade bem diferentes. Análises de correlação entre as métricas revelam
que popularidade e visibilidade são características que estão fortemente correlacionadas
entre si. Robôs inteligentes e que interagem com os usuários da rede social são os que
exibem maior nível de atividade. Maior visibilidade e popularidade são obtidas por robôs
que publicam conteúdo de cunho informativo.
O restante do artigo está estruturado da seguinte maneira. A discussão termino-
lógica e dos trabalhos relacionados é apresentada na Seção 2. Em seguida, a Seção 3
apresenta detalhes da metodologia utilizada. Os resultados do trabalho são apresentados
na Seção 4. Uma discussão das implicações e limitações dos resultados é apresentada na
Seção 5. Por fim, na Seção 6 são apresentadas as conclusões e os trabalhos futuros.
2. Trabalhos Relacionados
Esta seção apresenta os trabalhos relacionados assim como os conceitos propostos e de-
finidos por eles. Primeiro, discute-se as variáveis relevantes para análise de usuários do
Twitter. Após isso, são apresentados e analisados trabalhos que tratam de robôs no Twit-
ter.
1344
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
questão. Elas podem ser diretas ou indiretas. Por exemplo, se Big_ben_clock é um usuário
da rede social e alguma mensagem possuir em seu conteúdo o termo @Big_ben_clock,
trata-se de uma menção direta ao usuário correspondente. De outra forma, quando um
usuário faz uso do recurso de republicação (retweet), disponível no Twitter, para publi-
car um conteúdo previamente publicado por outro usuário, ele está fazendo uma menção
indireta ao usuário que postou o conteúdo primeiro.
Cha et al. adicionam mais uma variável a ser analisada quando o obje-
tivo é mensurar a influência de um usuário no Twitter, trata-se da variável populari-
dade [Cha et al. 2010]. Esta variável é calculada através do número de usuários que se-
guem um determinando usuário que está sendo analisado. No Twitter, seguir um usuário é
uma maneira de se manter informado sobre os conteúdos publicados pelo usuário. Usuá-
rios com alta popularidade no Twitter costumam receber mais atenção da sua audiência
(seguidores), mas a popularidade sem outras variáveis de medição revela pouco do poder
de influência do usuário [Cha et al. 2010].
1345
XXXVII Congresso da Sociedade Brasileira de Computação
3. Metodologia
Esta seção apresenta a metodologia empregada neste trabalho. Ela é iniciada com a aná-
lise dos robôs e dos tipos de robôs considerados no estudo. Após isso, detalha-se como
os dados foram coletados do Twitter e como as métricas (atividade, visibilidade e popula-
ridade) foram calculadas.
1346
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1347
XXXVII Congresso da Sociedade Brasileira de Computação
4. Resultados
Nesta seção são discutidos os resultados da visibilidade, atividade e popularidade dos
robôs estudados. Primeiramente são analisados os resultados para cada robô individual-
mente. Após isso, faz-se a análise dos robôs categorizados em diferentes tipos de robôs.
1348
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
12000
Visibilidade
Visibilidade
8000
4000
Média = 1556.85
Mediana = 262
0
t
lock
ord
bot
tz
r_
pic
nes
esLA
t
s
ot
ns
rator
eBot
ot1
or ter
dits
Bot
l575
esSF
r
tron
te
ts
k
net
lorbo
ilt_bo
seoc
tater
letejo
Twee
Char
umB
minu
mma
erica
vr_e
piece
factb
Mag
veryw
oSay
resse
eadli
ame
en_c
enta
quak
gene
pixels
quak
quak
rever
co
olivia
a_qu
Muse
comp
Auto
phor
elow
_gra
dsco
usAm
phor
every
JustT
pent
TwoH
think
accid
big_b
cong
fucke
ear th
moth
ear th
ear th
meta
JstB
auto
Meta
cens
Figura 1. Valores da métrica visibilidade obtidos para cada um dos robôs anali-
sados. As barras estão ordenadas do robô com maior visibilidade para o robô
com menor visibilidade.
No que se refere à métrica atividade (Figura 2), três robôs se destacam por exibi-
rem valores de atividade bastante superiores aos valores exibidos pelos demais, são eles:
pixelsorter, _grammar_ e metaphorminute. Pela Figura 2, pode-se observar também um
conjunto de robôs com valores de atividade próximos à média. Por fim, tem-se um con-
junto de robôs com atividade bem inferior à mediana. De todos os robôs, o que apresenta
menor valor de atividade é o robô earthquakesSF, foram 12 postagens durante o período
da coleta. Esse é um resultado esperado dado que as postagens realizadas por esse robô es-
tão vinculadas à ocorrência de terremotos, que é um fenômeno da natureza relativamente
raro.
A Figura 3, por sua vez, mostra a popularidade dos robôs, que é medida pelo
número de seguidores que cada robô possui. Neste figura, também se observa grande
diferença entre os robôs. O robô Big_ben_clock é bem mais popular que os demais. Ele
apresenta um valor de popularidade que é superior ao dobro da popularidade exibida pelo
robô EarthquakesLA, que está em segundo lugar no ranque. O robô de menor populari-
dade é o MetaphorMagnet, exibindo apenas 674 seguidores no momento em que a coleta
foi realizada.
1349
XXXVII Congresso da Sociedade Brasileira de Computação
Atividade
1000
Atividade
500
Média = 265.3
Mediana = 110
eBot
tron
dits
ts
esSF
or ter
r_
te
ord
bot
t
s
ns
Bot
bot
lock
nes
net
pic
k
rator
esLA
tz
ot1
r
l575
ot
ilt_bo
seoc
tater
letejo
Twee
Char
umB
minu
mma
erica
vr_e
piece
color
Mag
factb
veryw
oSay
resse
eadli
ame
en_c
enta
quak
gene
pixels
quak
quak
rever
olivia
a_qu
Muse
comp
Auto
phor
elow
_gra
dsco
usAm
phor
every
JustT
pent
TwoH
think
accid
big_b
cong
fucke
ear th
moth
ear th
ear th
meta
JstB
Meta
auto
cens
Figura 2. Valores da métrica atividade obtidos para cada um dos robôs analisa-
dos. As barras estão ordenadas do robô com maior atividade para o robô com
menor atividade.
1350
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
500000
400000 Popularidade
Popularidade
300000
200000
100000
Média = 48235.59
Mediana = 7846
0
or ter
ot1
l575
t
r
ts
Bot
k
e
net
eBot
r_
lock
dits
bot
tron
ns
pic
nes
rator
ot
s
esLA
esSF
bot
rd
tz
ilt_bo
seoc
tater
letejo
t
Twee
Char
umB
minu
o
mma
erica
vr_e
factb
Mag
color
piece
veryw
oSay
resse
eadli
ame
en_c
enta
quak
gene
pixels
quak
quak
rever
olivia
a_qu
Muse
comp
Auto
phor
elow
_gra
dsco
usAm
phor
every
JustT
pent
TwoH
think
accid
big_b
cong
fucke
ear th
moth
ear th
ear th
meta
JstB
auto
Meta
cens
Figura 3. Valores da métrica popularidade obtidos para cada um dos robôs anali-
sados. As barras estão ordenadas do robô com maior popularidade para o robô
com menor popularidade.
1351
XXXVII Congresso da Sociedade Brasileira de Computação
●
10000 everycolorbot ●
big_ben_clock
●
● fuckeveryword
thinkpiecebot
●
JstBelowTweetz
●
●
dscovr_epic _grammar_
Visibilidade
● ●
TwoHeadlines earthquakesLA
● ●
a_quilt_bot oliviataters
● ●
MuseumBot
censusAmericans
●
mothgenerator
● ●
factbot1●
pixelsorter earthquakeBot
●
●
JustToSayBot congressedits
100
●
accidental575 ●
●
reverseocr earthquakesSF
●
pentametron
●
metaphorminute ●
AutoCharts
● ●
autocompletejok
MetaphorMagnet
●
TweetMe4Moji
1000 10000 100000
Popularidade
teúdo do que os robôs informativos. Essa tendência de publicar mais conteúdo é ainda
maior quando se considera os robôs do tipo Inteligente Interativo. Esses robôs tentam
interagir com os usuários e buscam fazer isso de forma inteligente – com a publicação
de conteúdos criativos. Isso faz com a quantidade de conteúdos publicados por eles seja
maior, quando maior for a interação com outros usuários.
1352
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
600
200
400
Visibilidade
Atividade
200 100
0 0
Informativo Inteligente interativo Inteligente não−interativo Informativo Inteligente interativo Inteligente não−interativo
Tipo de robô Tipo de robô
30000
Popularidade
20000
10000
0
Informativo Inteligente interativo Inteligente não−interativo
Tipo de robô
(c) Popularidade
1353
XXXVII Congresso da Sociedade Brasileira de Computação
jeto do comportamento dos robôs em termos, por exemplo, do conteúdo que será publi-
cado por eles e da forma como agirão na rede social. O projeto pode ser orientado ao
objetivo de prover novas formas de engajamento com os usuários da rede social. Por
exemplo, não foram identificados robôs interativos que tenham foco em conteúdo infor-
mativo. Em um projeto de um robô capaz de interagir com usuários sobre um conteúdo
do noticiário, a interação deveria ser fundada em noções de valor e novidade das informa-
ções. Robôs assim permitiriam um tipo diferente de engajamento com os usuários da rede
social, podendo, potencialmente, conciliar resultados de robôs informativos (alta visibili-
dade e popularidade) com resultados de robôs inteligentes interativos (alta atividade).
Naturalmente, os resultados obtidos neste trabalho não refletem em detalhes o
aspecto dinâmico dos robôs e nem a perspectiva dos seguidores dos robôs. É importante
explorar mais a fundo aspectos específicos da relação entre os dois, usuários e robôs.
Por exemplo, qual a dinâmica de usuários seguindo e deixando de seguir determinados
robôs? Que relação isso pode ter com o tipo de conteúdo e com a interatividade do robô?
Outro aspecto é a percepção mais qualitativa dos usuários acerca dos robôs. Visibilidade e
popularidade são métricas importantes, mas informações qualitativas são necessárias para
entendê-las mais a fundo. Por exemplo, quais características os usuários da rede social
percebem como positiva e como negativa nos robôs que eles seguem? Qual o objetivo da
interação que eles estabelecem com os robôs? Somadas aos resultados apresentados neste
estudo, as respostas a essas perguntas podem revelar novas estratégias de projeto de robôs
inteligentes que sejam capazes de alcançar maior visibilidade e popularidade.
1354
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
bliquem conteúdos que, além de novos, também tenham grande valor para os usuários;
iii) investigar robôs que apresentem comportamentos híbridos, variando o formato de in-
teração e tipo de conteúdo. Esses estudos propostos podem revelar conhecimento novo
acerca dos fatores determinantes de visibilidade, atividade e popularidade de robôs em
redes sociais.
Referências
Alves, L., Maciel, M., Ponciano, L., and Brito, A. (2012). Assessing the impact of the
social network on marking photos as favorites in Flickr. In Proceedings of the 18th
Brazilian Symposium on Multimedia and the Web, pages 79–82, New York, NY, USA.
ACM.
Araújo, M., Gonçalves, P., Benevenuto, F., and Cha, M. (2013). Métodos para análise de
sentimentos no twitter. In Proceedings of the 19th Brazilian symposium on Multimedia
and the Web (WebMedia’13).
Boden, M. A. (2009). Computer models of creativity. AI Magazine, 30(3):23.
Boshmaf, Y., Muslukhov, I., Beznosov, K., and Ripeanu, M. (2011). The socialbot
network: when bots socialize for fame and money. In Proceedings of the 27th an-
nual computer security applications conference, pages 93–102. ACM.
Bruns, A. and Stieglitz, S. (2013). Towards more systematic Twitter analysis: Metrics for
tweeting activities. International Journal of Social Research Methodology, 16(2):91–
108.
Cha, M., Haddadi, H., Benevenuto, F., and Gummadi, P. K. (2010). Measuring user
influence in Twitter: The million follower fallacy. ICWSM, 10(10-17):30.
Chae, B. K. (2015). Insights from hashtag# supplychain and twitter analytics: Consi-
dering twitter and twitter data for supply chain practice and research. International
Journal of Production Economics, 165:247–259.
Colton, S. (2008). Creativity versus the perception of creativity in computational systems.
In AAAI Spring Symposium: Creative Intelligent Systems, pages 14–20.
Edwards, C., Edwards, A., Spence, P. R., and Shelton, A. K. (2014). Is that a bot running
the social media feed? testing the differences in perceptions of communication quality
for a human agent and a bot agent on twitter. Computers in Human Behavior, 33:372
– 376.
Ellison, N. B. et al. (2007). Social network sites: Definition, history, and scholarship.
Journal of Computer-Mediated Communication, 13(1):210–230.
Ferrara, E. (2016). How twitter bots played a role in electing donald trump.
http://www.wired.co.uk/article/twitter-bots-democracy-usa-election (Acesso: 28 de fe-
vereiro de 2017).
Ferrara, E., Varol, O., Davis, C., Menczer, F., and Flammini, A. (2016). The rise of social
bots. Commun. ACM, 59(7):96–104.
Figueiredo, F., Almeida, J. M., Benevenuto, F., and Gummadi, K. P. (2014). Does content
determine information popularity in social media?: A case study of youtube videos’
content and their popularity. CHI ’14, pages 979–982, New York, NY, USA. ACM.
1355
XXXVII Congresso da Sociedade Brasileira de Computação
1356
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1. Introdução
A área de e-Science tem como objetivo auxiliar cientistas na realização de experimentos
científicos frequentemente conduzidos por equipes geograficamente distribuídas. Essas
equipes podem reutilizar serviços web, ou outros tipos de serviços, quando trabalham
em domínios de aplicação similares. O suporte à colaboração é necessário, por permitir
a coordenação de atividades na execução de tarefas que compõem a experimentação.
Além disso, oportunidades de colaboração podem ser úteis por permitir que cientistas
interajam com potenciais parceiros em suas pesquisas. Neste contexto, elementos que
criam oportunidades de colaboração na área científica podem ser úteis também para o
apoio à decisão. Consideremos, por exemplo, um contexto no qual cientistas de
diferentes institutos de pesquisa estão geograficamente distribuídos. Se estes cientistas
possuírem uma relação de coautoria ou trabalharem em áreas similares, uma
oportunidade de colaboração pode surgir. Isto permite a eles reutilizarem os mesmos
serviços científicos, ou serviços semelhantes.
1357
XXXVII Congresso da Sociedade Brasileira de Computação
1358
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Trabalhos Relacionados
O crescimento das redes sociais deve-se à evolução da Web. Em muitos problemas de
redes sociais científicas, apenas a coautoria é analisada (Evans et al., 2011), porém,
redes sociais podem ter outros tipos de relacionamentos. Utilizar visualização em redes
sociais permite uma análise mais eficaz das informações extraídas. Isto porque a
visualização fornece um modo natural para expressar a conectividade entre os
elementos.
Manikas (2016) apresenta uma pesquisa através da qual identifica propostas
relacionadas a redes sociais e colaborativas, no contexto de ECOS (Santos et al., 2012)
(Sadi e Yu, 2014). Santos et al. (2012) apresentam uma rede sociotécnica, envolvendo
as dimensões técnica e social de um ECOS. A dimensão social permite analisar como os
stakeholders contribuem ao ECOS, através da colaboração entre eles, enquanto a
dimensão técnica está focada na plataforma (Campbell e Ahmed, 2010). A evolução do
processo de desenvolvimento de software é abordada por Sadi e Yu (2014). Na solução
proposta pelos autores, as redes de atores são utilizadas para modelar o contexto
sociotécnico de desenvolvimento. Como resultado, permite analisar todas as forças
envolvidas no desenvolvimento de software, considerando aspectos técnicos e sociais.
Entretanto, esses trabalhos não analisam as especificidades de uma rede científica,
focando principalmente em aspectos de desenvolvimento de uma plataforma de ECOS.
Além disso, não exploram a forma pela qual cientistas podem participar do processo de
desenvolvimento de serviços. Especificamente, estamos interessados em apoiar o
processo de composição de serviços. Esse processo deve ser capaz de ajudar equipes de
cientistas a reutilizar os serviços para a composição de novos serviços. No contexto de
um ECOS, a composição de serviços obtida de diferentes fontes é fundamental, tendo
em vista a complexidade e a diversidade dos requisitos que necessitam ser atendidos.
Desta forma, as equipes distribuídas geograficamente, identificadas pelo algoritmo de
agrupamento, podem colaborar entre si na avaliação das composições realizadas.
A utilização de redes sociais em ECOS é abordada por Santos et al., (2014),
porém, questões relacionadas à colaboração entre os pesquisadores identificados,
visando apoiar a composição de serviços em uma plataforma de ECOS não são tratadas.
A solução proposta no presente trabalho permite realizar o agrupamento de
comunidades científicas, criando diferentes níveis de abstração. A partir dos grupos
identificados, é possível descobrir aqueles com interesses comuns que possam avaliar e
tomar decisões em relação à composição de serviços.
Uma tendência crescente na utilização de serviços distribuídos na web, que
podem ser compostos, é analisada por Autili et al. (2016). Neste trabalho, é destacada
uma tendência da internet a possuir uma rede de serviços com baixo acoplamento e
1359
XXXVII Congresso da Sociedade Brasileira de Computação
3. Plataforma E-SECO
A plataforma E-SECO foi desenvolvida seguindo a abordagem de um ECOSC (Freitas
et al., 2015). Nela, é possível conduzir e gerenciar experimentos científicos, que são
frequentemente atividades colaborativas. Como ilustrado na Figura 1, o “Ambiente de
Desenvolvimento do E-SECO” é um componente web no qual o código da plataforma é
disponibilizado como open source1. O ecossistema é composto de artefatos fornecidos
por diferentes nós situados em diferentes instituições. A plataforma utiliza uma rede
ponto-a-ponto (P2P) (Freitas et al., 2015) através da qual diferentes nós se comunicam.
Esta rede fornece uma Camada Cliente que permite a busca por pontos, busca por
artefatos e download de artefatos. Os artefatos incluem serviços, workflows,
documentos de revisões sistemáticas da literatura, conjuntos de dados, modelos, entre
outros. As APIs permitem auxiliar o desenvolvimento de workflows científicos em
diferentes passos, em um ambiente de desenvolvimento open source. Através das APIs,
os usuários consomem recursos para criar produtos e artefatos que adicionam valor à
plataforma. A partir destas características, a comunidade de desenvolvedores pode
estender, adaptar e utilizar as funcionalidades da plataforma com outras aplicações em
diferentes domínios.
Além disso, a plataforma E-SECO oferece um ambiente colaborativo para apoiar
o desenvolvimento e a execução de workflows científicos. Apoia a análise de
proveniência de dados durante a execução de workflows através do “Módulo de Dados
de Proveniência”, ilustrado na Figura 1 (Sirqueira et al., 2016). Cheney et al. (2012)
classificam proveniência de dados como a informação sobre a origem, contexto,
derivação, propriedade ou histórico de algum artefato. Convém ressaltar que, embora o
serviço SCView utilize o módulo de proveniência, não é objetivo deste trabalho abordar
sobre este módulo. A plataforma permite também conectar serviços de diferentes fontes.
1
https://github.com/pgcc/plscience-ecos
1360
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Esses serviços devem ser capazes de interoperar em alto nível de abstração, a fim de
alcançar uma colaboração significativa para apoiar o desenvolvimento de workflows
científicos.
2
http://www.myexperiment.org/home
3
https://www.biocatalogue.org/
1361
XXXVII Congresso da Sociedade Brasileira de Computação
1362
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
saídas do serviço atual. O desenvolvedor pode então selecionar um serviço e gerar uma
nova composição. O serviço composto é então anotado semanticamente e registrado.
Neste ponto, a solução considera não apenas as métricas de dependência funcional, mas
a capacidade de interoperar com outros serviços (locais e geograficamente distribuídos).
Além disso, é possível realizar uma nova busca adicionando parâmetros relacionados à
interface de serviço e novas informações contextuais, para obter serviços
pragmaticamente interoperáveis. Finalmente, o serviço composto pode ser validado
pelos cientistas identificados e, geograficamente distribuídos, representados na
visualização da rede social.
O módulo de visualização da plataforma E-SECO, denominado “Multi-Layer
Visualization”, suporta a extração e análise das relações estabelecidas nas redes sociais
científicas. Ele implementa todos os aspectos relacionados à Rede Social Científica
Multi-Relacional. Este módulo está relacionado ao ambiente de desenvolvimento de
software científico, bem como “E-SECO Execution Environment”. Além disso, o
módulo de visualização recebe dados da execução de workflows científicos, bem como
das plataformas externas, como Kepler, Tavern, VisTrails e outras bases de dados
científicas (DBLP, plataforma Lattes, ResearchGate, entre outros). O serviço SCView
interage com o módulo de visualização utilizando o módulo de interoperabilidade. Isto
permite analisar visualmente serviços que são interoperáveis.
Visando apresentar como as redes complexas são utilizadas na plataforma, a
próxima seção apresenta as estratégias utilizadas para gerar as redes complexas,
permitindo identificar grupos de pesquisa que colaboram entre si. Assim, é possível
observar como as bases de dados científicas apoiam a plataforma, permitindo agrupar
pesquisadores de acordo com relações de colaboração.
1363
XXXVII Congresso da Sociedade Brasileira de Computação
1364
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1365
XXXVII Congresso da Sociedade Brasileira de Computação
1366
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
6. SCView em ação
Para analisar as composições de serviço que podem ser realizadas, um cenário de uso
para SCView é apresentado no contexto da plataforma E-SECO. Através deste cenário
estamos interessados em analisar como a utilização de redes sociais permite identificar
potenciais grupos que podem colaborar entre si. Esta atividade está relacionada ao
suporte à composição de serviços no contexto de um ecossistema de software científico.
O objetivo deste cenário é caracterizar a reutilização de serviços obtidos de diferentes
repositórios. A reutilização está relacionada á capacidade de composição, na perspectiva
dos desenvolvedores, no contexto de um ECOSC. Para isso, esses desenvolvedores
utilizam o serviço de visualização para analisarem as dependências (funcionais e
interoperabilidade) entre os serviços.
Cenário: inicialmente, a partir dos requisitos especificados, o desenvolvedor acessou a
interface da plataforma E-SECO para fazer uma solicitação e localizar os serviços
registrados. Consideramos a situação na qual o desenvolvedor não informa parâmetros
de entrada e saída na requisição, mas o termo “Protein Database” como uma descrição
de serviço e “Public” como o tipo de licença para o serviço. Ao executar a pesquisa, o
sistema classifica os serviços disponíveis no repositório por relevância. O serviço de
suporte à interoperabilidade permite realizar esta classificação considerando aspectos
sintáticos, semânticos e pragmáticos. O serviço “schema” foi então selecionado. O
desenvolvedor seleciona este serviço através do botão “Dependencies” (Figura 5-A).
Assim, um grafo é gerado conforme ilustrado na Figura 5. Este grafo apresenta serviços
que interoperam com o serviço selecionado e as dependências relacionadas aos serviços
(Figura 5-B). Neste exemplo, os cientistas interessados são aqueles que pertencem ao
grupo UFRJ. Eles irão participar da validação da composição. Caso seja necessário
analisar a rede social entre pesquisadores de instituições que colaboram com o grupo
1367
XXXVII Congresso da Sociedade Brasileira de Computação
1368
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
7. Conclusão
Ao apoiarmos a interação entre especialistas de diferentes áreas estamos também
oferecendo suporte aos aspectos técnicos de uma atividade de composição. O
1369
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Arakaki, M.; Martins, G.; David, J. M.; Braga, R.; Campos, F. and Neiva, F. “Um
Processo para o Desenvolvimento de Serviços de Colaboração em um Ecossistema
de Software Científico”. 13º Simpósio Brasileiro de Sistemas Colaborativos. 1522–
1535. 2016.
Autili, M., Tivoli, M. and Goldman, A. “Thematic series on service composition for the
future internet”. Journal of Internet Services and Applications 7, no. 1. 1-4. 2016.
Campbell, P. R. and Ahmed, F. “A three-dimensional view of software ecosystems”.
In Proceedings of the Fourth European Conference on Software Architecture:
Companion Volume. ACM. 81-84. 2010.
Chen F.; Lu C.; Wu H.; and Li M. “A semantic similarity measure integrating multiple
conceptual relationships for web service discovery”. Expert Systems with
Applications. 19-31. 2017.
1370
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1371
XXXVII Congresso da Sociedade Brasileira de Computação
1
Postgraduate Program in Computer Science
Department of Computer Science
Federal University of Juiz de Fora (UFJF)
Juiz de Fora, MG – Brazil
{lenita.martins, marco.araujo, victor.stroele}@ice.ufjf.br,
{jose.david,regina.braga,fernanda.campos}@ufjf.edu.br
1. Introduction
In scientific experimentation domain, a strong computational tendency has arisen the pos-
sibility of sophisticated simulations of complex phenomena. The collection and analysis
of a large amount of data is now possible using computational resources. This possibility
has enabled new ways of doing science. Science is progressively evolving into e-Science
– which unifies theory, experiments and simulation, while dealing with a huge amount of
information [Hey et al., 2009].
Scientific experiments can now be simulated by supercomputers, through com-
putational tools like Scientific Workflow Management Systems (SWMSs) (for example:
Kepler1 , Taverna2 and VisTrails3 that model and execute series of operations through sci-
entific workflows. These tools involve steps of data analysis from various sources and
large-scale computing, and require collaboration between geographically distributed sci-
entists [Deelman et al., 2009]. In addition, the experiments undergo changes and evolve
over time. As new results emerge, research follows new paths. As a result, planning,
modification or adaptation of the form of execution are required, or even new external
resources, such as a web service or pre / post processing sub-workflows, are needed
[Sirqueira et al., 2016].
1
https://kepler-project.org
2
http://www.taverna.org.uk
3
https://www.vistrails.org
1372
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Other important aspects are related to the social and organizational dimensions
that affect the conduction of the experiments. Often, knowledge about how the experi-
ments are performed is tacit and remains with the involved researchers. Storing and re-
trieving this knowledge may be critical to the activities of an experiment succeed. To that
end, supporting collaborative aspects, especially of larger experiments, may contribute to
the verification, reproducibility and reuse of scientific experiments [Mayer et al., 2014].
Considering the previous challenges, information about the context and prove-
nance of scientific experiments plays a key role. Provenance information describes the
origin, derivation, ownership, and history of the data [Lim et al., 2010]. Context is a
complex description of shared knowledge about physical, social, historical or other cir-
cumstances within which an action or an event occurs [Rittenbruch, 2002]. In scientific
experimentation domain, we consider provenance information as a kind of contextual
element that describes information in the past. Thus, they are fundamental so that re-
searchers can understand, reproduce, examine and audit the results previously obtained
by the experiments, as well as reuse the experiment or parts of them.
The management of provenance from scientific experiments has been widely dis-
cussed in scientific community [Simmhan et al., 2005, Davidson and Freire, 2008, Lim
et al., 2010]. ProvSearch [Costa et al., 2014] and PBase [Cuevas-Vicenttı́n et al., 2014]
approaches, for example, allow the management of provenance information in scientific
experiments. However, in each of these approaches, source information may be only
available at a specific level of abstraction, which may or may not be appropriate for the
type of analysis required [Missier, 2016].
On the other hand, the use of contextual information in scientific experimentation
is still a incipient topic. Brézillon [2011] presents a contextual approach to support re-
searchers to find the correct scientific workflows in the repository. Mayer et al. [2014]
present a model based on ontologies to describe the scientific experiments facilitating
their reuse and reproducibility. While recognizing the importance of addressing contex-
tual information in e-Science domain, these researches do not provide generic guidelines
capable of supporting provenance and context management in a collaborative and dis-
tributed experimentation environment, such as scientific software ecosystem platforms.
When we consider these platforms a set of variables need to be related and analyzed.
Manikas [2016] define a software ecosystem as the software and actor interaction in re-
lation to a common technological infrastructure, that results in a set of contributions and
influences directly or indirectly the ecosystem. The activity of each actor is motivated by
value creation both towards the actor and the ecosystem.
In addition, Brézillon [2011] and Mayer et al. [2014] handle context and source
information in isolation. They do not associate the source information with those obtained
through the contextual elements that support the collaborative activities. In our research, a
software ecosystem can be considered as a set of actors who collaborate and interact with
a common market by focusing on software and services, along with the relationships be-
tween these actors. These relationships are often underpinned by a common technological
platform which operates through the exchange of information, resources and artifacts.
This article aims to propose a conceptual framework to support the analysis of
contextual information and provenance of scientific experiments, assisting in verification,
1373
XXXVII Congresso da Sociedade Brasileira de Computação
2. Background
Scientific experiment is characterized by a series of interrelated analysis operations, which
are modeled and executed through scientific workflows [Goble et al., 2010]. A scientific
workflow is a model, or template, composed of services, scripts or other workflows. It
represents a sequence of scientific activities implemented by tools to reach a certain goal
[Deelman et al., 2009]. Aiming to support researchers during the modeling and execu-
tion of scientific workflows, Scientific Workflow Management Systems (SWMSs) have
emerged. SWMSs explicitly model the dependency between processes within an experi-
ment and coordinate the behavior of processes at run-time [Belloum et al., 2011].
Considering the current scenario of scientific experimentation and the increasing
use of large-scale applications, the management of experimental data is becoming in-
creasingly complex. Metadata describing the data products used and generated by such
applications are essential to disambiguate the data and enable its reuse and reproducibility.
Context is a broad concept and applicable in many areas, so it has many defini-
tions relative to the area of knowledge to which it belongs [Bazire and Brézillon, 2005]. .
Aimed to fully understand many activities or events which are accomplished, it is neces-
sary to have access to relevant contextual information. Another definition for this concept
in context sensitive applications domain is that context is any information that character-
izes a situation related to the interaction between humans, applications and the surround-
ing environment Dey et al. [2001].
Context in a work process has a dynamic nature, where new events arise and new
decisions are made. Thus, an organization that does not associate context information
to the activities it performs and artifacts it generates has in its organizational memory an
huge set of documents with little or no connection between them. Since this memory has
no associated context, it is often ignored as an information resource [Nunes et al., 2007].
1374
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
4
https://www.w3.org/TR/prov-overview/
5
OWL is a language for defining and instantiating ontologies
6
Updated in 2016: http://jenkins-1.dataone.org/jenkins/view/Documentation%
20Projects/job/ProvONE-Documentation-trunk/ws/provenance/ProvONE/v1/
provone.html
1375
XXXVII Congresso da Sociedade Brasileira de Computação
this framework, so this model alone is not able to model all phases of provenance in a
software ecosystem platform.
3. Related Work
ProvSearch [Costa et al., 2014] proposes a provenance management architecture for ex-
periments in distributed environments. It combines distributed workflow management
techniques with distributed provenance data management. It also allows provenance data
to be captured, stored and queried at run-time. In this architecture, data is fragmented into
multiple repositories of provenance in the cloud and can be accessed by different SWMSs.
The provenance data is treated using a standard model called PROV-Wf, an extension of
the PROV model for the domain of scientific workflows. However, this approach does not
have a solution for data visualization, and is not capable of extracting implicit provenance
information.
The PBase [Cuevas-Vicenttı́n et al., 2014] is a scientific workflow provenance
repository that enable scientists to use provenance for the discovery of experiments,
programs, and data of interest. This approach supports declarative graph queries and
keyword-based graph searching, complemented with ranking capabilities taking into con-
sideration authority and quality of service criteria. It uses the ProvONE model, treat-
ing provenance information in a standardized and interoperable way. In addition, this
approach has query and visualization capabilities making exploration of this repository
easier. Despite using ProvONE, PBase does not use the ontology of this model to make
inferences. In this way, this approach does not provide the extraction of implicit informa-
tion in the captured data.
Brézillon [2011] presents an approach to support researchers in the reuse of sci-
entific workflows. The context is explained through Contextual Charts (CxGs), which are
formalisms to represent uniformly all the components of a collaborative process of scien-
tific workflow design. According to the author, scientific workflow repositories contain
workflows successfully applied in specific contexts. Thus, no workflow can be reused di-
rectly, because a new experiment involves a new context. This approach helps researchers
to find a workflow through a long process of contextualization (identifying the published
workflow that has a context close to the desired one). In addition, it supports the decon-
textualization, which extracts the part of the workflow that can be reused in a relatively
generic way, and the recontextualization, which develops workflow instances adapted to
new contexts.
TIMBUS [Mayer et al., 2014] is a context model for the description of scientific
experiments. It focuses specifically on the technical infrastructure used as the basis for the
experiment. This model was based on the digital preservation of processes, whose objec-
tive is to allow the redistribution (re-staging) of a process when the technical environment
has changed. Its main objective is the preservation of the processes, the architectural prin-
ciples and the core ontologies and the extension of the experiment, thus allowing the reuse
and reproducibility of the experiments.
As aforementioned, there are already some approaches that deal with provenance
or context management in scientific experiments. However, these approaches deal with
contextual or provenance information in isolation, not contemplating both concepts in a
process of experimentation. In addition, these solutions address specific problems, and
1376
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
thus do not provide generic guidelines capable of supporting development activities for
the scientific experimentation process on a software ecosystem platform.
1377
XXXVII Congresso da Sociedade Brasileira de Computação
Capture: This step consists of procedures to collect some physical data from
the generation stage. Thus, this step is performed by the system through sensors. The
provenance framework does not separate this step from the previous one, thus, both the
information generated by the user and those captured by sensors are treated in the Cap-
ture phase.
Storage: It consists of storing information from the generation phase, according
to pre-established conditions. The model of Missier [2016] has also a phase, called Store,
for the same purpose, however, in this model the information coming from sensors are
also stored.
Awareness: This is the phase in which the data collected in the previous steps are
processed to be provided to the other participants of the group. In this process the data
is transformed, in a summarized or filtered way, aiming to facilitate its interpretation. In
the provenance model, this step corresponds to two different steps, such as: Query and
Sharing.
Visualization: At this stage, the information is arranged in the user interface, pro-
viding a physical representation of the processed knowledge. The provenance framework
also includes a stage, called Visualize, for this purpose.
Interpretation: This is a human processing step. It occurs when, the user as-
similates the information presented as knowledge, from the information displayed and its
individual context. This knowledge is important to generate new contributions, and thus
to close the processing cycle of the context. In the provenance framework, this step can be
related to the Analyze step which encompasses all forms of consumption and exploitation
of provenance data that have been captured and made available through data engineering
solutions.
Preserve association to data: Besides the previous mentioned phases, the prove-
nance model of Missier [2016] also has this phase that has no correspondence in the
context model. However, this is an important phase so that source information is not lost
from the original data to which it belongs.
1378
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
formation about the relationship between scientists and tasks, (iv) information about the
environment where Interaction occurs (v) information about tasks and activities already
completed. In synchronous environments, group members need to work simultaneously,
but in asynchronous environments, there may be a time lag between interactions. The
needs of each type of environment are different, so this framework analyzes these situa-
tions accordingly.
For each category, context aspects and the provenance of data in the field of sci-
entific experimentation that influence collaborative activities were identified. These new
elements were based on information found in scientific platforms such as Lattes7 and Re-
searchGate8 , and mainly based on the Prov-SE-O ontology [Ambrósio et al., 2017]. This
ontology is an extension of the ProvONE ontology [Cuevas-Vicenttı́n et al., 2014]. Figure
1 presents the conceptual model of the ontology, highlighting the classes which represent
the implemented extension.
Prov-SE-O ontology includes new classes, properties and rules in SWRL (Seman-
tic Web Rule Language) [Horrocks et al., 2004]. Thus, it was possible to model not only
the workflows, but also scientific experiments. Moreover, we can capture information
related to its distributed nature and to support collaboration activities between different
agents. Through this ontology, data provenance and context, relevant to the scientific
experimentation domain are presented in a standardized way and, at the same time, are
capable of being interoperable according to the service to support interoperability avail-
7
http://lattes.cnpq.br/
8
https://www.researchgate.net/
1379
XXXVII Congresso da Sociedade Brasileira de Computação
able on the platform. In addition, inference of implicit new knowledge can be performed.
Table 1 presents the five context categories modeled by the Context-SE framework
and its goals, as well as the associated contextual elements that may influence the group’s
scientific experimentation activities. The highlighted elements represent the points where
the framework was extended.
The first category refers to information about group members. This is information
about researchers and research groups to which they belong. The second category con-
cerns information about scheduled tasks. In scientific experimentation domain it is related
to the planning of the experiment and is characterized by the tasks to be performed by the
group until the conclusion of the experiment.
The third category concerns the relationship between group members and sched-
uled tasks. It relates each researcher or research group to the interactions in which they
are involved. This category is divided into two types of contexts: interaction context (in-
formation representing the actions that occurred during the execution of the experiment)
and the planning context (information about the project execution plan).
The fourth category brings together information about the environment. It cov-
ers both organizational issues and the technological environment, that is, all information
outside the experiment, but within the organization that can affect the way the tasks are
performed. Finally, the fifth category gathers all the information about the completed
tasks. Its purpose is to provide basic information about the lessons learned, whether from
the same group or from similar tasks carried out by other groups. It should therefore
include all contextual and provenance information about previous experiments.
5. Context-SE in Action
Aimed at verifying the applicability of this framework, specifically in the domain of sci-
entific software ecosystems platforms, we decided to analyze the E-SECO platform con-
sidering the presented conceptual framework.
1380
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Associated
Information Type Goals Examples of contextual elements
Contexts
Name Institution
Qualifications Position (profession)
To identify the participants Interests E-mail
Individual
through the representation Degree Awards
(Synchronous &
of their personal data and Previous Experience Skills
Asynchronous)
profiles. Location Languages
Working hours Publications
Group Members Web page Research field
Name Organization Structure
Members Working hours
Group To identify the group
Roles Institution
(Synchronous & through the representation
Abilities Web page
Asynchronous) of its characteristics.
Previous Experience E-mail
Geographical Location Partners
Name o Description
Description o Tasks
Goals Similar workflows
Deadlines History
Experiment To identify the experiments Estimated effort o Evolution To
Scheduled Tasks or
(Synchronous & through the representation Tasks o Evolution Of
Experiment Plan
Asynchronous) of its characteristics. Restrictions Problem Investigation
Workflow o Literature Review
o Title o Related Experiments
o Version Group in-charge
o SWMS Similar experiments
Group in-charge o Goal
Messages exchanged o Report
To represent in detail the
Interaction Presence Awareness o Name
tasks performed during the
(Synchronous) Gesture awareness Input
experiment completing.
Tasks completed Output
o Author Used services
Relationship
Group in-charge o Author
between people
Artifacts generated o Goal
and tasks or To represent an overview of
Interaction o Versions o Report
Experiment the tasks performed during
(Asynchronous) o Timestamp Input
Execution the experiment completing.
o Name Output
Tasks completed Used services
Roles in the interaction Strategies
Planning To represent the Execution
Rules Coordination Procedures
(Synchronous & Plan of the task to be
Aim Working Plan
Asynchronous) performed.
Responsibilities o Task Name
Quality patterns Financial constraints
To represent the
Rules Standard procedures
Environment Environment where the
Policies Standard strategies
Setting (Synchronous & interaction occurs; i.e.,
Institutional deadlines Communication Tool
Asynchronous) characteristics that influence
Organizational structure SWMS
task execution.
Cultural features Geographical Location
Tasks Contextual elements
o Task Name used to carry out the
To provide understanding o Group in-charge task
Historical
Completed Task about tasks completed in the o Goal Task Goals
(Synchronous &
and Provenance past and their associated o Justification Input
Asynchronous)
contexts. o Date Output
Versions of the artifacts Used services
Working Plan SubTasks
1381
XXXVII Congresso da Sociedade Brasileira de Computação
1382
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1383
XXXVII Congresso da Sociedade Brasileira de Computação
or sensors, are necessary to capture this contextual information automatically. They are
also necessary for the reproducibility of the experiment to succeed, or for checking the
correctness of the results obtained.
Completed Task and Provenance: E-SECO allows to store not only information
about the experiments, workflows and tasks performed, but the provenance data of the
experiments. Thus, it is possible to identify all the processes of a document, until the
end of the experiment, as well as to recognize the workflow and the experiment that gave
rise to this document, and the researchers involved. In addition, information based on the
Prov-SE-O ontology is stored, such as: the inputs and outputs, similar experiments, or
those that were derivatives. The ontology also allows inferences of implicit information
to be made on the data origin. This information is essential to ensure the comprehension
of this data by researchers as well as the experiment reuse.
Analyzing the E-SECO platform, and considering the proposed conceptual frame-
work, we realize that contextual and provenance information of this framework can be ap-
plied in collaborative and distributed platforms of scientific experimentation. Moreover,
this information is valuable in order to support the verification, reproducibility and reuse
of scientific experiments. It is important to highlight that this platform does not yet have
all the elements proposed by the framework, but it is our interest to develop all of them.
However, even considering that the proposed solution is based on existing frameworks,
and previously evaluated, it is fundamental to carry out additional evaluations. In all these
evaluations, we should evaluate the extent in which reproducibility and reuse of scientific
experiments are potentialized.
6. Final Considerations
This work presented an analysis of context and provenance frameworks with their speci-
ficities in the domain of scientific experimentation. As a result, a conceptual framework
was proposed with the aimed at supporting the analysis of context and provenance of data
in scientific experiments. This solution also aims to provide guidelines for the modeling of
this information in collaborative and distributed scientific experimentation environments.
E-SECO platform of scientific experimentation was analyzed from the perspective of the
proposed framework. Thus, we could verify the applicability of the solution in the e-
1384
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Science domain, and obtain some evidence that the modeled information supports the
verification, reproducibility and reuse of scientific experiments. The proposed framework
is a first step towards the understanding of the way in which contextual and provenance
information can be presented in platforms of scientific software ecosystems.
Regarding the limitations of this research, we can highlight that this framework
is still a prototype and some elements still need to be reviewed and improved. As future
work, it is important to conduct more complete experimental studies. From these exper-
iments we must evaluate not only the completeness of the proposed solution in a real
context of use, but the way in which this framework supported the reproducibility and
reuse of scientific experiments in software ecosystem platforms.
Acknowledgements
We would like to thank UFJF, CAPES, FAPEMIG and CNPq for their financial support
and encouragement of research.
References
Ambrósio, L. M., David, J. M. N., Braga, R., Ströele, V., Campos, F., and Araújo, M. A.
(2017). Prov-SE-O: a provenance ontology to support scientists in scientific experimen-
tation process. In Proceedings of the International Workshop on Software Engineering
for Science - International Conference on Software Engineering. ACM.
Bazire, M. and Brézillon, P. (2005). Understanding context before using it. In Interna-
tional and Interdisciplinary Conference on Modeling and Using Context, pages 29–40.
Springer.
Belloum, A., Inda, M. A., Vasunin, D., Korkhov, V., Zhao, Z., Rauwerda, H., Breit, T. M.,
Bubak, M., and Hertzberger, L. O. (2011). Collaborative e-science experiments and
scientific workflows. IEEE Internet Computing, 15(4):39–47.
Brézillon, P. (2011). Contextualization of scientific workflows. In International and
Interdisciplinary Conference on Modeling and Using Context, pages 40–53. Springer.
Brézillon, P., Borges, M. R., Pino, J. A., and Pomerol, J.-C. (2004). Context-based aware-
ness in group work. In FLAIRS Conference, pages 575–580.
Costa, F., Oliveira, D. d., and Mattoso, M. (2014). Towards an adaptive and distributed
architecture for managing workflow provenance data. In Proceedings of the 2014 IEEE
10th International Conference on e-Science, pages 79–82.
Cuevas-Vicenttı́n, V., Kianmajd, P., Ludäscher, B., Missier, P., Chirigati, F., Wei, Y.,
Koop, D., and Dey, S. (2014). The pbase scientific workflow provenance repository.
International Journal of Digital Curation, 9(2):28–38.
Davidson, S. B. and Freire, J. (2008). Provenance and scientific workflows: Challenges
and opportunities. In Proceedings of the 2008 ACM SIGMOD International Conference
on Management of Data, pages 1345–1350.
Deelman, E., Gannon, D., Shields, M., and Taylor, I. (2009). Workflows and e-science:
An overview of workflow system features and capabilities. Future Gener. Comput.
Syst., 25(5):528–540.
1385
XXXVII Congresso da Sociedade Brasileira de Computação
Dey, A. K., Abowd, G. D., and Salber, D. (2001). A conceptual framework and a toolkit
for supporting the rapid prototyping of context-aware applications. Human-computer
interaction, 16(2):97–166.
Freitas, V., David, J. M., Braga, R., and Campos, F. (2015). An architecture for scientific
software ecosystem. In 9th Workshop on Distributed Software Development, Software
Ecosystems and Systems-of-Systems (WDES 2015), pages 41–48. (in portuguese).
Goble, C. A., Bhagat, J., Aleksejevs, S., Cruickshank, D., Michaelides, D., Newman, D.,
Borkum, M., Bechhofer, S., Roos, M., Li, P., et al. (2010). myexperiment: a repository
and social network for the sharing of bioinformatics workflows. Nucleic acids research,
38(suppl 2):W677–W682.
Hey, T., Tansley, S., Tolle, K. M., et al. (2009). The fourth paradigm: data-intensive
scientific discovery, volume 1. Microsoft research Redmond, WA.
Horrocks, I., Patel-Schneider, P. F., Boley, H., Tabet, S., Grosof, B., Dean, M., et al.
(2004). Swrl: A semantic web rule language combining owl and ruleml. W3C Member
submission, 21:79.
Lim, C., Lu, S., Chebotko, A., and Fotouhi, F. (2010). Prospective and retrospective
provenance collection in scientific workflow environments. In Services Computing
(SCC), 2010 IEEE International Conference on, pages 449–456.
Manikas, K. (2016). Revisiting software ecosystems research: A longitudinal literature
study. Journal of Systems and Software, 117:84–103.
Mayer, R., Miksa, T., and Rauber, A. (2014). Ontologies for describing the context of
scientific experiment processes. In e-Science (e-Science), 2014 IEEE 10th International
Conference on, volume 1, pages 153–160. IEEE.
Missier, P. (2016). The Lifecycle of Provenance Metadata and Its Associated Challenges
and Opportunities, pages 127–137. Springer International Publishing.
Nunes, V. T., Santoro, F. M., and Borges, M. R. (2007). Um modelo para gestão de con-
hecimento baseado em contexto. XXVII Simpósio Brasileiro de Sistemas Colaborativos
(SBSC), pages 69–82.
Pereira, A. F., Braga, R., Campos, F., et al. (2016). An architecture to enhance collabora-
tion in scientific software product line. In 2016 49th Hawaii International Conference
on System Sciences (HICSS), pages 338–347. IEEE.
Rittenbruch, M. (2002). Atmosphere: a framework for contextual awareness. Interna-
tional Journal of Human-Computer Interaction, 14(2):159–180.
Rosa, M. G., Borges, M. R., and Santoro, F. M. (2003). A conceptual framework for ana-
lyzing the use of context in groupware. In International Conference on Collaboration
and Technology, pages 300–313. Springer.
Simmhan, Y. L., Plale, B., and Gannon, D. (2005). A survey of data provenance in e-
science. SIGMOD Rec., 34(3):31–36.
Sirqueira, T. F., Dalpra, H. L., Braga, R., Araújo, M. A. P., David, J. M. N., and Campos,
F. (2016). E-seco proversion: An approach for scientific workflows maintenance and
evolution. Procedia Computer Science, 100:547–556.
1386
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1. Introdução
A economia colaborativa, como foi originalmente definida por
[Botsman and Rogers 2010], é baseada no excesso de bens de uma pessoa, uma
massa crı́tica de participantes que queiram compartilhar esses bens, confiança entre des-
conhecidos, e o reconhecimento dos envolvidos no valor que este compartilhamento pode
exercer na comunidade. Este novo movimento é caracterizado pelo compartilhamento de
1387
XXXVII Congresso da Sociedade Brasileira de Computação
1
https://www.uber.com/pt-BR/
2
https://www.airbnb.com.br
1388
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
obtidos. Por fim, tecemos nossas conclusões e indicamos trabalhos futuros de interesse.
2. Trabalhos Relacionados
A confiança na economia colaborativa é um tema que vem despertando o interesse de pes-
quisadores da computação e áreas afins (e.g., negócios e marketing). Essas pesquisas têm
mostrado aspectos que podem ajudar no processo de desenvolvimento de confiança entre
participantes, tanto em relação ao sistema, quanto na relação entre os usuários. Os tra-
balhos de [Sánchez et al. 2016, Lumeau et al. 2015, Lee et al. 2015, Fradkin et al. 2015]
mostram que um dos mecanismos mais importantes para desenvolver confiança é a
construção de reputação entre os usuários. Esses mecanismos de reputação estão sendo
utilizados amplamente por plataformas peer-to-peer tradicionais, tal como o E-bay. O
maior desafio mostrado por essas pesquisas é a migração desses mecanismos de reputação
já estabelecidos em plataformas peer-to-peer para plataformas de economia colaborativa,
considerando as diferenças entre os dois tipos de mercado e seus desafios particulares.
Outro mecanismo importante de confiança é a introdução de legislações que tor-
nem os sistemas de economia colaborativa justos e aderentes às leis dos paı́ses que
estão utilizando esse novo tipo de economia [Hartl et al. 2016, Pargman et al. 2016,
Oh and Moon 2016]. A falta de legislações que regulem as plataformas têm feito com
que a sociedade, de uma forma geral, não confie nos sistemas de economia colaborativa.
Esses autores também destacam que a confiança é muito dependente da cultura de cada
paı́s, por isso, a introdução dessas plataformas em cada região é ainda mais complicada
do que um sistema de software tradicional.
Como ferramenta de medição da confiança, os trabalhos de [Bilgihan et al. 2015,
Nunes and Correia 2013] discutem a implementação e impacto de frameworks baseadas
em modelos advindos de outras áreas do conhecimento, mas com o foco na confiança
entre pessoas. Todavia, esses trabalhos não são focados na economia colaborativa em
si, pois os autores consideram que os processos de confiança são imaturos em qual-
quer transação online existente entre usuários. Em um contexto diferente, o trabalho
de [Dillahunt and Malone 2015] apresenta como a economia colaborativa pode ser intro-
duzida em comunidades carentes para gerar algum tipo de renda para desempregados. Os
autores notaram que os participantes conheciam a maioria das plataformas de economia
colaborativa disponı́veis no mercado (i.e., Uber, Airbnb, Lyft, NeighborGoods, entre ou-
tras), todavia, havia um receio dos participantes em utilizar essas plataformas justamente
pela falta de confiança na economia colaborativa.
No trabalho de [Möhlmann 2016], os autores compararam a confiança nas pla-
taformas de economia colaborativa com plataformas peer-to-peer de primeira geração
(e.g., Ebay), assim como grandes plataformas de varejo online e não peer-to-peer (e.g.,
Walmart, Amazon, Zappos). O artigo conclui que a confiança em sistemas de economia
colaborativa é ligeiramente menor do que a confiança em outras plataformas de mercado
convencionais. Os achados chamam atenção para importância da confiança na economia
colaborativa, sendo um dos principais desafios para o sucesso dos sistemas dessa natureza.
Em um tratamento especı́fico de confiança focando em uma plataforma, a pes-
quisa de [Ert et al. 2016] apresenta um estudo que discute o papel de fotos pessoais no
processo de confiança entre usuários do Airbnb. Os autores concluem que as fotos pes-
soais dos anfitriões do Airbnb são importantes para construir um sentimento de confiança
1389
XXXVII Congresso da Sociedade Brasileira de Computação
entre os usuários. As fotos dos anfitriões obtiveram ı́ndices maiores de confiança do que
as próprias revisões dos hóspedes, pois os autores também mostram que as revisões são,
geralmente, consideradas boas ou muito boas para qualquer anfitrião, dificultando o pro-
cesso de avaliação das melhores locações.
Em uma perspectiva similar, o trabalho de [Ma et al. 2017] discute como a quanti-
dade de informações que um anfitrião do Airbnb disponibiliza em seu perfil influencia no
aumento na confiança das pessoas que pretendem alugar aquele lugar. Aplicando métodos
mistos de pesquisa, os autores usam um framework conhecido como Profile as Promise
para medir o efeito das informações fornecidas nos perfis dos usuários. Eles concluem que
perfis com mais informações sobre os anfitriões são julgados mais confiáveis do que perfis
com menos informações. Uma categorização feita pelos autores até mostra quais catego-
rias de informações disponibilizadas nos perfis são melhores indicadores de confiança.
As pesquisas sobre confiança na economia colaborativa têm mostrado os aspec-
tos que podem influenciar na confiabilidade dos sistemas (e.g., reputação dos ofertantes,
introdução de legislações coerentes, frameworks capazes de medir e melhorar a confiança,
o papel das informações pessoais). Esses trabalhos trataram os aspectos relacionados à
confiança individualmente, ou seja, cada artigo foca em um aspecto de confiança distinto
e utilizando, na maioria dos casos, apenas um sistema como foco. Assim, nosso trabalho
tem por objetivo ampliar este cenário, contemplando os principais aspectos de confiança
que vêm sendo estudados por pesquisadores em sistemas de economia colaborativa.
3. Metodologia
Para investigar as questões de pesquisa relacionadas à confiança na economia colabora-
tiva, uma Revisão Sistemática da Literatura (RSL) foi conduzida nas bases de dados da
computação. A RSL, como foi definida por [Kitchenham 2004], é um meio de identifi-
car, avaliar e interpretar todos os trabalhos relacionados à uma determinada questão de
pesquisa, os tópicos de uma área do conhecimento, ou um fenômeno de interesse que
deseja-se explorar. Neste trabalho, a RSL foi utilizada para coletar e analisar os trabalhos
que apresentam pesquisas sobre economia colaborativa e seus processos de confiança.
A RSL foi realizada entre os meses de janeiro e março de 2017. Como estamos
tratando de um tema recente, não excluı́mos nenhum trabalho baseado no perı́odo de
publicação. O primeiro autor realizou a leitura completa e o registro dos dados de todos os
artigos, e sua análise foi discutida com a segunda autora. A busca foi feita nos principais
repositórios de artigos da área de computação: ACM3 , IEEE4 e ScienceDirect5 . A busca
focou em artigos no idioma inglês. A string desenvolvida foi a seguinte:
(trust OR confidence OR reliability) AND (“sharing economy” OR “collaborative
consumption” OR “collaborative economy” OR “co-production”)
Apesar da string de busca ter sido desenvolvida focando no idioma inglês, isso
não impediu que uma versão traduzida da busca tenha sido testada na lı́ngua portuguesa,
todavia, nenhum resultado foi retornado nas buscas. Era de conhecimento dos autores
que apenas algumas conferências do Brasil são indexadas por essas bases internacionais
3
http://dl.acm.org/
4
http://ieeexplore.ieee.org/Xplore/home.jsp
5
http://www.sciencedirect.com/
1390
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Outro fator importante de uma RSL são os critérios de inclusão de artigos que po-
dem ter ficado de fora da busca. Como critério de inclusão, a string de busca foi aplicada
na base do Google Scholar6 . Essa busca priorizou artigos que ainda não foram publi-
cados, e.g., a string encontrou um artigo relevante do CSCW’17, e também publicações
de conferências independentes que não são anexadas por nenhuma das três bases descri-
tas anteriormente. A busca no Google Scholar descartou os artigos que não fossem de
conferências ou teses/dissertações. Assim, três artigos daquela base foram adicionados
para análise completa, resultando assim em 25 artigos. Como critério de exclusão, artigos
curtos de painéis de conferências foram excluı́dos da RSL.
Para cada artigo lido registramos várias informações que estariam relacionadas
com a confiança na economia colaborativa. Dentre as informações registradas estão: (1)
6
https://scholar.google.com.br/
1391
XXXVII Congresso da Sociedade Brasileira de Computação
definição de confiança para os autores, (2) indicadores de confiança estudados, (3) tipos
de métodos utilizados para analisar confiança, (4) sistema usado como estudo de caso, (5)
tipos de valores troca indicados, (6) objetivos e contribuições importantes e (7) trabalhos
futuros. Outras informações menos relevantes também foram coletadas na RSL. Para
considerar a relevância do artigo, após sua leitura completa, foram definidos os seguintes
critérios de qualidade: (1) definição e tratamento da confiança no artigo; (2) qualidade
do método aplicado no contexto; e (3) contribuições e trabalhos futuros interessantes. De
acordo com esses critérios foram eliminados 4 da lista final, após sua leitura completa,
por não terem alcançado o nı́vel de relevância desejado para a pesquisa.
4. Resultados
Essa seção apresenta os resultados dessa pesquisa. Primeiramente, fazemos uma
descrição dos sistemas utilizados nas análises dos trabalhos estudados. Embora a
identificação destes sistemas não fosse um objetivo direto da nossa pesquisa, ela é útil
para termos uma visão geral dos sistemas sendo explorados. Além disso, a subseção
facilitará o entendimento de alguns pontos utilizados para explicar os resultados. Nas
três subseções que se seguem descrevemos os resultados obtidos para cada uma das sub-
questões de pesquisa descritas na introdução (QP.1, QP.2 e QP.3).
1392
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
[Dillahunt and Malone 2015]. O sistema permite que um demandante cadastre uma ta-
refa, e um ofertante realize a tarefa por um valor/hora pelo serviço. A plataforma tenta
manter a qualidade do serviço por meio de revisões e outros mecanismos de avaliação de
ofertantes e demandantes.
Os artigos também citam também plataformas criadas para que pessoas empres-
tem objetos que estão disponı́veis para utilização de outros usuários do sistema, como
o NeighborGoods9 e o Peerby10 [McLachlan et al. 2016]. Nestes sistemas, uma pessoa
pode disponibilizar uma furadeira para empréstimo de outras pessoas, por exemplo. Além
disso, o relacionamento é recı́proco entre os participantes, tendo em vista que o usuário
que emprestou o objeto tem o direito de pegar um objeto emprestado que esteja precisando
[Dillahunt and Malone 2015].
É importante ressaltar que os sistemas que lideram este novo tipo de mer-
cado, Airbnb e Uber, são diferentes do conceito original proposto pela economia
colaborativa[Pargman et al. 2016]. A definição original previa que sistemas de econo-
mia colaborativa realizariam trocas de serviços sem haver uma troca monetária por es-
ses serviços. Entretanto, pesquisadores têm julgado evidente que muitos desses sistemas
visam somente maximizar seus lucros, fazendo da troca monetária o principal insumo
dos sistemas, tornando as plataformas apenas provedores de serviços online-to-offline
[Oh and Moon 2016]. Sendo assim, os sistemas deixam de apenas incentivar o comparti-
lhamento de recursos ociosos de seus participantes, mas focam no aumento do lucro das
plataformas.
1393
XXXVII Congresso da Sociedade Brasileira de Computação
em [Ert et al. 2016, Pick 2012]. ‘Competência e Satisfação’ é especı́fico para o contexto
do Airbnb devido às caracterı́sticas daquela plataforma, enquanto que ‘Revisões e Co-
mentários’ se refere às avaliações que usuários são capazes de prover sobre o serviço de
ofertantes na economia colaborativa. Como ambos tratam de avaliação da satisfação com
o serviço ofertado, então os agrupamos sob um mesmo indicador mais geral Satisfação. A
seguir apresentamos cada um dos indicadores associado às dimensões. A Tabela 2 mostra
os artigos que fundamentaram os indicadores, permitindo a rastreabilidade da análise.
1394
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1395
XXXVII Congresso da Sociedade Brasileira de Computação
1396
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1397
XXXVII Congresso da Sociedade Brasileira de Computação
o que também teria como consequência um maior número de usuários, e logo, potenci-
ais participantes para análises qualitativas e/ou quantitativas; ou ainda, para as pesquisas
quantitativas a facilidade de coleta e análise dessas plataformas pode ser relevante.
No entanto, é importante ressaltar que embora um sistema possa ter um valor
principal sendo trocado (e.g., Airbnb o principal valor trocado é o monetário), outros va-
lores podem ser consideradas secundários. Existem situações onde os valores de troca se-
cundários são mais importantes para os usuários. Isso foi mostrado por [Jung et al. 2016]
que discute como a troca social no Airbnb era mais relevante para diversos usuários que
a monetária, mas isso não muda o tipo de troca primordial daquele sistema.
1398
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5. Conclusões
Este artigo apresentou uma análise de como aspectos relacionados à confiança têm sido
tratados em pesquisas sobre sistemas de economia compartilhada. A pesquisa foi re-
alizada através da aplicação de uma Revisão Sistemática da Literatura no contexto de
economia colaborativa. Os trabalhos existentes sobre o assunto tratavam a confiança de
uma forma especı́fica, seja em uma plataforma isolada, ou em um contexto de análise que
lida com um número limitado de aspectos de confiança. Essa pesquisa é uma contribuição
a área de sistemas de economia colaborativa, tendo em vista o estudo amplo que foi rea-
lizado na tentativa de definir a confiança e entender suas caracterı́sticas. A pesquisa nos
revelou que a questão de confiança na economia colaborativa envolve diferentes indicado-
res associados a diferentes dimensões (sistema, pessoa e serviço), conforme representado
no modelo (Figura 1). Além disso, a análise feita nos permitiu identificar e descrever tanto
as diferentes metodologias sendo utilizadas em pesquisas relacionadas à caracterização de
confiança nestes, quanto os valores sendo trocados neste modelo econômico.
O modelo proposto é a representação visual de como a confiança tem sido tratada
e expressa nos sistemas de economia colaborativa. Assim, traz uma contribuição para
a pesquisa na área ao organizar e explicitar os elementos relevantes e suas relações. O
passo seguinte nesta pesquisa envolve a avaliação deste modelo para que ele possa ser
consolidado ou mesmo revisado. Além disso, nossa análise dos métodos sendo utiliza-
dos nas pesquisas mostrou que existem diversas possibilidades metodológicas para apre-
ciar confiança na literatura, e que podem ser replicadas no modelo proposto. A própria
concepção do modelo, no sentido de ser independente de plataforma ou tipo de usuário
(i.e., demandante ou ofertante), facilita sua validação em outros contextos.
Em termos de contribuições, esse trabalho apresenta a identificação dos tipos de
1399
XXXVII Congresso da Sociedade Brasileira de Computação
6. Agradecimentos
Geanderson E. dos Santos agradece a FAPEMIG/Google pela sua bolsa de pesquisa.
Referências
Bilgihan, A., Nusair, K., Okumus, F., and Cobanoglu, C. (2015). Applying flow theory to
booking experiences. Information Management.
Botsman, R. and Rogers, R. (2010). What’s Mine is Yours: The Rise of Collaborative
Consumption. HarperBusiness, New York, NY, USA.
Dillahunt, T. R. and Malone, A. R. (2015). In Proceedings of the 33rd Annual ACM
Conference on Human Factors in Computing Systems, New York, NY, USA.
Ert, E., Fleischer, A., and Magen, N. (2016). Trust and reputation in the sharing economy:
The role of personal photos in airbnb. Tourism Management, 55:62 – 73.
Fradkin, A., Grewal, E., Holtz, D., and Pearson, M. (2015). Bias and reciprocity in online
reviews: Evidence from field experiments on airbnb. In Proceedings of the Sixteenth
ACM Conference on Economics and Computation, EC ’15, New York, NY, USA.
Hartl, B., Hofmann, E., and Kirchler, E. (2016). Do we need rules for “what’s mine is
yours”? governance in collaborative consumption communities. Journal of Business.
Ikkala, T. and Lampinen, A. (2014). Defining the price of hospitality: Networked hospi-
tality exchange via airbnb. In Proceedings of the Companion Publication of the 17th
ACM Conference on Computer Supported Cooperative Work & Social Computing,
CSCW Companion ’14, pages 173–176, New York, NY, USA. ACM.
1400
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Jung, J., Yoon, S., Kim, S., Park, S., Lee, K.-P., and Lee, U. (2016). Social or finan-
cial goals?: Comparative analysis of user behaviors in couchsurfing and airbnb. In
Proceedings of the 2016 CHI Conference Extended Abstracts on Human Factors in
Computing Systems, CHI EA ’16, pages 2857–2863, New York, NY, USA. ACM.
Kitchenham, B. (2004). Procedures for performing systematic reviews. Keele University
Technical Report TR/SE-0401.
Lampinen, A., Bellotti, V., Monroy-Hernández, A., Cheshire, C., and Samuel, A. (2015).
Studying the ”sharing economy”: Perspectives to peer-to-peer exchange. In Procee-
dings of the 18th ACM Conference Companion on Computer Supported Cooperative
Work & Social Computing, CSCW’15 Companion, New York, NY, USA.
Lampinen, A. and Cheshire, C. (2016). Hosting via airbnb: Motivations and financial as-
surances in monetized network hospitality. In Proceedings of the 2016 CHI Conference
on Human Factors in Computing Systems, New York, NY, USA.
Lee, D., Hyun, W., Ryu, J., Lee, W. J., Rhee, W., and Suh, B. (2015). An analysis
of social features associated with room sales of airbnb. In Proceedings of the 18th
ACM Conference Companion on Computer Supported Cooperative Work & Social
Computing, CSCW’15 Companion, New York, NY, USA.
Lumeau, M., Masclet, D., and Penard, T. (2015). Reputation and social (dis)approval in
feedback mechanisms: An experimental study. Journal of Economic Behavior, 112.
Ma, X., Hancock, J. T., Mingjie, K. L., and Naaman, M. (2017). Self-disclosure and
perceived trustworthiness of airbnb host profiles. In Proceedings of the 20th ACM
Conference on Computer Supported Cooperative Work and Social Computing Compa-
nion, CSCW ’17, New York, NY, USA. ACM.
McLachlan, R., Opila, C., Shah, N., Sun, E., and Naaman, M. (2016). You can’t always
get what you want: Challenges in p2p resource sharing. In Proceedings of the 2016
CHI Conference Extended Abstracts on Human Factors in Computing Systems, CHI
EA ’16, New York, NY, USA. ACM.
Möhlmann, M. (2016). Digital trust and peer-to-peer collaborative consumption plat-
forms: A mediation analysis. New York University (NYU).
Nunes, M. and Correia, J. (2013). Improving trust using online credibility sources and
social network quality in p2p marketplaces. In 2013 8th Iberian Conference on Infor-
mation Systems and Technologies (CISTI), pages 1–4.
Oh, S. and Moon, J. Y. (2016). Calling for a shared understanding of the ”sharing eco-
nomy”. In Proceedings of the 18th Annual International Conference on Electronic
Commerce: E-Commerce in Smart Connected World, New York, NY, USA. ACM.
Pargman, D., Eriksson, E., and Friday, A. (2016). Limits to the sharing economy. In
Proceedings of the Workshop on Computing Within Limits, New York, NY, USA.
Pick, F. (2012). Building trust in peer-to-peer marketplaces: An empirical analysis of
trust systems for the sharing economy. B.S. Thesis, Zeppelin University.
Sánchez, D., Martı́nez, S., and Domingo-Ferrer, J. (2016). Co-utile {P2P} ridesharing
via decentralization and reputation management. Transportation Research Part C:
Emerging Technologies.
1401
XXXVII Congresso da Sociedade Brasileira de Computação
1402
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1. Introdução
Ambientes virtuais como lojas online (e.g. Amazon, Google Play, Booking) e redes so-
ciais para avaliação1 de locais, estabelecimentos e serviços (e.g. Trip Advisor, Fours-
quare, Yelp, Vivino), permitem que usuários avaliem e compartilhem suas experiências
[Almeida et al. 2016b]. Esse compartilhamento de opiniões define de forma colaborativa
a reputação tanto dos estabelecimentos quanto dos produtos/serviços disponibilizados.
Essa realimentação dos clientes representa uma ferramenta importante para que as em-
presas possam identificar oportunidades de melhoria e crescimento. Portanto, identificar
automaticamente a polaridade (ou sentimento) de uma avaliação (e.g. uma a cinco estrela,
ou simplesmente positivo/negativo) expressa por um usuário é um problema com grande
potencial econômico e estratégico para empresas.
1
Este trabalho utiliza o termo avaliação como tradução livre dos termos em inglês: review (e.g. Amazon,
Google Play) e tip (e.g. Foursquare).
1403
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
No contexto de avaliações de dados online, Pang et al. [2002] são pioneiros no uso
de aprendizagem de máquina com técnicas supervisionadas para classificar avaliações de
filmes como positivas ou negativas. Os autores representaram cada revisão como uma
bag-of-words e alcançaram uma acurácia superior a 82,9% com o Support Vector Ma-
chine, usando unigramas e bigramas. Turney [2002] utilizou o mesmo cenário de re-
visões, empregando o PMI-Information Retrieval (PMI-IR) para determinar a orientação
semântica de uma revisão. Turney utilizou 410 revisões de diferentes domı́nios e obteve
uma acurácia de 65,8%.
2
https://pt.foursquare.com.
3
http://www.reuters.com.
1404
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
3. Abordagem Proposta
De forma sucinta, a abordagem proposta, ilustrada na figura 1, busca inferir a polaridade
de avaliações a respeito de produtos e serviços publicados em ambientes virtuais, dando
ênfase na utilização de emoticons e emojis e quantificando a riqueza linguı́stica deste
vocabulário para expressar polaridade e opinião. Para atingir esse objetivo a abordagem
proposta inclui as seguintes etapas:
1. Seleção e coleta de dados;
2. Pré-processamento dos dados;
3. Classificação.
Bag of words
Palavras + Emojis
Avaliações Palavras
Emojis
3.2. Pré-Processamento
Após a coleta dos dados, os documentos (avaliações) são tratados para eliminar atributos
não representativos das avaliações que foram coletadas. O pré-processamento proposto,
ilustrado na figura 2, inclui as seguintes fases:
• A detecção de idioma descarta textos que não estejam em inglês;
• A função Tokenizer separa os documentos em tokens (segmentos de sentenças),
permitindo processar os segmentos individualmente;
1405
XXXVII Congresso da Sociedade Brasileira de Computação
3.3. Classificação
Nessa etapa, utilizamos a representação dos dados criada pela BoW com TF-IDF e
submetemos ao algoritmo de aprendizagem de máquina. Vale ressaltar, que uma ca-
raterı́sticas importante de técnicas supervisionadas é que elas apresentam fundamental-
mente o mesmo comportamento: dado um conjunto de dados de treinamento, composto
por instâncias que são formadas por vários atributos previamente rotulados (polaridades)
nas classes de interesse [Moraes et al. 2013], o modelo aprende caracterı́sticas (base de
treino) de cada classe e poderá ser usado para classificar outras amostras (base de teste).
O classificador adotado foi o SVM (Support Vector Machine) que, em uma
avaliação prévia, apresentou maior eficácia.
4. Experimentos e Resultados
Nesta seção, é apresentada a metodologia experimental e são discutidos os resultados.
4.1. Metodologia
A base de dados foi construı́da com avaliações coletadas da Google Play (loja de apli-
cativos móveis para Android). As avaliações foram coletadas utilizando a Google API4 ,
que permite captura de páginas de avaliações a partir do identificador do aplicativo e do
4
https://github.com/facundoolano/google-play-scraper.
1406
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
idioma desejado. A Google API limita o acesso a 100 páginas de cada aplicativo por
hora. Além das avaliações de aplicativos, a base inclui também avaliações publicadas
na Amazon, disponibilizadas por Leskovec e Krevl [2014]; McAuley et al. [2015]. To-
das as avaliações possuem uma nota entre um e cinco. Na base foram incluı́das apenas
avaliações com pelo menos um emoji/emoticon, dado o objetivo deste trabalho. O total
de avaliações da Google Play é de 4.234 (35,3 %), e o número de avaliações da Amazon
é de 7.781 (64,7 %).
A base de dados utilizada nos experimentos foi organizada de duas formas, repre-
sentando dois cenários tı́picos para Análise de Sentimentos (figura 3):
• Cenário II. Esse cenário considera três possibilidades de nota para cada avaliação:
−1 (negativo), 0 (neutro) e 1 (positivo). A classe da nota −1 contém 50% de
avaliações oriundas da nota 1 e 50% da nota 2 da base original, sorteados alea-
toriamente. De forma análoga, a classe da nota 1 do cenário II contém 50% de
avaliações oriundas da nota 4 e 50% da nota 5 da base original. A classe da nota
0 inclui as instâncias da nota 3 da base original.
(a) Avaliações com cinco notas. (b) Avaliações com três notas.
1407
XXXVII Congresso da Sociedade Brasileira de Computação
Os experimentos adotam uma validação cruzada de dez grupos (ten fold cross
validation). Os valores médios apresentados foram complementados com os intervalos
de confiança para um grau de 95% de confiança. Esses intervalos são apresentados nos
gráficos através de barras de erros.
1408
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1.0
F1 F1
Precisão Precisão
Revocação Revocação
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
1 2 3 4 5 1 2 3 4 5
Cenário I − Emojis
1.0
F1
Precisão
Revocação
0.8
0.6
0.4
0.2
0.0
1 2 3 4 5
Considerando o uso de palavras somente, a acurácia geral média foi de 47,4% ± 4,05,
contra 50,7% ± 3,9 para palavras e emojis, representando um ganho médio de 6,9% (i.e.
1409
XXXVII Congresso da Sociedade Brasileira de Computação
Considerando o uso de palavras somente, a acurácia geral média foi de 67,1% ± 1,7,
contra 62,9% ± 1,9 para palavras e emojis, representando um ganho médio de 6,7% (i.e.
4,2 pontos percentuais). A eficácia de classificação por classe é ilustrada na figura 7, fica
evidente a maior facilidade para identificar avaliações com nota mı́nima e nota máxima.
Contudo, o uso de emojis possui impacto menor, quando comparado ao problema de cinco
classes do cenário I. Isso ocorre porque o problema de três classes é melhor resolvido pelo
BoW, independentemente do uso de emojis/emoticons. Novamente, para três classes, o
ganho ao combinar palavras e emojis também é maior do que o uso isolado de emojis.
A figura 8 apresenta as matrizes de confusão para as duas abordagens. As matrizes
mostram que ao utilizar somente palavras (abordagem tradicional), o algoritmo confunde
a classe 1 (positivo) como −1 (negativo) mais do que a abordagem usando emojis: a
célula (1, −1) da matriz “somente palavras” (figura 8(a)) é mais densa que a da matriz
“palavras+emojis”(figura 8(b)), representando uma redução de 53,3% de erro (0,15 contra
0,07).
1410
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1.0
0.8
0.8
0.6
0.6
0.4
0.4
F1 F1
0.2
0.2
Precisão Precisão
Revocação Revocação
0.0
0.0
-1 0 1 -1 0 1
F1
0.2
Precisão
Revocação
0.0
-1 0 1
5. Conclusão
Neste trabalho quantificamos a relevância de emojis/emoticons como vocabulário utili-
zado para expressão de opinião em avaliações online. Foram consideradas avaliações
coletadas da Amazon e da Google Play. Dois cenários foram considerados assumindo
escalas de cinco nı́veis (1 a 5) e três nı́veis (−1, 0 e 1). O modelo adotado para previsão
de notas, com base nas avaliações, foi o BoW (Bag of Words). Os ganhos de eficácia na
previsão chegaram a 7,7% (0,65 contra 0,70), considerando a métrica F1. O uso de emojis
combinados às palavras trouxe para o modelo um ganho maior do que a eficácia do uso
1411
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Aisopos, F., Papadakis, G., Tserpes, K., e Varvarigou, T. (2012). Content vs. context for
sentiment analysis: a comparative analysis over microblogs. In Proceedings of the 23rd
Conference on Hypertext and Social Media, pages 187–196. ACM.
Almeida, T. G., Souza, B. A., Menezes, A. A., Figueiredo, C., e Nakamura, E. F. (2016a).
Sentiment analysis of portuguese comments from foursquare. In Proceedings of the
22nd Brazilian Symposium on Multimedia and the Web, pages 355–358. ACM.
Almeida, T. G., Souza, B. A., Menezes, A. A., Figueiredo, C. M., e Nakamura, E. F.
(2016b). Sentiment analysis of portuguese comments from foursquare. In Proceedings
of the 22Nd Brazilian Symposium on Multimedia and the Web, Webmedia ’16, pages
355–358, New York, NY, USA. ACM.
Araújo, M., Gonçalves, P., Cha, M., e Benevenuto, F. (2014). ifeel: a system that compa-
res and combines sentiment analysis methods. In Proceedings of the 23rd International
Conference on World Wide Web, pages 75–78. ACM.
Jo, Y. e Oh, A. H. (2011). Aspect and sentiment unification model for online review
analysis. In Proceedings of the Fourth ACM International Conference on Web Search
and Data Mining, WSDM ’11, pages 815–824, New York, NY, USA. ACM.
Leskovec, J. e Krevl, A. (2014). SNAP Datasets: Stanford large network dataset collec-
tion. http://snap.stanford.edu/data.
Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human
language technologies, 5(1):1–167.
1412
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1413
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A violência contra a mulher - seja física, psicológica, verbal, sexual, institucional ou
moral - se destaca como um componente recorrente do sistema que perpetua o
machismo ao longo dos anos, no ambiente online esta situação não é diferente. Segundo
relatório da Organização das Nações Unidas1, um apanhado em escala global sobre a
violência no ciberespaço, 75% das mulheres que utilizam a internet em todo mundo já
sofreram exposição a algum tipo de violência. Mulheres entre 18 e 24 anos são mais
suscetíveis a ameaças e perseguições, uma a cada quatro mulheres vivem em países
onde estes abusos dificilmente serão punidos e em muitos outros países as mulheres
relutam em denunciar estas agressões por medo de repercussões sociais.
A rápida propagação da internet torna ainda mais difícil o trabalho dos
mecanismos de controle sociais e jurídicos cabíveis em casos de agressão. Na era da
informação, agressores podem atacar a qualquer momento, em qualquer lugar do
mundo. O relatório citado destaca ainda que apesar da grande quantidade de mulheres
que passam por essas experiências no ciberespaço, apenas 26% dos órgãos responsáveis
nos países pesquisados estão tomando as medidas apropriadas.
1
Cyber violence against women and girls - http://bit.ly/2mVAbFQ
1414
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Visão da comunidade
“Vamos Juntas?” foi um movimento nascido a partir de uma experiência de insegurança
vivenciada pela jornalista Babi Souza, 24 anos, em uma praça mal iluminada em Porto
Alegre (RS)2. O momento de vulnerabilidade levou Babi a refletir que uma companhia
feminina naquele momento lhe traria conforto e segurança, então por que não levar essa
ideia para todas as mulheres que passam por situações parecidas diariamente? Deste
episódio nasceu o movimento “Vamos Juntas?”, uma iniciativa que propõe interligar
mulheres - que se conhecem ou não - em situações de medo ou risco3. O movimento -
2
“Vamos Juntas?”: Conheça o projeto que incentiva as mulheres a andarem juntas para inibir a
violência - http://bit.ly/1NK5avd
3
O “Vamos Juntas?” - http://bit.ly/2q56YIz
1415
XXXVII Congresso da Sociedade Brasileira de Computação
que atualmente atrai mais de 450 mil fãs em sua página na rede social Facebook4 -
tomou tal proporção que mulheres de diversas cidades brasileiras criaram grupos locais
com propósito semelhante.
A iniciativa é um chamado à sororidade, ou seja, um convite baseado na empatia
e no companheirismo para que as participantes se unam e se fortaleçam, e obteve
atenção positiva na mídia nacional. Em Campina Grande (PB) um grupo local surgiu em
meados de junho de 2016 (época que ocorre a festividade de São João em um parque no
centro da cidade), a partir da criação de um grupo fechado no Facebook. O grupo surgiu
com a intenção de conectar mulheres que precisassem de companhia para ir, voltar ou
aproveitar a festividade, que acontece em todas as noites do mês de Junho. A partir de
conexões feitas através do grupo do Facebook, as participantes organizaram-se em
grupos de WhatsApp por bairro, para que as que morassem mais próximas umas das
outras pudessem se ajudar. A ação teve êxito e houveram relatos no grupo do Facebook
de mulheres que conseguiram companhia, dividiram o mesmo táxi, pediram ou
forneceram carona. Estes relatos talvez tenham fornecido àquele espaço um capital
social (credibilidade) inicial necessário para que as integrantes se mantivessem ali e que
aquele espaço inspirasse confiança. A partir daquele momento as membras que tinham
dúvidas sobre o propósito daquela união de mulheres podiam contar com depoimentos
sobre experiências reais vividas e interagir através da nova ferramenta com suas
semelhantes, cujo propósito ali era amparo mútuo. Após o término da festividade, os
grupos específicos de cada bairro caíram em desuso, enquanto no grupo inicial no
Facebook surgiram espontaneamente postagens e comentários sobre os mais variados
assuntos.
Hoje o grupo conta com mais de quatro mil integrantes e convida mulheres a
ampararem umas às outras, seja fazendo companhia em uma situação de risco ou
insegurança, seja compartilhando informações sobre produtos, prestadores de serviços e
artigos interessantes, ou até mesmo compartilhando experiências pessoais e realizando
atividades em grupo. Dar e pedir indicações sobre médicos, taxistas, advogados e outros
prestadores de serviço ou produtos é uma prática recorrente no grupo. De certa forma a
utilização deste recurso de indicações traz à tona a confiança que as membras têm no
ponto de vista das demais.
Ainda que o recurso “grupo” do Facebook não seja projetado especificamente
para as demandas dessa associação de mulheres (fazem falta melhores meios de controle
sobre quem entra no grupo, alguma maneira de catalogar post informativos, dentre
outras funções), estas se apropriaram desta tecnologia como seu ponto de encontro. Os
recursos de postagem, eventos, documentos e enquetes foram moldados à realidade das
utilizadoras. Com base na observação outros grupos da mesma rede social, a frequência
de interações na “Vamos Juntas?” é alta, diariamente é comum que mais de oito
postagens sejam realizadas e discutidas pelas membras.
Ao longo da sua história a comunidade passou por processos de transição e
experimentação de diversas arquiteturas de colaboração para tentar suprir suas
necessidades. A criação de um ponto de encontro central (grupo no Facebook), a
4
Facebook - http://www.facebook.com
1416
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
difusão em grupos menores (grupos no WhatsApp) e a retomada deste primeiro local são
um exemplo dessas experimentações. Outro recurso disponibilizado pela plataforma do
Facebook é a possibilidade de criar documentos compartilhados entre os membros
(ficheiros), mas talvez pela dificuldade de encontrar essa funcionalidade na interface
gráfica do site e dificuldade de manter o documento organizado, criou-se uma planilha
colaborativa em outra plataforma (Google Drive) na tentativa de catalogar melhor as
informações disponibilizadas pelas integrantes do grupo às demais.
Regras foram definidas pela moderação à medida que eram necessitadas e
adicionadas à postagem fixa no cabeçalho da página do grupo, como por exemplo,
evitar postagens repetitivas, postagens de cunho comercial, evitar brigas. Já as normas
de conduta social são as que, pelo senso comum, geram uma boa convivência entre
pessoas [Lessig 1999], por exemplo, tratar as demais com gentileza e educação.
Atualmente a comunidade é administrada por nove mulheres, responsáveis por aceitar
novas solicitações de ingresso, mediar conflitos e cuidar para que regras e normas sejam
respeitadas.
3. Questionamentos
O propósito deste estudo se divide em: i) elucidar como a opressão sofrida no cotidiano
feminino afeta a socialização de mulheres em comunidades online, ii) captar o impacto
da participação na comunidade “Vamos Juntas? - Campina Grande” em suas membras
em relação a outros espaços online. Para isso, foram formuladas as seguintes questões
de pesquisa:
QP1: como a situação de violência sofrida no cotidiano feminino afeta a maneira
na qual as mulheres interagem e socializam em comunidades online?
QP2: quais as contribuições da presença na comunidade “Vamos Juntas?
Campina Grande” na atitude e postura das mulheres em outros ambientes online?
1417
XXXVII Congresso da Sociedade Brasileira de Computação
4. Metodologia
O estudo qualitativo foi realizado por meio de entrevistas semiestruturadas e observação
participante em uma comunidade online do Facebook. Para [Minayo 1994] a pesquisa
qualitativa não poderia ser realizada sem um trabalho de campo, promovendo a
interação do pesquisador com os sujeitos da investigação - fase em que confrontam-se
os pressupostos teóricos da pesquisa com a realidade concreta.
Uma possível limitação da utilização de entrevistas semiestruturadas é o fato de
que a responsabilidade do sucesso da utilização desta técnica caem integralmente sobre
1418
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Para que fosse possível coletar dados subjetivos das participações no estudo, optou-se
pela entrevista presencial. Nesta fase o empenho foi dirigido à criação de perguntas que
pudessem esclarecer os questionamentos da pesquisa, e capturar informações sobre as
experiências vividas em ambientes online pelas participantes5.
O protocolo de entrevista, composto apenas de perguntas dissertativas, foi
dividido em três segmentos: i) questões menos invasivas com a finalidade de estabelecer
um primeiro contato e ganhar a confiança da interlocutora (informações triviais e sobre
a presença e participação em grupos no ambiente online); ii) introdução e evolução em
assuntos mais densos e pessoais (informações sobre pertencimento e participação em
comunidades online e na comunidade estudada, situações de violência vivenciadas); iii)
encerramento da entrevista e questionamentos mais agradáveis com o objetivo de evitar
uma sensação ruim ao finalizar o encontro.
O convite para a participação na investigação foi realizado por meio de uma postagem
na comunidade do Facebook. A postagem foi realizada no dia 29 de novembro de 2016,
10:16 da manhã e obteve 51 interações (curtidas e comentários).
A interação foi bem recebida pelo grupo. Diferente do esperado, cerca de cinco
mulheres se dispuseram a serem entrevistadas de imediato. Em poucas horas todas as
participantes das entrevistas já haviam confirmado data, hora e local onde iriam ocorrer
as conversas. Esta disponibilidade instantânea reflete com clareza o espírito de
cooperação e colaboração presente na comunidade.
Devido ao grande número de participantes dispostas a contribuir com a pesquisa,
foi feita uma filtragem de maneira que o grupo selecionado fosse heterogêneo, dentro
das possibilidades de escolha. Os critérios utilizados na seleção das entrevistadas foram:
volume de interação na comunidade “Vamos Juntas?”, área de estudo ou formação e
tempo de participação na comunidade. O grupo a ser entrevistado foi composto por oito
voluntárias, em sua maioria entre 20 e 28 anos, com diferentes níveis de instrução e em
diferentes áreas do conhecimento, em sua maioria eram participantes da comunidade
desde o seu início.
5
Roteiro de entrevista - http://bit.ly/2pADSwP
1419
XXXVII Congresso da Sociedade Brasileira de Computação
Optou-se por fazer uma Análise de Conteúdo do material coletado. Segundo [Frankfort-
Nachmias e Nachmias 1996] esta técnica consiste em uma leitura aprofundada de cada
uma das respostas, em que, codificando-se os trechos de cada uma, obtém-se uma ideia
sobre o todo [Freitas 2004].
Após a realização das entrevistas todo o material gravado foi convertido em
texto escrito por meio do processo de transcrição. O processo foi realizado de maneira
manual e, a partir de cada áudio, gerado o documento referente àquela entrevista.
Foi feita uma rápida leitura para criar primeiras impressões e a identificação dos
rótulos (tags) que iriam fundamentar a análise dos dados gerados (documentos das
entrevistas). Em seguida foi realizada a etapa de exploração do material.
Na etapa de exploração, os documentos transcritos foram importados em um
software para realização da codificação, o MAXQDA Plus 12. Na codificação os dados
brutos passaram por uma segunda leitura para uma identificação prévia de códigos, após
isso estes códigos foram agregados em categorias relativas às questões de pesquisa, o
que permitiu uma descrição das características presentes no conteúdo das entrevistas. O
tipo de codificação utilizado foi a codificação axial, onde serão analisados e
reorganizados os conceitos selecionados, extraída uma ideia central e suas ramificações.
Podem ser identificados três temas principais dentre as respostas: exposição dos
benefícios providos e elogios ao grupo; movimento, críticas e sugestões; e causas para
temer interagir. A seguir, será discutido como cada tópico identificado contribui na
elucidação das questões de pesquisa anteriormente formuladas.
5. Discussão
As conexões interpessoais geradas por meio do compartilhamento de vivências no grupo
pode ser um fator determinante para o sucesso do mesmo, no sentido de motivação dos
membros a contar seus casos e também de permanecer ali apoiando, ajudando e tendo
cuidado com outras colegas. O grupo possui uma identidade, um assunto em comum, o
que torna as ligações mais fortes [Farzan 2011].
1420
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
6
Acrônimo para Lésbicas, Gays, Bissexuais, Travestis, Transexuais e Transgêneros.
1421
XXXVII Congresso da Sociedade Brasileira de Computação
Em um dos relatos foi descrita a situação onde uma mulher postou uma
fotografia sua com os seguintes dizeres escritos “Eu não mereço ser estuprada!”. Em
seguida, uma página conhecida por discurso que se pretende humorístico e é
notoriamente machista de grande visibilidade no Facebook compartilhou a mesma
fotografia, incluindo um comentário pejorativo fazendo alusão ao fato de que aquela
mulher não corria esse risco pois era gorda. Segundo o relato, a proprietária da
fotografia tentou, sem sucesso, dialogar com a moderação da página através de
comentários a fim de excluir aquela postagem ofensiva. Após uma mobilização, a
agredida e sua rede de contatos denunciaram repetidamente a postagem caracterizando-a
como abusiva, as denúncias foram acatadas e a própria rede social veio a remover a
postagem. A repercussão da situação levou a vítima a mudar a visibilidade da sua foto -
de modo a estar disponível apenas para seus amigos daquela rede social, e evitar
interações de visibilidade pública ali por receio de que a situação pudesse vir a repetir-
se. Se por um lado a arquitetura da rede social favorece e provê diversos mecanismos
para que qualquer pessoa, em qualquer lugar observe, desenvolva seu senso crítico e
expresse sua opinião sobre os mais diversos assuntos, por outro favorece a criação de
espaços segregadores, onde muitas vezes a única intenção dos grupos é agredir e
intimidar usuários cuja opinião seja desaprovada pelos mesmos. A presença de trolls, a
dimensão que um discurso em ambientes online pode tomar e o ciberbullying (magoar
ou maltratar alguém utilizando tecnologias da informação e de comunicação [Nixon
2014]) também podem ser listados como barreiras na socialização dos integrantes desses
ambientes.
[comentário sobre a agressão descrita no parágrafo anterior] “E o pior é que
quando eu vi eu pensei que 100% das pessoas iam cair em cima, que todo
mundo ia entender o quanto aquilo era violento, desrespeitoso, e atingiu a
liberdade de expressão dela [vítima]... mas quando fui ver os comentários eram
coisas escrotas, então eu pude perceber vários sujeitos que compactuavam do
pensamento do cara que postou, esculhambando as mulheres, tipo: „Ah, tu não é
mulher!‟, „Uma mulher que faz um negócio desse não é uma mulher!‟”.
(Entrevistada 1, professora e mestranda).
Se nas cidades os indivíduos agrupam-se em subsociedades baseadas em
afinidades, interesses ou em laços de vizinhança [Maffesoli 1998], a configuração
arquitetural do ciberespaço possibilita tanto a formação desses subgrupos, como
simplifica a interação entre eles.
Se considerarmos dois possíveis subgrupos sociais na situação descrita acima,
caso ocorresse fora do ambiente virtual, é pouco provável que a moça sozinha se
deslocasse geograficamente até o outro grupo para reivindicar seu direito de imagem.
Para [Maldonado 2011], em uma situação de agressão online é possível observar três
perspectivas: o agressor, o agredido e a plateia. O agressor, muitas vezes motivado pelo
anonimato, pela utilização de um perfil falso ou com o pensamento de que não haverá
uma punição para os atos praticados ali, utiliza de qualquer argumento que lhe pareça
cabível para legitimar seu direito de atacar. O agredido, a vítima que está sendo alvo da
agressão. E, por fim, a plateia que pode ser dividida em duas, plateia co-autora (que
compactua com a ação do agressor) e plateia protetora (que é sensível à situação e apoia
1422
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Nesta seção foram enfatizados o meios pelos quais a comunidade “Vamos Juntas? -
Campina Grande” atua no empoderamento e restauração da autoconfiança de suas
participantes.
Um ponto importante é a segurança que todas as entrevistadas relataram sentir
ao compartilhar relatos e receber indicações de serviços. A noção de que a comunidade
é um ambiente seguro para conversar, mesmo tratando-se de uma comunidade online
que não utiliza-se de nenhuma ferramenta específica para garantir tal recurso, traz
consigo a confiança nas parceiras que fazem a moderação da comunidade e também o
conforto de que dificilmente um possível agressor estará à espreita.
“É um local de empoderamento. Quando você se encontra dentro de uma
comunidade que você pode falar e não vai ser calada, você se sente empoderada
1423
XXXVII Congresso da Sociedade Brasileira de Computação
de falar em outros meios de comunicação e até nas relações pessoais do dia a dia
você vê que você pode ter voz”. (Entrevistada 3, estudante)”.
Uma das regras do grupo é a expressa proibição de homens ali. As participantes
julgam esse fator como indispensável para a manutenção da segurança daquele espaço e
parece ser considerado um sinal de limite muito claro dentro da comunidade. A
delimitação de regras contribui com o comprometimento de participantes no grupo
[Farzan 2011].
O auxílio na percepção de que uma situação vivenciada é uma situação de
violência foi um dos tópicos mais citados durante as entrevistas. Ter consciência de que
uma situação, até então tida como normal ou corriqueira, não é tão natural assim
permite à mulher defender-se e alertar outras para que também façam o mesmo.
Atitudes entranhadas na cultura e no dia-a-dia podem passar despercebidas como formas
de violência e opressão. A partir dessa percepção e conhecimento das situações pode
surgir a mudança de comportamento tanto da mulher, conhecedora dos seus direitos,
como também do homem, que saberá que atitudes como aquela não serão mais
toleradas.
“A gente também tem que educar os homens, vamos dizer, porque são os
homens que repreendem os outros. É como se um machista ele não vai ouvir a
gente, mas ele vai ouvir os outros homens. Então as redes sociais serviram não
só para a gente mas para outros homens entenderem também o que a gente passa
e hoje em dia eu sinto um suporte também por outros homens, não só por
mulheres”. (Entrevistada 5, doutoranda).
“Muitas opressões eu descubro por causa das redes sociais e meu
comportamento muda frente às situações, frente aos homens, frente às
mulheres”. (Entrevistada 5, doutoranda).
O sentimento de comunidade presente transmite a sensação de estar sempre
acompanhada fortalece as ideias de que: ninguém ali está só e ninguém ali é rival, e em
uma situação de necessidade alguém oferecerá suporte.
“A gente sempre vai amadurecendo com as coisas, né? Eu também nem atentava
para o quanto a gente [mulheres] é desunida, e o quanto que isso nos enfraquece
(...)”. (Entrevistada 1, professora e mestranda).
“Me sinto de mãos dadas. Pois eu acho que é isso que as mulheres precisam, elas
precisam dar as mãos diante de toda a opressão que a gente vê por aí. A gente vê
que tudo que conseguimos até agora foi porque as mulheres se uniram para lutar
contra as experiências de perversão que a gente enfrenta cotidianamente”.
(Entrevistada 2, estudante).
“Meu comportamento muda porque eu sei que eu não estou sozinha!”.
(Entrevistada 5, doutoranda).
Em um ambiente onde a palavra de ordem é sororidade, as entrevistadas
relataram situações onde as mulheres mais confiantes e que estão por mais tempo em
contato com as ideias suportadas pelo grupo ajudam as demais a perceber e valorizar
seu poder, e nesse ciclo novas gerações de mulheres que vão chegando e as demais
1424
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
permanecendo. Segundo [Drentea & Moren-Cross 2005], o que acontece com grupos
semelhantes ao “Vamos Juntas? - Campina Grande” é mútuo o oferecimento de suporte
emocional e estrutural no que diz respeito a situações de agressão sofrida, indicações de
serviços que outras já tenham utilizado, desabafos pessoais, companhia em momentos
de necessidade, e qualquer outro assunto que possa surgir. De certa maneira estas
mulheres estão conectadas através do relato de suas experiências ao grupo.
“Acho que o grupo não é assunto de meninas, é assunto de pessoas que, apesar
de estar em maior número, enfrentam problemas por minoria.., e a gente discute
tudo lá dentro …”. (Entrevistada 5, doutoranda).
“(...) É ótimo ter um grupo onde você se sinta segura para desabafar sobre
qualquer coisa, seja do assunto mais sério, suas experiências mais difíceis e
dolorosas, até falar sobre o que a gente fala: cabelo, maquiagem e outras
bobagens”. (Entrevistada 4, modelo e fotógrafa).
Outro ponto relevante tocado durante as conversas foram sugestões e críticas ao
grupo, com o objetivo de tornar a comunidade um ambiente ainda mais voltado a
assuntos pertinentes à realidade feminina. Postagens demasiado individualistas ou sobre
venda de produtos foram criticadas, com a justificativa de que isso não seria o cerne do
grupo. Ainda que possibilitadas de realizar tais críticas diretamente no grupo, as
mulheres concordaram de que se uma postagem é realizada, então há em alguma mulher
a necessidade de falar sobre aquilo e que todas têm consciência de que aquele ambiente
deve ser mantido com zelo. Assim, os conflitos, aparentemente, são sobrepostos pelo
ideal do grupo.
“Ainda tem muito individualismo. Poderíamos fazer coisas mais coletivas, mais
conjuntas... tipo: „O que você tá passando?‟ „Quem tá precisando de alguma
coisa?‟ Ter mais esse espírito coletivo. (...) Tem que voltar mais para o
tratamento que a sociedade tem com a mulher”. (Entrevistada 3, estudante).
O espaço, que teve início como uma ferramenta para conseguir caronas durante
uma festividade, evoluiu ao ponto de tornar-se um refúgio às suas integrantes. Para
[Oldenburg 1989], um espaço com essa característica pode ser chamado Third Place,
onde é possível conversar sobre assuntos mais delicados ou simples banalidades. Esse
processo de evolução é continuado a partir do momento que ocorrem novas
apropriações de tecnologias para o cumprimento de necessidades, que são definidas ou
modificadas regras, de maneira geral, que pode-se perceber registro de vida naquele
lugar.
Comentários elogiosos e de agradecimento também surgiram durante as
entrevistas. Foi sugerido a criação um encontro entre as mulheres do grupo e a extensão
do trabalho dentro da comunidade online para espaços reais.
“Eu acho que tem que ter uma coisa de sair do virtual e se encontrar mesmo, mas
pessoalmente (...) Porque eu mesmo que sou tímida, conhecendo as pessoas
pessoalmente, talvez eu interagisse mais (...)”. (Entrevistada 2, estudante).
1425
XXXVII Congresso da Sociedade Brasileira de Computação
“Quem sabe pensar em uma ONG para mulheres, fazer palestras nas
comunidades periféricas… fazer essa mesma entrevista com algumas mulheres
da comunidade periférica”. (Entrevistada 1, professora e mestranda).
O que se percebeu foi que este senso comum sobre os obstáculos enfrentados
pelas mulheres, finda por despertar em cada uma a motivação e atitude de socorrer outra
mulher quando esta se encontre em um cenário vulnerável. O grupo, de fato, representa
um lugar seguro para a livre expressão das mulheres, ao mesmo tempo que provê
conhecimento e suporte para uma mudança de postura na própria comunidade e em
outros ambientes na rede. A clareza de propósito, limites e atributos da comunidade
quanto unidade, permite o comprometimento e conexão daquelas mulheres através de
uma causa [Farzan 2011].
6. Conclusão
Por meio deste estudo buscou-se destacar como a violência enfrentada diariamente pelas
mulheres se estende ao ciberespaço, afetando a socialização e interação em ambientes
online. Buscou-se também entender como a participação e o envolvimento na
comunidade “Vamos Juntas? Campina Grande” contribui na mudança de atitude e
posicionamento dessas mulheres em outros espaços de interação na rede.
Durante o processo de entrevista, diversos tipos de violência foram destacadas,
como por exemplo, o assédio e agressões verbais, exposição, descredibilização da fala.
Em decorrência disso é gerado um sentimento de insegurança, baixa autoestima e
timidez frente ao relacionamento social no ciberespaço. É importante ter em mente a
ideia de que o que é realizado e discutido no mundo virtual acontece fora dele como
uma mudança de pensamento e de comportamento. A partir disso é possível refletir
sobre como as atitudes no ambiente virtual são de extrema importância para nossa
convivência enquanto sociedade.
Para [Rangel 2011] o papel exercido pela imprensa nos primeiros momentos do
movimento feminista no Brasil hoje é representado pela internet. Frente à realidade
apresentada, é necessário ampliar a discussão acerca das experiências femininas tanto de
opressão e violência, como também de vivências e relatos diversos, para outros meios
de comunicação, reconhecendo a riqueza de possibilidades e benefícios que ferramentas
online podem oferecer aos movimentos sociais.
As principais contribuições deste trabalho atestam as hipóteses levantadas
anteriormente: a participação na referida comunidade contribuiu positivamente no
aspecto de empoderamento (percepção das agressões sofridas, busca de apoio, suporte
emocional) e mudança de atitude e pensamento de suas integrantes.
Futuramente, espera-se utilizar resultados provenientes de postagens da
comunidade estudada para a proposição de um estudo com métodos mistos com a
finalidade de complementar os resultados apresentados neste artigo.
7. Agradecimentos
1426
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
8. Referências
Bardin, L. (1996) "L’analyse de contenu", PUF, 8eme Edition, Paris.
Benkler, Yochai. (2006) “The wealth of networks: how social production transforms
markets and freedom”, Yale University Press New Haven.
Drentea, P., & Moren-Cross, J.L. (2005) “Social capital and social support on the web:
The case of an Internet mother site”, Sociology of Health and Illness, 27(7), p. 920–
943.
Farzan, R., Dabbish, L., Kraut, R., Postmes, T. (2011) “Increasing Commitment to
Online Communities by Designing for Social Presence”, CMU, Human-Computer
Interaction Institute, School of Computer Science, Carnegie Mellon University
Research Showcase.
Ferreira, G. de S. (2013) “Feminismo e redes sociais na Marcha das Vadias no Brasil”,
Revista Ártemis, Vol. XV nº 1, p. 33-43, ISSN: 2316 - 525.
Frankfort-Nachmias, C & Nachmias, D. (1996) “Research Methods in The Social
Sciences”, St. Martin's Press, New York.
Freitas, H. (2004) “Técnica inovadora para análise de dados qualitativos”, Porto Alegre:
I SBSI – Simpósio Brasileiro de Sistemas de Informação, PUCRS-UFRGS -
UNISINOSUCS, p. 205-212.
Haguette, T.M.F. (1995) “Metodologias qualitativas na sociologia”, Vozes, 4ed,
Petrópolis.
Lawrence L. (1999) “Code and Other Laws of Cyberspace”, Basic Books, p 297.
Maffesoli, M. (1998) “O Tempo das Tribos: O declínio do individualismo nas
sociedades de massa”, Forense Universitária, Rio de Janeiro.
Maldonado, M. T. (2011) “Bullying e cyberbullying: o que fazemos com o que fazem
conosco”, Editora Moderna, São Paulo.
Minayo, M.C. de S. (1994) “O desafio do conhecimento: pesquisa qualitativa em
saúde”, São Paulo: Hucitec/Abrasco, 3.ed.
Oldenburg, Ray. (1989) “The Great Good Place”, Paragon House, 3ed, New York.
Radin, P. (2006) “„To me, it‟s my life:‟ Medical communication, trust, and activism in
cyberspace”, Social Science and Medicine, 62(3), p. 591–601.
Rangel, L. de A.S. (2011) “Feminismo ideal e sadio': os discursos feministas nas vozes
das mulheres intelectuais capixabas Vitória/ES (1924 a 1934)”, 268 f. Dissertação
(Mestrado em História) - Universidade Federal do Espírito Santo, Centro de Ciências
Humanas e Naturais.
1427
XXXVII Congresso da Sociedade Brasileira de Computação
Vieira L.J.E.S., Pordeus A.M.J., Ferreira R.C., Moreira D.P., Maia PB, Saviolli K.C.
“Fatores de Risco para Violência Contra a Mulher no Contexto Doméstico e
Coletivo”, Saúde Soc., p. 113-125.
1428
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1
Departamento de Computação – CEFET–MG
Av. Amazonas, 7675 – Nova Gameleira – Belo Horizonte – MG – Brazil
pedromagalhaesbernardo@gmail.com,
Abstract. The technological advances have made data sharing and knowledge
generation possible in several areas. In order to support information extraction
and knowledge generation, several datasets have been made publicly available,
giving rise to the concept of open data. However, while such data are available,
the processing, visualization, and analysis of them by society, in general, can be
considered difficult tasks. Data are available to a great volume, in different
files and formats, making it difficult to cross-reference and analyze them to
obtain relevant information without the support of appropriate tools. Inspired
by this scenario, this paper presents WikiOlapBase, a collaborative tool capable
of processing, integrating and making feasible the analysis of open data from
different sources, even by people without technical knowledge. WikiOlapBase
contributes to the expansion of open data analysis, since it favors a greater
information sharing and knowledge dissemination.
1. Introduction
Technological evolution has enabled an increase in the speed and quantity of data that are
produced daily and can be used to extract information and generate knowledge in different
areas (e.g., economics, sociology, computing, engineering, biology and political science).
Currently, this data can be produced and extracted from sources such as transactional
information systems, e-commerce websites, social networks, mobile devices, sensors,
governmental registries, among others. This phenomenon became known as Big Data
[Sagiroglu and Sinanc 2013].
With the goal of sharing information and knowledge, several datasets have been
made publicly available, giving rise to the concept of open data, which is available
to anyone independently of their technical expertise [Hilbert 2013]. An example of
that is data provided by the government, also known as open government data (OGD)
[Vaz et al. 2010].
However, data availability alone is not enough for most people to process and
analyze open data (whether governmental or not). As the data generally is heterogeneous,
available in a variety of formats, in large volume and not always of easy understanding
for the interested people, the lack of technical knowledge becomes a hindrance for its
consumption [Graves and Hendler 2013].
1429
XXXVII Congresso da Sociedade Brasileira de Computação
This context raises two challenges: the first concerns the demand for an
infrastructure capable of processing and integrating open data from different sources,
making it possible to explore and analyze these datasets. The second refers to the demand
for a tool, powered by this infrastructure, capable of generating visualizations and analysis
without the need of technical knowledge from the user [Graves and Hendler 2013],
[Sagiroglu and Sinanc 2013].
Encouraged by these challenges, this work proposes WikiOlapBase, a
collaborative tool, publicly available, which is able to process and integrate open data.
The goal of this tool is to provide an infrastructure so that contributors can (1) insert large
volume of data from different sources, (2) manipulate and integrate data from different
sources through filtering, grouping and joining operations, and (3) make available the
processed and integrated data in a single format so they can be consumed by data
visualization and analysis tools.
This work was conducted in two phases. The first one consisted of reviewing
the literature on approaches for data processing, storage, and integration in the open data
scenario, as well as in the definition of the tool’s requirements. In the second phase the
tool’s architecture was proposed, followed by its development and evaluation.
The proposed tool contributes so that users, from different areas of knowledge can
process and integrate open data of interest. In a complementary way, WikiOlapBase may
support the expansion of open data analysis, thus contributing to a greater information
sharing and knowledge dissemination [Graves and Hendler 2013], [Hilbert 2013].
2. Related Work
In the literature, it is possible to find works (e.g., [Graves and Hendler 2013],
[Hoxha and Brahaj 2011], [Ding et al. 2010]) that describe the architecture of systems for
open data integration and analysis. For example, Graves and Hendler (2013) introduce the
prototype of a tool, OpenData-Vis, to integrate open data and make it readable for humans
and computers. The authors argue about how this type of tool can benefit the population
interested in the integration and analysis of large data volume and reinforces the demand
to implement it and make it available for public use.
In turn, Hoxha and Brahaj (2011) propose the use of semantic web technologies
to integrate data from different governmental organizations. The paper presents a
conceptual approach composed of three modules. The first one is responsible for
modeling an ontology and converting the raw data. The second module consists of an
interface for querying the generated knowledge base and the third specifies an information
visualization tool. Similarly, Ding et al. (2010) are developing an initiative to integrate
and make available data from the United States government. The authors show how
semantic web technologies can be used to convert and integrate this data.
Another related research line consists of works that describe system architectures
to support data visualization. Viegas et al. (2007) introduce ManyEyes, a collaborative
website in which users could submit data, as well as create and analyze interactive
visualizations. The work done by Tang et al. (2004) addresses the challenges of designing
an architecture for data visualization systems. According to the authors, in order to create
a visualization system that is suitable for use, it is necessary to define a transparent
1430
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
infrastructure that describes: (1) the data model, (2) the way data is sent, and (3) the
possibilities of transformation for the generated visualizations.
Although the related work discusses the challenges, requirements, and/or models
of architectures for data processing, integration, and visualization systems, the authors
do not detail the designs of the architectures so that they can be implemented and
made publicly available. In addition, in spite of praising the importance of the
collaborative aspect in the process of processing, visualizing and analyzing open data,
the architectures presented in previous works do not offer collaboration mechanisms
for the steps of data processing, integration and crossing [Graves and Hendler 2013],
[Hoxha and Brahaj 2011], [Ding et al. 2010].
The tool proposed here differs from the others since it offers an infrastructure
that supports processing and integration of open data in a collaborative way. Thus, users
are able to collaborate in the insertion, processing, integration and cross-referencing of
data from different sources. In addition, WikiOlapBase presents a robust architecture,
designed to support open data visualization systems, and extend collaboration capability
beyond the generation and analysis of such visualizations.
3. Methodology
As highlighted by Tang et al. (2004) and Graves and Hendler (2013), to architect and
develop an infrastructure for open data processing and integration it is necessary to
specify the requirements and architecture of the tool, develop the interaction modules,
and evaluate and make it available. Thus, the methodology for conducting this work
consisted in initially identifying the necessary requirements for open data processing and
integration from different sources.
The requirements were identified from a review in of literature on Google Scholar
and other major research repositories related to Computing: IEEE Xplore, ACM Digital
Library, and Springer. The search string included the following terms: "open data
processing tools", "collaborative open data analysis", and "open data visualization".
Following that, the identified requirements were validated with three experts with more
than eight years of experience with data processing and analysis.
Later, as suggested by Graves and Hendler (2013), the architecture of
WikiOlapBase was defined in terms of technologies, data model, and operations to
support the processing, integration and cross-referencing of different data sources. Then,
WikiOlapBase was implemented from the requirements and the architecture defined in
the previous steps. After its development, the tool was evaluated with users to verify its
suitability for use through a Usability Test [Rubin and Chisnell 2008]. Next, each step of
the methodology will be detailed and its main results will be presented and discussed.
1431
XXXVII Congresso da Sociedade Brasileira de Computação
Tang et al. (2004) and Graves and Hendler (2013)) and validation of specialists in the
area of data processing and analysis, it was possible to identify that WikiOlapBase should
include the following features:
1.The tool must maintain the meaning of the original data.
2.The tool should convert different formats to the defined data model.
3.The tool should allow users to access the data present in its integrated database.
4.The tool should allow the definition of metadata to a given dataset.
5.The tool must be able to establish a relationship between different datasets.
6.The tool must accept compressed files.
7.The tool should allow the division of datasets into multiple files for submission.
8.The tool must provide an interface so that other applications can access the data
present in the integrated database.
9. The tool must be able to store data on large scale.
10. The tool should optimize the data query time.
4.2. Architecture
The architecture of WikiOlapBase was specified, from its objective and requirements, in
order to define: (1) the programming language used, (2) the data model and the Database
Management Systems used, (3) the form of data access and (4) any design decisions
regarding data processing and integration.
The Model-View-Controller (MVC) architecture standard was used for the
development of the tool. In this pattern, the data model, user interface and control logic
are separated into three components: (1) the model, which represents the data structure
and business rules of the application, (2) the view, which presents the model for the
user and (3) the controller, which interprets the user input and communicates with the
model to make the necessary changes [Plekhanova 2009]. This pattern has been chosen
because it allows the development and testing of each component independently, which
facilitates and accelerates development. In addition, MVC also favors the evolution of
web application functionalities [Gupta et al. 2012].
Python and the Django framework were used for the coding of the tool. Python
is a popular programming language that supports integration with other languages
and tools, in addition to a variety of libraries. Django is an open-source framework
that seeks to automate development by adhering to the principle "do not repeat
yourself"[Plekhanova 2009]. Also, the user interfaces were developed using HyperText
Markup Language (HTML), Cascading Style Sheets (CSS), and JavaScript.
Since WikiOlapBase should work as a base infrastructure for open data
visualization tools, and these tools typically make use of OLAP operations
([Viegas et al. 2007], [Tang et al. 2004], [Graves and Hendler 2013]), the WikiOlapBase
data model should enable operations provided in such tools. Therefore, WikiOlapBase
makes use of the column family model, which was designed to be horizontally scalable
and it optimizes OLAP operations, that typically involve complex queries on large data
volume [Sorjonen 2012], [Moniruzzaman and Hossain 2013].
In addition to storing datasets, WikiOlapBase also records the metadata that
characterizes these sets. The storage of this metadata is relevant so that data from
different sources can be structured, retrieved, and integrated into the tool [Turner 2002].
1432
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
WikiOlapBase adopts the document-oriented data model for storing the metadata. This
model was chosen because it does not have a defined structure, which allows adding new
attributes that describe metadata on demand [De Diana and Gerosa 2010].
Cassandra was used to implement and manage the column-family model, for
the document-oriented model, MongoDB was used. According to the website db-
engines.com (2016), this two DBMS are among the ten most used, being the first place in
their data model categories. This shows the popularity and acceptance of the community
in relation to these tools, which justified their choices. In addition, the Apache Spark
platform was used to perform more complex data operations (e.g., join) and to make
reading and writing data faster on Cassandra [Kolaczkowski 2014].
Finally, to access the data, a REST API was made available, due to its simplicity
and natural suitability for the web [Maleshkova et al. 2010]. Figure 1 shows the
implemented architecture diagram.
4.3. WikiOlapBase
The proposed tool has two modules, the first one is responsible for receiving,
characterizing and integrating datasets sent by users. In this process the dataset is
processed and stored in Cassandra and the metadata is stored in MongoBD.
The main flow of execution of the first module of WikiOlapBase consists of four
steps. As shown in Fig. 2, the first step is to select and send the desired dataset, it is worth
1433
XXXVII Congresso da Sociedade Brasileira de Computação
mentioning that in this first version only CSV files are accepted.
From the data sent, the user must fill in the corresponding metadata. As shown
in Figs.3, 4 and 5 this procedure encompasses the execution of three steps - although a
sequence is suggested, the user can perform in the desired order.
Following the suggested sequence, basic dataset information such as source, title,
and description should initially be filled. This information enables indexing inside the
repository, allowing later, other users to search that data.
In sequence, the user can add tags to the columns of the dataset. In addition to
helping in data indexing, tags also enable cross-referencing between different datasets,
since they allow the discovery of datasets that have attributes in common. If desired, the
user can also rename the dataset columns.
Finally, the user can identify data hierarchies within the dataset. This information
can be used to generate visualizations that use OLAP operations such as drilling down
and up [Graves and Hendler 2013]. In addition, at any time, the tool gives the user a
preview of the dataset that he/she is sending, so it is possible to check if there are any
errors in the datset before submitting it.
1434
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
This process of loading and characterizing the dataset by the user enables the
integration between the dataset sent by it and others already in the repository. In addition,
the conscious filling of the metadata supports the collaborative aspect of the tool, since
this enables the reuse of the datasets sent by any user that so wishes. The source code of
WikiOlapBase is available at (https://github.com/pedromb/wikiolapbase).
The second module of WikiOlapBase provides access to the repository of
integrated data through a REST API. This REST API has methods that can be
requested to perform operations such as: retrieval of data, retrieval of metadata,
and joining between different datasets. Its documentation is available at the address
(http://docs.wikiolapapi.apiary.io/ ).
1435
XXXVII Congresso da Sociedade Brasileira de Computação
WikiOlapBase has two distinguishing features in relation to the previous tools, the
first being its collaborative aspect, as the loading and characterization of the datasets are
carried out by the users themselves. The second feature is the possibility of relating and
joining different datasets that are available in the repository. One aspect to be improved in
WikiOlapBase is the availability of submitting data in different formats, since the initial
version only allowed CSV files.
WikiOlapBase was evaluated for its usability to verify its suitability for use by the
target audience. The methodology and main results of this evaluation are presented in the
next section.
1
Using data sent by other users
1436
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5. WikiOlapBase Evaluation
WikiOlapBase has been evaluated from the perspective of users regarding usability and
collaboration. To that end, we conducted a Usability Test [Rubin and Chisnell 2008].
This test consists of an evaluation method that involves the participation of users in a
controlled environment and involves the following phases: preparation, execution, and
analysis [Rubin and Chisnell 2008].
The preparation phase is subdivided into the following steps: (1) determining the
test objectives; (2) definition of the tasks to be performed; (3) selection of participants;
(4) considerations about ethical aspects; and (5) execution of the pilot test. These steps
generate artifacts that are subsequently used during the execution step of the Usability
Test [Rubin and Chisnell 2008].
The execution represents the phase in which the evaluation of the system happens
from the perspective of users. The evaluator conducts this phase, following the steps: (1)
receiving the user; (2) presentation of the system; (3) the consent of the users, using the
consent term; (4) pre-test questioning; (5) observation of tasks performed by users and
(6) interview or post-test questionnaire [Rubin and Chisnell 2008]. In the third phase of
the method, the data collected is analyzed by the evaluator [Rubin and Chisnell 2008].
Having exposed how the Usability Test is conducted, we now report how the
evaluation of WikiOlapBase was carried out. In the preparation phase, after establishing
the goal of the test (i.e., evaluating the usability and collaboration mechanisms of
WikiOlapBase), the artifacts that would be used during the evaluations were developed.
They are: the evaluation script, the participation consent term, the task description
scenarios, the evaluation control sheet and the questionnaire regarding the degree of
usability and collaboration of the tool [Rubin and Chisnell 2008].
With regards to the tasks, it is important to emphasize that the main interaction
scenarios with WikiOlapBase were taking into account: (T1) Learning to use the tool
from the instructions presented in the help section; (T2) Sending a dataset in CSV format;
(T3) Observing the preview of the dataset; (T4) Filling in the basic information regarding
the dataset; (T5) Defining tags for the columns of the uploaded file and renaming them;
(T6) Defining a data hierarchy within the dataset; (T7) Submitting the metadata; (T8)
Checking that the dataset was included in the repository using the search feature; (T9)
Using the available API to retrieve the data that was sent and generate visualizations and;
(T10) Using the API to join two distinct datasets and to generate visualizations.
From these tasks three different scenarios were defined, that involved one or more
tasks: (C1) Send and generate the visualization of a dataset. This scenario (C1) involves
tasks T1 to T9; (C2) Send a dataset and cross-reference that dataset with another already
in the repository to generate a visualization. This scenario (C2) demands the execution of
tasks T1 to T8, and T10 and; (C3) Use two datasets already in the repository and generate
a visualization from them. This scenario (C3) involves performing T10. The users used
two test datasets, these datasets were made available previously.
The execution phase of the usability test of WikiOlapBase was attended by 6
users. Of these, 5 were professionals in the area of computing (Computer Engineering
or Information Systems), the last one had a degree in Mechanical Engineering. All of
them worked with software development and had experience with data mining, analysis,
1437
XXXVII Congresso da Sociedade Brasileira de Computação
and visualization. It is important to emphasize that this amount of users taking part in
the evaluation is justified, since according to Nielsen (2000) [Nielsen 2000] and Rubin
and Chisnell (2008)[Rubin and Chisnell 2008], usability tests must be executed by 3 to 5
users.
Each proposed scenario was tested by two different users. For each task
performed by a user, the evaluator considered the time spent in its execution and,
moreover, observed and noted how the task was completed (i.e., completed without error,
completed with error, or not completed). It was not allowed, during the execution, that
the evaluator answered questions related to the interface, or to some functionality of
WikiOlapBase. This type of question would be answered only in the period after each
task, when the doubts, difficulties, and suggestions of the users would also be discussed
[Rubin and Chisnell 2008].
The Usability Tests, with the 6 users, took place in a period of 3 days, between
September 27 and 29, 2016. Each test was performed individually and had a maximum
duration of one hour. From the obtained data, the results were analyzed in order to
characterize the indicators of completion of the tasks by the users; the mean elapsed time
for each of the tasks as well as the overall mean time (i.e., average completion time of a
scenario); and the degree of adequacy of WikiOlapBase to the principles of usability and
collaboration. Through these measures it was possible to characterize the usability and
collaboration of WikiOlapBase from the perspective of its users. The results obtained are
discussed below.
Regarding the execution of the tasks, the graph in Fig. 6 shows the percentage of
completion of each task. It is possible to check that all the tasks were completed by
the users, with only 20% finished with an error.
Table 2 shows the execution time of each of the tasks by the users and the average
time spent. It also displays the total execution times of tasks for each user (U). Users U1
and U2 performed scenario C1 while, users U3 and U4 performed scenario C2 and users
U5 and U6 executed scenario C3. In this way it was also possible to calculate the average
time per scenario. C1 was found to have an average running time of 11 minutes and 44
seconds, while the mean time to complete C2 was 12 minutes and 01 second, and the
mean time to complete C3 was 05 minutes and 25 seconds.
Task T1 presented a similar execution time among most users. This task involves
accessing the instruction page of the tool to learn about its operation. Although this task
did not generate difficulties or doubts, it was possible to realize that most users prefer to
learn how to use the tool during the execution itself. This explains the discrepancy that
occurred, because a user was more interested in understanding the instructions on how to
use the tool before actually exploring it. The task T2 was executed without problems and
without great variation of time between the users.
Task T3 presented a small variation in execution times between users. In this
task users should check the dataset sent from the "preview"functionality. During the
evaluation, 3 users reported difficulties in locating this functionality and, in addition,
presented suggestions for improvements in the visibility of this function. Although this
1438
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
has been considered a cosmetic problem, the suggestions pointed out by users will be
implemented in the next version of WikiOlapBase.
1439
XXXVII Congresso da Sociedade Brasileira de Computação
performed. Figure 7 summarizes the answers from the users who performed scenario
C1, Fig. 8 from the users who performed scenario C2 and Fig. 9 from the users who
performed the C3 scenario.
From the presented data it is possible to observe that, in the three scenarios, no
principle was judged as "does not comply"from the perspective of users. In other words,
for all users, all principles are either met or not applicable. It was possible to notice that
for 66.67% of users, WOB fully complies with the principle of ease of learning and for
1440
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
16.67% WOB fully complies with the principle ease of use. This indicates that learning
how to use WOB is a simple task.
1441
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
De Diana, M. and Gerosa, M. A. (2010). Nosql na web 2.0: Um estudo comparativo de
bancos não-relacionais para armazenamento de dados na web 2.0.
Ding, L. et al. (2010). Data-gov wiki: Towards linking government data.
Graves, A. and Hendler, J. (2013). Visualization tools for open government data. In
Proceedings of the 14th Annual International Conference on Digital Government
Research, dg.o ’13, pages 136–145, New York, NY, USA. ACM.
Gupta, P. et al. (2012). Utilizing asp.net mvc in web development courses. J. Comput.
Sci. Coll., 27(3):10–14.
1442
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Hilbert, M. (2013). Big data for development: From information-to knowledge societies.
Hoxha, J. and Brahaj, A. (2011). Open government data on the web: A semantic approach.
In Emerging Intelligent Data and Web Technologies (EIDWT), 2011 International
Conference on, pages 107–113. IEEE.
Kolaczkowski, P. (2014). Lightning fast cluster computing with spark and
cassandra. Presentation at the CodeMesh-London event, available at
https://www.infoq.com/presentations/spark-cassandra, visited in 18-October-2016.
Maleshkova, M. et al. (2010). Investigating web apis on the world wide web. In Web
Services (ECOWS), 2010 IEEE 8th European Conference on, pages 107–114.
Moniruzzaman, A. and Hossain, S. A. (2013). Nosql database: New era of databases
for big data analytics-classification, characteristics and comparison. arXiv preprint
arXiv:1307.0191.
Nielsen, J. (1994). Usability inspection methods. In Conference companion on Human
factors in computing systems, pages 413–414. ACM.
Nielsen, J. (2000). Why you only need to test with 5 users. [Online; visited 23-October-
2016].
Plekhanova, J. (2009). Evaluating web development frameworks: Django, ruby on rails
and cakephp. Institute for Business and Information Technology.
Rubin, J. and Chisnell, D. (2008). Handbook of usability testing: how to plan, design and
conduct effective tests. John Wiley & Sons.
Sagiroglu, S. and Sinanc, D. (2013). Big data: A review. In Collaboration Technologies
and Systems (CTS), 2013 International Conference on, pages 42–47. IEEE.
Sorjonen, S. (2012). Olap query performance in column oriented databases.
Tang, D. et al. (2004). Design choices when architecting visualizations. Information
Visualization, 3(2):65–79.
Turner, T. (2002). What is metadata. Kaleidoscope, 10(7):1–3.
Vaz, J. C. et al. (2010). Dados governamentais abertos e seus impactos sobre os conceitos
e práticas de transparência no brasil. Cadernos ppg-au/ufba, 9(1).
Viegas, F. B. et al. (2007). Manyeyes: A site for visualization at internet scale. IEEE
Transactions on Visualization and Computer Graphics, 13(6):1121–1128.
1443
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A Educação à Distância (EAD) ganha cada dia mais força e difere-se das metodologias
tradicionais de ensino, com o aprendizado baseado no autodidatismo e na
1444
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1445
XXXVII Congresso da Sociedade Brasileira de Computação
(feedback) positivo, ele sente-se motivado a também dar retornos sobre as ações dos
outros usuários, expandindo dessa forma a interação e a colaboração dentro dos AVAs,
essenciais ao ensino à distância. Nesse projeto, separamos as técnicas estudadas em
duas categorias: técnicas baseadas em recompensas (gamificação) e técnicas baseadas
em reconhecimento.
Esse projeto toma como estudo de caso o AVA Moodle, modificado para
atender ao curso técnico semipresencial de Tecnologia da Informação do Instituto
Metrópole Digital (IMD) da UFRN. Esse ambiente já oferece alguns mecanismos de
interação, como fóruns e chats, que podem ser utilizados para a colaboração entre os
estudantes e entre eles e tutores. O escopo da nossa pesquisa está limitado à colaboração
nos Fóruns do Moodle IMD, os quais possuem baixa utilização como observamos em
pesquisa realizada com seus usuários.
Neste artigo, apresentamos resultados de um estudo feito com as técnicas de
motivação que foram implementadas no Moodle IMD com o objetivo de verificar o
aumento da participação e da colaboração nos fóruns. A seção 2 apresenta alguns
trabalhos relacionados que implementaram técnicas semelhantes. A seção 3 introduz os
fundamentos teóricos e a seção 4 descreve como as técnicas foram definidas e
implementadas no Moodle IMD. As seções 5 e 6 descrevem a metodologia e os
resultados do estudo. As conclusões estão na seção 7.
2. Trabalhos relacionados
Diversos projetos vêm sendo desenvolvidos tomando o AVA Moodle como estudo de
caso. Esses projetos visam aplicar principalmente mecanismos de gamificação ao
ambiente virtual, com o objetivo de motivar os usuários a colaborarem e a se engajarem
nas atividades do sistema.
Um desses projetos estudou sobre a possibilidade de aplicação de badges
(medalhas) ao Moodle, entretanto o estudo não foi realizado diretamente com os
usuários do Moodle, e sim através do autor, que assumiu os diferentes papéis de usuário
[Alves 2013]. Outro estudo propõe a implementação de um bloco gamificado, com
rankings, níveis e barras de progresso, com o objetivo de motivar a resolução de
problemas e encorajar a aprendizagem pelos alunos [Roque 2013]. Entretanto, não é
explicitado como ou se é realizada a implantação desse bloco ou mesmo os resultados
dessa aplicação obtidos junto aos alunos. Verificamos a mesma situação em um terceiro
projeto que propõe uma interface gamificada, com o objetivo de engajar mais os
usuários no sistema, estimulando-os no processo de educação à distância [Faleiros
2015]. Mas também não vemos a aplicação dessa interface e seus resultados.
Ao analisarmos esses trabalhos verificamos diversas propostas de aplicação de
elementos da gamificação ao ambiente Moodle, mas em nenhum dos projetos estudados
vimos o processo de implantação ou os resultados obtidos com ela.
Tomando como base as propostas acima e as técnicas de motivação estudadas da
literatura, vimos diversas possibilidades de ampliação da interação e colaboração dos
alunos do Moodle aqui estudado. Com isso definimos, junto aos responsáveis pelo
ambiente virtual e pelos cursos técnicos oferecidos, alguns elementos referentes a essas
1446
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
3. Técnicas de motivação
Através de uma pesquisa literária, identificamos a existência de diversas técnicas que
estimulam a interação e a colaboração entre indivíduos dentro de um sistema
computacional. Fizemos a separação dessas técnicas em duas: técnicas baseadas em
recompensas, que referem-se ao uso de elementos da gamificação; e técnicas baseadas
em reconhecimento, em que o usuário recebe feedbacks de outros usuários sobre suas
ações no sistema.
Para esse tipo de usuário, as técnicas utilizadas devem ser de caráter social,
possibilitando que outros usuários consigam dar feedbacks sobre suas ações, como por
exemplo, a possibilidade de deixar comentários e “gostar” de alguma ação realizada.
Esses são exemplos de duas técnicas de reconhecimento.
Esses botões de reações podem ter mesma finalidade dos comentários, que é
oferecer um feedback ao usuário, sendo uma maneira mais rápida de fazer isso, pois nos
1447
XXXVII Congresso da Sociedade Brasileira de Computação
comentários ainda toma-se tempo para escrever algo, mas com os botões de reações já
existe uma grade de opções simples que representam a opinião dos usuários, que podem
apenas clicar na opção que se relaciona a sua opinião.
1448
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Figura 2a. Interface dos fóruns (tópico e comentário) antes da implantação dos
botões.
1449
XXXVII Congresso da Sociedade Brasileira de Computação
Figura 2b. Interface dos fóruns (tópico e comentário) após a implantação dos
botões.
Dois meses após a implantação desses botões aos fóruns, foi adicionado o
ranking. A contabilização dos pontos para elaborar o ranking foi feita através das
reações, em que para cada reação recebida em uma publicação, o autor desta ganha 1
ponto, podendo ser positivo ou negativo, dependendo da reação. As reações Gostei,
Obrigado, Relevante e Top geram pontos positivos, enquanto que Não entendi e
Inadequado, geram pontos negativos.
1450
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
exemplo, publicar tópicos, fazer comentários, dar feedback através dos botões, etc.
Elas também serão divididas em três categorias: bronze, prata e ouro, e em 5 cinco
subcategorias, dependendo da tarefa a ser recompensada. O sistema de pontos será
semelhante ao de medalhas, pois os pontos serão dados pela realização de tarefas
pré-definidas dentro do sistema e, dependendo da tarefa, esses pontos serão
positivos ou negativos. Na Figura 4, apresentamos um protótipo de tela mostrando
o perfil do usuário e as medalhas conquistadas por ele.
5. Metodologia do estudo
Para avaliar os efeitos das técnicas introduzidas – botões de reação e ranking –
buscamos identificar, inicialmente através da coleta e análise de dados, se houve
alteração na participação dos alunos após a implantação dos botões de reação aos
tópicos e comentários dos principais fóruns do Moodle. Avaliamos também o impacto
do ranking indicando a posição de todos os alunos dentro do ambiente virtual.
Para isso, realizamos a coleta dos dados sobre os logs (acesso dos alunos) do
Moodle IMD. O log informa todos os passos dados pelos alunos dentro do ambiente
virtual Moodle, bem como os tipos de ações realizadas por eles.
Para verificarmos o nível de colaboração dos alunos, definimos que em nosso
estudo a colaboração seria medida pela interação e participação dos alunos nos fóruns e
ambiente virtual. Com isso, analisamos a interação e participação como sendo o acesso
dos usuários ao Moodle e fóruns desse ambiente; as publicações de tópicos; os
comentários feitos nos tópicos; as visualizações dos tópicos; e as reações posteriormente
realizadas nesses tópicos.
Após definirmos o que analisar, iniciamos a coleta dos dados. Esses dados foram
obtidos pelos logs dos alunos do Módulo Intermediário nos semestres 2015.2 e 2016.2.
O Módulo Intermediário é o segundo de três semestres que compõem os cursos
técnicos. Dessa forma, conseguimos verificar um período de aulas completo, visto que a
cada semestre os alunos mudam de turma e de módulo.
No semestre de 2015.2, as turmas do Módulo Intermediário totalizavam 758
1451
XXXVII Congresso da Sociedade Brasileira de Computação
6. Análise e Resultados
A análise do semestre 2015.2 teve como objetivo a verificação dos padrões encontrados
nas ações dos alunos dentro do sistema. Já a análise de 2016.2 englobou três estágios
distintos, o primeiro mês sem as reações, o segundo e terceiro mês já com o uso das
reações e os últimos meses com o uso do ranking. Com a análise desse semestre,
buscamos verificar os mesmos dados já analisados no ano anterior, para verificar se
houve ou não aumento da interação entre os alunos após a implantação das técnicas. E
também realizamos algumas análises específicas sobre o uso das reações.
As análises foram feitas em cima dos fóruns das disciplinas. Cada disciplina
possui no mínimo dois fóruns, sendo o Mural de Notícias e o Laboratório de Ideias.
Entretanto, se desejar, o tutor pode criar outros fóruns. As disciplinas que escolhemos
analisar inicialmente, possuem apenas esses dois fóruns, mas os alunos utilizam apenas
o Laboratório de Ideias. Dessa forma, os resultados apresentados abaixo referem-se
apenas ao fórum Laboratório de Ideias de cada disciplina.
Com a investigação sobre o número de acessos, pudemos verificar alguns
padrões, por exemplo, em quais dias o ambiente virtual é mais acessado; quais os fóruns
mais acessados e em quais dias. Esses dados são importantes para a pesquisa, pois com
eles podemos levantar algumas hipóteses sobre o uso do ambiente pelos alunos. Nos
gráficos 1 e 2 abaixo apresentamos o acesso de duas disciplinas disponibilizadas entre
julho e setembro no semestre de 2015.2, sem os botões e no semestre 2016.2, após a
implantação dos botões.
1452
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1453
XXXVII Congresso da Sociedade Brasileira de Computação
realizadas por alunos distintos, ou se apenas um grupo participa, entre outras análises.
Os gráficos 5 e 6 representam o número de publicações em algumas disciplinas antes e
depois da implantação dos botões. Os gráficos 7 e 8 mostram o número de publicações
antes e após a adição do Ranking.
1454
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Pela análise dos resultados, com alguns sendo apresentados nos gráficos 5, 6, 7 e
8, verificamos que também não há aumento significativo no número de publicação de
tópicos nos fóruns após a adição dos botões e do ranking. Podemos ver que o número de
publicações se manteve baixo (entre 1 e 3), mas com alguns picos que não estão
relacionados aos elementos adicionados.
Uma das análises mais importantes foi do número de comentários. Na etapa de
observação verificamos que os alunos costumavam fazer comentários irrelevantes ao
conteúdo publicado e a disciplina, por exemplo, abrindo tópicos com “Bom dia, boa
tarde, etc”, escrevendo comentários apenas com “valeu, obrigado, top”. Então
esperávamos que, com a adição dos botões de reação, o número de comentários nos
tópicos diminuísse, pois esses comentários irrelevantes seriam substituídos pelos botões.
Nos gráficos 9 e 10 abaixo apresentamos o comparativo do número de comentários
antes e depois da introdução dos botões de reações.
1455
XXXVII Congresso da Sociedade Brasileira de Computação
7. Discussão e Conclusão
Neste artigo mostramos que no contexto de estudos voltados para o estímulo à
colaboração e a interação de usuários em sistemas colaborativos, alguns projetos tem
como objetivo o uso de mecanismos para motivação de usuários em sistemas no
domínio da EAD, como o Moodle.
Neste projeto, em particular, nosso objetivo foi investigar a aplicação de técnicas
de motivação que poderiam ser utilizadas para aumentar a interação e a colaboração
entre usuários de um sistema. Tomamos então como estudo de caso o Moodle IMD,
utilizado pelos cursos técnicos do Instituto Metrópole Digital, da UFRN, e realizamos
estudos focados nesse domínio.
Nosso projeto aplicou Técnicas baseadas em reconhecimento e Técnicas
baseadas em Recompensas com o objetivo de verificar o aumento da colaboração entre
os estudantes. As técnicas baseadas em reconhecimento utilizadas foram os comentários
e os botões de reações. Também definimos um sistema de pontos, medalhas e rankings,
que são elementos de recompensa. Nesta pesquisa, apenas parte do sistema de pontos e
um ranking foi adicionado.
1456
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Nosso estudo mostrou que a aplicação das técnicas não resultou em uma maior
interatividade dos alunos usuários do Moodle. Vimos que, mesmo com a adição dos
botões e do ranking, não houve aumento de publicações e acessos aos fóruns e nem a
diminuição de comentários. Apenas as reações estão sendo bastante utilizadas.
Esperava-se um aumento expressivo do uso do sistema tal como ocorre com o interesse
dos estudantes pelas redes sociais que já havia sido detectado em um estudo anterior.
Entretanto, não conseguimos um resultado que confirmasse essas expectativas. Ao
mesmo tempo, não podemos afirmar que é um resultado negativo.
Sabemos que esses elementos são considerados fatores motivacionais, mas a
aplicação deles deve sempre estar de acordo com os objetivos do sistema,
principalmente quando falamos de fóruns e dos botões de reações. Esses elementos
devem estar especialmente relacionados ao domínio do sistema. Além disso, cada um
oferece vantagens e desvantagens quanto a sua utilização e, deve-se escolher qual
melhor se aplicaria ao seu sistema, podendo-se utilizar apenas um, ou o conjunto.
O que podemos interpretar dos resultados é:
• Um AVA como o Sistema Moodle não é uma rede social e não se pode afirmar
que o que funciona nas redes terá o mesmo efeito num sistema de EAD.
• Os elementos de gamificação (ranking e pontuação) que introduzimos não
surtiram o efeito desejado neste estudo inicial. Vamos continuar os resultados e
realizar alterações, além de introduzir medalhas. Dentre as alterações futuras
espera-se associar a pontuação não apenas com a participação social, mas com
aspectos relacionados à aprendizagem.
• A introdução das técnicas escolhidas não fizeram alterações significativas no
design de interação do Moodle que já existia. Por exemplo, não foram alteradas
as salas e os fóruns. Precisamos considerar que as técnicas poderiam ser melhor
aplicadas com alguns ajustes nos fóruns existentes e outras mudanças na
interface.
O importante do nosso estudo é desmitificar fatos de que técnicas como a
gamificação ou mesmo a aplicações dos botões que deram certo no Facebook são
soluções imediatas. Nossa conclusão é que qualquer técnica com este propósito precisa
ser estudada e usada de forma apropriada.
O próximo passo dessa pesquisa é a implantação do sistema de pontos mais
completo e do sistema de medalhas. Esperamos que os resultados obtidos com essas
novas técnicas sejam positivos e que resultem num aumento de colaboração entre os
alunos.
8. Referências
Alves, F. P..; Maciel, C. M.; Alonso, K. M. (2013). “A utilização de badges no
ambiente virtual de aprendizagem Moodle”. Em: Seminário Nacional de Inclusão
Digital, 2014, Passo Fundo - RS. Anais do III Seminário Nacional de Inclusão
Digital. Passo Fundo - RS: Ed. Universidade de Passo Fundo, 2014.
Deterding, S.; Dixon, D.; Khaled, R; Nacke, L. (2011). “From game design elements to
1457
XXXVII Congresso da Sociedade Brasileira de Computação
1458
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Abstract. The aim of this paper is to present the evolution in the process of
creating rules in an online education environment for the emergence of a
collective intelligence. In this paper, I present the evolution of the rules in an
online environment. The initial research’s objective was to get the engagement
from the gamification, which was very efficient. This research was divided in
three cycles and, at the end of each cycle, the evaluation of the rules allowed
its evolution. This research used the epistemological paradigm Design Science
Research (DSR), a way of doing science that has as one of its products an
artifact, in this case, the rules (a model) and its application (an instantiation).
1. Introdução
Comunidades online têm participação desigual, cada participante tem seu próprio perfil
de interação com o grupo. Nielsen (2006) apresenta uma regra que se aplica à maioria
das comunidades online; na pesquisa, esse autor divide os participantes em três grupos:
os participantes extremos que representam 1%, os participantes eventuais que
representam 9% e os 90% restante são classificados como meros observadores, como
pode ser observado na Figura 1.
1459
XXXVII Congresso da Sociedade Brasileira de Computação
Nielsen conclui, em sua pesquisa, que todas as comunidades online têm esses
três perfis de participantes, mas as proporções da pirâmide podem ser alteradas; por
exemplo, a wikipedia americana obedece à regra 99,8-0,2-0,003, ou seja, enquanto
99,8% dos participantes são meros observadores, apenas 0,003% contribuem
efetivamente na plataforma (Nielsen, 2006).
Nas comunidades educacionais online a participação desigual também ocorre e,
por este motivo, o foco de nosso grupo de pesquisa é encorajar a interação dos alunos
observadores, pois, apenas desta forma, contribuirão para a formação dos seus pares e
também para sua própria formação (Silva et. al, 2016).
Lampe e colaboradores (2010), ao falarem sobre a motivação de um participante
em continuar contribuindo com a comunidade online, afirmam que o motivo que leva
uma pessoa a participar de um grupo virtual pode ser diferente do motivo que a levou a
entrar nessa comunidade, dessa forma, a discussão dos autores está nas formas de como
manter essas pessoas motivadas e engajadas na participação.
A gamificação surge, então, como uma possibilidade de aumentar o engajamento
dos participantes, um requisito essencial para a continuidade de uma comunidade online
(Classe e Araujo, 2015).
Ao utilizar os elementos universalmente encontrados em jogos, a gamificação
pretende alcançar envolvimento, motivação e engajamento dos participantes (Fardo,
2013), com isso, podemos gerar nos integrantes da comunidade online o mesmo
sentimento que teriam ao participar efetivamente de um jogo.
Esta pesquisa não propõe o desenvolvimento de um sistema de inteligência
coletiva, mas a utilização dos princípios de colaboração para gerar regras de
gamificação mais robustas para aplicação em um ambiente online e, enfim, emergir uma
inteligência coletiva
As Seções seguintes apresentam os subsídios necessários para que pudéssemos
realizar esta pesquisa. A Seção 2 apresenta um referencial teórico com os conceitos de
gamificação e inteligência coletiva. Na Seção 3 apresentamos a Desing Science
1460
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Referencial Teórico
Esta pesquisa utilizou-se dos dois conceitos apresentados na introdução deste artigo, a
Inteligência Coletiva e a Gamificação. Esses conceitos serão apresentados nas Seções
seguintes.
1
Em pesquisa realizada no Google Acadêmico em 26/03/2017, essa obra possui 3.801 citações em sua
versão em português, 2.256 em sua versão em inglês e 1.464 citações na versão em francês.
2
https://www.waze.com/pt-BR
1461
XXXVII Congresso da Sociedade Brasileira de Computação
2.2. Gamificação
O termo gamificação foi utilizado pela primeira vez em 2008 e, desde então, diversos
autores tentaram cunhar uma definição para o termo. A mais popular está no trabalho de
Deterding e colaboradores (2011)3 que definem a gamificação como “o uso de
elementos de game design em contextos de não-jogo”.
Outra definição bastante popular é a de Zichermann e Cunningham (2011)4 que
afirmam que gamificação é o “processo de game-thinking5 e mecânicas de jogos para
engajar usuários e resolver problemas”.
Nessa pesquisa a definição utilizada é a de Deterding e colaboradores (2011),
pois entendemos que é mais abrangente e que não está limitada às mecânicas de jogo
para definir um ambiente gamificado.
Em diversas outras definições de gamificação um termo que sempre está
presente é “engajamento”, esta é uma palavra-chave quando pensamos em gamificação e
essa ideia de manter os usuários engajados vem dos jogos, pois costumamos classificar
os melhores jogos como os mais “viciantes”, mais envolventes e que costumam
consumir muitas horas de seus jogadores. Para conseguirmos este engajamento
voluntário, devemos ter regras bem elaboradas, um sistema eficaz de feedback e metas
bem definidas (Busarello et al., 2014).
Além do engajamento, outra palavra-chave na gamificação é a “recompensa”,
pois cativa o participante. Isso é muito comum em programas de fidelidade de diversas
empresa, pois mantém usuários consumidores frequentes. Entretanto, oferecer “prêmios
em dinheiro ou ‘do mundo real’ tendem a atrair o tipo errado de audiência”, portanto
uma boa estratégia é que os usuários possam “consumir” seus ganhos dentro do próprio
ambiente (Santos Jr, 2014).
Um exemplo bem-sucedido de gamificação é o foursquare6, uma aplicação para
smartphones que, entre outras funções, implementa a busca e recomendação de lugares,
além de publicar dicas e avaliações de locais. Inicialmente o foursquare tinha como sua
principal funcionalidade os “check-ins” e ao utilizar esta função o usuário ganhava
pontos e poderia alcançar alguns badges, um objetivo de muitos usuários era se tornar o
“prefeito” do local. Atualmente essa última funcionalidade pertence ao aplicativo
swarm, também do grupo foursquare.
A abordagem PBL (Points, Badges and Leaderboard) é a mais comum ao se
implementar um ambiente gamificado, Werbach e Hunter (2012) a chamam de “PBL
Triad”. Embora muito popular, esta abordagem apresenta diversas limitações. Os pontos
motivam a contribuição, as ações no ambiente possuem, normalmente, uma pontuação
associada e a execução de tarefas gera pontos aos participantes. Os badges de conquista
mostram a evolução do participante, podem ser considerados uma versão mais elaborada
dos pontos, uma associação dos badges com os jogos seria a “mudança de nível”. O
3
Em pesquisa realizada no Google Acadêmico em 26/03/2017, essa obra possui 2.774 citações.
4
Em pesquisa realizada no Google Acadêmico em 26/03/2017, essa obra possui 1.265 citações.
5
Uso da abordagem de jogos para resolver problemas e criar melhores experiências (Marczewski, 2015)
6
https://pt.foursquare.com/
1462
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
7
Embora alguns autores prefiram traduzir o termo Design Science Research, nesse artigo, manterei os
termos em inglês para evitar qualquer problema decorrente de discordância na tradução.
1463
XXXVII Congresso da Sociedade Brasileira de Computação
4. Ciclos de Pesquisa
A execução desta pesquisa ocorreu em três ciclos. Entre um ciclo e outro as conjecturas
teóricas foram revisitadas para ajustes e os artefatos foram alterados para contemplar os
resultados da avaliação ocorrida no ciclo anterior.
Os ciclos descritos nas Seções seguintes apresentam a evolução da pesquisa e
seguirão a metodologia apresentada resumidamente na Seção 3.
1464
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1465
XXXVII Congresso da Sociedade Brasileira de Computação
1466
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
8
http://www.techtudo.com.br/noticias/noticia/2015/10/facebook-tera-botoes-de-reacao-alem-do-conheca-
os-seis-emojis.html
9
Os participantes desta seção de bate-papo responderam a um Termo de Consentimento Livre e
Esclarecido e autorizaram a divulgação de suas imagens de perfil, bem como seus nomes reais, permitindo
assim também a garantia de expressão da autoria de suas mensagens.
1467
XXXVII Congresso da Sociedade Brasileira de Computação
Outra contribuição explícita foi o uso das reações, que parece promissor, mas
que carece de novos estudos para percebermos o uso dos participantes.
5. Achados
No primeiro ciclo da pesquisa, o achado foi a confirmação da nossa conjectura teórica,
que a gamificação promove o engajamento dos participantes. Nessa mesma iteração,
também descobrimos que as regras da gamificação precisam ser colaborativas para não
gerar apenas o sentimento de competição entre os participantes. Os aproveitadores
foram o grande problema nesse momento da pesquisa.
O segundo ciclo confirmou o achado do primeiro sobre o engajamento
proporcionado pela gamificação. O surgimento da inteligência coletiva não foi como
esperávamos, não conseguimos inferir com precisão as mensagens relevantes para a
discussão no grupo. Mensagens de cunho social dificultaram a identificação das
mensagens relacionadas à disciplina.
No último ciclo descobrimos que faz sentido um bate-papo com reações. No
grupo focal realizado após a sessão de avaliação do sistema de bate-papo, os
participantes confirmaram nossa conjectura teórica. Influenciados pelos sistemas de
redes sociais e mensageiros mais populares, a comunicação não-textual passou a fazer
parte do nosso cotidiano.
Fato interessante sobre esse achado é que desde o dia 23/03/2017 o Facebook
passou a permitir reações em seu sistema de bate-papo, o Messenger10 (Figura 6).
10
https://techcrunch.com/2017/03/23/facebook-messenger-reactions/ (acesso em 28/03/2017)
11
http://www.techtudo.com.br/noticias/noticia/2017/03/reacoes-no-facebook-agora-sao-mais-importantes-
do-que-curtidas.html
1468
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
6. Conclusão
Este artigo apresentou a evolução de uma proposta de gamificação de uma comunidade
online. Inicialmente no grupo do Facebook em uma turma presencial foi possível
perceber o aumento da participação; entretanto os aproveitadores levaram a
comunicação a um estado caótico com postagens sem sentido, comentários e curtidas
em mensagens antigas, além de outros problemas comuns em comunidades online.
A evolução das regras e da forma apresentação para o acompanhamento dos
participantes no segundo ciclo manteve a participação alta e evitou os aproveitadores.
Nesse ciclo observamos o uso da plataforma, ainda que dentro de um grupo educacional,
com cunho social, isso foi um problema para a identificação das mensagens relevantes
no contexto do grupo.
O desenvolvimento de um sistema de bate-papo com reações tentou desvencilhar
o social do acadêmico. Com o participante informando explicitamente quais são, na sua
visão, as mensagens relevantes para a discussão.
As reações devem ser estudadas em trabalhos futuros, pois apresentaram boa
receptividade pelos participantes da sessão de bate-papo. Devem ser observadas
sugestões de novas reações ou até mesmo a implementação de reações mutuamente
excludentes.
Referências
Bartle, R. A. (1996) Heart, Clubs, Diamond, Spades: players who suit muds. Disponível
em <http://www.mud.co.uk/richard/hcds.htm>. Acessado em 28/03/2017.
Bell, G. (2009) Building Social Web Applications. 1st Edition. Sebastopol, CA:
O’Reilly Media, Inc. 2009.
Busarello, R. I., Ulbricht, V. R., Fadel, L. M. (2014) A gamificação e a sistemática de
jogo: conceitos sobre a gamificação como recurso motivacional. In Gamificação na
Educação, Fadel, L. M., Ulbricht, V. R., Batista, C. R., Vanzin, T., organizadores.
São Paulo: Pimenta Cultural, 2014. 300p.
Classe, T. M., Araujo, R. M. (2015) “Gamificação Para Participação Social Em
Processos Públicos: Mapeamento Sistemático” In: Simpósio Brasileiro de Sistemas
Colaborativos, páginas 130-137. Salvador. Bahia.
Deterding, S., Dixon, D., Khaled, R. et al., (2011) From Game Design Elements to
Gamefulness: Defining “Gamification”. In MindTrek’11, Tampere, Finland, 2011
Diplaris S., Kompatsiaris I., Flores A., et al. (2010) Collective Intelligence in Mobile
Consumer Social Applications In 2010 Ninth International Conference on Mobile
Business / 2010 Ninth Global Mobility Roundtable
Dresch, A., Lacerda, D. P., Antunes Jr, J, A. V. (2015) Design Science research: método
de pesquisa para avanço da ciência e tecnologia. Porto Alegre, Bookman.
Fardo, M. L., (2013) A Gamificação Aplicada em Ambientes de Aprendizagem. In
Novas Tecnologias na Educação V. 11, Nº 1, julho de 2013.
1469
XXXVII Congresso da Sociedade Brasileira de Computação
1470
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Abstract. New applications are developed day by day with the aim of helping
children with autism in their therapies. In order to contribute to the increase
of the production of these applications, this article presents a tool as a
collaborative repository to guide developers of this type of application,
following the good practices referring to interfaces for autistic users. This tool
follows the Collaboration Model 3C, highlighting the value of the elements in
their aspects and characteristics of communication, coordination and
cooperation, so that they are complementary and make collaboration more
and more effective.
1. Introdução
O Autismo, também conhecido como Transtornos do Espectro Autista (TEA), é um
transtorno que causa problemas no desenvolvimento da comunicação, socialização e
comportamento [American Psychiatric Association 2013]. Esse transtorno atinge tanto
crianças como adultos que apresentam o diagnóstico tardio, ao redor do mundo.
De acordo com as áreas do desenvolvimento humano afetadas, é possível
destacar os principais fatores que definem os sintomas, tais como, dificuldades de
1471
XXXVII Congresso da Sociedade Brasileira de Computação
1472
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
que diz respeito a atuação dos elementos de colaboração. Por fim, na Seção 5, os
resultados são analisados e as considerações finais e trabalhos futuros são apresentados.
1473
XXXVII Congresso da Sociedade Brasileira de Computação
Para fins de análise, os elementos serão explorados de maneira isolada para focar
nos seus aspectos individuais, mesmo que estejam associados para a geração da
colaboração. Por essa razão, este isolamento ocorre apenas para a melhor compreensão
sobre como ocorre a aplicação de cada componente nos sistemas colaborativos.
Comunicação é a ação de transmitir e receber mensagens, para que haja o
entendimento comum entre as partes envolvidas (comum-ação), com trocas de ideias e
negociações para a tomada de decisão e realização dos compromissos propostos, neste
caso, na ocorrência da cooperação [Fuks et al. 2011]. Este processo de transmissão se
realiza de maneira síncrona ou assíncrona, diferenciando-se conforme o tempo de
resposta entre as partes.
Existem ferramentas que apoiam os dois modos de comunicação, de forma
complementar ou independente. Algumas ferramentas possibilitam o envio e
recebimento instantâneo de mensagens, de maneira que os envolvidos permaneçam em
um estado de sincronia, tendo como exemplo as videoconferências. Enquanto que a
outra classe de ferramentas, oferece suporte para fluxos de mensagens assíncronas, que
não necessitam de um tempo de resposta imediato, como o e-mail, por exemplo. Os
fóruns também são considerados ferramentas assíncronas, mesmo que seja um
transmissor se comunicando com vários receptores.
Coordenação é o elemento que orienta e organiza para o atendimento dos
compromissos gerados pela demanda do elemento de comunicação. De forma pontual,
são definidos objetivos e restrições que determinarão quando as tarefas serão realizadas,
na ordem e no tempo previstos. Portanto, é a ação de ordenar em conjunto: pessoas,
tarefas e recursos (co-ordem-ação) [Fuks et al. 2011]. Além de oferecer suporte aos
demais elementos, evitando conflitos em detrimento de falhas na comunicação e
cooperação, mantendo-os alinhados às suas responsabilidades.
Essa dimensão fornece um tipo de política de acesso e um conjunto de regras
para manter a ordem no ambiente compartilhado. Em geral, assemelha-se a estrutura
lógica de uma plataforma. Utilizando o exemplo de uma típica sala de bate-papo,
constitui-se num suporte à coordenação a exibição da lista de participantes, indicando os
que estão conectados e disponíveis para a conversação [Pimentel et al. 2006]. Por isso,
sem coordenação os esforços da comunicação e cooperação estariam comprometidos.
Cooperação é a produção conjunta das partes envolvidas, com a finalidade de
que as mesmas trabalhem juntas para realizar as atividades. Isto posto, é a ação de
operar em conjunto no espaço compartilhado (co-operar-ação) [Fuks et al. 2011]. Ao
executarem as tarefas, no ambiente proposto e com objetivos definidos, os interessados
responsabilizam-se por transformar, produzindo ou modificando de maneira
compartilhada.
As atividades executadas durante o processo desse elemento, estabelecem a
necessidade de comunicação e, de forma encadeada, demandam coordenação para
orientar e guiar na realização das novas tarefas. Um exemplo disso, é o registro e
compartilhamento como funcionalidades de uma ferramenta, tal qual o chat, a área que
disponibiliza o registro das mensagens publicadas se constitui num suporte à cooperação
[Pimentel et al. 2006].
1474
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1475
XXXVII Congresso da Sociedade Brasileira de Computação
1476
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
3. Guidelines ProAut
O Guidelines ProAut é uma plataforma em formato de repositório para dar suporte as
fases do desenvolvimento de interfaces direcionadas para usuários autistas utilizando o
ProAut proposto por Melo, Barreto e Conte (2016). A ferramenta permite que os
usuários inseriram suas recomendações com a finalidade de ganhar visibilidade e
consistência, sobre as experiências obtidas durante as fases do ProAut, ou ainda, sobre
as fontes de estudos publicadas em anais, revistas ou sites especializados. A seguir serão
descritas a arquitetura do repositório e as suas funcionalidades.
3.1. Arquitetura da ferramenta
O repositório foi desenvolvido utilizando a linguagem de programação PHP juntamente
com o framework Laravel, por apresentar uma documentação expressiva e rica em
componentes, possibilitando o desenvolvimento ágil de todas as funcionalidades do
projeto [Laravel 2017]. O projeto foi criado com base no padrão de desenvolvimento
MVC (Model-View-Controller), sabendo que o Laravel possui esse padrão nativo e o
mantém atualizado para fornecer a melhor experiência de desenvolvimento em sua
utilização.
O MVC é um padrão arquitetural que divide a aplicação em três camadas:
modelo, visão e controlador, respectivamente representado pelo gerenciamento dos
dados, pela estrutura visual e pelo controle que interpreta e mapeia as ações do usuário.
Desse modo, na camada de visão, foi utilizado o framework Bootstrap que torna ágil a
construção de layouts para web, por meio das linguagens HTML, CSS e Javascript, e
1477
XXXVII Congresso da Sociedade Brasileira de Computação
1478
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1479
XXXVII Congresso da Sociedade Brasileira de Computação
1480
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1481
XXXVII Congresso da Sociedade Brasileira de Computação
1482
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1483
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
American Psychiatric Association. (2013). “DSM-5th: Diagnostic and Statistical
Manual of Mental Disorders”. 5th ed. American Psychiatric Press
Alessandrini, A., Cappelletti, A., and Zancanaro, M. (2014). “Audio-augmented paper
for therapy and educational intervention for children with autistic spectrum disorder.”
In International Journal of Human-Computer Studies, 72(4), 422-430
Bittar, T. J.; Amaral, L. A.; Lobato, L. L. and Fortes, R. P. M. (2011).
“AccessibiltyUtil.com: uma ferramenta para colaboração de experiências de
acessibilidade na web”. In Webmedia 2011 – Proceedings of the 17th Brazilian
Symposium on Multimedia and the Web. X Workshop on Tools and Applications.
Britto, T. C. P. and Pizzolato, E. B. (2016) “GAIA: uma proposta de um guia de
recomendações de acessibilidade de interfaces Web com foco em aspectos do
Autismo”. In Anais do XXVII Simpósio Brasileiro de Sistemas Colaborativos.
Bootstrap - The world's most popular mobile-first and responsive front-end framework.
Disponível em: http://getbootstrap.com/. Acesso em: 28 de Fevereiro de 2017
Fuks, H.; Raposo, A.; Gerosa, M. A.; Pimentel, M.; Filippo, D. and Lucena, C. J. P.
(2011) “Teorias e Modelos de Colaboração” In Pimentel, M. and Fuks, H. (Org.).
Sistemas Colaborativos. Rio de Janeiro: Elsevier. cap. 2, p. 16-33.
Furtado, A., and Andrade, N. (2011) “Ativistas, passageiros, ocasionais e especialistas:
Perfis de usuário na construção de um site de Q&A”. In Anais do VIII Simpósio
Brasileiro de Sistemas Colaborativos.
1484
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1485
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Com o intuito de manter os usuários engajados na utilização continua de softwares
sociais, projetistas e pesquisadores (e.g., Barbosa e outros (2013) e Tomagnini e outros
(2016)) têm investigado a aplicabilidade da adoção de estratégias de qualidade de uso
(e.g., colaboração e sociabilidade) nos modelos de interface e interação desse tipo de
sistema. Nessa direção, uma linha de investigação que começa a ser explorada refere-se
à incorporação e avaliação de afetibilidade em sistemas, com a finalidade de promover
aspectos afetivos a partir da interação [Hayashi et al. 2013][Hayashi et al. 2015].
Porém, apesar dos esforços mencionados, alguns aspectos que caracterizam as
necessidades e preferencias de determinados grupos de usuários, como a identidade de
gênero e orientação sexual, nem sempre são suficientemente contemplados nos modelos
de interface e interação dos sistemas [Pereira e Baranauskas, 2015].
A negligência desses aspectos traz impactos negativos na experiência dos
usuários (i.e., comprometem a afetibilidade). Essa afirmação é justificada pelo trabalho
realizado por Pereira e Baranauskas (2015), que demonstrou como decisões de design
dos softwares sociais têm influenciado na reprodução de opressões baseadas na
sexualidade dos indivíduos. Esse trabalho traz à tona a discussão sobre as consequências
negativas que a opressão de gênero pode gerar (e.g., baixa afetibilidade para os usuários
que se sentem oprimidos) durante a interação mediada por esse tipo de sistema [Hayashi
et al. 2013][Pereira e Baranauskas, 2015][Hayashi et al. 2015].
Um grupo suscetível à opressão de gênero é o público formado por pessoas
Lésbicas, Gays, Bissexuais e Trans (LGBT), por não se enquadrar nas definições da
sociedade em relação à orientação sexual e identidade de gênero [Butler,1999][Pereira e
Baranauskas, 2015]. Para exemplificar uma ocorrência de opressão de gênero por meio
1486
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Trabalhos Relacionados
Na literatura, existem diferentes trabalhos que abordam tanto a afetibilidade no contexto
de interface e interação em sistemas, quanto a opressão de gênero no mesmo contexto.
A afetibilidade como qualidade de uso foi apresentada por Hayashi e outros (2013), que
propuseram os Princípios de Afetibilidade como diretrizes para auxiliar projetistas no
design e redesign de sistemas voltados para a prática educacional, de forma a incorporar
conceitos de afeto e emoção nesse processo.
Fora do âmbito educacional, o trabalho de Hayashi e outros (2015) demonstrou a
aplicabilidade dos Princípios de Afetibilidade na construção de aplicativos móveis, a
partir do design participativo. Foram desenvolvidos protótipos de sistemas que
demonstraram o entendimento dos participantes em relação ao conceito de afeto, além
da aplicação dos princípios na elaboração de interfaces.
1487
XXXVII Congresso da Sociedade Brasileira de Computação
3. Metodologia
Considerando o objetivo deste trabalho, as seguintes questões de pesquisa foram
investigadas: “O grau de afetibilidade do Facebook reflete em possíveis casos de
opressão para usuários LGBTs?” e “É possível utilizar os princípios de afetibilidade
para avaliar a opressão?”. A metodologia adotada para responder essas questões
consistiu em uma abordagem dividida em 2 fases, subdivididas em etapas.
A primeira fase buscou caracterizar a afetibilidade e opressão de gênero no
contexto de IHC para usuários LGBTs. Inicialmente foi conduzida uma revisão
bibliográfica para (1) identificar os princípios de afetibilidade para sistemas interativos
e (2) caracterizar as decisões no modelo de interface e interação de sistemas que podem
refletir em opressão para usuários LGBTs.
Finalmente, foi realizado um mapeamento para demonstrar como a violação dos
princípios de afetibilidade pode refletir nas situações potencialmente opressoras
identificadas nos modelos de interface e interação dos sistemas. Esse mapeamento foi
conduzido por dois especialistas em IHC, com mais de cinco anos de experiência na
área, e um especialista em Psicologia, que atua diretamente no tratamento de pessoas
LGBTs oprimidas.
A segunda fase buscou caracterizar, sob a perspectiva de especialistas e de
usuários, se o grau de afetibilidade do Facebook reflete em possíveis casos de opressão
para usuários LGBTs. Para isso, inicialmente foi conduzida uma inspeção na interface
do Facebook, utilizando o Método de Inspeção Semiótica (MIS) [de Souza et al. 2006],
para identificar por meio da metamensagem do designer e das potenciais rupturas de
comunicação: (1) como o Facebook endereça os princípios de afetibilidade em seu
modelo de interação e interface e (2) os impactos do grau de afetibilidade dessa rede
social na opressão de gênero para usuários LGBTs.
O MIS foi utilizado nessa etapa porque trabalhos como os realizados por Reis e
Prates (2011), Barbosa e outros (2013) e Tomagnini e outros (2016), demonstraram a
aplicabilidade desse método para identificar as estratégias de design comunicadas na
interface que visam potencializar determinadas qualidades de uso (e.g., gamificação,
sociabilidade e privacidade). A avaliação utilizando esse método foi conduzida por dois
1488
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
especialistas em IHC, sendo que um deles tem mais de oito anos de experiência na
aplicação do MIS no contexto de avaliação de sistemas colaborativos.
Na sequencia, foi aplicado um questionário online para caracterizar a
afetibilidade e opressão no Facebook, sob a perspectiva dos usuários LGBTs.
Finalmente, foi realizada a triangulação dos resultados para: (1) caracterizar a maneira
como a afetibilidade no Facebook reflete na opressão de gênero e (2) discutir a
aplicabilidade dos princípios de afetibilidade para caracterizar opressão de gênero em
redes sociais online.
1
Google Scholar - https://scholar.google.com.br/
2
IEEE Xplore - http://ieeexplore.ieee.org/Xplore/home.jsp
3
ACM Digital Library - http://dl.acm.org/
4
Springer - http://www.springer.com/br/
5
HCI Bib - http://hcibib.org/
1489
XXXVII Congresso da Sociedade Brasileira de Computação
1490
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Bissexualidade implica na atração por dois gêneros, enquanto os pansexuais são aqueles
atraídos por mais de dois gêneros [Killermann, 2011].
Como argumentado por Butler (1999), a sociedade possui uma regulamentação
compulsória de que as pessoas são cisgêneras e heterossexuais. Essa regulamentação é
definida como matriz heterossexual, que delimita as características específicas de
gêneros, corpos e desejos perpetuados na sociedade. Por exemplo, a matriz
heterossexual determina quais ações (e.g., maneiras de se vestir e falar) descrevem um
homem ou uma mulher [Butler, 1999]. Desse modo, como as características esperadas
pela sociedade para representar determinado indivíduo estão definidas a partir da matriz
heterossexual, aqueles que não se identificam com esse tipo de orientação sexual (e.g.,
pessoas lésbicas, gays, bissexuais e trans (LGBTs)) são excluídos [Butler, 1999].
No contexto de IHC, um exemplo dessa exclusão pode ser verificado quando
uma rede social online limita o usuário às opções: feminino ou masculino para a
caracterização de seu perfil, desconsiderando outras identidades de gênero (e.g., pessoas
trans). Desse modo, para expressar sua identidade, o usuário procura outras formas,
como escrevê-la na seção de biografia [Pereira e Baranauskas, 2015].
Esse exemplo demonstra uma situação em que o sistema oprime um usuário
LGBT, ao proibi-lo de se expressar por meio do recurso específico para identidade de
gênero, contribuindo para uma baixa afetibilidade entre esse usuário e o sistema
[Hayashi et al. 2013][Pereira e Baranauskas, 2015][Hayashi et al. 2015]. Essa opressão
e baixa afetibilidade se tornam mais evidentes quando Pereira e Baranauskas (2015)
relatam que pessoas cisgêneras e heterossexuais têm uma menor percepção de casos de
opressões nas interfaces, quando comparadas com os usuários LGBTs que, além de
perceberem mais essas ocorrências, consideram o grau de opressão um fator importante
para a aceitação de um sistema [Pereira e Baranauskas, 2015].
Nesse sentido, Pereira e Baranauskas (2015) conduziram um estudo exploratório
para investigar como as interfaces de sistemas digitais reproduzem opressão de gênero e
qual o efeito dessa opressão na decisão de uso e no conforto de quem utiliza tais
sistemas. A Tabela 2 sumariza as ocorrências de opressão de gênero, identificadas por
Pereira e Baranauskas (2015), que podem ser percebidos no modelo de interface e
interação de sistemas.
Tabela 2. Ocorrências de Opressão na Interface de Sistemas Interativos
Opressões OcOp 2 Elementos gráficos Cores, imagens e qualquer outro elemento gráfico que contenha
na interface impróprios na informações impróprias, como cores culturalmente associadas a
interface gênero, como rosa sendo feminino e azul, masculino.
OcOp 3 Texto impróprio ou Texto que contenha elementos que possam ser ofensivos para
ofensivo na interface usuários LGBTs.
OcOp 4 Texto impróprio de Textos ofensivos contra pessoas LGBTs que tenham sido publicados
usuário ou propagados por outros usuários, direcionados ou não a um usuário
Opressões específico.
na
interação OcOp 5 Mídias impróprias Mídias como imagens ou vídeos que contenham discurso ofensivo
propagadas por contra pessoas LGBTs e que sejam publicadas ou compartilhadas por
usuário usuários.
1491
XXXVII Congresso da Sociedade Brasileira de Computação
OcOp 6 Ações de usuários Ações realizadas por usuários com ou sem permissão para
motivadas por administrar conteúdo, que sejam ofensivas ou preconceituosas, como
preconceito denúncia do perfil porque o usuário é LGBT.
1492
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
potencialmente opressores.
PAf1 Mídias potencialmente opressoras podem influenciar um
sentimento negativo.
PAf4 A construção colaborativa pode ter como consequência a
Mídias impróprias
influência de sentimento negativo quando a contribuição de um
OcOp 5 propagadas por
usuário é uma mídia potencialmente opressora.
usuário
PAf5 O awareness social pode ter como consequência a influência de
sentimentos negativos quando há usuários publicando mídias
potencialmente opressoras.
PAf1 Uma ação potencialmente motivada por preconceito pode
influenciar um sentimento negativo em usuários LGBT.
PAf4 A contribuição de uma ação potencialmente motivada por
Ações de usuários
preconceito pode gerar um sentimento negativo em usuários
OcOp 6 motivadas por
LGBT.
preconceito
PAf5 O awareness social pode ter como consequência a influência de
sentimentos negativos quando ocorrem ações potencialmente
opressoras por parte de usuários.
1493
XXXVII Congresso da Sociedade Brasileira de Computação
D003 Personalizar o perfil. O sistema permite que o usuário construa seu perfil PAf3
incluindo as informações que deseja. Além disso, é
possível customizar a visibilidade de cada
informação adicionada.
D004 Escolher um gênero O sistema permite que o usuário insira um gênero PAf2
personalizado. personalizado, além de feminino e masculino,
levando em conta que existem outros gêneros além
destes.
1494
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
D006 Adicionar amigos O Facebook sugere amigos que o usuário possa PAf2
através de sugestão do conhecer para que iniciem uma conexão.
Facebook.
D007 Aceitar ou recusar O sistema só considera a conexão iniciada quando PAf3, PAf4
convite para iniciar um usuário aceita o convite de amizade do outro. Do
uma conexão. contrário, é considerado que nunca se adicionaram.
D008 Publicar conteúdo O usuário pode publicar o conteúdo que desejar no PAf1
livremente dentro do Facebook dentre texto, imagens, vídeos ou links,
propósito da rede. desde que estejam de acordo com as regras do site.
D009 Controlar a O sistema permite que o usuário escolha quais PAf3
visibilidade das conexões podem visualizar suas publicações, entre
publicações. as opções: (1) público, (2) somente amigos, (3)
privado e (4) personalizado, podendo escolher
contatos específicos.
D010 Personalizar o Deixar que o usuário escolha de quais contatos PAf 3
conteúdo que deseja prefere visualizar publicações.
visualizar.
D011 Ocultar publicações. O sistema permite que o usuário oculte publicações PAf3
que não deseja ver.
D012 Livre expressão sobre O usuário pode responder qualquer publicação PAf1
algum conteúdo demonstrando seu sentimento em relação a ela,
publicado. através do botão de curtir ou comentário.
D013 Diferentes reações O sistema permite que o usuário responda a uma PAf3, PAf6
para responder a uma publicação escolhendo uma entre as reações
publicação. “Curtir”, “Amei”, “Haha”, “Uau”, “Triste” ou “Grr”,
cada uma acompanhada por um elemento gráfico
diferente.
D014 Utilizar diferentes O Facebook oferece uma série de recursos para que PAf3
recursos para contato os usuários entrem em contato entre si, como chats
com usuários. privados, criação de eventos e de grupos.
D015 Denunciar perfis ou O sistema permite que o usuário denuncie outros PAf4
publicações usuários e publicações que sejam potencialmente
incompatíveis com o opressores ou perigosos, possibilitando que a
propósito da rede administração do site tome as providências.
D016 Bloquear usuários O Facebook permite que um usuário bloqueie outro. PAf3
indesejados. Quando isso ocorre, nenhum desses verá mais
publicações ou o perfil do outro pela rede.
D013
D003 D009
1495
XXXVII Congresso da Sociedade Brasileira de Computação
Cod. e Nome da Ruptura Cód. dos Princ. Reflexo na opressão de gênero contra Cód. de situações
de Afetibilidade pessoas LGBT opressoras similares
violados já relatadas por
usuários LGBTs
R001 Gênero restrito a PAf1, PAf2, Durante a criação do perfil, o usuário é OcOp 1
masculino e PAf3 e PAf5 obrigado a escolher seu gênero entre
feminino na masculino e feminino. Isso pode gerar
criação de perfil. opressão de gênero porque, segundo os
dados apresentados por Pereira e
Baranauskas (2015), o usuário pode não se
identificar com nenhuma das opções dadas.
R002 Silhueta de PAf1, PAf2 e Após a escolha do gênero pelo usuário OcOp 2
imagem PAf6 durante a criação da conta, o sistema coloca
vinculada a em seu perfil uma imagem genérica
gênero pré- contendo uma silhueta de cabelo longo para
escolhido. o gênero feminino e de cabelo curto para o
gênero masculino. Segundo os dados
apresentados por Pereira e Baranauskas
(2015), isso pode ser opressor porque o
usuário pode não se identificar com a
imagem designada.
R003 Pronomes de PAf1, PAf2, O Facebook permite que o usuário OcOp 3
tratamento PAf3 e PAf5. personalize as informações do perfil,
limitados. inclusive o gênero. Ao editar o gênero o
sistema oferece ao usuário a opção de
indicar o pronome de tratamento que será
utilizado para referenciá-lo na rede. As
opções são: masculino (ele), feminino (ela)
e neutro (ele). Apesar de ser uma opção
diferente, ao escolher “ neutro”, o Facebook
utiliza o pronome “ele” para referenciar o
usuário. Isso é potencialmente opressor, de
acordo com os dados levantados por Pereira
e Baranauskas (2015), já que o usuário que
seleciona a opção “neutro” não deseja ser
referenciado pelo pronome masculino.
R004 Publicações PAf1, PAf4 e O conteúdo de uma publicação só é avaliado OcOp 4, OcOp 5
ofensivas são PAf5. pelo Facebook após a denúncia de usuários.
fáceis de ser Segundo os dados apresentados por Pereira
compartilhadas. e Baranauskas (2015) esse tipo de
moderação em relação ao conteúdo
1496
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
R001
R003
1497
XXXVII Congresso da Sociedade Brasileira de Computação
1498
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
disso, comunicar de forma clara a existência dessas estratégias de modo que os usuários
possam de fato percebê-las, evitando assim que ocorram rupturas de comunicação que
levam a opressão de gênero.
1499
XXXVII Congresso da Sociedade Brasileira de Computação
9. Referëncias
Barbosa, G. A. R.; Gantos, G. E. e Pereira, V. Caracterização qualitativa da
sociabilidade no Facebook. In: Proc. of IHC. 2013. p. 72–81.
Boehner, K.; Paula, R.; Dourish, P. e Sengers, P. How Emotion is Made and Measured.
International Journal of Human-Computer Studies, Academic Press, Inc., Duluth,
MN, USA, v. 25, n. 4, p. 275–291, 2007.
Butler, J. Gender Trouble: Feminism and the Subversion of Identity. Routledge, 1999.
de Souza, C. S., Leitão, C. F., Prates, R. O., and da Silva, E. J. 2006. The semiotic
inspection method. In: Proc. of IHC’06, p. 148-157.
Duggan, M., Ellison, N. B., Lampe, C., Lenhart, A. and Mary Madden, M. 2015. Social
Media Update 2014. In Pew Internet and American Life Project. Available in: <
https://goo.gl/L0PiH3>, Acesso: Mar – 18, 2017.
Duggan, M., and Page, D. 2015. Mobile Messaging and Social Media 2015. In Pew
Research Center. Available in: < https://goo.gl/L0PiH3>, Acesso: Mar – 18, 2017.
Hayashi, E. C. S.; Posada, J. E. G.; Baranauskas e M. C. C. Explorando princípios de
Afetibilidade no redesign de aplicações para contextos educacionais. In: Proc. of
SBIE. 2013. p. 788–797.
Hayashi, E. C. S.; Posada, J. E. G.; Pereira, R. e Baranauskas, M. C. C. Exploring
Principles for Affectibility in the Design of Mobile Applications. In: Proc. of IHC.
2015. p. 83–92. 25
Kannabiran, G. e Petersen, M. G. Politics at the interface: A Foucaldian analysis. In:
Proc. of NordiCHI 2010. p. 695–698.
Killermann, S. Breaking through the binary: Gender explained using continuums. 2011.
Disponível em: <https://goo.gl/zqW4Yk>. Acesso: Mar – 18, 2017.
Pereira, G. C. e Baranauskas, M. C. C. Opressões de identidade de gênero e orientação
sexual percebidas em interfaces de usuário de sistemas digitais: um estudo
exploratório. In: Proc of. IHC. 2015. p. 93–102.
Reis, S. de S. and Prates, R. O. 2011. Applicability of the Semiotic Inspection Method:
a Systematic Literature Review. In: Proc. of X IHC & V CLIHC’11, p. 177-186.
Tomagnini, L.; Barbosa, G. A. R.; Santos, G. E. e Silva, I. S. 2016. Caracterização das
Estratégias de Qualidade de Uso que Potencializam a Utilização Contínua de
Aplicativos Colaborativos de Navegação: Um estudo de caso no Waze In Proc. of
SBSC 2016.
1500
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1. Introdução
Diferentes usuários de SS interagem entre si, produzindo informações (postagens
de usuários) úteis para aferir as medidas da qualidade em uso com o referido sistema,
como: de usabilidade e da experiência do usuário (User eXperience, UX). O uso de
postagens para avaliar a UX em SS permite identificar as conversas dos usuários, suas
dúvidas, buscas por novos conhecimentos, entre outros objetivos que levam os usuários
a interagirem nos SS (Mendes, 2015). Pereira et al. (2010) ressalta a importância em
analisar os valores pessoais (p. ex., autonomia, privacidade, emoção e afeto, etc.) e
sociais (p. ex., colaboração, compartilhamento, propriedade, etc.) existentes em um SS
para avaliar os valores técnicos de tal sistema (aqui sendo considerados as medidas de
1501
XXXVII Congresso da Sociedade Brasileira de Computação
2 Fundamentação Teórica
2.1 Sistemas Sociais e suas postagens
Uma das primeiras definições sobre o termo Sistema Social foi descrita por Shirky
(2005), onde SS são descritos como softwares que permitem interações em grupo.
McLoughlin e Lee (2007) foram além, afirmando que os SS não possuem somente a
possibilidade de interação entre seus usuários, mas têm a capacidade de recombinar e
transformar todas as informações compartilhadas e seus próprios meios de transmissão
em novas ferramentas. Como mencionado, eles vêm sendo explorados para diversos
fins: i) educativos; Klamma et al. (2011) direcionam os SS para o contexto das
tecnologias educativas e os definem como ferramentas que disponibilizam atividades
educativas em redes sociais; ii) segurança; Bolea (2015) fez uma análise da carga de
sentimentos e do vocabulário utilizado em postagens identificando um sentimento de
perigo sobre os fatos que ocorreram ou iriam ocorrer para analisar a segurança. Em
Beiming (2014) foi realizada uma análise da influência dos sentimentos nas postagens
como um fator preponderante de atenção dos outros usuários em interagir com uma
referida postagem. Um estudo sobre a possibilidade da existência de links maliciosos e
spans nas postagens do Facebook, é realizado por Abu-Nimeh et al. (2011); e iii)
avaliação da interação: Pereira et al. (2010) aprofundaram os conceitos sobre os SS,
1502
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
analisando seus valores sob os preceitos apresentados por Morville (2004): a colmeia de
UX, que contém como medidas da UX, a usabilidade, privacidade, acessibilidade, etc.
Já Smith (2008) utilizou estas medidas, dentre outros elementos para apresentar um
Framework conceitual para avaliar SS, sendo eles: presença, compartilhamento,
conversação, identidade, grupo, reputação e relacionamento.
Este trabalho se situa neste último propósito, e estende a proposta apresentada por
Mendes (2015). A autora propôs um modelo, chamado MALTU, para avaliar a
interação em SS a partir de Postagens Relacionadas ao Uso (PRUs). Uma PRU é uma
postagem na qual seu conteúdo diz respeito a algo relacionado ao uso do sistema (p. ex.,
“Meu twitter tá com problema.”). Entretanto, a autora descarta o uso de Não-PRU, ou
seja, uma Postagem Não Relacionada ao uso do sistema, com conteúdo relacionado a
qualquer assunto (p. ex., “Adorei o episódio de Breaking Bad de ontem”). Neste
trabalho, para a análise VUX, os dois tipos de postagens serão usados.
1503
XXXVII Congresso da Sociedade Brasileira de Computação
imersão” (p. ex., entretenimento, cinema, etc.), presença social como “estar
junto” (p. ex., vídeo-chamada, videoconferência, etc.) e co-presença como “estar
junto em um ambiente compartilhado” (p. ex., e-mail, telefone, chat, etc.);
● Privacidade: diz respeito à intimidade de pessoal ou de grupo definido de
pessoas (Holanda, 2010). Ou como o valor que nos concede a capacidade de
controlar o acesso que os outros têm a nós (Schoeman, 1992).
● Reciprocidade: para Sabourin (2008), é a obrigação de dar, receber e retribuir.
● Reputação: diz respeito à opinião pública, sendo esta favorável ou não a
respeito à pessoa física ou jurídica (Holanda, 2010);
● Visibilidade: diz respeito ao fato do indivíduo ser encontrado, visto em um
determinado local.
Adicionamos outros valores pessoais ao conjunto de valores que ajudarão a
analisar a VUX de um SS, são eles:
● Conhecimento: Japiassu (1977) afirma “É considerado saber, um conjunto de
conhecimentos metodicamente adquiridos, mais ou menos sistematicamente
organizados, susceptíveis de serem transmitidos por um processo pedagógico de
ensino”;
● Responsabilidade Social: pode ser considerada uma ciência onde a busca de
conhecimento para o bem-estar da sociedade deve ser aplicada por profissionais
de diversas áreas (Arevalo, 2010);
● Religiosidade: é o sentimento humano que impele a reconhecer a divindade
independentemente de culto determinado (Holanda, 2010);
● Prestígio: Huang (2009) divide o valor de prestígio em virtual, social e
estrutural: o primeiro é medido pela quantidade de visitas recebidas no perfil de
um determinado usuário; o segundo é percebido não pelo número de visitas e
sim pelo forte sentimento de aliança e respeito por parte dos visitantes do perfil
do usuário e o último é percebido a partir da análise de diversas variáveis para
poder determiná-lo.
Os valores humanos, apontados como sociais em Pereira (2010) são utilizados
nesta pesquisa. São eles:
● Normas, Regras e Políticas (NRP): segundo Dron (2007), normas, regras e
políticas fornecem o princípio da confiança, sendo necessárias para que se possa
construir mecanismos confiáveis de interação entre as pessoas e recursos sob a
regência do valor NRP;
● Colaboração: diz respeito a agir com outrem para a obtenção de determinado
resultado (Holanda, 2010). Tsai (2008) trabalha o conceito de colaboração sobre
vários aspectos: a colaboração servindo como alicerce para a criação de
comunidades online de aprendizado; e que a natureza social da educação
depende da interação entre indivíduos que, por sua vez, depende da colaboração
construída entre os membros da comunidade de aprendizado, seja ela online ou
não;
● Compartilhamento: segundo Holanda (2010), é a ação ou efeito de
1504
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
compartilhar algo com alguém. Badcoock (2004) aponta problemas que fazem
com que as pessoas evitem o compartilhamento. Segundo o autor, as pessoas não
querem compartilhar o que sabem porque acreditam que conhecimento é um
diferencial frente aos outros; o segundo correlaciona-se com o primeiro que é o
fato de não haver confiança entre os indivíduos;
● Conversação: é a possibilidade de dois indivíduos, ou um grupo de indivíduos,
estabelecerem comunicação direta (síncrona e/ou assíncrona) (Pereira, 2010b).
Dourish e Bly (1992) analisaram a CMC (Comunicação síncrona e assíncrona
Mediada por Computador) e avaliaram que a CMC consegue desenvolver uma
consciência social colaborativa em relações, seja ela de trabalho ou informais;
● Grupo: segundo Holanda (2010), um grupo se refere ao número de pessoas ou
de coisas que formam um todo;
● Objeto: artefato em torno do qual as interações sociais ocorrem (p. ex., ponto
focal a partir do qual as discussões surgem, a conversa é mantida, a colaboração
acontece) (Pereira et al., 2010);
● Relacionamento: algum tipo de ligação, laço social, entre dois ou mais
indivíduos (Pereira et al., 2010);
● Propriedade: segundo Holanda (2010), é o direito pelo qual alguma coisa
pertence a alguém.
1505
XXXVII Congresso da Sociedade Brasileira de Computação
PRU N-PRU
Expressa Expressa
N-VRU
VRU Valor Humano
Autonomia
Consentimento Informado
Emoção e Afeto
Normas, Regras e Políticas
Identidade
Colaboração
Presença
Compartilhamento
Privacidade Conversação
Reciprocidade Grupos
Reputação Objetos
Visibilidade
Relacionamento
Responsabilidade Social
Propriedade (posse)
Conhecimento
Religiosidade
Prestígio
1
UUX-Posts: é uma ferramenta de extração e classificação de postagens relacionadas a Usabilidade e
Experiência do Usuário (UX). Mendes (2015). Disponível em: http://200.129.62.41/luqs/analisador/v3/
1506
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
VRUs. As 550 postagens VRUs foram analisadas, quando dois valores pessoais eram
identificados em uma mesma postagem, a postagem era repetida para facilitar o
mapeamento dos problemas em qualidade em uso com os valores, resultando em 690
postagens a serem analisadas. Os resultados serão apresentados no tópico 5 deste artigo;
e a terceira extração de 526 postagens, coletadas com a ferramenta UUX-POSTs em
outubro/2016. Essa terceira extração foi utilizada para validação da classificação,
descrita no tópico a seguir.
1507
XXXVII Congresso da Sociedade Brasileira de Computação
5. Resultados
Esta seção apresenta os resultados das análises VUX das postagens VRUs e N-
VRUs do Twitter, sendo eles: os valores e problemas de qualidade em uso mais
recorrentes; as possibilidades de melhorias do sistema e os relacionamentos entre
valores.
Problema (Qtd)
Problema (%)
Compartilhamento
Evidenciam
Disponibilidade
Evidencia
Portabilidade
Conversação
Propriedade
Usabilidade
Awareness
Segurança
Aparência
Objetos
NRP
95 5 4 6 95 87 1 2 7 2 57 66 69%
Confiança 3
Consentimento 19 0 0 2 19 15 0 2 0 0 2 13 15 79%
Informado (CI)
Emoção e 0
337 37 18 32 337 134 1 3 0 2 37 40 12%
Afeto
Conhecimento 75 5 6 25 75 22 2 0 0 0 0 3 5 7%
1508
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5.2 Melhorias do SS
Nesta sub-seção ilustram-se as possibilidades de melhorias. Os exemplos serão
dados para as postagens N-VRUs, para ilustrar que a análise da VUX não se limita aos
problemas de interação. Essas postagens são caracterizadas quando seu conteúdo não
estiver relacionado ao uso do sistema, e sim a qualquer outro assunto (p. Ex., “tem gente
q ta aqui a 3 anos, e tem 20 mil tweets, eu to aqui a 1 ano e pouco e já tenho 124 mil”).
Por este motivo, elas não foram consideradas até agora. Ao analisar o elemento
gramatical das postagens N-VRUs classificadas no valor prestígio e apresentadas na
Tabela 2, foi percebido que, muito embora o usuário não falasse sobre o SS, tais frases
poderiam apontar possíveis melhorias ao SS, como: “Falta pouco pra 15 mil tweets (:”;
“Daqui a pouco eu chego nos 2000 tweets”; “Bem perto dos 800 followers! :D”.
1509
XXXVII Congresso da Sociedade Brasileira de Computação
Considerando tais exemplos, bem como outras postagens com conteúdo semelhante,
como melhoria, seria interessante uma solução para a interface do SS Twitter, que
pudesse informar a quantidade de Tweets (postagens) que o usuário já criou e uma outra
solução para indicar quantos Followers (seguidores) cada usuário possui. As melhorias
poderiam passar as informações necessárias variando os aspectos gráficos ou
modalidades de interação, segundo o designer. Assim, cada usuário teria uma ideia da
quantidade destas informações sem que precisasse perguntar a um outro usuário ou que
este o informasse. A Tabela 2 apresenta mais exemplos, bem como a motivação e
sugestões de melhorias a partir da análise das postagens N-VRUs.
Tabela 2. Sugestões de melhorias a partir da análise das postagens VRU
Postagens Motivação Sugestão de melhoria
“Falta pouco pra 15 mil tweets (:” Adicionar um elemento
“Quase atingindo 1000 tweets ... mais Possibilitar que gráfico que indique aos
eh muitoo pouco” usuários tenham usuários quantos tweets
“Falta pouco para os 4 mil tweets :P” uma noção de ele já postou. Este
quantos tweets cada elemento poderia
“tem gente q ta aqui a 3 anos, e tem 20 usuário tem sem trabalhar com cores, onde
mil tweets, eu to aqui a 1 ano e pouco que precise ser cada cor representaria
e já tenho 124 mil” perguntado uma quantidade mínima e
máxima.
“Bem perto dos 800 followers! :D” Adicionar um elemento
Possibilitar que
“quero 100 followers PELO MENOS gráfico que indique aos
usuários tenham
até sexta” usuários quantos tweets
uma noção de
ele já postou. Este
quantos followers
elemento poderia
(seguidores) cada
“fcs se importam muito com followers" trabalhar com cores, onde
usuário tem sem
desculpa, sou eu que tenho 5.000” cada cor representaria
que precise ser
uma quantidade mínima e
perguntado
máxima.
1510
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
30 Extração 50 47 94 20 18 90
6. Trabalhos Relacionados
Nesta seção, mostramos que parte dos estudos do estado da arte que avaliam
sistemas fazem uso de no máximo três valores:
Friedman (2006) trabalha com os valores de consentimento informado,
privacidade e autonomia. Ele afirma que o consentimento informado fornece uma
proteção extra para a privacidade quando este valor é utilizado em sites que coletam
dados de usuários.
Donath (1998) afirma que o valor de identidade desempenha um papel chave em
comunidades virtuais. O objetivo do autor é compreender como a identidade é
estabelecida em uma comunidade on-line e as condições que dão origem à ambiguidade.
Lee, Antoniadis e Salamatian (2010) estudam o comportamento de usuários de
comunidades sociais e de compartilhamento de conteúdo em termos de reciprocidade.
Os autores acreditam que um usuário se depara com algum conteúdo, que considera
importante para ele, então ele estabelece um sentimento de reciprocidade com quem o
disponibilizou.
Bedi e Gove (2012) propõem um modelo de preservação dos usuários em SS
baseando-se nos princípios de Hipócrates. Esses princípios são apontados por Agrawal
et al. (2002), sendo eles: motivação específica, consentimento, conjunto mínimo, uso
limitado, divulgação limitada, retenção limitada, exatidão, acesso e conformidade.
Troussas et al. (2013) afirmam ser importante saber como as pessoas se sentem
1511
XXXVII Congresso da Sociedade Brasileira de Computação
sobre determinados temas os quais elas encontram nos SS. Ele propõe uma classificação
destes sentimentos para o aprendizado de linguagem natural utilizando o algoritmo
Naive Baÿes. O autor enfatiza que a identificação destes sentimentos é um processo
complexo pelo fato dos sentimentos dos participantes de uma determinada discussão
serem representados de várias maneiras.
Para Srivastava et al. (2008) a privacidade das informações dos usuários dos SS
deve ser garantida e ser um dos principais objetivos dos desenvolvedores.
Neste artigo propomos um modelo de dados que avalia os SS utilizando vários
valores pessoais e sociais. O objetivo é enriquecer as informações e transformá-las em
conhecimento pelo fato da avaliação não estar direcionada a um ou outro valor pessoal
ou social e sim a todos os valores que estejam expressados nas postagens do SS.
7. Discussão
Discutem-se as decisões e limitações da aplicação do modelo MASSVA, em
termos dos seguintes requisitos usados para a classificação dos valores e análise VUX:
I) Tipos de análise: a escolha do tipo de análise da VUX de um SS dependerá
primordialmente dos objetivos que se deseja alcançar. Os tipos podem ser: análise
preditiva que, para Prates (2003), é realizada quando os avaliadores, ao analisarem os
dados coletados, tentam prever que tipo de problemas os usuários enfrentarão; e a
análise interpretativa, que é realizada quando os avaliadores procuram explicar os
fenômenos que ocorreram durante esta interação. Esta proposta se encontra suportando
apenas a análise interpretativa e, como tal, de difícil realização (ver próximo item);
II) Classificação manual e/ou automática: sabe-se que um processo de classificação
manual é interpretativo. Então, uma mesma classificação pode ser feita de forma
diferente pelos envolvidos, pois tem diferentes conhecimentos e podem apresentar
diferentes pontos de vista. Para amenizar este tipo de problema, podem-se colocar
vários indivíduos para avaliar e usar ferramentas de apoio a atividades colaborativas
(para suportar técnicas de crowdsourcing, por exemplo). Nesta pesquisa, resolveu-se
adotar uma estratégia para viabilizar uma classificação semi-automática, significando
que parte do processo teve atividades manuais para definição, comparação e evolução
da definição dos conceitos, e parte do processo de classificação (como a coleta, e análise
quantitativa) foi automatizada;
III) Formalização dos conceitos como alternativa para amenizar o caráter subjetivo da
classificação: para amenizar as incertezas de um processo subjetivo de interpretação dos
conceitos sobre os valores, foi feita a formalização de cada um dos valores, dado um
treinamento sobre os conceitos. O estabelecimento das formalizações ajuda a diferenciar
cada valor e assim possibilitar o desenvolvimento de algoritmos de classificação das
postagens de maneira automatizada. As formalizações poderão ser criadas a partir da
análise de um conteúdo das postagens. O procedimento de classificação e validação
deverá ocorrer apenas uma vez para cada SS que seja avaliado pelo modelo MASSVA
já que o resultado da validação dos padrões será a automatização. Porém, sabe-se que
não é possível uma formalização de classificação que seja absolutamente igual para um
mesmo valor pessoal ou social em diferentes SS. Sabe-se, também, que qualquer
trabalho de pesquisa evolui. Acredita-se numa classificação baseada na Colaboração
entre os avaliadores; eles deverão validar a formalização (realizando experimentos de
1512
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
8. Conclusão
O principal objeto da pesquisa apresentado neste artigo é o modelo de dados
MASSVA, o qual possui elementos que ajudam na análise da VUX. Resultados foram
apresentados neste artigo e, muito embora representem parte do total de
resultados/análises obtidas na pesquisa, corroboraram para demonstrar que o MASSVA
ajuda a direcionar a avaliação de problemas de qualidade em uso de SS. Primeiro
porque, a relação entre os valores pessoais e sociais permitiram a definição de um
formalismo sobre os conceitos. Depois, existe a relação entre os valores e as postagens
relacionadas ao uso do SS, embora tenham aquelas que não estão relacionadas ao uso do
SS. Descobriu-se que por meio dessas últimas, também é possível identificar
possibilidades de melhorias no conteúdo e/ou na interface do SS. Verificou-se, ainda,
que existem valores pessoais e sociais difíceis de serem identificados nas postagens,
enquanto existem valores sociais que se encontram de forma mais frequente em certos
valores pessoais.
Como trabalhos futuros, destaca-se: desenvolver algoritmos de classificação
automatizada para cada um dos valores; definir uma metodologia de aplicação do
modelo de dados MASSVA considerando as características apresentadas neste artigo; e
aplicar o modelo de dados MASSVA, a partir de uma futura proposta de metodologia de
aplicação deste modelo, em outro SS.
1513
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
1514
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1515
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A Web é o meio mais usado atualmente para realizar diversas atividades, alguns exem-
plos são: Transações bancárias, comunicação em mı́dias sociais, compartilhamento de
imagens e vı́deos, dentre outras [Khademi et al., 2015]. Todos esses avanços também per-
mitem, cada vez mais, a interação e colaboração entre as pessoas por meio dos sistemas
colaborativos.
Embora a Web e sistemas colaborativos proporcionam grande interação entre as
pessoas, deve-se ressaltar que nem todas elas podem estar dispostas a se portar de forma
aceitável uma para com a outra ou com o sistema em si. Por exemplo, trolls1 , spams2 e
haters3 mostram-se como ameaças que diminuem a experiência de uso e a qualidade da
plataforma, seja em termo de conteúdo ou convivência online [Cambria et al., 2010].
1
Usuários anônimos que espalham mensagens ofensivas e abusivas [Cambria et al., 2010].
2
Mensagens indesejadas e/ou não solicitadas que são enviadas e recebidas por e-mail, chats, blogs, etc;
cujo objetivo é fazer anúncios, phishing, códigos maliciosos, dentre outros [Chakraborty et al., 2016].
3
Usuários que demonstram crı́ticas injustas e ódio a outros usuários ou coisas.
1516
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Existem trabalhos propostos na literatura que visam combater spams, trolls, bem
como outros usuários e mensagens indesejadas, como por exemplo, Cambria et al. [2010]
e Eggendorfer and Keller [2006]. No entanto, não fornecem claramente os meios que po-
dem ser usados para prevenir e/ou remediar essa situação e, quando fornecem, o método
não é o mais eficaz (bloqueio de endereço IP, por exemplo). Em todos os casos, é ne-
cessário ter o conhecimento de quem é o indivı́duo responsável pela ação, como eviden-
ciado nos trabalhos Teodoro et al. [2015] e Eggendorfer and Keller [2006].
Tendo em vista os métodos encontrados na literatura e suas limitações, neste tra-
balho é proposto o uso de Web fingerprinting, que é uma técnica usada para identificar,
com alta probabilidade e de forma única, um usuário com base nas caracterı́sticas de seu
dispositivo [Acar et al., 2014]. Esta técnica pode ser usada para diversos fins, seja benigno
(autenticação de usuários, melhoria de usabilidade, evitar fraudes, etc) ou malicioso (ras-
trear atividades de usuários, explorar vulnerabilidades, dentre outros) [Laperdrix et al.,
2016].
Como contribuição, este trabalho investiga a aplicação de Web fingerprinting em
um sistema colaborativo, neste caso, um blog,visando identificar, de forma única, os visi-
tantes e coordenar suas postagens, com o objetivo de evitar a propagação de mensagens
indesejadas. Este trabalho considera mensagens indesejadas aquelas oriundas de trolls,
haters, spams e de outros indivı́duos cujo comportamento é prejudicial para a interação e
colaboração entre pessoas.
O trabalho está organizado como segue. Na Seção 2 é dado o background sobre
Web fingerprinting e Modelo 3C de Colaboração; na Seção 3 os trabalhos relacionados
são apresentados; na Seção 4 é apresentada a metodologia empregada no desenvolvimento
deste trabalho; a Seção 5 apresenta o projeto de implementação do artefato desenvolvido;
a Seção 6 apresenta os resultados oriundos dos experimentos e, por fim, a Seção 7 conclui
o trabalho.
2. Fundamentação teórica
Esta Seção apresenta os conceitos, definições e explanações relacionados a Web finger-
printing e Modelo 3C de Colaboração.
1517
entre comunicação, coordenação e cooperação do modelo pode ser usada como guia para
analisar aplicações de groupware, por exemplo, chats e blogs, ferramentas que requerem
a troca de mensagens (comunicação), polı́ticas de acesso (coordenação) e compartilha-
mento (cooperação). A Figura 1 ilustra o Modelo 3C de Colaboração.
COMUNICAÇÃO
Ferramentas de
Comunicação
Ferramentas de
Cooperação Ferramentas de
Coordenação
COOPERAÇÃO COORDENAÇÃO
6. PROVEDOR DE FINGERPRINTING
O provedor de fingerprinting compara a
informação recebida com os dados
5. INFORMAÇÕES DO FINGERPRINTING
armazenados em seus bancos de dados e
O servidor da empresa de publicidade retorna o servidor da empresa de
on-line repassa as informações para o publicidade uma identificação única do
provedor de fingerprinting usuário
2. OBTENDO PUBLICIDADE
A medida que o navegador carrega a
página, ele também solicita um anúncio
de uma empresa de publicidade on-line
1. ENVIANDO A PÁGINA
O site que usuário
visitou envia a página
desejada para o 4. IDENTIFICANDO O USUÁRIO
navegador
O Script fingerprinting reporta as
informações coletadas para o servidor
3. SCRIPT FINGERPRINTING da empresa de publicidade on-line
A empresa de publicidade on-line envia o anúncio para
o navegador junto com um script que, silenciosamente,
coleta informações sobre o computador e o navegador
do usuário de modo a identificá-lo unicamente
3. Trabalhos relacionados
Abu-Nimeh and Chen [2010] analisam os comentários postados em blogs e os classificam
por do classificador SVM (Support Vector Machine), de forma a definir se um comentário
é ou não um spam. Além de usar o classificador, os autores também empregam heurı́sticas
para incrementar a precisão do mesmo na detecção de spam. Tal heurı́stica se baseia
no endereço de IP ou e-mail para mensurar a reputação de quem postou o comentário.
Os autores executaram um experimento que consistiu em medir a prevalência de spam
em comentário de blogs. Para isso, foram coletados e analisados 1.048.567 comentários
obtidos em blogs. Como resultado, os autores concluı́ram que 75% dos comentários eram
spams. Além disso, as pessoas que disseminavam spam tinham métodos de contornar
contramedidas como IP blacklisting, por exemplo.
Unger et al. [2013] propõem um framework que, através de Web fingerprinting,
é capaz de monitorar as caracterı́sticas de um navegador Web. Através desse monito-
ramento a ferramenta detecta quando há roubo de sessão. Os autores optam por essa
estratégia porque atualmente, as autenticações em sites são realizadas apenas uma vez e
então um cookie de sessão fica armazenado no dispositivo do usuário, sendo que o pri-
meiro pode ser interceptado em uma rede desprotegida. A técnica de Web fingerprinting
que os autores utilizam se baseia nos padrões do HTML5 e do CSS3, que até o tempo
de escrita do trabalho desenvolvido por Unger et al. [2013], possuı́am muitas diferenças
de implementação em diversos browsers, dessa forma, viabilizando os métodos de Web
fingerprinting. No entanto, a técnica proposta é vulnerável ao ataque man-in-the-middle4
pois, segundo os autores, o algoritmo de criptografia Diffie-Hellman5 no JavaScript é
vulnerável a tal ataque durante a negociação do segredo da chave.
Bursztein et al. [2016] apresentam um método de device class fingerprinting capaz
de determinar a classe de um dispositivo, sendo esta composta pelo conjunto {navegador,
sistema operacional}. Diferentemente dos outros trabalhos da literatura, esse método não
identifica de forma única um dispositivo. A principal tecnologia utilizada pela proposta
é o HTML5 Canvas. A técnica desenvolvida pelos autores cria desafios para os quais o
dispositivo precisa dar respostas que são verificadas pelo servidor. Com estas é possı́vel
reconhecer a assinatura da classe do dispositivo e, dessa forma, os autores obtém 100%
de precisão ao determinar a classe do dispositivo. Ademais, afirmam conseguir detectar
tentativas de login por força bruta, ataques a lojas de aplicativo (fake install, fake rating,
etc). No entanto, o trabalho não identifica de forma única um dispositivo, mas sim uma
classe composta pelo conjunto {navegador, sistema operacional}.
4. Metodologia
O objetivo desta pesquisa é aplicar Web fingerprinting de forma benigna, isto é, visando
beneficiar as pessoas que utilizam a ferramenta (neste caso, um blog) que implementa o
primeiro. A metologia empregada no desenvolvimento da pesquisa foi o Design Science
Research que, de acordo com Dresch et al. [2015], consiste na obtenção de artefatos com
4
Ataque em que os dados trocados entre duas pessoas são interceptados por uma terceira.
5
Algoritmo especı́fico para a troca de chaves entre dispositivos.
1519
XXXVII Congresso da Sociedade Brasileira de Computação
capacidade de resolver problemas do mundo real, mas que também contribuem com a
comunidade cientı́fica. De forma sucinta, a metodologia supracitada requer as seguintes
etapas: Definição do problema a ser resolvido, proposta de solução, desenvolvimento e
avaliação do artefato, conclusões e divulgação dos resultados experimentais.
O problema abordado neste trabalho emergiu do fato de que atualmente a interação
entre as pessoas está cada vez maior em diversos ambientes, inclusive na Web, favore-
cendo a colaboração entre indivı́duos. No entanto, para que o bom convı́vio possa existir
em um ambiente virtual, é necessário evitar situações que possam ameaçá-lo, por exem-
plo, usuários mal-intencionados cujas atitudes se mostram ofensivas, difamatórias e até
mesmo discriminatórias. Dessa forma, ocorreu a seguinte pergunta: ”Como dificultar
e até mesmo impedir que as atividades de indivı́duos considerados maliciosos possam
prejudicar a boa interação e colaboração entre pessoas na Web?”
Dessa maneira, observou-se a oportunidade de propor uma solução alternativa que
emprega conhecimentos da área de segurança da informação em conjunto com sistemas
colaborativos. Para isso, este trabalho conta com o desenvolvimento e avaliação de uma
ferramenta que emprega um método de Web fingerprinting, que por sua vez é integrada
a um blog, sendo que este foi escolhido por ser uma das plataformas que permitem a
interação e colaboração entre as pessoas. O objetivo do artefato é dificultar e impedir a
disseminação de mensagens indesejadas oriundas de usuários maliciosos na Web, preser-
vando a boa convivência e colaboração entre indivı́duos e a qualidade das informações
disponibilizadas em ambientes virtuais Web (no caso deste trabalho, um blog).
Para validar o artefato, foi realizado um estudo com potenciais usuários de blog.
A métrica para avaliação e validação é se um dado usuário, uma vez que sua conduta
seja classificada manualmente pelo administrador como indevida, poderá interagir nova-
mente com outras pessoas por meio de sua conta autêntica, contas falsas e dispositivos
diferentes. É importante notar que a classificação é realizada de forma manual, ou seja,
é necessário que o administrador encontre a publicação hostil (comentário exprimindo
ódio, por exemplo) e observe o usuário que a realizou e, logo em seguida, prosseguir para
a ferramenta e revogar a permissão de publicação do usuário.
5. Projeto e implementação
O artefato desenvolvido neste trabalho está divido em módulos. Cada um deles está listado
e descrito como segue. A Figura 3 ilustra a integração da ferramenta com o blog.
• Coletor: É o método de Web fingerprinting responsável por coletar as carac-
terı́sticas relacionadas ao dispositivo do usuário, gerando uma chave única de
identificação e transmitindo-a para o verificador.
• Verificador: Esse módulo recebe do coletor a chave de identificação do cliente.
De posse da mesma, este módulo verifica se o usuário tem autorização ou não para
interagir no blog.
• Banco de dados: Armazena o identificador único de cada usuário, bem como
o seu nome e o status da permissão de postagem, sendo que a esta é concedida
enquanto o status é 1 e revogada quando é 0.
• Bloqueador: Cabe a este módulo capacitar o responsável pelo blog ou pela página
Web de bloquear a permissão de postagem do usuário considerado hostil, preser-
vando a boa interação e colaboração entre usuários.
1520
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
BLOG
Usuário
COLETOR
BLOQUEADOR
BASE DE DADOS
Ferramenta Administrador
Legenda
Vale ressaltar que o blog não está listado, uma vez que este é o objeto de estudo
da proposta. O blog funciona como um ambiente de interação e colaboração entre as pes-
soas, proporcionando comunicação entre as mesmas, além de permitir que o administra-
dor coordene as atividades dos usuários segundo as condutas (boas ou ruins) dos mesmos.
Todos os módulos foram integrados com o blog e este foi instalado em um servidor loca-
lizado na universidade, possibilitando que usuários voluntários pudessem participar dos
experimentos.
Na Figura 3, os usuários acessam o blog, mais precisamente a página para publi-
car comentários. Então o coletor extrai as caracterı́sticas relacionadas ao dispositivo do
usuário para gerar o fingerprint do mesmo. Após este processo, o coletor envia a chave
identificadora para o verificador, que por sua vez checa pela existência da mesma. Se
o fingerprint não existir, então este é adicionado ao banco de dados, em uma tabela de
novos usuários e é concedida a permissão de postagem para o visitante. Caso contrário,
uma das duas situações pode ocorrer: (I) A chave é existente e o visitante tem permissão
de postagem, dessa forma, a ferramenta permitirá publicações ou (II) A chave consta no
registro do banco, mas o usuário não tem permissão para publicar e, consequentemente,
o artefato não dará permissão para enviar mensagens, impedindo a interação com outros
usuários. Quando uma postagem que não respeita as polı́ticas de conduta do ambiente
for detectado pelo administrador do mesmo, é possı́vel revogar a permissão de publicação
de quem enviou a mensagem, por meio do bloqueador. Este módulo lista todos os fin-
gerprints e seus respectivos nomes de usuários, exibindo a opção de bloquear qualquer
pessoa cujas publicações sejam consideradas indevidas. A interface gráfica do módulo
bloqueador está ilustrada na Figura 4.
1521
XXXVII Congresso da Sociedade Brasileira de Computação
PREPARAÇÃO
SOLICITAR
BLOQUEAR QUE UM
USUÁRIOS USUÁRIO
COMENTE
Voluntários
FAZER
COMENTAR
LOGIN
1522
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Todos os usuários conseguiram publicar mensagens na primeira etapa, pois tinham per-
missão para realizar tal atividade. Na segunda etapa, os usuários selecionados para serem
bloqueados ficaram impedidos de realizar postagens, enquanto os demais continuaram a
interagir uns com os outros no blog. Na terceira etapa, não foi permitido que um usuário
interagisse com o blog a partir de um dispositivo no qual seu dono estava impedido de
interagir com o sistema e seus usuários. Na quarta etapa, onde todos os voluntários foram
bloqueados, não houve interação alguma. No quinto estágio, com todos os voluntários
usando dispositivos diferentes dos anteriores, observou-se interações entre os indivı́duos
(mesmo que todos tivessem sido bloqueados anteriormente). Na sexta e última etapa, to-
dos foram bloqueados novamente, mas mesmo assim houve interação no blog quando um
navegador Web alternativo era utilizado para acessá-lo.
Os resultados observados na terceira e quinta etapa podem ser preocupantes, de-
vido ao usuário com boas condutas ficar incapacitado de interagir a partir de um dispo-
sitivo bloqueado, enquanto um indivı́duo com condutas impróprias ser capaz de interagir
a partir de um dispositivo não bloqueado. No entanto, vale ressaltar que geralmente as
pessoas utilizam seus próprios dispositivos. Dessa maneira, as ocorrências de um usuário
benigno logar a partir um dispositivo bloqueado (este pertencente a um usuário hostil) são
baixas.
Embora na quinta etapa seja possı́vel que um usuário hostil esteja capacitado de
interagir com as outras pessoas no blog por meio de um dispositivo diferente daquele
bloqueado, é importante notar que o indivı́duo pode ter a permissão de publicação revo-
gada no novo dispositivo, dessa forma ficando impedido de interagir por meio dos dois
dispositivos. Em um determinado momento, o usuário hostil ficará com todos os dis-
positivos bloqueados e usar emulação pode ser um trabalho desgastante, dificultando o
comportamento indevido.
Com relação a revogação de interação, uma das maneiras de bloquear um in-
divı́duo malicioso de forma eficaz é através de suas credenciais de login. No entanto,
é possı́vel criar contas falsas e usá-las diversas vezes a partir do mesmo dispositivo, pois
este não estará bloqueado. Uma máquina bloqueada, por outro lado, impedirá que um
indivı́duo interaja por meio de contas falsas. Obviamente técnicas de fingerprinting não
são as balas de prata para revogar permissões, mas podem ser úteis para complementar
os meios convencionais. Um dos exemplos de que fingerprinting não resolve todos os
problemas é quando um usuário troca de navegador Web (como é possı́vel observar na
sexta etapa do experimento), gerando uma nova chave de identificação única, mas isso
acontece porque as técnicas de fingerprinting mais comuns extraem caracterı́sticas rela-
tivas ao navegador Web. Dessa maneira, fica evidente mais vez uma que fingerprinting
pode ser usado para complementar mecanismos existentes que atuam na prevenção contra
condutas impróprias em ambientes colaborativos online.
6.1.1. Limitações
Pelo fato do artefato proposto neste trabalho ser um protótipo funcional, o mesmo possui
limitações que, dependendo do caso, podem impedir o seu devido funcionamento.
1523
XXXVII Congresso da Sociedade Brasileira de Computação
7. Conclusões
Este trabalho desenvolveu, apresentou e avaliou um artefato que emprega Web finger-
printing, visando beneficiar os indivı́duos que utilizam ferramentas onde há interação e
colaboração entre as pessoas, proporcionando também ao responsável pela ferramenta a
coordenação das atividades dos usuários, para dificultar e até mesmo impedir as ativida-
des de interação daquele considerado como nocivo a boa convivência no ambiente online
(no caso deste trabalho, um blog).
Observou-se, a partir dos experimentos, que a ferramenta desenvolvida neste tra-
balho é capaz de bloquear as interações de usuários que violam a conduta de uso, uma vez
que a pessoa responsável pelo blog decidir bloquear as postagens de um usuário. Pode-
se observar também que a ferramenta associa o bloqueio ao dispositivo de um indivı́duo
(ao contrário de considerar apenas o nome de usuário), dificultando uso de contas falsas
como um vetor de ataque. Embora as trocas de dispositivos permitam a um hater ou troll
realizar publicações indevidas, agir dessa forma requer maior quantidade de esforço, o
que pode desmotivar a ação.
Por fornecer ao responsável do blog o controle sobre as permissões de interações
dos usuários, a ferramenta pode ser analisada de acordo com Modelo 3C de Colaboração,
mas com o foco na coordenação, que consiste no gerenciamento de pessoas, suas ativida-
des e recursos.
8. Agradecimentos
Os autores deste trabalho agradecem à todas as pessoas envolvidas na revisão do texto, su-
gestões e na participação dos experimentos e também agradecem à instituição de fomento
CAPES por viabilizar esta pesquisa.
6
Máquinas que possuem a mesma configuração de hardware e software.
1524
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Referências
Abu-Nimeh, S. and Chen, T. M. (2010). Proliferation and Detection of Blog Spam. IEEE
Security Privacy, 8(5):42–47.
Acar, G., Eubank, C., Englehardt, S., Juarez, M., Narayanan, A., and Diaz, C. (2014). The
Web Never Forgets: Persistent Tracking Mechanisms in the Wild. In Proceedings of
the 2014 ACM SIGSAC Conference on Computer and Communications Security, pages
674–689, Scottsdale, Arizona, USA. ACM New York, NY, USA
2016. c
Bursztein, E., Malyshev, A., Pietraszek, T., and Thomas, K. (2016). Picasso: Lightweight
Device Class Fingerprinting for Web Clients. In Proceedings of the 6th Workshop
on Security and Privacy in Smartphones and Mobile Devices, pages 93–102, Vienna,
Austria. ACM New York, NY, USA
2016. c
Cambria, E., Chandra, P., Sharma, A., and Hussain, A. (2010). Do Not Feel The Trolls.
ISWC.
Chakraborty, M., Pal, S., Pramanik, R., and Ravindranth Chowdary, C. (2016). Recent de-
velopments in social spam detection and combating techniques: A survey. Information
Processing & Management, 52(6):1053–1073.
Dresch, A., Lacerda, D. P., and Júnior, J. A. V. A. (2015). Design science research:
método de pesquisa para avanço da ciência e tecnologia. Bookman Editora.
Eggendorfer, T. and Keller, J. (2006). Dynamically blocking access to web pages for
spammers’ harvesters. In Communication, Network, and Information Security, pages
205–210.
Fuks, H., Raposo, A., Gerosa, M., Pimental, M., and Lucena, C. (2008). The 3C Colla-
boration Model. In Encyclopedia of E-collaboration, pages 637–644. IGI Global.
Khademi, A. F., Zulkernine, M., and Weldemariam, K. (2015). An Empirical Evaluation
of Web-Based Fingerprinting. IEEE Software, 32(4):46–52.
Laperdrix, P., Rudametkin, W., and Baudry, B. (2016). Beauty and the Beast: Diverting
modern web browsers to build unique browser fingerprints. In IEEE Symposium on
Security and Privacy (SP), pages 878–894. IEEE.
Pimentel, M., Gerosa, M. A., Filippo, D., Raposo, A., Fuks, H., José, C., and Lucena, P. D.
(2006). Modelo 3C de Colaboração para o desenvolvimento de Sistemas Colaborativos.
Anais do III Simpósio Brasileiro de Sistemas Colaborativos, pages 58–67.
Queiroz, J. S. and Feitosa, E. L. (2016). LETTY: Uma implementação de Website Fin-
gerprinting. In Anais do XVI Simpósio Brasileiro em Segurança da Informação e de
Sistemas Computacionais, volume 1, pages 555–564, Niterói - RJ, Brazil.
Saraiva, A., Feitosa, E., Elleres, P., and Carneiro, G. (2014). Device Fingerprinting: Con-
ceitos e Técnicas, Exemplos e Contramedidas. In Santos, A., Graaf, J., Nogueira, J.,
and Oliveira, L., editors, Livro de Minicursos do XIV Simpósio Brasileiro em Segurança
da Informação e de Sistemas Computacionais - SBSeg2014, pages 49–98, Belo Hori-
zonte - MG. SBC.
Teodoro, J., Gerosa, M. A., Wiese, I. S., and Steinmacher, I. (2015). Quem é quem na lista
de discussão? Identificando diferentes e-mails de um mesmo participante. In Anais do
Simpósio Brasileiro de Sistemas Colaborativos, pages 78–85.
Unger, T., Mulazzani, M., Fruhwirt, D., Huber, M., Schrittwieser, S., and Weippl, E.
(2013). SHPF: Enhancing HTTP(S) session security with browser fingerprinting. In
2013 International Conference on Availability, Reliability and Security, pages 255–
261, Regensburg, Germany. IEEE.
1525
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A experimentação é uma atividade primordial no ensino e aprendizagem de ciência, en-
genharia e tecnologia, e a realidade das práticas laboratoriais foi profundamente alterada
pelo advento das Novas Tecnologias de Informação e Comunicação. Ferramentas como
simulações, realidade virtual e laboratórios remotos têm sido usadas para tornar as aulas
mais interativas. Mesmo os laboratórios tradicionais são, na maioria das vezes, mediados
por computadores e outros dispositivos digitais.
1526
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1527
XXXVII Congresso da Sociedade Brasileira de Computação
Figura 1. Figura
flexíveis e escaláveis, mas muitas vezes desconsideram variáveis de ambiente e erro ex-
perimental.
Os laboratórios remotos, por outro lado, baseiam-se em equipamentos reais que
podem ser controlados pela Internet. No entanto, eles são muito mais difíceis de gerenciar
e dimensionar, exigindo controle de concorrência ao recurso e a criação de múltiplas ins-
tâncias de um laboratório, a fim de apoiar a sua utilização em um ambiente de produção.
Além disso, dependendo da configuração, um laboratório remoto pode ser muito especí-
fico, exigindo muitas regras de segurança para evitar danos [Rodriguez-Gil et al. 2016] e
para garantir que o usuário obtenha os resultados esperados.
Laboratórios híbridos são soluções compostas por diferentes tipos de laboratórios.
Geralmente, a abordagem para laboratórios híbridos considera somente casos compostos
por laboratórios reais e virtuais, conforme descrito em [Bochicchio et al. 2015]. No en-
tanto, dependendo do cenário de aprendizagem, um laboratório remoto poderia ser ma-
nipulado usando controles reais locais, como o uso de dispositivos hápticos apresentado
por [Restivo et al. 2011], por exemplo, sendo então um laboratório híbrido.
O conceito em torno de laboratórios móveis tem sido explorado há algum tempo
e interpretado de diferentes maneiras por pesquisadores em educação, ciência e en-
genharia [Costa and Alves 2006]. Uma das abordagens recorrentes, apresentada por
[Silva et al. 2014] e [Zappatore et al. 2016], está associado com a concepção tradicional
de experimentação remota, fazendo uso de dispositivos móveis para acessar e manipular
laboratórios em diferentes locais através da internet.
Por outro lado, a ideia de laboratórios móveis apresentada neste trabalho consi-
dera o dispositivo que é objeto de experimentação sob controle móvel e hospedado pelo
aluno. Assim, um aluno pode criar seu próprio laboratório usando microcontroladores de
baixo custo, como Arduino, ou single-board computers, como Raspberry Pi. Mesmo que
os laboratórios neste caso sejam reais e estejam em posse de um aluno, o dispositivo sob
controle precisa estar conectado à Internet para compartilhar seu controle, entradas e saí-
das entre os usuários em um cenário colaborativo. Neste caso, estes laboratórios podem
ser descritos como híbridos, uma vez que pode ser remoto ou hands-on dependendo de
quem detém o equipamento e quem está o controlando.
1528
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Além disso, os laboratórios móveis podem abrir uma série de novas possibilidades
para ambientes colaborativos. Alguns avanços já foram feitos em pesquisas anteriores, a
fim de enriquecer a colaboração na experimentação online, e soluções como ambientes co-
laborativos [Bochicchio et al. 2015] e mundos virtuais 3D foram utilizados para compar-
tilhar laboratórios remotos[Antonio et al. 2016]. Usando os laboratórios móveis em tais
cenários, vários grupos são capazes de realizar a mesma experiência ao mesmo tempo, os
usuários podem pausar sessões e retomar a qualquer momento sem redefinir o laboratório
ou aguardar outros usuários.
A fim de desenvolver uma camada de aplicação comum para laboratórios móveis,
compatível com diferentes plataformas e clientes, é importante tomar uma abordagem
baseada em módulos que podem ser reutilizados em diferentes aplicações. O modelo
conhecido como Lab como um Serviço (LaaS) propõe que os laboratórios online sejam
entregues como um serviço capaz de trocar e usar informações de diferentes sistemas e
serviços [Tawfik et al. 2014]. Este método baseia-se no desenvolvimento de laboratórios
online como módulos de componentes independentes, a fim de facilitar a manutenção,
reutilização e interoperabilidade.
Nesse modelo, a especificação de Smart Device descreve a comunicação e
as interfaces entre cliente e servidor, fornecendo um conjunto de informações que
podem ser usadas para fornecer serviços da Web para acessar sensores e atuadores
[Salzmann et al. 2015].
1529
XXXVII Congresso da Sociedade Brasileira de Computação
trução, na qual um ator executa uma ação em um objeto (ator + verbo + atividade + pro-
priedades adicionais) [ADL 2017]. Esta declaração é então armazenada em um Learning
Record Store (LRS), de onde ele pode ser posteriormente recuperado e analisado.
O LRS pode fornecer dados para outras aplicações, como Learning Management
Systems (LMS), e também tem um mecanismo de relatório, permitindo a visualização de
dados da combinação de ator, verbo e atividade ao longo do tempo.
4. Solução Desenvolvida
A partir da necessidade de ferramentas e de padrões para compartilhar laboratórios online
móveis, nesse trabalho é descrito um protótipo de ambiente de aprendizagem e compo-
nentes que dão suporte aos laboratórios móveis e à colaboração. A solução é composta
por quatro componentes principais: Smart Device, Lab Gateway, Learning Record Store
(LRS) e Lab@Home, um ambiente de aprendizagem colaborativa.
O primeiro componente define as interfaces de comunicação entre o servidor de la-
boratório e o cliente de laboratório. Para solucionar alguns problemas relacionados à con-
figuração de rede e descoberta de dispositivos, um gateway é disposto entre o Lab@Home
e o Smart Device. O Lab@Home compreende diferentes características de um ambiente
de aprendizagem colaborativo e fornece acesso a laboratórios remotos. Finalmente, a in-
teração dos alunos com o ambiente de aprendizagem é armazenada para posterior análise,
que é capturada pelo plugin xAPI no Lab@Home e registrada no LRS, conforme a Figura
2.
1530
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
comunicação full-duplex sobre uma única conexão TCP, um cliente pode atuar como ser-
vidor e cliente ao mesmo tempo, semelhantemente ao princípio utilizado no WebRTC.
Para esse comportamento, um gateway, chamado de Lab Gateway, é necessário para cen-
tralizar o acesso a esses servidores de laboratório.
Assim, uma aplicação cliente se conecta ao Lab Gateway e realiza as solicitações
conforme o arquivo de descrição, que inclui solicitações HTTP e WebSocket. Foi adotada
essa abordagem em vez de usar a placa como o servidor de laboratório porque neste
cenário, onde o aluno pode usar o laboratório em casa, geralmente não há endereços IP
válidos disponíveis.
Foram implementados dispositivos inteligentes utilizando duas plataformas de
hardware, uma para dispositivos Arduino e compatíveis, e outra para single-board com-
puters usando Node.js, como Raspberry Pi. Ambas as implementações são baseadas no
protocolo Socket.IO, que estende os recursos do WebSocket.
Assim, usando esses códigos como exemplos, o equipamento e o servidor de la-
boratório podem ser desenvolvidos pelos próprios alunos e, em seguida, conectados a um
Lab Gateway. A análise de circuitos elétricos é um exemplo simples de uso, uma vez que
a maioria das placas de desenvolvimento permitem a geração e aquisição de sinais.
4.3. Lab@Home
O Lab@Home, o aplicativo cliente (Figura 3), foi desenvolvido como um aplicativo web
responsivo, tornando-o compatível com dispositivos móveis e desktop. A interface do
usuário usa HTML5, front-end Bootstrap 3 e a biblioteca JavaScript jQuery 3. O back-
end é baseado no Laravel 5.3, um framework PHP MVC. Para o bate-papo e compartilha-
1531
XXXVII Congresso da Sociedade Brasileira de Computação
mento de arquivos, bem como para atualizar o status dos usuários, foi usado um servidor
Node.JS com a biblioteca Socket.IO.
1532
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Usamos uma instância do Learning Locker (Figura 4), um LRS baseado em PHP
que recebe as instruções geradas na interface do usuário colaborador por solicitações
AJAX. Esta implementação fornece funcionalidades de relatório, tornando possível ge-
rar gráficos e exportar dados por diferentes combinações de atores, verbos e objetos.
5. Considerações Finais
Este trabalho abordou a criação de um ambiente colaborativo para a experimentação on-
line móvel. A solução possibilita que os alunos criem seus próprios laboratórios e os
compartilhem em um ambiente colaborativo. Além disso, fornecemos modelos de soft-
ware para placas de desenvolvimento amplamente conhecidas, o que permite que os alu-
nos usem seus próprios equipamentos eletrônicos para ampliar o trabalho de laboratório
usando a solução desenvolvida.
O modelo adotado no desenvolvimento, usando o gateway de laboratório para
conectar dispositivos sem endereços IP válidos ao aplicativo cliente, pode ser usado em
diferentes cenários para publicar laboratórios online, minimizando problemas com NAT
e firewalls.
Em relação ao uso de xAPI, ainda não há vocabulário especifico para armazenar
experiências de aprendizado de laboratórios online. Padronizado este vocabulário é de
extrema importância, permitindo a cooperação e comparação de resultados entre diferen-
tes estudos. Nesse sentido, como um trabalho futuro, seria importante definir verbos e
atividades para o uso de xAPI com laboratórios online.
6. Agradecimentos
Os autores gostariam de agradecer ao Departamento de Relações Exteriores, Comércio
e Desenvolvimento (DFTAD) do Governo do Canadá pela bolsa concedida através do
Programa Futuros Líderes nas Américas (Emerging Leaders in the Americas Program,
ELAP) e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
pelo apoio financeiro através de bolsas e materiais para condução da pesquisa.
1533
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
ADL, A. D. L. I. (2017). Experience API: Advanced Distributed Learning (ADL) Co-
Laboratories.
Antonio, C. P., Lima, J. P. C., Alves, J. B. M., Silva, J. B., and Simão, J. P. S. (2016).
Merging a remote microscope and virtual worlds: Teaching kingdom plantae on basic
education. International Journal of Online Engineering (iJOE), 12(4):3.
Auer, M., Pester, A., Ursutiu, D., and Samoila, C. (2003). Distributed virtual and remote
labs in engineering. In IEEE International Conference on Industrial Technology, 2003,
volume 2, pages 1208–1213.
Bochicchio, M. A., Longo, A., Vaira, L., and Zappatore, M. (2015). Fostering online
scientific experimentations in universities and high schools: The edoc project. In 2015
3rd Experiment International Conference, pages 337–342.
Costa, R. J. and Alves, G. R. (2006). Remote and mobile experimentation: Pushing the
boundaries of an ubiquitous learning place. IFAC Proceedings Volumes, 39(4):314–
320.
Hamzah, W. M. A. F. W., Ali, N. H., Saman, M. Y. M., Yusoff, M. H., and Yacob, A.
(2015). The use of tin can api for web usage mining in e-learning applications on the
social network. In 2015 IEEE Symposium on Computer Applications and Industrial
Electronics (ISCAIE), pages 113–118.
Orduña, P. (2013). Transitive and Scalable Federation Model for Remote Laboratories.
Thesis, Universidad de Deusto.
Orduña, P., Almeida, A., López-de Ipiña, D., and Garcia-Zubia, J. (2014). Learning
analytics on federated remote laboratories: Tips and techniques. In 2014 IEEE Global
Engineering Education Conference (EDUCON), pages 299–305.
Restivo, M. T., Lopes, A. M., Machado, L. d. S., and Moraes, R. M. d. (2011). Ad-
ding tactile information to remote and virtual labs. In 2011 IEEE Global Engineering
Education Conference, pages 1120–1124.
Rodriguez-Gil, L., Garcia-Zubia, J., Orduna, P., and Lopez-de Ipina, D. (2016). Towards
new multiplatform hybrid online laboratory models. IEEE Transactions on Learning
Technologies, PP(99):1–1.
Saliah-Hassane, H. and Reuzeau, A. (2014). Mobile open online laboratories: A way
towards connectionist massive online laboratories with x-api (c-mools). In 2014 IEEE
Frontiers in Education Conference (FIE) Proceedings, pages 1–7.
Salzmann, C., Govaerts, S., Halimi, W., and Gillet, D. (2015). The smart device specifica-
tion for remote labs. International Journal of Online Engineering (iJOE), 11(4):9–29.
Silva, J. B. d., Rochadel, W., Simão, J. P. S., and Fidalgo, A. V. d. S. (2014). Adapta-
tion model of mobile remote experimentation for elementary schools. IEEE Revista
Iberoamericana de Tecnologias del Aprendizaje, 9(1):28–32.
Tawfik, M., Salzmann, C., Gillet, D., Lowe, D., Saliah-Hassane, H., Sancristobal, E.,
and Castro, M. (2014). Laboratory as a service (laas): a novel paradigm for develo-
ping and implementing modular remote laboratories. International Journal of Online
Engineering (iJOE), 10(4):9.
1534
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1535
XXXVII Congresso da Sociedade Brasileira de Computação
3
Departamento de Matemática
Universidade Regional de Blumenal (FURB) – Blumenau, SC – Brazil
4
Departamento de Letras
Universidade Regional de Blumenal (FURB) – Blumenau, SC – Brazil
Resumo. Este artigo é parte de um projeto de extensão que tem por objetivo
ensinar crianças a programar através de joguinhos. O artigo apresenta a fase
de concepção do jogo, o qual foi realizada por uma equipe interdisciplinar de
computação, comunicação e letras. Para a concepção foram utilizadas técnicas
de design colaborativo e foi aplicado o método CARD para a definição das
regras do jogo. Para a produção, utilizou-se da abordagem de processos de
negócio de forma colaborativa, na qual foi definido um fluxo de atividades para
cada parte da equipe. Este artigo apresenta o desenvolvimento e discute a apli-
cabilidade dos métodos para a concepção de um produto.
1. Introdução
O termo “Pensamento Computacional” (WING, 2006) traz uma nova abordagem para a
área da Ciência Cognitiva e da Ciência da Computação, pois parte da premissa de que
a inserção dos conceitos da Ciência da Computação na educação básica desenvolve uma
habilidade de abstração diferente, a qual ajuda as crianças na resolução de problemas em
todas as áreas da vida. Dessa forma, o Pensamento Computacional é uma habilidade para
todos, e não apenas para futuros cientistas da computação.
Conforme Nunes (2011), o raciocı́nio computacional é intuitivo no ser humano
e se manifesta já na idade infantil. Portanto, a criança naturalmente raciocina de forma
computacional. Por exemplo, uma criança tem a capacidade de realizar várias atividades
(algoritmos) em paralelo (simultaneamente), mantendo controle sobre elas. Entretanto, tal
capacidade não é explorada adequadamente na educação básica. Como consequência, o
raciocı́nio intuitivo (e computacional) se perde ao longo do desenvolvimento do indivı́duo,
1536
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
a tal ponto que, em geral, um adolescente tem mais dificuldades de resolver problemas de
maneira intuitiva e, consequentemente, de maneira computacional, do que uma criança.
A Extensão Universitária caracteriza-se com um processo interdisciplinar, educa-
tivo, cultural, cientı́fico e polı́tico que promove a interação transformadora entre Universi-
dade e outros setores da sociedade. Sabe-se também que a relação dialógica entre univer-
sidade e sociedade promove a interação entre teoria e prática e potencializa a articulação
entre os saberes sistematizados, acadêmicos e populares.
O projeto Furbot foi concebido como ferramenta de apoio ao ensino de con-
ceitos de programação e vem sendo utilizado desde 2008 na disciplina de introdução a
programação do primeiro semestre dos cursos de Sistemas de Informação e Ciência da
Computação. Como a ferramenta atual foi desenvolvida por profissionais da computação
que atuam no ensino superior, a ferramenta está voltada para este pública alvo. Assim, se
por um lado a experiência de oito anos de alguns dos extensionistas com o uso da ferra-
menta endossa a iniciativa de leva-la para estudantes do Ensino Fundamental, os quais têm
menor contato com disciplinas que fomentam o raciocı́nio lógico e o pensamento com-
putacional (WING, 2006), por outro lado, coloca um desafio que justifica a composição
da equipe interdisciplinar para esse projeto, já que é preciso despertar o interesse dos
alunos pelos saberes associados aos conteúdos que serão desenvolvidos, seja por meio de
um layout mais atrativo para a ferramenta, seja pela proposta pedagógica envolvida na
elaboração das oficinas.
Como o layout da ferramenta é bastante simples, o desafio da equipe interdisci-
plinar do projeto é adequar o ambiente do Furbot para a realidade da Educação Básica e
possibilitar o desenvolvimento de conteúdos adequados à idade, à maturidade e às carac-
terı́sticas dos recursos humanos envolvidos (qualificação tecnológica dos professores da
escola), bem como da infraestrutura de TI disponı́vel aos alunos.
Como primeiro ponto de atividade, decidiu-se construir um tabuleiro fı́sico
baseado na ferramenta Furbot para que as crianças entre 9 e 10 anos possam ter os
primeiros conceitos de programação. Para a construção deste, utilizou-se das práticas
colaborativas em um ambiente interdisciplinar.
Dentro desse contexto, o presente artigo está dividido da seguinte forma. A seção
2 apresenta alguns trabalhos relacionados ao jogo a ser desenvolvido. A seção 3 dis-
corre sobre as práticas colaborativas no desenvolvimento de um produto. A seção 4 dis-
cute o desenvolvimento do tabuleiro através de um estudo de caso no qual foi aplicada
a metodologia das práticas colaborativas. Por fim, a seção 5 apresenta a conclusão e os
trabalhos futuros.
2. Trabalhos Relacionados
Foi realizada uma pesquisa com relação aos jogos de tabuleiro existentes no mercado
que são voltados para o ensino da programação. Com base nos resultados encontrados,
são apresentados três jogos de tabuleiro que auxiliam o aprendizado da programação,
sendo C-Jump [Kholodov 2016], Robot Turtles [Lazowska and Etzioni 2014] e Robot
Wars [Akuthota 2016].
O C-Jump [Kholodov 2016] tem por objetivo ensinar crianças a aprender con-
ceitos das linguagens de programação C, C++ e Java. O jogo ocorre num tabuleiro com
1537
XXXVII Congresso da Sociedade Brasileira de Computação
cenário de esquiadores (Figura 1), no qual o jogador que passar todos os seus esquiadores
pela linha de chegada vence o jogo. Para alcançar a linha de chegada, o jogador deve
seguir os passos do tabuleiro que são sequências de comandos de programação, como
switch, if e else. Além dos comandos de programação, o jogo treina as habilidades
matemáticas de soma, subtração, divisão e multiplicação. Os comandos de programação
e cálculos devem ser executados em uma sequência lógica para que o jogador atinja seu
objetivo final, sendo assim, o jogo auxilia no desenvolvimento da compreensão de um
programa de computador, formado por sequências de passos lógicos.
O jogo Robot Turtles [Lazowska and Etzioni 2014] é um jogo voltado para
crianças entre 3 e 8 anos que ensina os fundamentos da programação. Os personagens
do jogo são tartarugas e o cenário do tabuleiro possui algumas variações, sendo a mais
comum uma paisagem de um lago. Cada jogador é responsável por uma tartaruga (repre-
sentada através de uma carta) e precisa fazê-la chegar a um objetivo que varia conforme o
enunciado da vez. Em alguns cenários, são colocados obstáculos pelo caminho de modo
a bloquear algumas passagens, como apresentado na Figura 1. Para que a tartaruga atinja
o objetivo ela deve utilizar outras cartas que contêm direções como virar e andar. O jogo
ensina a criança a ter um pensamento lógico e sequencial de modo que consiga atingir o
objetivo colocando as cartas no cenário.
Por fim, o jogo Robot Wars é um jogo de estratégia voltado a crianças e adul-
tos, possuindo vários nı́veis que garantem o aprendizado progressivo. Cada jogador é re-
sponsável por um robô e recebe cartas que contém comandos de programação em Java. Há
vários nı́veis de cartas sendo: i iniciante, comandos para o aprendizado de passos sequen-
ciais; ii intermediário, formado por comandos condicionais e de repetição; e avançado,
formado por chamada de métodos. O objetivo do participante é chegar ao ponto central
do tabuleiro e durante o caminho do mapa pode “matar” os robôs adversários, sendo que
devem retornar a casa inicial. Para andar pelo tabuleiro, o jogador na sua vez retira uma
carta do monte (Figura 2), que contém uma instrução de movimentação (direita, esquerda,
frente, trás) e, se conseguir realizar o movimento, tem direito a uma carta recurso. A carta
recurso (Figura 2) contém um código-fonte mais elaborado com comandos condicionais,
repetição ou função e podem ser utilizadas quando o jogador achar necessário. São através
das cartas de recurso que o jogador aprende os comandos da programação.
1538
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1539
XXXVII Congresso da Sociedade Brasileira de Computação
4. Desenvolvimento do Processo
Com o objetivo de construir um projeto que atraia a atenção das crianças para o apren-
dizado da lógica, viu-se a necessidade de uma equipe interdisciplinar. Dessa forma,
a equipe composta por membros dos cursos de Ciência da Computação, Sistemas de
Informação, Matemática, Comunicação Social e Letras se uniram para a construção de um
jogo de tabuleiro que permita o aprendizado da programação. A partir desta equipe, foi
possı́vel alcançar os diferentes conhecimentos exigidos para a construção de um jogo que
ensine a programação, sendo eles: conceitos da programação, exercı́cios matemáticos, de-
sign do jogo, construção dos personagens e, construção dos enunciados de forma atrativa
para o público alvo desejado.
Para a construção do jogo, utilizou-se a metodologia de práticas colaborativas
através de algumas técnicas de design. A primeira técnica aplicada foi a Collabora-
tive Analysis of Requirements and Design (CARD) [Preece et al. 2005], na qual foram
disponibilizados para os participantes materiais para que montassem o seu tabuleiro.
Porém, a técnica foi aplicada de forma colaborativa, sendo que a medida em que um
integrante colocava uma parte do tabuleiro, os demais opinavam e adicionavam as suas
contribuições. Na Figura 4 pode-se observar a reunião com a aplicação da técnica CARD
na qual os participantes estão trabalhando com o jogo produzido até o momento. Nessa
primeira etapa, houve a participação de membros dos cursos de Ciência da Computação,
Sistemas de Informação e Letras. Antes de iniciar a reunião e a aplicação da técnica,
1540
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
solicitou-se aos participantes que estudassem os jogos correlatos, afim de terem uma
ideia para a construção do jogo em questão. A técnica CARD foi utilizada, pois é
uma técnica para análise de tarefas para o desenho de fluxos de atividades em um
sistema [Tudor et al. 1993]. Através dela é possı́vel ter uma visão macroscópica das
atividades necessárias e da sequência em que elas são realizadas [Tudor et al. 1993],
[Preece et al. 2005].
Com a técnica CARD foi possı́vel identificar o fluxo do jogo, assim como as
tarefas que devem ser implementadas para a sua conclusão. Durante a reunião, foram
necessários alguns ajustes até se chegar à configuração do jogo, pois o CARD permitiu a
visualização de problemas na dinâmica ou com as cartas. Após a conclusão da reunião,
obteve-se a ideia do jogo, tendo como resultado as seguintes caracterı́sticas:
• o jogo possui um tabuleiro formado por 12 linhas e 12 colunas;
• todos os participantes iniciam de uma mesma casa do tabuleiro, que é sorteada a
partir de dados (assim a criança aprende conceitos básicos de matriz), sendo o 4 o
número máximo de participantes;
• cada participante recebe 5 cartas, tendo uma direção (norte, sul, leste, oeste) ou
um coringa (trocar cartas com o colega, trocar cartas com o monte, ficar uma vez
sem jogar);
• o objetivo é chegar a um alvo no tabuleiro, que também é sorteado com os dados;
• para algumas rodadas, podem ser colocados obstáculos nas casa, também sortea-
dos através dos dados;
• na sua jogada, o jogador pode escolher jogar as cartas (quantas quiser), afim de
alcançar o objetivo ou trocar 2 cartas com o monte e passar a vez;
• vence o jogador que atingir o alvo por primeiro.
Após a definição do jogo, iniciou-se o processo do desenvolvimento do negócio,
sendo neste caso o jogo. Para isso, as atividades foram distribuı́das com a equipe inter-
disciplinar, sendo que cada um recebeu sua atividade e sua definição de fluxo. A Figura 5
apresenta um diagrama de atividades com a definição do processo colaborativo utilizado
para o desenvolvimento do jogo.
Nesse processo, o time de computação ficou responsável pela definição do jogo,
das regras e da validação do tabuleiro. O time da comunicação ficou responsável pela
1541
XXXVII Congresso da Sociedade Brasileira de Computação
aparência e desenho do tabuleiro e das cartas. Por sua vez, o time de letras se respons-
abilizou pela construção dos enunciados com base nas definições pré-estabelecidas pela
reunião inicial.
A colaboração entre os membros da equipe é necessária para assumir a carac-
terı́stica de um processo colaborativo. O objetivo de realizar a tarefa em conjunto é obter
o feedback constante dos participantes de modo a evoluir a tarefa a ser concluı́da, além
de identificar em conjunto as melhores estratégias a serem aplicada para a sua conclusão,
de modo que uma tarefa se complete a outra. Sem estes elementos, não há colaboração e
sim somente uma troca de ideias. Durante o processo de realização do jogo, essa prática
foi constante e sistemática, reunindo a maior quantidade de membros da equipe. Sendo
assim, apesar da divisão das tarefas entre as equipes, o trabalho para a realização de cada
uma delas foi realizado de forma colaborativa entre os participantes daquela equipe. Por
sua vez, após a conclusão de cada tarefa pela equipe, as equipes se uniam para discutir as
melhorias possı́veis na tarefa concluı́da, sendo outra colaboração fornecida no projeto.
1542
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1543
XXXVII Congresso da Sociedade Brasileira de Computação
hados com as crianças na escola. Assim, estarão num contexto conhecido, aprendendo
uma prática nova. Sobre as cartas, optou-se pelo direcionamento conforme a rosa dos
ventos disponibilizada também no mapa, dessa forma é mais um conceito de geografia
reforçado durante a prática do jogo de programação.
1544
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
References
Akuthota, V. (2016). Robot wars board game: Introduce coding to kids. Disponı́vel
em: https://www.indiegogo.com/projects/robot-wars-board-game-introduce-coding-
to-kids.
Bernardo, K. (2014). Kanban: Do inı́cio ao fim. Disponı́vel em:
https://www.culturaagil.com.br/kanban-do-inicio-ao-fim/.
Fuks, H., Raposo, A. B., Gerosa, M. A., and de Lucena, C. J. P. (2002). O modelo de
colaboração 3c e a engenharia de groupware. Monografias em Ciência da Computação,
no 17/02. Rio de Janeiro: PUC Rio.
Furnell, J. (2010). Facilitating collaborative design workshops: a step by
step guide for rapidly creating a shared vision for execution. Disponı́vel
em: https://jasonfurnell.wordpress.com/2010/12/01/facilitating-collaborative-design-
workshops-a-step-by-step-guide-for-rapidly-creating-a-shared-vision-for-execution/.
Kholodov, I. (2016). C-jump ski and snowboard race. Disponı́vel em: http://www.c-
jump.com/.
Lazowska, E. and Etzioni, O. (2014). So, what is robot turtles? Disponı́vel em:
http://www.robotturtles.com/.
Pereira, C. S. and Soares, A. L. (2007). Improving the quality of collaboration require-
ments for information management through social networks analysis. In International
Journal of Information Management, volume 27, pages 86–103.
Preece, J., Rogers, Y., and Sharp, H. (2005). Design de Interação. Bookman.
Santoro, F. M., Iendrike, H., and de Araujo, R. M. (2012). Capı́tulo 11 - colaboração em
processos de negócio. In Pimentel, M. and Fuks, H., editors, Sistemas Colaborativos,
pages 173 – 185. Elsevier Editora Ltda.
Tudor, L. G., Muller, M. J., Dayton, T., and Root, R. W. (1993). A participatory design
technique for high-level task analysis, critique, and redesign: The card method. In Hu-
man Factors and Ergonomics Society Annual Meeting Proceedings, volume 37, pages
295–299.
1545
XXXVII Congresso da Sociedade Brasileira de Computação
o.arthur.oliveira@grad.ufsc.br, luanaleiter@hotmail.com,
remor@sapucaia.ifsul.edu.br, ruasoliveira@inf.ufrgs.br
Abstract. The shortage of donors in blood centers is a major public health
problem in Brazil. To tackle this issue, public servants from blood donation
centers and the media are constantly working on campaigns to encourage
donation. However, a large part of the population remains passive. In this work,
we propose a system to help attract donors and non-donors to blood banks. To
do this, the system allows blood centers and general population to create events
and content and disseminate them through a mobile application and integration
with popular social networks.
Resumo. A falta constante de doadores de sangue nos hemocentros é um dos
grandes problemas da saúde pública no Brasil. Para tentar reverter esse
problema, os servidores dos centros de coleta e as mídias trabalham em
campanhas com o intuito de incentivar a doação voluntária. Entretanto, grande
parte da população continua passiva. Neste artigo propõe-se um sistema
colaborativo que auxilie a aproximar doadores e não doadores dos
hemocentros. Para tanto, o sistema permite que os hemocentros e a população
criem eventos e conteúdos e divulguem-os por meio de um aplicativo móvel e
integração com redes sociais populares.
1. Introdução
A doação de sangue é um problema de interesse mundial, visto que não há como substituir
completamente o tecido sanguíneo [Rodrigues et al. 2011] e este é essencial em diversos
procedimentos de saúde, como recuperação de acidentes, operações cirúrgicas e
tratamento de enfermidades. Por esse motivo, a Organização Mundial da Saúde (OMS)
reconhece o uso do sangue, e seus componentes, como essenciais aos sistemas nacionais
de assistência à saúde [OMS 2015].
Apesar da importância, no Brasil os hemocentros enfrentam dificuldades em
manter os estoques de bolsas de sangue regulares para suprir as demandas [Rodrigues
2013]. A Organização Mundial da Saúde recomenda que cada país tenha entre 3% a 5%
da população como doadores ativos [OMS 2006]. Entretanto, no Brasil, em 2012, o
percentual teve uma média geral de 1,9% da população. Para piorar, os estoques dos
1546
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Trabalhos relacionados
Para identificar critérios de comparação relevantes ao desenvolvimento do sistema, foram
realizadas duas visitas em hemocentros da região metropolitana do estado do Rio Grande
1547
XXXVII Congresso da Sociedade Brasileira de Computação
do Sul: (1) Hemocentro do Estado do Rio Grande do Sul (HEMORGS) e (2) Serviço de
Hemoterapia de Novo Hamburgo (HEMOVIDA). Dois pontos se sobressaíram: a
dificuldade na criação e divulgação de ações de incentivo a doação de sangue; e a falta
de acesso à informação sobre a doação, por exemplo sobre a localização dos pontos de
coleta de sangue e hemocentros da região.
Dessa forma, percebe-se a necessidade de meios que permitam aos hemocentros
compartilharem e divulgarem com mais abrangência suas ações de captação de doadores.
Em contrapartida, é preciso envolver a população nessas atividades e torná-la mais ativa
nesse processo para criar um vínculo de colaboração entre ambos. Também é fundamental
educar a população sobre o tema e permitir o acesso às informações relativas ao processo
de doação; uma vez que esses são pilares essenciais para a ampliação da captação de
doadores [Pinochet 2011, Rodrigues 2013].
Para classificar os sistemas colaborativos atuais baseou-se no modelo 3C
[Pimentel et al. 2003]. Esse conhecido modelo considera que a colaboração envolve:
comunicação (troca de mensagens), coordenação (gerenciamento de pessoas, atividades
e recursos) e cooperação (operações em um espaço compartilhado para execução de
tarefas). A classificação considera quatro características essenciais: acesso à informação
(Comunicação), auxílio aos hemocentros (Cooperação), colaboração
população/hemocentro (Comunicação e Cooperação), gerência e manutenção de ações de
incentivo (Coordenação). Acesso à informação significa oferecer diversas informações
de maneira facilitada, por exemplo, sobre a localização dos centros de doação, campanhas
e eventos de coletas móveis. Auxílio aos hemocentros compreende facilitar a gerência do
hemocentro, oferecendo, por exemplo, controle de intervalo de doações, criação de
eventos e coleta de estatísticas. Colaboração população/hemocentro consiste em dar
liberdade para que hemocentros, doadores, receptores e familiares possam participar mais
ativamente do sistema, por exemplo, criando eventos, solicitando doações direcionadas e
notificando (doadores) sobre pedido de doação de forma simples e rápida. Gerência e
manutenção de ações de incentivo a doação de sangue visa permitir, aos hemocentros,
controlar o acesso ao sistema e a divulgação dos materiais discutidos anteriormente.
Espera-se que, combinando essas quatro características, a comunidade cresça de forma
autônoma sem depender de alguns poucos administradores.
A Tabela 1 compara trabalhos relacionados qualitativamente, indicando se os
mesmos oferecem (V), não oferecem (N), ou oferecem parcialmente (P) as características
essenciais listadas acima.
A maior parte das plataformas disponíveis nesse contexto não oferece qualquer
tipo de colaboração, manutenção ou acesso à informação. As poucas plataformas
colaborativas existentes são Hemoliga [Rodrigues 2015], Hemogram [Instituto das
Cidades Inteligentes 2017] e Hemobile [Underline 2016]. Todos oferecem acesso à
informação relacionada a doação de sangue, contudo o Hemogram é o aplicativo que
exibe o maior número de informações sobre o processo de doação. Essa plataforma, em
particular, possibilita que seus usuários façam pedidos de doação e através de um cadastro
1548
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
PLATAFORMAS SEMELHANTES
SUB-
CATEGORIA
CATEGORIA HEMOLIGA HEMOGRAM HEMOBILE
Lembrete de intervalo
(N) (V) (V)
de doação.
Permite aos
COOPERAÇÃO (auxílio aos
hemocentros divulgar
hemocentros; colaboração (V) (N) (N)
ações de incentivo
população/hemocentro;)
oficiais.
Criação de solicitação
(N) (V) (V)
de doação de sangue.
(P) Somente
(P) Somente (P) Somente
hemocentros
Campanhas. usuários geram usuários geram
geram
campanhas. campanhas.
campanhas.
Lista de hemocentro. (V) (N) (V)
COMUNICAÇÃO (colaboração
população/hemocentro; acesso à Mapa com localização
(V) (V) (V)
informação) dos hemocentros.
Notificação e (V)
(V)
compartilhamento via (N) Facebook e
Facebook
redes sociais. Whatsapp
Fornece acesso. (V) (V) (V)
1549
XXXVII Congresso da Sociedade Brasileira de Computação
incentivo pelos centros de coleta. De forma a restringir esses eventos aos pedidos de
doação criadas pelos usuários da plataforma, ou seja, a manutenção do aplicativo se dá
pela ação do usuário, excluindo os hemocentros desse processo e não promovendo a
divulgação de suas ações.
Dentre os trabalhos relacionados, é possível verificar que nenhum apresenta uma
plataforma que permita a criação e manutenção de ações de incentivo a doação de sangue
pelos hemocentros em conjunto com a criação desses eventos pelos usuários. Todas elas
dispõem somente uma dessas características, ou seja, há uma limitação quanto aos
eventos divulgados e compartilhados nesses sistemas. Dessa forma, reforçamos nossa
conjectura de que se hemocentros e população atuarem de forma colaborativa, haverá
maior potencial para captação e conservação de doadores.
3. O sistema
O sistema proposto utiliza uma plataforma web, um aplicativo mobile e integração com
redes sociais para facilitar o acesso, criação e disseminação de conteúdo ligado ao tema.
Ele abrange três tipos principais de usuário: servidor de hemocentro, comum (doador ou
não-doador) e indireto (que faz uso de redes sociais).
O restante desta seção descreve o sistema de duas formas principais. Primeiro
apresenta-se, na Subseção 3.1, uma visão abrangente dos principais componentes e
entidades do sistema e as suas possíveis interações. Após, na Subseção 3.2, discute-se os
aspectos de implementação de cada componente principal.
1550
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1551
XXXVII Congresso da Sociedade Brasileira de Computação
uma visão geral da implementação dos componentes. Para uma descrição mais extensa,
acesse o relatório técnico, disponível em https://goo.gl/kkjz3W.
O componente Server separa acesso ao banco, acesso aos serviços e componentes
básicos usando três camadas: Data Access Object (DAO), Services e Plain Old Java
Objects (Pojos). DAO generaliza o acesso ao banco, permitindo integração com
diferentes sistemas sem a necessidade de adaptar o restante do código. Services generaliza
o acesso aos serviços prestados, permitindo que os componentes App e Web se integrem
com facilidade. Pojos compreende funcionalidades comuns que não dependem da herança
de interfaces, facilitando a manutenção e tornando suas instâncias “genéricas” para todo
o programa.
O componente App separa interface com o usuário, controle sobre a execução dos
serviços e acesso às informações com quatro camadas: View, Controller, Model e DAO.
View captura todas as ações do usuário e interage com Controller. Controller administra
as ações do usuário, resolvendo-as localmente ou interagindo com o servidor de acordo
com a necessidade. Ele pode também receber informações do servidor via Pushing.
Models equivale a camada POJOS do componente Server, visto que nela estão todos os
componentes básicos. DAO é utilizada por Controller para acessar os dados. Ela abstrai
a comunicação com o servidor. Similarmente ao caso do componente Server, todos as
camadas podem evoluir de forma bastante independente.
O componente Web também utiliza o padrão Model-View-Controller (MVC).
Assim como em App, Model e View fornecem, respectivamente os componentes básicos
e a interface com usuário. Controller interpreta as ações do usuário que são enviadas para
a Model e/ou para a View, direcionando todo o fluxo de informação passado pelo sistema.
Ele também coordena a interação com o componente Server, realizada pela interface
REST. Com o objetivo de oferecer uma experiência agradável e intuitiva ao usuário, foi
utilizado o conceito de Material Design [Google 2014]. Isso permite fornecer uma
interface adaptável a celulares, tablets e computadores de mesa.
4. Aspectos de avaliação
Para validar o protótipo inicial do sistema, serão realizados estudos de caso com usuários
do sistema. Especificamente, pretende-se realizar uma avaliação funcional com o
HEMORGS (Hemocentro do Estado do Rio Grande do Sul), o qual demonstrou interesse
na utilização da ferramenta e comprometeu-se na realização dos testes do sistema e no
suporte à manutenção das informações sobre a doação de sangue. Para isso, pretende-se
formalizar um caso de experimentação do sistema com os servidores do setor de captação
de doadores do hemocentro, verificando suas satisfações com relação aos seguintes
tópicos: avaliação das funcionalidades, avaliação da interface e efeitos do uso do sistema.
Para realizar a avaliação das funcionalidades, cada serviço prestado pelo
componente Web será listado e avaliado conforme seu desempenho frente às necessidades
do hemocentro. Essa avaliação será dada através de um sistema de pontuação, de 0 (não
1552
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1553
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Dani, L. (2009). A Doação de Sangue no Contexto do Grupo Hospitalar Conceição.
ICITC, Fundação Oswaldo Cruz.
Fowler, James H., e Christakis, Nicholas A. (2010). Cooperative behavior cascades in
human social networks. Proceedings of the National Academy of Sciences, 107.12.
Giacomini, L. (2007). Elementos para a organização do trabalho em hemoterapia com
vistas à fidelização do doador voluntário de sangue. Programa de Pós-Graduação em
Enfermagem, Universidade Federal do Rio Grande (FURG).
Google (2014). Material Design. Disponível em: <https://material.io/guidelines/#>
Acesso em: 04 de mar. 2017.
Gutiérrez, M. G., TEJADA, E. S., e CRUZ, J. R. (2003). Estudio de factores
socioculturales relacionados con la donación voluntaria de sangre en las Américas.
Rev. Panam. Salud Publica, v. 13, n. 2/3, 2003.
Instituto das Cidades Inteligentes. (2017). Hemogram. Disponível em:
<https://play.google.com/store/apps/details?id=br.org.curitiba.ici.hemogram&hl=pt_
BR> Acesso em: 25 de mar. 2016.
Ludwig, S. (2010). Contribuições para a efetividade da comunicação da doação de sangue
a partir de uma abordagem persuasiva. Pontifícia Universidade Católica do Rio Grande
do Sul (PUCRS).
Pimentel, M., Gerosa, M. A., Filippo, D., Raposo, A., Fuks, H. e de Lucena, C. J. P.
(2006). Modelo 3C de colaboração para desenvolvimento de Sistemas Colaborativos.
Anais do III Simpósio Brasileiro de Sistemas Colaborativos, pp. 58-67.
Pinochet, L. (2011). Tendências de Tecnologia de Informação na Gestão da Saúde. O
Mundo da Saúde, 35(4).
Rodrigues, A. (2015). Hemoliga. Disponível em:
<https://play.google.com/store/apps/details?id=br.com.hemoliga&hl=pt_BR>.
Acesso em: 25 mar. 2017.
1554
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1555
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Nos dias atuais, redes sociais como o Twitter1 , Facebook2 , Foursquare3 e Instagram4 ,
tornaram-se ferramentas importantes para que pessoas possam compartilhar informações
relacionadas ao contexto no qual estão inseridas (negócios, ocorrências diárias, vida pes-
soal e notı́cias) [Becker et al. 2011]. Devido a isto, o Sensoriamento Social, uma nova
área de pesquisa, emergiu.
1
https://twitter.com
2
https://facebook.com
3
https://foursquare.com
4
https://instagram.com
1556
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Trabalhos Relacionados
Uma das áreas relacionadas ao Sensoriamento Social é a detecção de eventos, que estuda
os fenômenos do mundo real reportados por meio de usuários de redes sociais e que
contém informação espaço-temporal [Valkanas and Gunopulos 2013].
As redes sociais tornaram-se uma importante fonte de informação para estudar os
aspectos do contexto dos usuários. O Twitter é a rede social utilizada nos trabalhos apre-
sentados nesta seção. Os trabalhos que utilizam esta rede social para obter informações
estão relacionados com processamento de dados massivos, providos por tweets e retweets
de usuários em tempo real [Atefeh and Khreich 2015, Li et al. 2012].
Neste sentido, alguns estudos realizam agrupamento de dados para detectar even-
tos não especificados, como notı́cias recentes [Sankaranarayanan et al. 2009] ou situações
1557
XXXVII Congresso da Sociedade Brasileira de Computação
de desastre natural [Toriumi and Baba 2016]. Outros estudos utilizam a abordagem de
agrupamento para diferenciar eventos do mundo real de mensagens não relacionadas a
eventos [Becker et al. 2011].
[Sankaranarayanan et al. 2009] propôs um sistema chamado TwitterStand, que
captura tweets relacionados a notı́cias recentes. Na solução, um classificador baseado
em Naive Bayes é responsável por separar notı́cias de outras informações. Em seguida,
um algoritmo de agrupamento forma clusters de notı́cias utilizando hashtags para reduzir
erros de agrupamento. [Phuvipadawat and Murata 2010] apresentam um método para o
rastreamento de notı́cias recentes do Twitter utilizando palavras-chave em na coleta dos
dados. Em seguida, mensagens com termos similares, hashtags e nomes de usuários são
agrupados. A solução considera o número de seguidores e o número de retweetes para
ranqueamento dos clusters. [Becker et al. 2011] propuseram uma técnica de agrupamento
em redes sociais que assimila tweets através do TF-IDF. Posteriormente, os clusters são
classificados em eventos do mundo real e não-eventos através de um algoritmo de Support
Vector Machine (SVM).
Existem também estudos que analisam apenas um tipo de evento utilizando apren-
dizagem supervisionada. Nestes estudos, é necessário que informações preliminares so-
bre os eventos sejam disponibilizadas. Além disso, se o tipo de evento mudar, novas
informações devem ser adquiridas para a solução.
[Sakaki et al. 2010] propuseram um modelo para detectar um tipo especı́fico de
evento. Os autores treinaram um algoritmo de SVM através de dados do Twitter rotula-
dos manualmente com informações de terremotos e tufões. Em seguida, estimaram a tra-
jetória dos tufões aplicando Filtros de Kalman e Filtros de Partı́cula. [Nguyen et al. 2016]
apresentaram um sistema chamado TrafficWatch, que coleta, filtra e analisa tweets relaci-
onados a incidentes na Austrália. O objetivo era utilizar as redes sociais como um canal
adicional de monitoramento do trânsito e gerenciador de incidentes. Para isto, os auto-
res aplicaram processamento de linguagem natural para extrair informações dos tweets.
Em seguida, foram utilizados os algoritmos de SVM e Árvores de Decisão para definir
eventos relevantes e não relevantes.
Neste trabalho, propomos um método genérico para a detecção de eventos es-
pecı́ficos em redes sociais. Diferente dos trabalhos citados nesta seção, utilizamos um
algoritmo incremental de aprendizagem não-supervisionada para processar os dados de
acordo com a natureza de tempo real da rede social Twitter. O objetivo é melhorar a
eficiência no procesamento de informações, atualizando apenas os dados pertinentes a
cada nova informação recebida da rede social.
3. Método proposto
Para a detecção de eventos, propomos um método que utiliza um algoritmo de agrupa-
mento incremental para processamento de streams de dados provenientes de redes sociais
(Figura 1). Esta abordagem é viável em relação a tradicional, pois apenas uma parte es-
pecı́fica da base de dados é processada de acordo com a publicação de novas informações
nas redes sociais e com o funcionamento do modelo Sliding Window. Além disso, esta
abordagem permite a detecção de diferentes ocorrências relacionadas ao mesmo evento
em estudo, mesmo que este aconteça em locais e horários aproximados.
Primeiramente, é realizada a coleta e filtragem dos dados por meio de palavras-
1558
Coleta e Filtragem Base de
de Dados Dados
𝑡" 𝑡# 𝑡$ … 𝑡%
Agrupamento
Frequência Incremental baseado
Pré-processamento de Termos em Densidade
4. Agrupamento Incremental
O processo do algoritmo de agrupamento incremental (Algoritmo 1) é baseado em den-
sidade e consiste em verificar a distância entre os dados e unificar dados próximos. A
distância máxima entre dois dados está presente na variável eps-neighborhood.
Quando os clusters são formados, os dados que não pertencem a nenhum cluster
são considerados ruı́dos pelo algoritmo. Em outras palavras, o algoritmo verifica a den-
sidade dos clusters. Os de alta densidade são considerados informações de um mesmo
evento, enquanto os de baixa densidade são considerados ruı́dos. Esta caracterı́stica do
algoritmo faz com que o mesmo torne-se viável para ser utilizado na abordagem de Sen-
soriamento Social, dado que as informações podem conter palavras-chave relacionadas
ao estudo de caso, mas podem não pertencer a um evento.
XXXVII Congresso da Sociedade Brasileira de Computação
5
http://scikit-learn.org/
6
http://scikit-learn.org/stable/modules/generated/
sklearn.cluster.DBSCAN.html
1560
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5. Experimentos e Resultados
Nesta seção, descreventos os experimentos, resultados e avaliações do algoritmo de agru-
pamento incremental para a detecção de eventos. Também apresentamos um estudo de
caso em que aplicamos a solução proposta para a identificação e contagem de eventos
relacionados a acidentes de trânsito.
Para a solução proposta, tweets de canais de notı́cia são mais relevantes do que
os tweets de usuários comuns, devido à etapa de cálculo da frequência dos termos. Na
Tabela 1, apresentamos um exemplo do grau de importância de alguns termos. De ma-
neira geral, termos relacionados aos nomes das vias são considerados os mais relevantes,
enquanto termos comuns são considerados menos relevantes. Na Tabela 1, por exemplo,
verificamos que as rotas interestaduais, como a I-287, e avenidas são consideradas rele-
vantes para o algoritmo. Desta forma, sabemos que as vias são as caracterı́sticas mais
importantes para o algoritmo de agrupamento incremental.
Antes de aplicar o algoritmo que calcula a frequência dos termos, realizamos al-
gumas modificações nos dados, como a remoção de stop words.
1561
XXXVII Congresso da Sociedade Brasileira de Computação
1562
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
120
Acidentes de Trânsito
100
Quantidade de
80
60
40
20
06:00 - 09:59
10:00 - 13:59
Período do dia
14:00 - 17:59
18:00 - 21:59
22:00 - 01:59
02:00 - 05:59
0 10 20 30 40
Tempo médio para formar um cluster (minutos)
sentado por uma cor diferente. Já os dados considerados ruı́dos são representados por
pequenos pontos pretos. Nas Figuras 5(a) e 5(b) é possı́vel verificar o momento em que
o algoritmo converte dados considerados ruı́dos (cı́rculo azul pontilhado), em um cluster
que representa uma ocorrência de acidente de trânsito após a inserção de novos dados na
base. No entanto, verificamos que em alguns casos o dado permanece como ruı́do mesmo
com a inserção de novos dados (cı́rculo vermelho pontilhado), o que ocorre devido à falta
de similaridade destes com os demais dados da base (Figura 5(c)).
Dados do cluster
Dados do cluster
1563
XXXVII Congresso da Sociedade Brasileira de Computação
60
40
20
0
7. Agradecimentos
Parte dos resultados apresentados nessa publicação foram obtidos por meio de atividades
de Pesquisa e Desenvolvimento do projeto SAMSUNG OCEAN, patrocinado pela Sam-
1564
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
sung Eletrônica da Amazônia Ltda., apoiado pela SUFRAMA sob os termos da lei federal
No 8.248/91.
8. Referências
Albuquerque, F. C., Casanova, M. A., Lopes, H., Redlich, L. R., de Macedo, J. A. F.,
Lemos, M., de Carvalho, M. T. M., and Renso, C. (2015). A methodology for traffic-
related twitter messages interpretation. Computers in Industry.
Atefeh, F. and Khreich, W. (2015). A survey of techniques for event detection in twitter.
Comput. Intell., 31(1):132–164.
Becker, H., Naaman, M., and Gravano, L. (2011). Beyond trending topics: Real-world
event identification on twitter. In International Conference on Weblogs and Social
Media. AAAI.
Ester, M., Kriegel, H.-P., Sander, J., and Xu, X. (1996). A density-based algorithm for
discovering clusters in large spatial databases with noise. In Kdd, volume 96, pages
226–231.
Li, R., Lei, K. H., Khadiwala, R., and Chang, K. C.-C. (2012). Tedas: A twitter-based
event detection and analysis system. In International Conference on Data Engineering
(ICDE), pages 1273–1276. IEEE.
Nguyen, H., Liu, W., Rivera, P., and Chen, F. (2016). Trafficwatch: Real-time traffic
incident detection and monitoring using social media. In Pacific-Asia Conference on
Knowledge Discovery and Data Mining, pages 540–551. Springer.
Phuvipadawat, S. and Murata, T. (2010). Breaking news detection and tracking in twitter.
In International Conference on Web Intelligence and Intelligent Agent Technology (WI-
IAT), volume 3, pages 120–123. IEEE.
Sakaki, T., Okazaki, M., and Matsuo, Y. (2010). Earthquake shakes twitter users: real-
time event detection by social sensors. In Proceedings of the 19th international confe-
rence on World wide web, pages 851–860. ACM.
Sankaranarayanan, J., Samet, H., Teitler, B. E., Lieberman, M. D., and Sperling, J. (2009).
Twitterstand: news in tweets. In Proceedings of the 17th acm sigspatial international
conference on advances in geographic information systems, pages 42–51. ACM.
Silva, T. H., Vaz de Melo, P. O., Almeida, J. M., Salles, J., and Loureiro, A. A. (2014). Re-
vealing the city that we cannot see. ACM Transactions on Internet Technology (TOIT),
14(4):26.
Toriumi, F. and Baba, S. (2016). Real-time tweet classification in disaster situation. In
Proceedings of the 25th International Conference Companion on World Wide Web,
pages 117–118. International World Wide Web Conferences Steering Committee.
Valkanas, G. and Gunopulos, D. (2013). How the live web feels about events. In Pro-
ceedings of the 22nd ACM International Conference on Information & Knowledge
Management, pages 639–648. ACM.
Zhang, T., Ramakrishnan, R., and Livny, M. (1996). Birch: an efficient data clustering
method for very large databases. In ACM Sigmod Record, volume 25, pages 103–114.
ACM.
1565
XXXVII Congresso da Sociedade Brasileira de Computação
1.
Introdução
Os conceitos de computação ubíqua estão cada vez mais presentes na sociedade, por
meio da popularização dos dispositivos móveis e dos avanços científico-tecnológicos
[Satyanarayanan 2001]. Dispositivos como smartphones e tablets fazem parte do
cotidiano de um número cada vez maior de pessoas, acompanhando-as em sua rotina,
tais dispositivos são capazes de coletar e monitorar informações acerca das atividades
que seu usuário faz. Então, a computação ubíqua [Weiser 1991] alinhada com o
constante uso de dispositivos móveis abre espaço para a exploração de novas aplicações
da computação ubíqua, aplicando ela no cotidiano do usuário. Nesse âmbito, os
Location Based Services (LBS) são serviços que integram a localização ou posição
do dispositivo móvel com outras informações para prover valores adicionais ao usuário
[Spiekermann 2004], podendo ser utilizado em diversos tipos de aplicações, como redes
sociais e jogos.
Muitas pessoas ainda desconhecem a diferença entre intolerância e alergia
alimentar. As reações alérgicas ocorrem quando o sistema imunológico reconhece um
alimento que contém uma substância que possa fazer mal ao indivíduo [Nunes 2012].
Nesses casos, o corpo tende a dar uma resposta imunológica mais rápida, que pode
variar de 15 minutos até 48 horas [Gasparin, F. et al., 2010]. De 15 minutos até 6
1566
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
horas após a ingestão do alimento, um intolerante à lactose, por exemplo, pode ter
sintomas como urticária, vermelhidão na pele e diarreia [Vieira 2004, Barros
2012]. E, em casos de alergia muito grave à certo alimento, a ingestão do mesmo pode
causar dificuldades respiratórias, diminuição da pressão arterial e do oxigênio cerebral,
podendo levar a vítima à morte [Filho 2014], sendo que, entre 100 e 125 pessoas
morrem por ano nos Estados Unidos em decorrência de uma alergia alimentar [Sanz
2001]. Em uma manifestação mais tardia, os sintomas podem aparecer como cólicas,
dores abdominais, assim como no aumento na quantidade de fezes e alguns problemas
respiratórios.
Pessoas com restrições alimentares sofrem cada dia mais com a falta de
acessibilidade [Porto, C. et al., 2005] quanto à sua alimentação [Tumas 2008], seja pela
falta de opções de alimentos alternativos, pelo difícil preparo de alimentos alternativos,
ou pela falta de cuidado e conhecimento sobre a área por parte de terceiros. Quando se
trata de crianças, o problema se torna ainda mais grave [Bricks 1994], visto que elas,
muitas vezes, não têm o conhecimento da intolerância ou alergia que sofrem, ou então
de quais alimentos devem comer, evitar, dentre outras complicações. De acordo com
METZ e BURKS (2009), aproximadamente 6% das crianças em grupos de 0 a 5 anos
de idade sofrem de alguma alergia ou intolerância alimentar. Se a restrição não for
diagnosticada desde cedo, os alérgenos poderão trazer consequências graves a curto
prazo, em casos de alergias, ou a longo prazo, em casos de intolerâncias. Dada a falta
de interligação entre estabelecimentos e clientes, o crescente número de intolerantes e
alérgicos [Pérez-Machado, M. et al., 2003], e as dificuldades que permeiam o dia a dia
destes, fica clara a necessidade de algo que possibilite a conexão entre todo o grupo de
pessoas com restrições alimentares e restaurantes e demais estabelecimentos que
atendem esse público. Surge assim o seguinte questionamento: como prover
acessibilidade para pessoas com restrições alimentares de uma maneira ágil, precisa e
objetiva?
O presente trabalho apresenta uma plataforma colaborativa de integração e ajuda
mútua entre pessoas com restrições alimentares. A plataforma, denominada
wIntolerance, possui os seguintes objetivos:
Colaboração:
-Permitir que usuários cadastrem receitas de acordo com suas restrições
alimentares, para que outros usuários possam avaliar essa receita, deste modo,
contribuindo para a construção da comunidade da plataforma;
-Se tornar uma “vitrine” para que proprietários de restaurantes que atendem
pessoas com restrições alimentares, onde eles poderão cadastrar seus
estabelecimentos e serem avaliados.
Facilidade:
-Fornecer uma ferramenta de pesquisas de forma rápida e intuitiva, onde os
usuários aprendam a utilizar a funcionalidade rapidamente;
-Utilizar a localização do usuário para exibir os restaurantes na proximidade que
se encaixam no seu perfil;
-Facilitar a avaliação de receitas e restaurantes para fornecer mais comodidade
aos usuários.
2. Trabalhos relacionados
Entre os trabalhos estudados, encontram-se diversos projetos que envolvem pessoas
com restrições alimentares, porém nenhum deles realmente realiza uma conexão entre
1567
XXXVII Congresso da Sociedade Brasileira de Computação
pessoas com restrições alimentares com restaurantes, e com outras pessoas de uma
forma colaborativa. Deste modo, para a comparação entre os trabalhos estudados, foi
utilizado o Modelo 3C’s de Colaboração (Comunicação, Cooperação e Coordenação)
[Pimentel, M. et al., 2006]. Para classificar foram levados em conta quesitos que
poderiam ser encaixados em um ou mais dos 3C’s. Avaliação no app (Cooperação e
Comunicação) avalia se a plataforma permite aos usuários avaliarem seus itens,
Abrangência (Coordenação) considera a gama de restrições que o aplicativo fornece
apoio, Comunicação entre usuários (Comunicação e Cooperação), Receitas
(Coordenação), Estabelecimentos (Coordenação), LBS (Coordenação) leva em conta se
o aplicativo utiliza ou não os conceitos de Location Based Services.
Quadro 1. Comparação entre trabalhos relacionados.
1568
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
3. Metodologia
3.1. Pesquisa e planejamento
Com o presente trabalho pretende-se ampliar o auxílio às pessoas que sofrem com
alimentação restritiva, identificando problemas e disponibilizando o devido apoio,
através de um aplicativo para dispositivos móveis. Para identificar melhor a necessidade
do público-alvo foi realizada uma pesquisa de campo, voltada a pessoas com restrições
alimentares. A pesquisa foi dividida em 3 seções, na primeira foram perguntadas as
informações pessoais do indivíduo, como: restrição que possui, idade e cidade onde
reside. A segunda seção do questionário foi direcionada a perguntas acerca de
restaurantes, como com qual frequência eles vão a restaurantes, o que eles procuram em
um restaurante e qual o preço máximo que poderiam pagar em algo voltado para sua
restrição. Por fim, a última seção foi feita em relação a receitas, perguntando qual a
possibilidade de eles usarem uma plataforma que facilite o acesso a receitas que
atendem às suas restrições alimentares e quais as maiores dificuldades que enfrentam
no dia a dia.
A fim de identificar a viabilidade de uma plataforma voltada para público
intolerante/alérgico, a seguinte pergunta foi criada: “Você utilizaria uma plataforma
(sites ou aplicativos) que facilitaria o acesso às receitas que atendam suas restrições
alimentares?". Onde 78,9% das pessoas responderam positivamente, desta forma,
tivemos certeza que era necessária a criação de algo que atendesse essas pessoas.
Outra pergunta relevante para o projeto foi: “Você encontra dificuldade em
localizar restaurantes que tenham pratos voltados às pessoas com restrições
alimentares?”. Por meio deste foi possível o quão necessário é a disponibilidade de
algo que faça a conexão entre clientes e restaurantes, dado que 81% das pessoas
responderam “Sim”.
A pesquisa teve um total de 42 entrevistados, captados durante a apresentação
do projeto em feiras e pela divulgação do projeto na escola e na rede de contatos dos
desenvolvedores. Após o apuramento dos resultados, foi possível analisar diversas
funcionalidades que deveriam ser implementadas no aplicativo, assim como alguns
detalhes e características que a plataforma deveria possuir.
Com base nas pesquisas realizadas sobre computação ubíqua e sobre os
aplicativos existentes na área de acessibilidade foram definidos os requisitos da
plataforma. A seguir, os requisitos do sistema são apresentados:
- Requisito 1: Cadastro de perfil, receitas e restaurantes;
- Requisito 2: Busca dinâmica por nome, localidade (caso seja um
restaurante), restrição atendida, tipo de receita;
1569
XXXVII Congresso da Sociedade Brasileira de Computação
3.2. Desenvolvimento
1570
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1571
XXXVII Congresso da Sociedade Brasileira de Computação
mapa é utilizado para que o Usuário selecione o endereço do restaurante. Além destas
bibliotecas também são utilizadas outras, de menor tamanho e impacto geral, para
auxílio nas configurações de estilo e disposição de elementos no aplicativo. Uma outra
biblioteca cabível de menção é a Compressor, que serve para comprimir imagens para
um tamanho em disco bem menor sem perda visível de qualidade. O objetivo geral da
interface visual do aplicativo é dispor ao usuário uma interface bastante leve e dinâmica,
baseando-se nos conceitos de Material Design para Android para definição de paletas
de cores, sombreamentos, contrastes e afins. A facilidade de uso é um dos fatores mais
norteadores do projeto.
4. Aspectos de avaliação
A validação e avaliação do sistema se dará por meio de um cenário de teste em ambiente
controlado em conjunto com questionários e entrevistas, a fim de averiguar a aceitação
do wIntolerance. Para tal, será utilizado o modelo estendido da Unified Theory Of
Acceptance and Use of Technology, conhecido como Teoria Unificada de Aceitação
e Usa da Tecnologia (UTAUT2). O UTAUT2 utiliza as variáveis Intenção de
Comportamento e Intenção de Uso, sendo que ambos levam em consideração outras
variáveis, como Expectativa de Desempenho, Influência Social, Motivações
Hedônicas, Habito. [Venkatesh, V. et al., 2012 apud Faria, L. et al., 2014]. Assim
sendo, os dados coletados via os questionários e entrevistas serão avaliados utilizando
esses dois critérios, por meio de tais informações será possível identificar quais pontos
do aplicativo necessitam de algum aprimoramento e o nível de aceitação que ele tem.
5. Resultados e discussão
No wIntolerance, os usuários podem primeiramente acessar sem fazer cadastro,
podendo apenas visualizar as receitas e restaurantes, caso queiram publicar e avaliar os
itens do aplicativos, devem se cadastrar utilizando um e-mail e senha, onde os mesmos
passarão por validações, por exemplo se o e-mail está no formato
exemplo@exemplo.com ou se a senha possui no mínimo seis caracteres. Após realizar
o cadastro, o usuário poderá aprimorar seu perfil, adicionando uma foto e suas
restrições.
1572
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Como pode ser visto na Figura 6, na tela inicial são apresentadas as receitas mais
bem avaliadas do momento, onde o usuário pode optar por clicar para abrir mais
detalhes sobre a receita clicada ou favoritar a mesma. É possível também acessar outras
seções como os restaurantes ou o perfil do usuário. O usuário também pode cadastrar
receitas (Figura 7). Para isso, ele deve preencher os campos, adicionando o nome,
a foto, a categoria dessa receita, quais restrições ela abrange, seu tempo de preparo e
rendimento e também, especificar seu passo a passo e ingredientes.
1573
XXXVII Congresso da Sociedade Brasileira de Computação
Referências
Bricks, L. Reações adversas aos alimentos na infância: intolerância e alergia alimentar:
atualização. Pediatria, p. 176-185, 1994. Disponível em:
<http://www.luzimarteixeira.com.br/wp-content/uploads/2009/11/atualizacao-em-
intolerancia-alimentar.pdf> Acesso em: 14 de jun. 2016.
Faria, L; Giuliani, A; Pizzinatto, N; Pizzinatto, A; A aplicabilidade do modelo estendido
ao consumo da Teoria Unificada da Aceitação e Uso da Tecnologia (UTAUT2) no
Brasil: Uma avaliação do modelo a partir de usuários de internet em smartphones. Rev.
ADM. UFSM, Santa Maria, v. 7, Número 2, p. 332-348, 2014. Disponível em: <
https://periodicos.ufsm.br/reaufsm/article/viewFile/13088/pdf >. Acesso em: 10 de
mai 2017.
Filho, R; Scalco, F; Pinto, A. Alergia à proteína do leite de vaca. Rev. Med. Minas Gerais,
p. 374-380, 2014. Disponível em: <http://rmmg.org/esportar-pdf/1658/v24n3a13.pdf>
Acesso em: 14 de jun. 2016.
Gasparin, F; Carvalho, J; Araujo, S. Alergia à Proteína do Leite de Vaca Versus
Intolerância à Lactose: As Diferenças e Semelhanças. Saúde e Pesquisa, v. 3, n. 1,
2001. Disponível em:
<http://periodicos.unicesumar.edu.br/index.php/saudpesq/article/view/1069> Acesso
em: 14 de jun. 2016.
Google. Material Design. Disponível em: <https://design.google.com/articles/>. Acesso
em: 31 de mar. 2016.
Metz, G.; Burks, W. Food allergies; ACP Medicine. pg. 1-8, 2009. Disponível em:
<http://www.medicinanet.com.br/m/conteudos/acp-
medicine/5318/alergias_alimentares_%E2%80%93_gregory_m_metz_a_wesley_bur
ks.htm> Acesso em: 11 de maio 2016.
Nunes, M; Barros, R; Moreira, P; Moreira, A; Almeida, M. Alergia alimentar.
PORTUGAL. Ministério da educação e ciência, 2012. Disponível em:
<https://www.dgs.pt/documentos-e-publicacoes/alergias-alimentares-jpg.aspx>
Acesso em: 14 de jun. 2016.
Pérez-Machado, M; Ashwood, P; Thomson, M; Latcham, F; Sim, R; Walker-Smith, J;
Murch, S. Reduced transforming growth factor‐ β1‐ producing T cells in the duodenal
mucosa of children with food allergy. European jornal of immunology, v. 33, n. 8, p.
2307-2315, 2003. Disponível em:
<http://onlinelibrary.wiley.com/doi/10.1002/eji.200323308/full> Acesso em: 15 de
jun. 2016.
Pimentel, M; Gerosa, M; Filippo, D; Raposo, A; Fuks, H; Lucena, C. Modelo 3C de
Colaboração para o desenvolvimento de Sistemas Colaborativos, 3º SBSC, 2006.
Disponível em: <https://webserver2.tecgraf.puc-
rio.br/~abraposo/pubs/SBSC2006/07_Pimentel_Modelo3C.pdf> Acesso em 01 de abr.
2016.
Porto, C; Thofehrn, M; Sousa, A; Cecagno, D. Experiência vivenciada por mães de
crianças com intolerância à lactose. Família, Saúde e Desenvolvimento, v. 7, n. 3,
2005. Disponível em: <http://revistas.ufpr.br/refased/article/view/8032/5655> Acesso
em: 15 de jun. 2016.
1574
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1575
XXXVII Congresso da Sociedade Brasileira de Computação
jaline.mombach@iffarroupilha.edu.br
Abstract. Several studies have been undertaken aiming to improve the efficiency
of e-learning through the development of features to Virtual Learning Environ-
ments. However, such researches have no focus on the use of collaboration of
learning objects and analysis of students’ progress in real-time. Hence, this pa-
per presents an educational platform that allows real-time co-authorship and
monitoring of students’ progress in learning objects, through the implementa-
tion of software engineering techniques and patterns designed for educational
systems.
1. Introduction
In the educational context, there is a concern about the prevention of learning issues such
as misunderstood concepts, which can create gaps of knowledge that can induce students
to school dropout (LAMB EIFRED MARKUSSEN, 2011). In the Computing courses
context, there are some disciplines, such as Introduction to Algorithms, which concepts
serve as basis to subsequent disciplines. Although, newcomer students usually have some
issues on these disciplines, since it require an efficient usage of the cognitive processes,
such as abstraction and formalization, in order to model a problem’s solution through a
computational code (FALCKEMBACH; ARAUJO, 2013).
In this sense, the Information and Communication Technologies (ICTs) emerge
as a viable solution to combat the gaps of knowledge created by misunderstanding of
theoretical concepts, since it permits the use of analytical tools which provide a accurate
analysis of student’s learning progress, allowing teachers to quickly identify student’s
learning difficulties (WHITE; LARUSSON, 2014).
1576
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Related Work
Rodrigues et al. (2014) have been proposed a tool based on multi-agents architecture, that
allows the creation of customized learning objects. Furthermore, Lucena, Silva e Oliveira
(2015) have developed a plugin to Moodle VLE, that allows monitoring students’ activi-
ties, by using TreeMap technology, that graphically organizes the results in a hierarchical
manner.
Mazza e Dimitrova (2007) also emphasizes monitoring of students’ performance
by proposing a tool where several graphical presentations are generated aiming to help tu-
tors in trend identification (e.g., students who need special attention). Likewise, Zorrilla e
Álvarez (2008) proposed a tool that provides educational reports using general guidelines
for design of business intelligence applications. Moreover, Siqueira e Pinhati (2015) have
proposed an application that allows the development of learning activities with emphasis
in multimedia materials.
What differentiates our work from the other covered in this section is to unite
the real-time collaboration to monitor students’ achievements. In addition, the proposed
platform will also be available for mobile devices, such as smartphones and tablets.
1
Available at: <https://drive.google.com >.
1577
XXXVII Congresso da Sociedade Brasileira de Computação
3. Background
In this section, we present the theoretical background about the use of collaborative ap-
proaches’ usage on the educational context. Moreover, we show some concepts, such as
learning environments and virtual learning environments, which will pave the way to the
proposed platform.
1578
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1579
XXXVII Congresso da Sociedade Brasileira de Computação
brings several benefits to the software project, such as improvements in the architecture
(on a context in which an object-oriented programming language is used, the features’
development based on tests can improve the design of systems’ classes) and increasing
the speed of the development (since all tests are written before the coding process, the
developers can execute it, quickly identifying problems). Moreover, the use of TDD
with SCRUM can improve the software architecture’s design and usability (SOARES;
CABRAL; ALENCAR, 2013).
Moreover, the proposed platform will be developed using Ruby on Rails2 (which
is a very known web framework built with the Ruby programming language3 ). Such
technology was chosen since it uses the REST (Representational State Transfer) architec-
tural style, which eases the development of web platforms by representing the application
resources as URLs (Uniform Resource Locators). Moreover, Ruby on Rails also facili-
tates the development of asynchronous features through the ActionCable class (BRAD-
BURNE, 2016). This feature will be used in the implementation of the real-time features
provided by the proposed platform (such as monitoring of students achievement and real-
time collaboration during the development of activities).
5. Proposed Platform
Firstly, we analyzed the functional and non-functional requirements of the proposed plat-
form. The non-functional requirements, presented in Table 1, illustrate the characteris-
tics and internal aspects which the software need to have (e.g., security and usability).
functional requirements represent the features of the application (e.g., activities manage-
ment and users registration). The description of such requirements are shown in Table 2
(SILVA; BARROSO et al., 2016).
After the identification of the system requirements, we analyzed how the users
would interact with the application. A use case diagram is presented in Figure 1.
2
Available at: <http://rubyonrails.org>.
3
Available at: <https://www.ruby-lang.org/pt>.
1580
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Figure 1. Use case diagram of the proposed platform which demonstrates which
features will be available to each user level.
The use case diagram was developed in order to provide a holistic view of the
features which would be present on the proposed platform. In this phase, we identified
1581
XXXVII Congresso da Sociedade Brasileira de Computação
Figure 2. On the proposed platform, teachers will be able to choose if their ac-
tivities will be public or private. Public activities will be available to all students
registered on the platform, and the private ones will be only accessible through
a code.
Figure 3. Administrators will be able to create new users (students, teachers, and
administrators), and will have access to statistics about the registered users.
1582
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
6. Conclusions
The majority of Virtual Learning Environments offer a lot of information that can be used
in evaluation and monitoring of students (e.g. participation index, access horary, and
final results of tests). Nonetheless, the majority of such information are used by quanti-
tative analysis, which only collects data at the end of pedagogical activities or even at the
conclusion of the discipline, hampering the detection and the decision-making based on
students’ learning difficulties during the pedagogical process (ALMEIDA; PIMENTEL;
STIUBIENER, 2012).
In this sense, the collaboration of this paper consists in the proposition of a ped-
agogical platform that allows the co-authorship of learning objects, with the possibility
of real-time collaboration between teachers. Moreover, teachers can share such resources
with students, and analyze their progress, quantitatively and qualitatively. Currently, such
platform is been developed. In this sense, as future work, we intend to finish its devel-
opment and implement intelligent agents to help teachers on decision-making based on
students achievement.
References
ALMEIDA, A.; PIMENTEL, E. P.; STIUBIENER, I. Estratégias para o monitoramento
de ações de tutoria na educação a distância. In: Anais dos Workshops do Congresso
Brasileiro de Informática na Educação. [S.l.: s.n.], 2012. v. 1, n. 1.
BISSI, W. Metodologia de desenvolvimento ágil. Campo Digital, v. 2, n. 1, 2007.
BRADBURNE, A. Rails 5 revealed. [S.l.]: Springer, 2016.
FALCKEMBACH, G. A. M.; ARAUJO, F. V. de. Aprendizagem de algoritmos:
dificuldades na resolução de problemas. Anais Sulcomp, v. 2, 2013.
GARNER, S. Supporting the personal knowledge management of students with
technology. In: Proceedings of Informing Science & IT Education Conference (InSITE).
[S.l.: s.n.], 2010. p. 237–246.
LAMB EIFRED MARKUSSEN, R. T. J. P. N. S. S. School dropout and completion
international comparative studies in theory and policy. Dordrecht: Springer Netherlands,
2011. ISBN 978-90-481-9762-0,978-90-481-9763-7.
LUCENA, K. T.; SILVA, J.; OLIVEIRA, E. Webmonitor: uma ferramenta para
monitoramento e acompanhamento de cursos em um ava. In: Anais do Simpósio
Brasileiro de Informática na Educação. [S.l.: s.n.], 2015. v. 26, n. 1, p. 249.
MAZZA, R.; DIMITROVA, V. Coursevis: A graphical student monitoring tool
for supporting instructors in web-based distance courses. International Journal of
Human-Computer Studies, Elsevier, v. 65, n. 2, p. 125–139, 2007.
MEIRELES, M. C.; BONIFÁCIO, B. Uso de métodos ágeis e aprendizagem baseada em
problema no ensino de engenharia de software: Um relato de experiência. In: Anais do
Simpósio Brasileiro de Informática na Educação. [S.l.: s.n.], 2015. v. 26, n. 1, p. 180.
O’LEARY, R.; RAMSDEN, A. Virtual learning environments. Learning and Teaching
Support Network Generic Centre/ALT Guides, LTSN. Retrieved July, v. 12, p. 2005,
2002.
1583
XXXVII Congresso da Sociedade Brasileira de Computação
1584
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1. Introdução
As Redes Sociais Online (RSO) foram usadas de maneira marcante nos últimos eventos
políticos do mundo. No Brasil, os cidadãos têm manifestado suas posições na internet
por meio das RSO e há uma crescente polarização entre ideologias que está registrada
nessas redes de forma não-estruturada: usuários se expressam em linguagem natural
escrita, em fotos com mensagens, em charges de humor, entre outras formas de
manifestação social online [Carvalho et al. 2016].
As interações sociais registradas nas RSO representam uma oportunidade de
compreender melhor os movimentos sociais, suas ações e reações. As aplicações desse
conhecimento são diversas e serviram de motivação para o surgimento de novas áreas
de pesquisa, como a área da Mineração de Opiniões e da Análise de Sentimentos. O
registro dessas interações, entretanto, é influenciado pela cultura do grupo social, sua
língua, expressões linguísticas locais, entre outras características únicas de cada região
que tornam o trabalho de mineração ainda mais desafiante. Uma revisão da literatura da
área e uma discussão sobre trabalhos relacionados é apresentada na Seção 2.
1585
XXXVII Congresso da Sociedade Brasileira de Computação
2. Revisão da Literatura
A mobilização das multidões virtuais em RSO é um fenômeno que vêm sendo estudado
com o objetivo de prever comportamentos, eventos e acontecimentos [Bonabeau 2004].
Esse tipo de conhecimento tem potencial de aplicação em várias áreas, como política,
comunicação, marketing científico e até marketing pessoal [Li and Li 2011] - um bom
exemplo é a emergente fama dos sociólogos e filósofos regionais que veio a reboque da
exposição online dos mesmos nessas redes sociais. Numa investigação desse tipo, é
fundamental que as características locais sejam levadas em consideração:
acontecimentos e notícias que afetam o grupo em estudo, a linguagem usada pelo grupo,
o uso de figuras emblemáticas e bordões. Muitas dessas características podem ser
difíceis de serem medidas de forma objetiva [Carvalho et al. 2016].
A Mineração de Opiniões é uma área de pesquisa dedicada à geração de
conhecimento sobre como extrair, analisar e comparar dados objetivos a partir dos
dados (geralmente) semisestruturados, registrados nesses sistemas. As técnicas de
mineração de dados e aprendizagem de máquina são empregadas largamente com o
objetivo de perceber padrões latentes nessa interação [Elmasri and Navathe 2005].
O conhecimento do domínio de aplicação, no entanto, é um fator importante na
hora de projetar esses modelos de predição baseados em dados semiestruturados. Dessa
forma, a pesquisa em mineração de opiniões distingue-se das demais pesquisas em
mineração de dados especialmente pelas características próprias das redes e da
aplicação do conhecimento dessas características na hora de montar e aprimorar o
modelo preditivo [Marteleto 2001].
Outra vertente que surgiu da mineração de opiniões recentemente é a análise de
sentimentos [Sarlan et al. 2014], que refere-se à ampla área da mineração de texto,
processamento de linguagem natural e linguística computacional que envolve o estudo
computacional e semântico dos sentimentos, opiniões e emoções expressados em textos.
Este tipo de mineração permite detectar se uma opinião expressa em um texto é
positiva, negativa ou neutra. Ela também permite detectar emoções características como
felicidade, tristeza ou raiva. A análise de sentimentos vem se tornando rapidamente uma
das áreas do processamento de linguagem natural mais investigada nos últimos anos.
1586
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
O Twitter se tornou bastante popular na realização deste tipo de análise por seu
formato único e característico de microblog, que permite o envio e compartilhamento de
mensagens de texto, imagens e vídeos rapidamente e através de uma rede de milhões de
usuários, mas excepcionalmente, por permitir mensagens de texto de, no máximo, 140
caracteres. Isso é determinante no modo como as pessoas se expressam na rede e facilita
o trabalho de mineração e reconhecimento de padrões [Carvalho et al. 2016].
Neste sentido, diversos estudos vêm sendo realizados com foco na análise de
sentimentos para classificar emoções na plataforma Twitter. Um dos trabalhos pioneiros
foi o de Davidov et al. (2010), onde uma análise de sentimentos foi realizada por meio
da classificação de tweets com base em hashtags para separar as categorias desejadas, e
nos emoticons contidos nas mensagens de texto, que auxiliaram no treinamento do
algoritmo classificador, entre outros fatores que foram usados na extração de
sentimentos, como a pontuação e strings que formavam palavras-chave.
A classificação de tweets em polaridades também já foi previamente estudada
por Pak & Paroubek (2010) que aplicou o algoritmo de classificação probabilístico
Naïve Bayes para realizar o procedimento. No estudo de Ferreira (2012), o modelo
preditivo montado com o classificador Naïve Bayes obteve o melhor desempenho na
tarefa de análise de textos em português. Os resultados obtidos com o uso de Naïve
Bayes na área são encorajadores, especialmente em função da simplicidade do modelo.
Outro estudo importante de ser mencionado é o de Nascimento et al. (2012), no
qual é possível observar a polaridade de sentimentos da população em relação às
notícias divulgadas pela mídia. Foram selecionados previamente três tópicos em
português para a coleta de dados; em seguida, os autores realizaram a rotulação manual
do conteúdo para analisá-lo através do emprego de três métodos, um deles, sendo o
Naïve Bayes. Novamente, Naïve Bayes teve melhores resultados que os demais
modelos avaliados.
Outra forma de estudar as RSO diz respeito aos recursos de análise que mapeiam
as relações sociais em estruturas de grafo. Por meio deste mapeamento, é possível
representar nós e suas conexões que, por intermédio da aplicação de técnicas e
algoritmos já consolidados na área de teoria dos grafos, dão indícios do comportamento,
da influência e da propagação de informações dentro de uma comunidade específica.
Este tipo de mapeamento é conhecido como Análise de Redes Sociais (ARS) e também
é bastante difundido em estudos envolvendo a RSO Twitter [Marteleto 2001].
Um exemplo recente do emprego de ARS no Twitter é encontrado no trabalho
de Willis et al. (2015), no qual foram coletados tweets relacionados aos Jogos
Olímpicos de Londres de 2012. Por meio do uso de técnicas de ARS e de correlações
estatísticas, foram calculadas métricas como o Betweeness e Pagerank para identificar o
comportamento de clusters sociais formados durante o evento. Enquanto perfis
corporativos moldaram a rede e afetaram a sua conectividade, perfis pessoais
aumentaram as interações e discussões na rede, o que mostrou-se importante para a
identificação de usuários chave e seu engajamento com o público dos Jogos Olímpicos.
A criação de redes de retweets foi também explorada no trabalho de Weitzel &
Oliveira (2012). Com base em tweets do domínio da saúde, os autores analisaram a rede
sob a perspectiva da estrutura topológica e de redes ego dos usuários, como também
investigaram o mecanismo de classificação dos nós baseados nos pesos dos retweets.
Por meio de métricas de centralidade, eles concluíram que medidas como o Pagerank
1587
XXXVII Congresso da Sociedade Brasileira de Computação
3. Procedimento de Pesquisa
O presente trabalho é contextualizado no protesto virtual online "bela, recatada e do
lar", especificamente nas manifestações ocorridas no Twitter. No trabalho, buscou-se
identificar se (e quais) perfis tiveram mais influência durante o movimento. Foi também
investigada a relação temporal entre eventos ocorridos durante as manifestações e
eventuais mudanças na frequência de postagens. Para essa investigação, as seguintes
questões de pesquisa foram formuladas: (i) Quais perfis tiveram mais influência no
movimento "bela, recatada e do lar"?; (ii) Qual foi a opinião e os sentimentos
observados pelos usuários em relação ao movimento orquestrado na RSO Twitter? e
(iii) Quais foram os tópicos mais comentados durante o movimento?
Para investigar a relação entre eventos ocorridos e o comportamento das
postagens com a hashtag #BelaRecatadaEDoLar, foram coletadas notícias divulgadas
em diversos jornais e blogs. O objetivo foi investigar ser há uma relação entre as
publicações da mídia e o volume de mensagens postadas, especialmente picos e
declínios no volume. Para essa investigação foram selecionados dois eventos distintos,
um a favor do movimento “bela, recatada e do lar”, e outro contra.
No dia 23/04, grupos de mulheres se mobilizaram contra a imposição do padrão
“bela, recatada e do lar” e protestaram em Brasília numa clara demonstração de apoio
ao movimento feminista no Twitter. No dia 25/04, a esposa de um conhecido pastor
brasileiro se manifestou contra o movimento feminista no Twitter, lançando uma
campanha contra o movimento feminista (e a favor da posição conservadora expressa na
matéria da revista). O fato, porém, só ganhou notoriedade da mídia ao final do dia
27/04, ganhando publicidade na internet a partir do dia 28/04 (dia selecionado para o
segundo evento). Na Figura 1 é possível observar dois picos na distribuição. Esses picos
correspondem às datas em que ocorreram os dois eventos mencionados anteriormente, o
protesto feminista em 23/04 e a divulgação em noticiários online de uma campanha a
favor do estereótipo conservador em 28/04.
Fig. 1. Volume de tweets por dia com as datas dos eventos marcadas
1588
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1589
XXXVII Congresso da Sociedade Brasileira de Computação
1590
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
tweets que os outros vão compartilhar. Isso se justifica pois eles tendem a estar
localizados em um dos núcleos da rede; (iii) o quadrante inferior direito abriga usuários
que são importantes para uma determinada comunidade/público, pois são considerados
pontes entre a produção de conteúdo e o público no qual está se conectando; (iv) e
finalmente, o quadrante superior esquerdo possui usuários que apresentam as
características de (ii) e (iii) combinadas. São perfis raros e indicam uma forte influência
na comunidade.
1591
XXXVII Congresso da Sociedade Brasileira de Computação
retorna a imagem da nuvem de palavras com as hashtags mais tweetadas. Foram criadas
nuvens correspondentes ao movimento completo e aos dias dos eventos (23/04 e 28/04).
A Figura 4(a) ilustra a nuvem criada com as hashtags mais usadas no
movimento. Elas se destacaram pela frequência de utilização, sendo usadas para
identificar novos eventos secundários, o que pode ter sido um fator decisivo para
influenciar no conteúdo e volume dos tweets. A hashtag #SOSCoup foi um movimento
contra o processo de impeachment de Dilma Rousseff. Já a #BTSisonFIRE se refere ao
lançamento do videoclipe da música Fire da banda sul-coreana BangTan Boys.
#askmagcult é uma hashtag que indica a produção de perguntas a serem respondidas em
um evento chamado Magcon. #LEMONADE está relacionado ao lançamento do sexto
álbum da cantora Beyoncé. Outra tendência é #VEDA, que significa “Vlog Everyday in
April”, ou seja, ao usar a hashtag, cada vlogueiro se compromete em publicar um vídeo
por dia no mês de abril. #METGala é um evento anual de arrecadação de fundos para o
Museu de Artes Metropolitano de Nova York que reúne diversas celebridades e artistas
da atualidade. Outras hashtags relacionadas ao movimento “bela, recatada e do lar”
também se destacaram, como: #bela, #recatada e #mulhernaogostadehomemque.
Na nuvem do dia 23/04, Figura 4(b), as seguintes hashtags se destacaram:
#DemiteoZehdeAbreu, que refere-se à cusparada do ator Zé de Abreu em casal após
uma discussão sobre política em um restaurante de São Paulo. A partir disso, vários
usuários do Twiter se manifestaram contra o ator através da hashtag. #EtaMundoBom,
que refere-se à uma novela brasileira bastante popular. #youngmaland, hashtag popular
na RSO Instagram e que refere-se a selfies, principalmente de cosplay, tiradas no parque
temático sul-coreano Youngma Land. As hashtags #vejamachista, #bela e #recatada
estavam relacionadas ao movimento e foram alvo de tweets publicados.
No dia 28/04, Figura 4(c), as hashtags #VEDA e o perfil do jornal #OGlobo
foram mencionados, além das hashtags relacionadas ao tema: #veja, #mulherperfeita,
#MENTIRA, #feminista, #luta e #marcelatemer. Além disso, a hashtag #sqn (só que
não) também se destacou durante todo o período analisado, demostrando um indício de
sarcasmo nos tweets relacionados ao padrão social defendido na matéria da revista.
A
B C
Fig. 4. Nuvens de palavras (a) rede completa, (b) dia 23/04 e (c) dia 28/04
3.4. Discussão
A série temporal de frequências diárias de tweets indica uma diminuição progressiva no
ritmo das postagens com o passar do tempo. No entanto, pode-se observar que dois
eventos principais ocorreram nos dias de pico no volume de tweets (23/04 e 28/04). Por
1592
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
meio da análise das hashtags publicadas no movimento e nos dias dos picos de volume
de tweets, foi possível identificar que diversos eventos secundários geraram impacto no
volume de tweets. Deste modo, existem fortes indícios de que diversos eventos menores
podem gerar impactos em movimentos populares orquestrados em RSO.
Por meio da correlação das métricas de centralidade Betweeness e Pagerank, foi
possível identificar os usuários que mais influenciaram o movimento “Bela, recatada e
do lar”. Dentre esses usuários, um exerce influência dentro de comunidades específicas
e oito possuem características de influência relacionadas à publicação de conteúdo.
Por meio da observação dos tweets mais compartilhados no movimento,
também foi possível verificar que não há correlação desses tweets com os eventos
principais identificados anteriormente. Manifestações populares em RSO como o
Twitter são difíceis de serem estudadas e compreendidas, pois tendem a perder força e
alcance rapidamente na ausência de fatos e eventos que “impulsionem” o movimento.
Por fim, após classificar a base de dados em relação ao posicionamento do autor
(81% de acurácia), observou-se que as mensagens mais frequentes foram de
posicionamento neutro (39%). Em seguida, os posicionamentos mais frequentes são de
apoio ao movimento feminista (positivo, 35%) e - por fim - o posicionamento contrário
à manifestação é menos frequente (26%). Entre as mensagens neutras, verificou-se que
grande ocorrência da republicação de notícias online sem emissão de opinião pelo
usuário que as compartilha.
Referências Bibliográficas
Barrat, A., Barthélemy, M. and Vespignani, A. (2008). Dynamical Processes on
Complex Networks. Cambridge University Press.
1593
XXXVII Congresso da Sociedade Brasileira de Computação
Bastian, M., Heymann, S., Jacomy, M. and Others (2009). Gephi: an open source
software for exploring and manipulating networks. Proceedings of the Third
International ICWSM Conference, v. 8, p. 361–362.
Bonabeau, E. (2004). The perils of the imitation age. Harvard Business Review, v. 82,
n. 6, p. 45–54.
Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextual web search
engine. Computer networks and ISDN systems, v. 30, n. 1, p. 107–117.
Carvalho, C. de S., De França, F. O., Goya, D. H. and De Camargo Penteado, C. L.
(2016). The People Have Spoken: Conflicting Brazilian Protests on Twitter. In
Proceedings of the 2016 49th Hawaii International Conference on System Sciences.
Davidov, D., Tsur, O. and Rappoport, A. (2010). Enhanced sentiment learning using
twitter hashtags and smileys. In Proceedings of the 23rd international conference on
computational linguistics: posters. Association for Computational Linguistics.
Elmasri, R. and Navathe, S. B. (2005). Sistemas de banco de dados. 4. ed. São Paulo:
Pearson Addison Wesley.
Ferreira, M. da C. da S. (2012). Classificação Hierárquica da Atividade Económica das
Empresas a partir de Texto da Web. Universidade do Porto.
KNIME (2017). KNIME | About KNIME. https://www.knime.org/about, [accessed on
Jan 6].
Li, Y.-M. and Li, T.-Y. (2011). Deriving marketing intelligence over microblogs. In
Proceedings of the 44th Hawaii International Conference on System Sciences.
Marteleto, R. M. (2001). Análise de redes sociais: aplicação nos estudos de
transferência da informação. Ciência da informação, v. 30, n. 1, p. 71–81.
Nascimento, P., Aguas, R., De Lima, D., et al. (2012). Análise de sentimento de tweets
com foco em notícias. In Anais do Brazilian Workshop on Social Network Analysis
and Mining (BraSNAM).
Pak, A. and Paroubek, P. (2010). Twitter as a Corpus for Sentiment Analysis and
Opinion Mining. In Proceedings of the Seventh International Conference on
Language Resources and Evaluation.
Sarlan, A., Nadam, C. and Basri, S. (2014). Twitter sentiment analysis. In Proceedings
of the 6th International Conference on Information Technology and Multimedia.
Weitzel, L., Quaresma, P. and De Oliveira, J. P. M. (2012). Measuring node importance
on twitter microblogging. In Proceedings of the 2nd International Conference on
Web Intelligence, Mining and Semantics.
Wiebe, J., Wilson, T. and Cardie, C. (2005). Annotating expressions of opinions and
emotions in language. Language resources and evaluation, v. 39, n. 2, p. 165–210.
Willis, A., Fisher, A. and Lvov, I. (2015). Mapping networks of influence: tracking
Twitter conversations through time and space. Participations: Journal of Audience &
Reception Studies, v. 12, n. 1, p. 494–530.
1594
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
sabrina.marczak@pucrs.br, igorfs@utfpr.edu.br
1. Introdução
Os projetos de Software Livre (SL) dependem de contribuições voluntárias e necessitam
da entrada contı́nua de novatos para sua sustentabilidade [Park and Jensen 2009]. Novatos
são aqueles desenvolvedores que recém iniciaram sua participação em um determinado
1595
XXXVII Congresso da Sociedade Brasileira de Computação
projeto de SL, podendo ter passado recentemente por uma primeira contribuição ou não
terem ainda realizado contribuição alguma. A viabilidade e o sucesso desses projetos
dependem, principalmente, das contribuições dos membros ativos, bem como a entrada e
retenção de novatos [Lee et al. 2013].
As pesquisas relacionadas ao processo de entrada dos novatos examinaram a
dinâmica que move colaboradores de SL, como, por exemplo, focando nas motivações
para se tornar um membro [Schilling et al. 2012]; investigando formas de um desenvol-
vedor se transformar em membro central [Jergensen et al. 2011]; identificando indica-
dores para que um potencial novato se torne um colaborador de longo prazo [Zhou and
Mockus 2012]; e listando barreiras enfrentadas por novatos que ainda não tiveram seu
código aceito no repositório compartilhado do projeto, ou seja, ainda não realizaram a
sua primeira contribuição [Steinmacher et al. 2014].
Steinmacher et al. (2016) conduziram um estudo sobre o portal web FLOSSCo-
ach (atualmente disponı́vel como Software Livre2 ), no qual as barreiras enfrentadas por
1
1
http://flosscoach.com
2
http://gitlab.com/flosscoach/flosscoach
1596
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
2. Referencial Teórico
Nesta seção serão apresentados o conceito de gamificação, alguns trabalhos relacionados
de relevância e o Processo de Gamificação Marache-Francisco e Brangier (2013b).
2.1. Gamificação
Deterding et al. (2011) propuseram uma definição amplamente difundida de gamificação
(do inglês gamification) como “o uso de elementos de jogos em um contexto não jogo”.
Neste estudo eles também explicaram que a gamificação está relacionada a jogos, mas
não é o mesmo que um jogo completo.
Hamari, Koivisto e Sarsa (2014) realizaram uma revisão de literatura sobre estu-
dos empı́ricos em gamificação e concluiram que a gamificação fornece efeitos positivos,
mas esses efeitos dependem muito do contexto em que a gamificação está sendo aplicada,
bem como dos usuários que usam o sistema. Eles examinaram abordagens motivacio-
nais, resultados psicológicos e comportamentais da gamificação, além dos contextos de
gamificação e os tipos de estudos realizados nos sistemas gamificados. O estudo examina,
ainda, o estado atual da pesquisa sobre o tema e aponta lacunas na literatura existente.
Singer e Schneider (2012) propuseram a gamificação de um sistema de con-
trole de versão com o objetivo de encorajar estudantes a realizarem commits com maior
frequência, usando um aplicativo de software social. A experiência foi com um newsfeed
baseado na web, que apresenta um feed para cada equipe, com um leaderboard que mos-
tra a contagem de commits para cada membro da equipe. Além disso, a ferramenta enviou
um resumo semanal para cada aluno, com quantos commits foram feitos na semana an-
terior, e também, os commits dos membros. Eles conduziram um experimento com 37
alunos e o estudo revelou algumas ideias sobre o uso da gamificação na melhoria das
práticas de engenharia de software, afirmando que os estudantes alegaram que a métrica
usada - número de commits por pessoa - pode ser muito simplista e inútil.
Lotufo et al. (2012) investigaram o uso de elementos de jogos no Stack Overflow3
para aplicar em sistemas de rastreamento de erros, como forma de incentivar os membros
da equipe a aumentar a frequência e a qualidade de suas contribuições. Eles aumentavam
a reputação por boas contribuições, reduziam a reputação por contribuições precárias e
concedendo privilégios aos usuários à medida que atingiram nı́veis de reputação. Eles
usaram projetos de SL e descobriram que a maioria dos mecanismos são aplicáveis ao
mesmo contexto.
Moccozet et al. (2013) propuseram uma comunidade online utilizando elementos
de jogos para que os alunos melhorassem o trabalho de grupo entre eles. Para alcançar um
objetivo comum, pessoas compartilhavam recursos de conteúdo em um espaço e usavam
esses recursos. Todas as ações possı́veis na plataforma são classificadas e recebem pontos.
Eles analisaram os resultados de 2012, quando 244 alunos trabalharam na plataforma. Os
resultados indicaram que a gamificação incentivou os alunos a contribuir e colaborar mais.
Outro exemplo é o trabalho de Diniz et al. (2017), que usou a gamificação para
motivar alunos de graduação a contribuir com projetos de SL. No ambiente GitLab4 , fo-
ram definidas regras de utilização de alguns elementos de jogos: Quest, Rank, Ponto e
3
https://stackoverflow.com/
4
https://about.gitlab.com/
1597
XXXVII Congresso da Sociedade Brasileira de Computação
Nı́veis – que foram utilizados para motivar os jogadores. Para avaliar os elementos, foi
conduzido um estudo com 17 estudantes, utilizando um projeto de SL real. Os estudantes
avaliaram sua experiência por meio de um questionário estruturado. As respostas mos-
traram que esses elementos de jogos podem motivar e apoiar novatos em projetos de SL.
Principalmente, os elementos Quest e Ponto, que se mostraram adequados para auxiliar
os novatos a superarem barreiras de falta de orientação e feedback.
Bogdan Vasilescu (2014) estudou como os aspectos humanos, gamificação e
mı́dias sociais impactam na colaboração no desenvolvimento de SL. Ele verificou os
históricos de atividades nos sistemas de controle de versão, rastreadores de problemas,
listas de discussão e sistemas como GitHub5 e Stack Overflow. Os resultados prelimina-
res indicaram que os desenvolvedores são, de fato, atraı́dos por ambientes sociais gami-
ficados, como o oferecido pelo Stack Overflow, o acesso ao conhecimento especializado
tem uma influência positiva na sua produtividade no desenvolvimento de SL.
Esses estudos anteriores exemplificam como a gamificação tem sido usada para
motivar usuários a realizar tarefas e como a escolha dos elementos de jogos também
é relevante. O processo da escolha dos elementos de jogos podem ser auxiliados por
frameworks, processos ou métodos de gamificação. A próxima seção menciona alguns
desses e destaca o processo adotado para apoiar a gamificação do FLOSSCoach.
1598
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
Figura 1. Árvores de Decisão para (a) Intenção e (b) Cartão com alguns dos
elementos de Motivação. Fonte: [Marache-Francisco and Brangier 2013b]
ser analisadas e consideradas no contexto de uso, as atividades que precisam ser reali-
zadas no ambiente, bem como o usuário que vai utilizá-lo. Para auxiliar estas decisões,
este processo fornece uma caixa de ferramentas com um guia de análise de contexto para
auxiliar o projetista durante essa fase. Este guia auxilia a identificar os objetivos que se
deseja alcançar ao se aplicar a gamificação, as atividades que precisam ser realizadas no
ambiente e também o entendimento de quem serão os usuários da ferramenta.
Na Concepção Iterativa é escolhida a experiência de gamificação que se deseja
despertar no usuário. Para isso, são utilizados cartões de elementos de jogos, que foram
identificados e avaliados em um estudo prévio [Marache-Francisco and Brangier 2013a],
e as árvores de decisão. Os elementos estão organizados em três categorias: Atrativi-
dade, Suporte a Tarefa e Motivação. Os elementos da categoria Atratividade servem para
gerar emoções positivas através da imersão em um universo de jogos, interações com o
usuário e o uso de Surpresas. Os elementos de Suporte a Tarefa servem para a adaptação
do usuário no ambiente, como nı́veis, modos e desbloqueios e, também, elementos para
comunicação. Os elementos da categoria Motivação servem para criar o sentimento de
auto-realização, auto-expressão e elementos persuasivos. As árvores de decisão servem
para guiar na escolha dos elementos dentro das três categorias. O processo disponibiliza
cinco árvores de decisão, que são para auxiliar na escolha dos elementos analisando a
intenção ao usar a gamificação, para o tipo de tarefa, para motivar, incentivar elementos
sociais e elementos para realizações. Na Figura 1 estão representadas uma árvores de de-
cisão, a de Intenção e um cartão de elemento de gamificação, o de Motivação. A escolha
desses elementos deve ser avaliada por meio do uso de protótipos de baixa-fidelidade,
como wireframes e alta-fidelidade, como mockups e também, testes com os usuários.
1599
XXXVII Congresso da Sociedade Brasileira de Computação
1600
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1601
XXXVII Congresso da Sociedade Brasileira de Computação
1602
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1603
XXXVII Congresso da Sociedade Brasileira de Computação
4. Avaliação Preliminar
A avaliação preliminar dos wireframes foi realizada por meio de entrevistas guiadas por
questionário. O questionário continha questões abertas e fechadas, com perguntas referen-
tes às percepções do entrevistado quanto ao elementos de jogos utilizados nos wireframes.
A escala Likert de 5 pontos foi utilizada como opção de resposta nas questões fechadas,
considerando 1 para Discordo totalmente, 2 para Discordo, 3 para Não concordo nem
discordo, 4 para Concordo, e 5 para Concordo totalmente. Em cada questão havia um
campo para o participante sugerir alguma melhoria e também, uma imagem que mostrava
o wireframe com o elemento de jogo associado a questão.
Antes da realização da avaliação foram conduzidos dois teste-pilotos com pesqui-
sadores brasileiros da área de Sistemas Colaborativos. Esta etapa foi importante para
aprimorar as perguntas elaboradas. Depois de alguns ajustes, os questionários foram
aplicados, conforme a disponibilidade dos participantes. Na Tabela 3 é apresentada as
principais questões do questionário.
A avaliação preliminar ocorreu a partir de uma amostra por conveniência, com-
postas por especialistas de domı́nio e novatos em projetos de SL. Ao total, nove pessoas
participaram da pesquisa, sendo cinco especialistas na área de Sistemas Colaborativos,
Gamificação ou IHC, e quatro novatos em projetos de SL. O primeiro contato com os
participantes foi através de e-mail, no qual era feito o convite para a sua participação na
pesquisa. Após o aceite, agendou-se a entrevista com o participante diretamente.
O procedimento de entrevista aconteceu da seguinte forma: primeiramente, o
pesquisador responsável apresentou os conceitos relacionados a pesquisa, o motivo da
realização dos testes e esclarecido o contexto; após, foi apresentado a todos os participan-
1604
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
tes da avaliação, o questionário online, que na primeira seção havia um termo de consen-
timento livre e esclarecido e, só após o aceite do participante, a avaliação dos wireframes
seria realizada. Na Tabela 4 estão os dados dos participantes da pesquisa preliminar. A
partir de agora, os especialistas serão representados pela inicial ‘E’ e os novatos pela ini-
cial ‘N’, ambos seguidos por uma numeração, por exemplo, E1 para especialista 1 e N1
para novato 1. No decorrer do questionário, o pesquisador anotava o feedback dados pelos
participantes sobre a proposta dos elementos, como sugestões de mudança, proposta que
não podem funcionar como o esperado e novas ideias.
4.1. Resultados
De maneira geral, os participantes gostaram da proposta de gamificação para o portal.
Os novatos acreditam que a proposta de gamificação do portal pode contribuir para o
processo de primeira contribuição, N2 disse: “Considero os elementos bem relevantes,
pois são diferentes do que eu já tinha visto em um outro contato com esse sistema de
gamificação e acredito que eles ajudaram sim no processo de contribuição de novatos”
e N4 comentou: “os elementos de jogos são mais interessantes do que ter que responder
perguntas sobre o processo de contribuição ou algo do tipo tutorial”.
Os especialistas também acreditam que os elementos propostos podem auxiliar e
motivar o novato para o processo de primeira contribuição. E2 afirmou: “Acredito que
a proposta tem potencial para motivar os usuários leigos a contribuir com projetos” e o
E3 comentou: “Acredito que possam auxiliar os novatos a participarem, trazendo uma
motivação a mais, além da motivação básica de participar desse tipo de comunidade”.
O elemento de jogo “Desbloqueio”, representado por cadeados nas seções “Know
Code” e “Send Contribution”, foi considerado muito importante pelos nove participantes
para auxiliar os novatos no processo de contribuição, de forma que tenta direcionar os
novatos para as seções disponı́veis. Entretanto, algumas considerações foram feitas a
respeito da proposta de uso de outros elementos utilizados. Nas próximas seções serão
apresentadas as mudanças sugeridas, quais propostas para os elementos poderiam dar
errado, e novas ideias segundo a percepção dos participantes.
Uma das mudanças mais sugeridas, foi no tabuleiro. Quatro especialistas e um novato
sugeriram a mudança na proposta dessa representação. Previamente proposto como uma
visualização da seção selecionada, esses participantes sugeriram alterar para apresentar
1605
XXXVII Congresso da Sociedade Brasileira de Computação
Os especialistas e novatos alertaram que alguns elementos podem não funcionar como
planejado. E2 alertou para a possibilidade de que o fórum, mostrando quantos novatos
estão online, pode ser um risco, falando que é importante verificar a demanda do sistema,
E2 disse: “o novato pode se sentir sozinho se não houver outro novato online.”. E1
alertou para a possibilidade de que os novatos não queiram tirar dúvidas com uma pessoa
com o mesmo nı́vel de conhecimento. N1 comentou que se postasse alguma pergunta
no fórum do portal, e ela não fosse respondida, mesmo com a retribuição da Badge de
Questionador, ele ficaria intimidado a fazer outra pergunta. N1 e N4 também comentaram
que se estivesse em último lugar no Ranking, talvez se sentiriam desmotivados. Além
disso, E5 também comentou que ter um perfil editável não contribui para a motivação do
novato em continuar no processo de contribuição, visto que é somente uma ferramenta
padrão de perfil, não devendo ser considerado um elemento de jogo motivador para o
novato continuar no fluxo de contribuição.
4.2. Discussão
A avaliação dos wireframes do portal FLOSScoach por especialistas e novatos fez com
que os autores tivessem a opinião externa sobre a proposta de gamificação e reavaliassem
1606
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
5. Considerações Finais
Os projetos de SL dependem da entrada de novatos para se manterem sustentáveis, mas
estes novatos enfrentam muitas barreiras ao fazer a sua primeira contribuição. Por isso, é
importante desenvolver estudos na área de Sistemas Colaborativos sobre formas de ame-
nizar estas barreiras e auxiliar no processo de primeira contribuição. Neste trabalho, foi
apresentado o processo de gamificação e uma avaliação preliminar de uma proposta de
gamificação para um portal já existente, o FLOSSCoach, com o objetivo de auxiliar no-
vatos em projetos de Software Livre.
Um framework de gamificação, eleito na literatura para guiar o processo de
1607
XXXVII Congresso da Sociedade Brasileira de Computação
concepção da gamificação do portal foi utilizado para auxiliar na escolha dos elementos
de jogos e quais atividades receberiam estes elementos. Os elementos de jogos: Des-
bloqueio, Significado Retórico, Sensório-motor, Votação, Perfil, Personalização, Comu-
nidade Social, Ranking e Badges foram utilizados na concepção das telas.
Nesta avaliação preliminar, oito wireframes foram utilizados para representar as
telas com os elementos de jogos. Os wireframes foram avaliados por nove participantes,
sendo cinco especialistas e quatro novatos, através de entrevista guiada por questionário.
Os resultados preliminares, apesar do reduzido número de participantes, indicaram que
a proposta tem potencial para auxiliar no processo de contribuição e, também, motivar o
novato a continuar no processo de contribuição. Entretanto, algumas alterações na forma
que os elementos foram propostos ainda precisam se realizadas.
6. Agradecimentos
Os autores gostariam de agradecer aos participantes do estudo. Esta pesquisa foi financi-
ada pelo CNPq (edital MCTI/CNPq 14/2014, Processo 456377/2014-0).
Referências
Aparicio, A. F., Vela, F. L. G., Sánchez, J. L. G., and Montes, J. L. I. (2012). Analysis
and application of gamification. In Proceedings of the International Conference on
Interacción Persona-Ordenador, pages 17–18, Elche, Spain. ACM.
Barbosa, S. and Silva, B. (2010). Interação Humano-computador. Elsevier Brasil, Rio
Janeiro, 1st edition.
Chou, Y. (2015). Actionable gamification: Beyond points, badges, and leaderboards.
Octalysis Media Fremont, California, USA.
Deterding, S., Dixon, D., Khaled, R., and Nacke, L. (2011). From game design elements
to gamefulness: Defining ”gamification”. In Proceedings of the International Acade-
mic MindTrek Conference, pages 9–15, Tampere, Finland. ACM.
Diniz, G., Silva, M. A. G., Gerosa, M. A., and Steinmacher, I. (2017). Using gamification
to orient and motivate students to contribute to OSS projects. In Proceedings of the
International Workshop on Cooperative and Human Aspects of Software Engineering,
in conjunction with ICSE, pages 1–7, Buenos Aires, Argentina. ACM (To Appear).
Hamari, J., Koivisto, J., and Sarsa, H. (2014). Does Gamification Work? A Literature Re-
view of empirical studies on gamification. In Proceedings of the Hawaii International
Conference on System Sciences, pages 3025–3034, Hawaii, USA. IEEE.
Jergensen, C., Sarma, A., and Wagstrom, P. (2011). The Onion Patch: Migration in open
source ecosystems. In Proceedings of the Symposium and the European Conference
on Foundations of Software Engineering, pages 70–80, Szeged, Hungary. ACM.
Lee, S., Park, D.-H., and Han, I. (2013). New members’ online socialization in online
communities: The effects of content quality and feedback on new members’ content-
sharing intentions. Computers in Human Behavior, 30:344–354.
Lotufo, R., Passos, L. T., and Czarnecki, K. (2012). Towards improving bug tracking
systems with game mechanisms. In Proceedings of the International Conference of
Mining Software Repositories, pages 2–11, Zurich, Switzerland. ACM.
1608
14º SBSC - Simpósio Brasileiro de Sistemas Colaborativos
1609
XXXVII Congresso da Sociedade Brasileira de Computação
Apresentação
É com muita alegria e satisfação que damos as boas vindas aos participantes do 16o
Workshop em Desempenho de Sistemas Computacionais e de Comunicação
(WPerformance 2017). Como já é tradicional, o evento ocorre de forma integrada ao
Congresso da Sociedade Brasileira de Computação (CSBC).
O estudo e a análise de desempenho nas mais diversas áreas da Computação é uma
atividade chave nos dias de hoje. O WPerformance é um fórum para discussão e
disseminação de ideias sobre métodos, técnicas e ferramentas para avaliação de
desempenho de sistemas computacionais e de comunicação. São de particular interesse
do evento os trabalhos que apresentam novas metodologias ou que aplicam de forma
inovadora os métodos existentes para modelar, projetar, avaliar e otimizar o desempenho
de sistemas computacionais em geral.
As atividades no WPerformance compreendem apresentação de trabalhos
completos, artigos curtos, além de palestras convidadas e um painel. Para esta edição do
WPerformance, a 16a consecutiva, foram submetidos 36 artigos oriundos de instituições
de pesquisa de diferentes regiões do país. Cada artigo foi revisado por pelo menos 3
revisores e, na maioria dos casos, por 4 revisores, totalizando 137 revisões realizadas. Do
total de trabalhos submetidos, 11 foram aceitos como artigos completos (todos com média
acima de 7,5) e 3 como artigos curtos (todos com média acima de 6,2) para serem
apresentados em sessões técnicas do WPerformance 2017. A taxa de aceite, portanto, foi
de 38,9% (considerando artigos completos e curtos) e de 30,6% (considerando apenas os
artigos completos).
Ao Comitê de Programa e aos revisores convidados pelo excelente trabalho de
avaliação de artigos com seriedade e zelo, e pela disponibilidade dedicada, nossa gratidão.
Aos palestrantes, painelistas, autores e demais membros da comunidade que contribuíram
para a realização deste evento, um agradecimento especial pelo reconhecimento e
confiança no WPerformance. Registramos, também, o apoio constante do comitê
organizador do CSBC 2017 nas diversas atividades relativas ao WPerformance 2017.
Nossos sinceros agradecimentos em particular ao prof. Daniel de Oliveira pela rapidez e
dedicação como foram tratadas as diferentes demandas de planejamento.
Por fim, agradecemos a todos os autores de artigos e participantes por acreditarem
e participarem do WPerformance. Esperamos que apreciem a programação técnica e se
inspirem com boas ideias.
1610
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
Comitê Organizador
Coordenação Geral
Carlos Alberto Vieira Campos (UNIRIO), Danielo G. Gomes (UFC)
Coordenação Local
Dirceu Matheus Jr. (Mackenzie)
Comitê de Programa
Alex Borges Vieira (UFJF), Ana Paula Couto da Silva (UFMG), Antônio Abelém
(UFPA), Antonio Rocha (IC/UFF), Antonio Tadeu Gomes (LNCC), Artur Ziviani
(LNCC), Carlos Alberto Vieira Campos (UNIRIO), Daniel Batista (IME/USP), Daniel
de Oliveira (UFF), Daniel Figueiredo (UFRJ), Daniel Menasche (UFRJ), Danielo G.
Gomes (UFC), Edmundo de Souza e Silva (UFRJ), Eduardo Nakamura (UFAM),
Eduardo Xavier (UNICAMP), Fabio Andre Porto (LNCC), Fabricio Murai Ferreira
(UFMG), Genaina Rodrigues (UnB), Gustavo Figueiredo (UFBA), Islene Garcia
(UNICAMP), João Netto (UFRGS), José Ferreira de Rezende (UFRJ), José Augusto
Suruagy Monteiro (UFPE), Jussara Almeida (DCC-UFMG), Lasaro Camargos (UFU),
Luidi Simonetti (UFRJ), Luiz Bittencourt (Unicamp), Luiz Manoel Rocha Gadelha Jr
(LNCC), Magnos Martinello (UFES), Marcelo Carvalho (UnB), Marta Mattoso
(COPPE/UFRJ), Miguel Elias Mitre Campista (UFRJ), Moises Ribeiro (UFES),
Morganna Diniz (UNIRIO), Nelson Fonseca (UNICAMP), Paulo Aguiar (UFRJ), Paulo
Fernandes (PUCRS), Paulo Romero Maciel (UFPE), Pedro Velloso (UFRJ), Rafael
Laufer Bell (Labs Nokia), Rafael Melo (UFBA), Rafael Pasquini (UFU), Ricardo
Czekster (Universidade de Santa Cruz do Sul - UNISC), Rodolfo Villaca (UFES),
Romulo Silva de Oliveira (UFSC), Rosa Leão (UFRJ), Sidney Lucena (UNIRIO), Thais
Webber (Universidade de Santa Cruz do Sul - UNISC), Thiago Noronha (UFMG),
Tiberius Bonates (UFC), Wagner Meira Jr. (UFMG)
1611
XXXVII Congresso da Sociedade Brasileira de Computação
Trabalhos completos
Os Dois Lados de Containers: Explorando o Balanço Entre Isolamento e
Desempenho de Funções de Rede Virtualizadas
Nicolas Silveira Kagami, Luciano Paschoal Gaspary
1612
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
Artigos curtos
Otimizando o uso do Subsistema de Memória de GPUs para Aplicações Baseadas
em Estênceis
Ricardo K. Lorenzoni, Matheus S. Serpa, Edson L. Padoin, Jairo Panetta Philippe O. A.
Navaux, Jean-François Méhaut
1613
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
A indústria de telecomunicações tem se apoiado historicamente na implantação de dispo-
sitivos fı́sicos dedicados para prover novas funcionalidades, como middleboxes. Esse tipo
de equipamento frequentemente requer um encadeamento especı́fico com outros serviços,
incumbindo não só em restrições topológicas da rede como na localização fı́sica dessas
funções componentes. Tais restrições, juntamente com a exigência dos usuários por qua-
lidade, estabilidade e custo baixo, acarretaram ciclos de produto mais longos e uma forte
1614
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1615
XXXVII Congresso da Sociedade Brasileira de Computação
2. Trabalhos Relacionados
Em um amplo estudo dos atuais desafios de pesquisa em NFV [Mijumbi et al. 2016],
Mijumbi et al afirmam que containers podem ser mais apropriados do que hypervisors
dependendo da função. Este trabalho aponta ainda que containers podem trazer até 30%
de economia em custos de servidor se comparados a virtualização por hardware. Em
uma investigação similar em escopo [Han et al. 2015], Han afirma que as soluções atu-
ais de NFV em máquinas virtuais (hypervisor) têm problemas de memória e tempo de
instanciação. Além disso, sustenta que a indústria requer implementações mais leves, re-
manescendo como um tópico de pesquisa em aberto. Ambas investigações destacaram o
potencial de containers, e ressaltaram a necessidade de estudo na área.
Em um estudo da aplicação de NFV ao fornecimento dinâmico e elástico de acesso
público à internet, Heideker e Kamienski observaram vantagens de desempenho e tempo
de instanciação na aplicação de containers [Heideker and Kamienski 2016]. Containers
também foram utilizados em um ambiente dedicado à submissão de cargas de trabalho, a
ferramenta Rufus, cujo artigo ressalta que containers apresentam uma alternativa efetiva e
de baixo custo [Souza et al. 2016]. O impacto de virtualização por containers também foi
considerado positivo para a aplicação em Data Centers [Netto et al. 2016] e computação
massivamente paralela e distribuı́da [Barbosa et al. 2014].
Em uma avaliação das tecnologias disponı́veis de hypervisors e containers
[Morabito et al. 2015], Morabito concluiu que containers apresentam melhor desempe-
nho, com um overhead quase imperceptı́vel para a maioria das métricas. No entanto,
o autor condiciona essas vantagens ao custo de segurança e isolamento, salientando a
carência de estudos sobre esses aspectos. Em um outro estudo [Felter et al. 2015], Fel-
ter comparou implementações das tecnologias de virtualização e concorda que containers
geralmente apresentam menor overhead. O autor sugere que containers devem oferecer
melhor desempenho e boa adequação a IaaS (Infrastructure as a Service). Porém, enfatiza
que algumas questões de comunicação ainda devem ser investigadas. Há consenso entre
Morabito e Felter sobre o melhor desempenho de containers em relação a hypervisors.
Ambos, no entanto, apontam que esforços devem ser feitos para prover o isolamento, que
seria garantido na virtualização por hardware.
1616
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1617
XXXVII Congresso da Sociedade Brasileira de Computação
1618
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
O módulo de kernel macvlan tem sido usado como alternativa em casos de neces-
sidade de desempenho. O driver da controladora de rede fica sob comando (slave) das
interfaces macvlan presentes nos namespaces dos containers, cada uma associada a um
endereço MAC. Seu ganho em desempenho em relação a veth é compensado com me-
nos isolamento inerente, considerando que, a princı́pio, todas interfaces compartilham o
mesmo domı́nio de broadcast. No entanto, diferentes modos de operação de macvlan per-
mitem ajustar isolamento e desempenho, sendo possı́vel criar um canal de comunicação
especial entre containers ou vetar sua intercomunicação inteiramente. Esse atalho de
comunicação inter-container pode ser apropriado para diminuir latência no encadeamento
de VNFs, mas também permite que um container comprometido afete seus vizinhos.
É importante notar que a virtualização por containers representa uma alternativa
que não só oferece maior desempenho no caso ideal, mas principalmente oferece a capa-
cidade de configurar funcionalidades de isolamento especı́ficas, determinando o grau de
impacto no desempenho. A eficiência de recursos também pode ser beneficiada, possibi-
litando maior densidade de funções de rede do que a obtida em soluções de virtualização
por hypervisor. As investigações atuais têm se concentrado no desempenho ideal de
containers, muitas vezes desconsiderando o efeito de exercer restrições de isolamento.
Para que a comparação com soluções de virtualização de hardware seja pertinente e para
que a comunidade de desenvolvimento de containers possa adequá-los ao ecossistema de
NFV, é necessário avaliar o efeito no desempenho que essas ferramentas podem acarretar
quando exercendo suas funções.
4. Ambiente de Avaliação
1619
XXXVII Congresso da Sociedade Brasileira de Computação
1
https://www.docker.com - Acessado em Março 2017
2
https://github.com/opencontainers/runc - Acessado em Março 2017
3
https://wiki.archlinux.org/index.php/cgroups - Acessado em Março 2017
4
https://wiki.archlinux.org/index.php/AppArmor - Acessado em Março 2017
5
http://read.cs.ucla.edu/click - Acessado em Março 2017
1620
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1621
XXXVII Congresso da Sociedade Brasileira de Computação
Parâmetros Valores
Tecnologia de Comunicação veth bridge, veth bridge, macvlan bridge
Tecnologia de Isolamento Nenhuma, cgroups, AppArmor, cgroups & AppArmor
Função de Rede Virtualizada Firewall, DPI, NAT
Anomalia Nenhuma, CPU, Memória, Disco, I/O
5. Resultados
Esta seção relata os resultados obtidos a partir da execução do ambiente de avaliação pre-
viamente descrito. Todas as observações abaixo foram estatisticamente consideráveis a
um nı́vel de significância 1 − α = 95%. A seguir estão quantificadas as observações
mais interessantes com o objetivo de caracterizar como cada um dos fatores influen-
cia no balanço de desempenho e isolamento. Apresenta-se o efeito das interfaces de
comunicação, seguido da influência das anomalias e do isolamento e, por fim, das funções
de virtualização.
Considerando o cenário de aplicação de anomalias, a Figura 4 ilustra as diferentes
capacidades de vazão e picos de latência das interfaces avaliadas, também apresentando
o efeito da aplicação de isolamento de recursos cgroups. Em média, macvlan apresen-
tou 4,74% mais vazão que veth direct, que, por sua vez, alcançou 22,29% mais que a
configuração veth bridge. A relação da latência foi mais intrincada, na qual a macvlan
apresentou o maior aumento de latência durante anomalias de memória. A interface veth
direct exibiu as menores médias de latência, demonstrando valores 16,17% menores que
1622
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1623
XXXVII Congresso da Sociedade Brasileira de Computação
6. Discussão
Esta seção desenvolve pontos de análise sobre os resultados obtidos e os relaciona com
questões de isolamento e desempenho em containers assim como suas implicações para
NFV. Primeiramente, avalia-se as tecnologias de isolamento quanto à sua viabilidade,
seguido de uma elucidação sobre a diversidade de resultados das anomalias e funções de
rede. Por fim, elabora-se um panorama das principais propriedades das configurações de
comunicação relativas à aplicação no encadeamento de funções virtualizadas.
1624
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1625
XXXVII Congresso da Sociedade Brasileira de Computação
7. Conclusão
Este artigo apresentou uma análise das caracterı́sticas de isolamento e desempenho de
containers considerando múltiplas tecnologias de isolamento, comunicação, funções de
rede e anomalias de execução. Com base nesses experimentos foi possı́vel averiguar
o impacto de exercer isolamento no desempenho de funções de rede quando o sistema
está sob extenuação de recursos. Os experimentos realizados não só evidenciaram um
baixo custo no desempenho de rede para o emprego de isolamento, mas, notavelmente,
demonstraram quanto o isolamento de recursos pode contribuir para o desempenho em
situações anômalas. Os resultados sugerem que containers conseguem prover um ambi-
ente propı́cio para o desempenho de NFV sem perder de vista questões de segurança e
isolamento.
Além disso, foi apresentada uma avaliação de como as tecnologias de
comunicação mais habitualmente utilizadas em containers influenciam na relação de
isolamento e desempenho.Tal avaliação incluiu a reformulação de uma interface de
comunicação que resultou em observações inovadoras sobre suas capacidades de desem-
penho e relações de compromisso na configuração de cadeias de funções de rede.
Como trabalho futuro, pretende-se explorar alguns fatores de teste adicio-
nais. Em termos de tecnologia de comunicação, overlay networks, mecanismos de
comunicação externa e tecnologias como DPDK representam aspectos promissores que
poderiam se beneficiar de estudos semelhantes. Tais fatores podem desvendar proprie-
dades de comunicação entre containers localizados em diferentes dispositivos fı́sicos de
virtualização, de forma complementar às tecnologias avaliadas neste artigo. Em termos
de plataformas de virtualização, containers de sistema, particularmente o LXD, merecem
o mesmo método de análise. Considerando tecnologias de isolamento, outros mecanis-
mos como SELinux e Smack representam alternativas interessantes. Um dos desafios no
contexto de isolamento é referente a como ataques de segurança podem influenciar no
desempenho das funções vizinhas. Tal cometimento se vê dificultado pela variedade sig-
nificativa de estratégias de segurança e de invasão, cada qual com seu espectro de impacto.
Em termos de anomalias, outros artifı́cios podem ser usados para simular cargas de tra-
balho mais especı́ficas, as quais possibilitam a descoberta de novas interações com as
tecnologias usuais. Em especı́fico, avaliar a resposta de um ataque interno de Denial of
Service pode elucidar caracterı́sticas essenciais das tecnologias de comunicação e isola-
mento, as quais podem ser determinantes para a adequação de containers em NFV.
1626
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
Referências
Anderson, J., Hu, H., Agarwal, U., Lowery, C., Li, H., and Apon, A. (2016). Performance
considerations of network functions virtualization using containers. 2016 International
Conference on Computing, Networking and Communications, ICNC 2016.
Barbosa, J., Oliveira, V., Bandini, M., Schulze, B., and Mury, A. (2014). N-Clusters :
Ferramenta para a Gerência de Ambientes de Computação Massivamente Paralela e
Distribuı́da. XXXII Simpósio Brasileiro de Redes de Computadores e Sistemas Dis-
tribuı́dos, pages 1003–1010.
Claassen, J., Koning, R., and Grosso, P. (2016). Linux containers networking: Perfor-
mance and scalability of kernel modules. Proceedings of the NOMS 2016 - 2016
IEEE/IFIP Network Operations and Management Symposium, pages 713–717.
Felter, W., Ferreira, A., Rajamony, R., and Rubio, J. (2015). An updated performance
comparison of virtual machines and Linux containers. 2015 IEEE International Sym-
posium on Performance Analysis of Systems and Software (ISPASS), pages 171–172.
Han, B., Gopalakrishnan, V., Ji, L., and Lee, S. (2015). Network function virtualiza-
tion: Challenges and opportunities for innovations. IEEE Communications Magazine,
53(2):90–97.
Heideker, A. and Kamienski, C. (2016). Gerenciamento Flexı́vel de Infraestrutura de
Acesso. XXXIV Simpósio Brasileiro de Redes de Computadores e Sistemas Dis-
tribuı́dos.
Mijumbi, R., Serrat, J., Gorricho, J.-l., Bouten, N., Turck, F. D., and Member, S. (2016).
Network Function Virtualization : State-of-the-Art and Research Challenges. IEEE
Communications Surveys and Tutorials, 18(1):236–262.
Morabito, R., Kjällman, J., and Komu, M. (2015). Hypervisors vs. lightweight virtualiza-
tion: A performance comparison. Proceedings - 2015 IEEE International Conference
on Cloud Engineering, IC2E 2015, pages 386–393.
Netto, H., Lung, L. C., Correia, M., and Luiz, A. F. (2016). Gerenciamento Flexı́vel de
Infraestrutura de Acesso. XXXIV Simpósio Brasileiro de Redes de Computadores e
Sistemas Distribuı́dos.
Souza, J., Santos, A., Bandini, M., and Kl, H. (2016). Rufus : Ferramenta para o Ge-
renciamento de Infraestrutura para a Execução de Aplicações em Containers. XXXIV
Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuı́dos.
1627
XXXVII Congresso da Sociedade Brasileira de Computação
1. Introdução
Experimentos in silico são aqueles em que modelamos fenômenos reais por meio de
simulações computacionais [Deelman et al. 2009]. Esses experimentos são comumente
compostos por diversos programas que possuem uma dependência de dados entre
si. Esse conjunto de programas e as restrições de precedência são conhecidos como
workflows cientı́ficos e são um paradigma popular usado por cientistas para a modelagem
de simulações computacionais. Cada atividade do workflow está associada a um
programa de computador, e cada execução de uma atividade é chamada de ativação.
Cada ativação processa um conjunto de dados de entrada e produz um conjunto de
dados de saı́da [Ogasawara et al. 2011]. Os workflows são gerenciados por sistemas
complexos chamados de Sistemas de Gerência de Workflows Cientı́ficos (i.e. SGWfC).
Muitos workflows consomem e produzem um grande volume de dados e necessitam de
ambientes de processamento de alto desempenho (PAD), e.g. nuvens de computadores
[Vaquero et al. 2008].
A nuvem é capaz de fornecer um ambiente favorável para a execução de
workflows, pois além da disponibilidade, os cientistas podem explorar a elasticidade,
i.e. a capacidade de aumentar e/ou diminuir a quantidade de máquinas virtuais (VMs)
∗
Este artigo foi financiado parcialmente pelo CNPq e FAPERJ
1628
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
criadas para executar o workflow. Na nuvem, o cientista paga apenas pelos recursos
que consumir (pay-per-use) [Vaquero et al. 2008]. Para que a nuvem possa ser utilizada
em sua capacidade máxima, os SGWfCs existentes devem ser capazes de distribuir as
execuções dos workflows nestes ambientes. Existem diversos SGWfCs que apoiam a
execução em nuvens como o Pegasus [Deelman et al. 2007], o Swift/T [Zhao et al. 2007]
e o SciCumulus [Oliveira et al. 2012], que foi o SGWfC utilizado neste artigo, pois realiza
o escalonamento de workflows baseado em múltiplos objetivos.
O SciCumulus [de Oliveira 2012] é um SGWfC adaptativo em relação ao estado
dos recursos computacionais na nuvem. Ele é capaz de verificar a capacidade
computacional e ajustar dinamicamente a distribuição das ativações e a capacidade
computacional do ambiente a fim de alcançar um melhor desempenho. Seu escalonador
atual considera 3 objetivos: o tempo de execução, o custo financeiro e a confiabilidade.
Embora o SciCumulus seja capaz de otimizar o escalonamento baseado em um modelo
de custo com três objetivos, a prioridade dos mesmos é definida pelo cientista de forma
ponderada, o que pode gerar 2 problemas: (i) ao se executar um workflow pela primeira
vez, o cientista não tem ideia alguma de como o mesmo se comportará baseado nos pesos
de entrada, somente após várias execuções e ajustes é que o cientista consegue obter um
resultado mais próximo do que deseja e (ii) a medida que adicionamos mais objetivos
ao modelo (e.g. o consumo de energia), mais difı́cil se torna a função objetivo definir o
melhor escalonamento [Oliveira and Saramago 2010].
Neste artigo, ao invés de utilizarmos uma função multi-objetivo ponderada,
propomos o uso de múltiplas funções objetivo de forma hierárquica para otimizar
múltiplos critérios do cientista, fazendo um balanceamento entre as restrições de custo
financeiro, tempo de execução, tolerância a falhas e o custo energético. A abordagem
proposta não utiliza mais pesos associados aos objetivos, e o cientista precisa somente
definir a ordem de prioridade dos objetivos, montando portanto uma hierarquia. A
avaliação experimental foi realizada comparando a versão atual do escalonador do
SciCumulus, onde a função objetivo é ponderada e abordagem proposta. Os resultados
apresentaram uma melhora considerável de desempenho no escalonador do SGWfC,
maximizando os ganhos definidos pela ordem de prioridade do cientista. Foram realizados
avaliações com um workflow sintético e com um workflow real da área de bioinformática.
O restante deste artigo está estruturado da seguinte maneira. A Seção 2 apresenta
trabalhos relacionados. A Seção 3 apresenta o formalismo utilizado. A Seção 4 apresenta
a abordagem proposta. A Seção 5 aborda a avaliação experimental, e, finalmente, a Seção
6 conclui o artigo e discute sobre trabalhos futuros.
2. Trabalhos Relacionados
O escalonamento de atividades de workflows é um conhecido problema NP-difı́cil.
Apesar disso, a maioria dos trabalhos busca soluções para otimizar apenas 1 ou 2
objetivos, porém na maioria dos casos são utilizados formalismos que agregam todos os
objetivos em uma única função analı́tica, utilizando pesos para restringir alguns objetivos
e maximizar outros. Garg et al. [Garg et al. 2009] utilizam um escalonamento que
otimiza o makespan e a confiabilidade, por meio de um vetor de pesos. Assayad et
al. [Assayad et al. 2004] e Hakem et al. [Hakem and Butelle 2007] utilizam abordagens
similares para otimizar confiabilidade e tempo. A principal desvantagem dessas
1629
XXXVII Congresso da Sociedade Brasileira de Computação
abordagens é que a solução depende de uma combinação de pesos entre os objetivos para
tentar atender as necessidades do cientistas, que podem não conhecer como o workflow se
comporta com determinados dados de entrada.
Sakellariou et al. [Sakellariou et al. 2007] que otimizam somente 2 objetivos
e Fard et al. [Fard et al. 2012] que otimizam 4 objetivos (makespan, consumo de
energia, custo monetário, confiabilidade) calculam a solução otimizando um objetivo e
tentando não violar as restrições dos outros baseados nos requisitos do cientista. Essas
abordagens foram propostas baseadas em grids computacionais e não em nuvens. Yu et
al. [Yu et al. 2007] utilizam algoritmos genéticos para otimizar o makespan e o custo
financeiro.
Pandey et al. [Pandey et al. 2010] utilizam uma heurı́stica baseada em otimização
de enxame de partı́culas para escalonamento em nuvens levando em consideração custo
financeiro. A principal desvantagem é que sua abordagem demora muito a convergir,
gerando um alto custo computacional. Além disso, não visa outros objetivos como, por
exemplo, o tempo de execução. Duan et al. [Duan et al. 2014] geram o escalonamento
otimizando tempo de execução e custo financeiro, porém com opções de restrição de
largura de banda e armazenamento, utilizando um algoritmo baseado em teoria de jogos.
Diferentemente dos trabalhos relacionados, a abordagem hierárquica proposta
nesse artigo se utiliza de múltiplas funções objetivo e atende a várias restrições
escolhidas pelo usuário. Porém, não atribuı́mos pesos a cada objetivo a ser otimizado
[Oliveira et al. 2012], ou tentamos otimizar determinada função e não violar as restrições
das demais [Sakellariou et al. 2007]. A abordagem aqui proposta estende a proposta de
Durillo et al. [Durillo et al. 2015], que busca encontrar um conjunto de soluções para
cada VM que está envolvida na execução do workflow.
3. Formalismo Utilizado
A execução de um workflow pode ser longa, e, apesar do cientista geralmente desejar
obter os resultados no menor tempo possı́vel (o que o levaria a executar o workflow
em máquinas mais robustas e mais caras), nem sempre ele possuirá valores financeiros
suficientes para isso. Logo, existem métricas que podem ser escolhidas no momento
da execução de forma a balancear os objetivos. Tais métricas podem ser usadas para
definir um modelo de custo a ser utilizado para definir quais as melhores ativações
para determinadas máquinas virtuais. Esse tipo de modelo de custo já é utilizado por
SGWfCs como o SciCumulus [Oliveira et al. 2012]. No entanto, existe um objetivo que é
adicionado ao modelo de custo nesse artigo que o SciCumulus não atendia até o momento:
o custo energético. O formalismo aqui exposto, bem como cada função objetivo, é uma
extensão do formalismo apresentado por de Oliveira [Oliveira et al. 2012].
Consideremos V M = {V M0 , V M1 , ..., V Mn−1 } como o conjunto de n VMs
criadas na nuvem e disponı́veis para execução do workflow. Para cada VM, existe um
valor associado a ela chamado de ı́ndice de retardo de computação (csi) (computational
slowdown index) [de Oliveira 2012]. Neste artigo o valor de csi é obtido com base nos
dados de proveniência das execuções anteriores do workflow [Freire et al. 2008], ou seja,
é calculada uma média baseada nos tempos de execuções passadas de ativações dos
workflows. Desta forma, a uma VM com desempenho mı́nimo será atribuı́do o valor 1
e as restantes com valores relativos (e.g. 1,72). Este ı́ndice também pode ser obtido
1630
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
Podemos então calcular o tempo total de transferência de dados (TT) para todas as
ativações de W, assumindo que existam k atividades e portanto k-1 transferências:
k−1
X
TT = time(acw ) (2)
w=0
1631
XXXVII Congresso da Sociedade Brasileira de Computação
do workflow, i.e. se o custo for alto, há chance da execução ser altamente impactada por
falhas. A taxa de falha de uma VM pode ser obtido como F (V Mj ), ∀ V Mj ∈ V M .
Esse valor pode ser obtido com base nos dados de proveniência armazenados sobre um
tipo de V Mj . O custo de confiabilidade é inversamente proporcional a confiabilidade
da execução do workflow na VM. Esse custo representa o número médio de falhas que
ocorrem durante um perı́odo de execução da ativação. Se o custo de confiabilidade for
minimizado, aumentamos a confiabilidade da execução como um todo, dessa forma,
o custo de confiabilidade de uma determinada ativação executar em uma máquina é
representado por R(aci , V Mj ) e pode ser definido como:
1632
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
(
1 , se V Mj roda aci /aci ∈ Ac em tqz
Exec(tqz , V Mj ) =
0 , caso contrário
Como a função Exec(tqz , V Mj ) só calcula o custo de uso da VM enquanto
a mesma está processando, precisamos considerar também o tempo em que a mesma
se encontra ociosa aguardando a transferência de dados. Portanto, o cálculo do custo
monetário fica divido em duas partes: a primeira calcula o custo enquanto as máquinas
estão processando as ativações, e a segunda parte calcula o tempo em que as máquinas
aguardam o tempo de transferência dos dados:
makespan
|V M | |tq| k
X X X
M (ϕ) = (V q(V Mj ) × Exec(tqi , V Mj ) + V q(V Mj ) × time(acj )) (5)
j=1 i=1 i=0
Com isso obtemos o custo financeiro de cada VM, porém, ainda há outro fator a ser
considerado, que é a unidade de informação transferida pela rede, pois os provedores de
nuvem também cobram por isso. Dessa forma, temos o custo financeiro de transferência
como T R(ϕ). Considere como Vt o valor que o usuário tem de pagar por cada unidade
de dados transferidos. Portanto o valor total a ser pago pela transferência de dados é:
k−1 X
X k−1
T R(ϕ) = (V t × volume(aci , acj )) (6)
j=0 i=0
1633
XXXVII Congresso da Sociedade Brasileira de Computação
5. Avaliação Experimental
Esta seção apresenta a avaliação da abordagem proposta, explicando as ferramentas
adotadas para execução, e as métricas utilizadas, bem como os parâmetros e
ambientes onde foram executados os experimentos. Para os experimentos utilizamos
o SGWfC SciCumulus [Oliveira et al. 2012] para gerenciar a execução do SciPhy
[Ocaña et al. 2011], que é um workflow de análise filogenética, e que será explicado
na subseção 5.1. O ambiente para execução dos testes foi a nuvem da Amazon EC2,
1634
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
onde o mesmo foi executado em paralelo, tratado na subseção 5.3. Também foram
feitos experimentos com um workflow sintético em um ambiente simulado baseado no
WorkflowSim [Yang et al. 2014], tratado na subseção 5.2.
1635
XXXVII Congresso da Sociedade Brasileira de Computação
1636
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1637
XXXVII Congresso da Sociedade Brasileira de Computação
representado por tempo em minutos e o eixo horizontal os critérios que foram priorizados.
Segundo o primeiro conjunto de barras (tempo de execução como critério prioritário),
nota-se que a abordagem hierárquica levou apenas 371 minutos para concluir a execução
do workflow enquanto ao utilizar o escalonador com pesos levou-se 415 minutos para
concluir. Portanto, a abordagem hierárquica apresentou melhor desempenho. Podemos
perceber também que mesmo quando o critério principal é a confiabilidade, também foi
possı́vel reduzir o tempo de execução, uma vez que as máquinas mais confiáveis são as
mais rápidas. Já para os cenários onde os critérios de custo financeiro e custo de energia
foram prioritários, o tempo de execução aumentou, uma vez que as máquinas com menor
custo e menor consumo de energia são as mais lentas (i.e M3.medium) como pode ser
observado na Figura 4(a).
Além do tempo de execução foram avaliadas as quantidades de falhas ocorridas
em cada um dos cenários. A quantidade de falhas por execução do workflow real pode
ser conferida com base no Gráfico apresentado na Figura 4(b). O cenário em que a
confiabilidade era o critério prioritário apresentou a mesma taxa de falha na abordagem
hierárquica e na abordagem com pesos. Porém, como o tempo de execução foi reduzido
(Figura 4(a)) na abordagem hierárquica, podemos peceber que a mesma se torna mais
interessante, pois manteve a taxa de falhas e reduziu o tempo de execução. Em todos os
outros cenários, a taxa de falha aumentou com a utilização da abordagem hierárquica.
A terceira análise é relativa ao custo financeiro de cada cenário. Basicamente
quando o cientista opta por minimizar prioritariamente o custo financeiro, ele está abrindo
mão de desempenho e confiabilidade. Assim, a execução do workflow se caracteriza como
uma execução mais longa e com mais falhas, pois máquinas mais baratas serão usadas
prioritariamente. Logo, se analisarmos somente o cenário em que o custo financeiro
é o prioritário pela Figura 5(a) nota-se no terceiro grupo que sua execução foi mais
demorada, e para levar mais tempo, máquinas inferiores foram as mais utilizadas e por
isso a ocorrência de falhas é mais presente (conforme já apresentado na 4(b)). Entretanto,
como podemos observar na Figura 5(a), o custo financeiro desse cenário foi o menor
(nas abordagens hierárquica e com pesos) e foi efetivamente reduzido utilizando-se a
abordagem hierárquica. Pode-se peceber que mesmo quando o critério de consumo
energético era o prioritário, a abordagem hierárquica ainda foi capaz de reduzir o custo
financeiro associado.
1638
16º WPerformance - Workshop em Desempenho de Sistemas Computacionais e de Comunicação
1639
XXXVII Congresso da Sociedade Brasileira de Computação
têm mais opções de VMs fornecidas pelos provedores de nuvens, conforme discutido por
Durillo et al. [Durillo et al. 2015].
References
Assayad, I., Girault, A., and Kalla, H. (2004). A bi-criteria scheduling heuristic
for distributed embedded systems under reliability and real-time constraints. In
Dependable Systems and Networks, 2004 International Conference on, pages 347–356.
IEEE.
de Oliveira, D. C. M. (2012). Uma Abordagem de Apoio à Execução Paralela de
Workflows Cientı́ficos em Nuvens de Computadores. PhD thesis, Universidade Federal
do Rio de Janeiro.
Deelman, E., Gannon, D., Shields, M., and Taylor, I. (2009). Workflows and e-science:
An overview of workflow system features and capabilities. Future Generation
Computer Systems, 25(5):528–540.
Deelman, E., Mehta, G., Singh, G., Su, M.-H., and Vahi, K. (2007). Pegasus: mapping
large-scale workflows to distributed resources. In Workflows for e-Science, pages
376–394. Springer.
Duan, R., Prodan, R., and Li, X. (2014). Multi-objective game theoretic schedulingof
bag-of-tasks workflows on hybrid clouds. Cloud Computing, IEEE Transactions on,
2(1):29–42.
Durillo, J. J., Nae, V., and Prodan, R. (2014). Multi-objective energy-efficient
workflow scheduling using list-based heuristics. Future Generation Computer
Systems, 36:221–236.
Durillo, J. J., Prodan, R., and Barbosa, J. G. (2015). Pareto tradeoff scheduling of
workflows on federated commercial clouds. Simulation Modelling Practice and
Theory, 58:95–111.
Fard, H. M., Prodan, R., Barrionuevo, J. J. D., and Fahrin