Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Dissertao de Mestrado
RECIFE
2016
RECIFE
2016
Agradecimentos
Em primeiro lugar, gostaria de manifestar a minha gratido aos meus protetores que
de forma concreta zelaram e garantiram meu estado de conscincia, sabedoria, segurana e
sade mental e fisica, no deixando faltar as condies necessrias para a concluso de mais
esta importante etapa em minha vida.
A Renata Conegundes, minha esposa, pela pacincia, compreenso e suporte nos
momentos mais decisivos desta caminhada.
Aos meus pequenos guerreiros, Vitor Robemar e Annanda Letcia, por estar sempre
por perto e trazer momentos de descontrao nos momentos mais difceis.
A Claudio Muniz, Maria Ednilda e Clvis Gomes, membros da famlia, que me deram
fora para que este sonho se tornasse realidade.
Ao meu orientador Vinicius Garcia, obrigado pela oportunidade, confiana, suporte e
parceria durante a caminhada do mestrado.
A todos que no foram mencionados acima, mas contriburam de maneira direta ou
indireta para a realizao e concluso deste trabalho.
Resumo
Contexto: Rastreabilidade de artefatos de software tem sido reconhecida como um
fator importante para apoiar diversas atividades no processo de desenvolvimento de software.
Em geral, o objetivo da rastreabilidade melhorar a qualidade dos sistemas de software.
Ao longo dos ltimos anos, as comunidades de engenharia de software tm desenvolvido
um grande nmero de abordagens e tcnicas para tratar vrios aspectos da rastreabilidade.
No entanto, apesar de sua importncia e o trabalho resultante de vrios anos de pesquisa,
estudos empricos sobre as necessidades e prticas de rastreabilidade em organizaes
industriais indicam que o suporte a rastreabilidade no sempre satisfatrio. Como resultado,
a rastreabilidade raramente estabelecida nos ambientes industriais existentes, devido a
apresentar caractersticas distribudas e heterogneas.
Objetivo: Apesar do amplo reconhecimento de sua importncia e de numerosos anos
de investigao, at o momento nenhum estudo apresentou uma viso holstica dos estudos
empricos que aplicam a rastreabilidade de software, na indstria ou na academia. Como um
primeiro esforo neste sentido, o objetivo deste estudo apresentar um roteiro de investigao das prticas relacionadas rastreabilidade de software entre artefatos heterogneos e
identificar as questes que ainda esto abertas para novas pesquisas.
Mtodo: Atravs de um Mapeamento Sistemtico da Literatura realizado por um nico
pesquisador os relatos de experimentos foram identificados e caracterizados. Cinco questes
de pesquisa foram utilizadas para extrair e sintetizar as evidncias encontradas nos estudos
empricos publicados nas diversas fontes cientficas da rea.
Resultado: Dos 2488 estudos retornados, 37 foram selecionados por atender aos
critrios de seleo especificados. Aps anlise, conclui-se que a eficcia das estratgias
de rastreabilidade estabelecidas ainda muito pontual pouco eficaz, este fenmeno pode
ser atribudo dificuldade em automatizar a gerao das relaes de rastreabilidade com
semnticas claras e precisas. Tipicamente, na maior parte das abordagens existentes, as
relaes de rastreabilidade so identificadas de forma automatizada, atravs da utilizao
de tcnicas de recuperao de informao estabelecidas sobre um conjunto de artefatos
de software relacionados aos requisitos, anlise e projeto, implementao e testes. Em
relao aos principais desafios relatados quanto s prticas estabelecidas foram confiana e
a escalabilidade das abordagens.
Palavras-chave: rastreabilidade, artefatos, heterogneo, engenharia de software,
mapeamento sistemtico.
Abstract
Context: software artifacts Traceability has been recognized as an important factor
to support various activities in the software development process. In general, the purpose
of tracking is to improve the quality of software systems. Over the past few years, software
engineering of communities have developed a number of approaches and techniques for
treating various aspects of traceability. However, despite its importance and the resulting
work of several years of research, empirical studies on the needs and traceability practices in
industrial organizations indicate that support traceability is not always satisfactory. As a result,
traceability is rarely established in existing industrial environments due to present distributed
and heterogeneous characteristics.
Objective: Despite the widespread recognition of its importance and many years of
research, to date no study has a holistic view of empirical studies that apply to software
traceability, industry or academia. As a first effort in this direction, the objective of this study
is to present a roadmap for research into the practices related to traceability software across
heterogeneous devices and identify the issues that are still open for further research.
Method: Through a Systematic Literature mapping performed by a single researcher,
experiments reports were identified and characterized. Five research questions were used to
extract and synthesize the evidence found in empirical studies published in various scientific
sources the area.
Results: From 2488 returned studies, 37 were selected for meeting the specified
selection criteria. After analysis, it is concluded that the effectiveness of the established
traceability strategies is still very punctual is very effective, this phenomenon can be attributed
to the difficulty in automating the generation of traceability relationships with clear and precise
semantics. Typically, in most existing approaches, the traceability relationships are identified
in an automated manner through the use of established information retrieval technique on
artifacts level requirements, analysis and design, implementation and testing. However, the
main challenges reported when the established practice is, trust and scalability.
Keywords: traceability, artifacts, heterogeneous, software engineering, systematic
mapping.
Lista de Figuras
35
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
64
. . . . . . . . . . . . . . . . . . . . . . . 103
Lista de Tabelas
. . . . . . . . . . . . . . . . . . . . . . . . . 32
. . . . . . . . . . . . 63
Sumrio
1 Introduo
14
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Contribuio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Estrutura da Dissertao
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Referencial Terico
18
Artefatos de Rastreamento
. . . . . . . . . . . . . . . . . . . 22
2.2.1.2
Relao de Rastreabilidade . . . . . . . . . . . . . . . . . . . 23
2.2.1.3
2.2.1.4
Termos Adicionais . . . . . . . . . . . . . . . . . . . . . . . . 24
Hipertexto
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.4.2
Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.4.3
Regras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.4.4
Cenrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.4.5
Recuperao da Informao . . . . . . . . . . . . . . . . . . . 29
. . . . . . . . . . . . . . . . 30
32
3.3.1.2
3.3.1.3
Definio da Metodologia . . . . . . . . . . . . . . . . . . . . 36
. . . . . . . . . . . . . 35
Definio do Protocolo . . . . . . . . . . . . . . . . . . . . . . 36
3.3.2.1.1
Questes de Pesquisa . . . . . . . . . . . . . . . . . 37
3.3.2.1.2
3.3.2.1.3
3.3.2.1.4
Avaliao de Qualidade
3.3.2.1.5
Estratgia de Extrao . . . . . . . . . . . . . . . . . 42
3.3.2.2
Reviso do Protocolo
. . . . . . . . . . . . . . . . 41
. . . . . . . . . . . . . . . . . . . . . . 42
. . . . . . . . . . . . . . . . . . . . . 42
44
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Contextos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.5.2
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3.5.3
Desafios e Limitaes . . . . . . . . . . . . . . . . . . . . . . 69
75
. . . . . . . 76
. . . . . . . . . . . . . . . . . . . . . . 77
13
5.6 Combinar tcnicas.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
. . . . . . . . . . . . . . . . . . . . . . . . . 79
6 Consideraes Finais
80
84
Apndice
92
93
97
. . . . . . . . . . . . . . . . . . . . . . . . 98
105
14
1
Introduo
A partir da conferncia de trabalho NATO realizada em 1968, pioneira para discutir os
problemas da engenharia de software, a rastreabilidade foi reconhecida como fator importante
para garantia que o produto final reflita as decises a respeito do projeto de software, tomadas
no inicio do projeto (RANDELL, 1968). Rastreabilidade foi posteriormente observada como um
tema de interesse em uma das primeiras pesquisas sobre o estado da arte e as tendncias
futuras na engenharia de software (BOEHM, 1976). Na dcada de 1980, a rastreabilidade
pde ser encontrada como uma exigncia em um grande nmero de normas nacionais e
internacionais de desenvolvimento de software. Posteriormente, no final de 1990, os estudos
foram impulsionados pelo interesse no resultado de dois artigos incidindo sobre as questes
e os problemas associados com a rastreabilidade RAMESH; EDWARDS (1993) e GOTEL;
FINKELSTEIN (1994), este ltimo, como a primeira anlise sistemtica dos problemas da
rastreabilidade.
A fim de superar os desafios significativos na criao, manuteno e utilizao da rastreabilidade, ao longo dos ltimos 20 anos, a comunidade cientfica tem apresentado ativamente
pesquisas sobre as questes de rastreabilidade, atravs da explorao de temas relacionados com a automatizao do processo de rastreabilidade (LUCIA; PENTA; OLIVETO, 2011;
GRECHANIK; MCKINLEY; PERRY, 2007; KAGDI; MALETIC; SHARIF, 2007; MARCUS; MALETIC, 2003), o desenvolvimento de estratgias para o custo-benefcio da rastreabilidade
(EGYED et al., 2005, 2007), apoio a evoluo e manuteno dos vnculos de rastreabilidade
(POSHYVANYK, 2009; MADER; GOTEL; PHILIPPOW, 2009a), visualizao das ligaes de
rastreabilidade (LI; MAALEJ, 2012; CHEN; HOSKING; GRUNDY, 2012; MADER; CLELANDHUANG, 2013), e desenvolver prticas de rastreabilidade que se aplicam a uma vasta gama
de domnios, como as linhas de produtos (SANTOS; ALMEIDA; L. MEIRA, 2012), aplicaes
crticas de segurana (CLELAND-HUANG et al., 2012), desenvolvimento orientado a aspectos (SARDINHA et al., 2012), Model-Driven Development (GALVAO; GOKNIL, 2007) e processo
gil de software (ESPINOZA; GARBAJOSA, 2011).
Enquanto a rastreabilidade reconhecida como um fator crtico de sucesso em desenvolvimento de software (DOMGES; POHL, 1998), a falta da rastreabilidade de software eficaz
15
(HAYES; DEKHTYAR; SUNDARAM, 2006) continua a ser um problema perene nos projetos
da indstria (REMPEL; MADER; KUSCHKE, 2013). O grande nmero de artefatos produzidos
em um projeto, os diferentes nveis de formalidade e especificidade entre vrios tipos de
artefatos, e as inter-relaes complexas entre artefatos (ANDERSON; SHERBA; LEPTHIEN,
2002; ALEXANDER, 2002) formam o corao do problema da rastreabilidade. GOTEL et al.
(2012) juntamente com pesquisadores de rastreabilidade e profissionais dentro do Centro de
Excelncia para Rastreabilidade de Software (COEST) lanaram o The Grand Challenge of
Traceability , um relatrio tcnico que oferece uma viso para a rastreabilidade em software
e engenharia de sistemas que descreve oito desafios que precisam ser abordadas a fim de
alcan-lo. A rastreabilidade onipresente considerada o grande desafio da rastreabilidade, e
exige progressos com todos os sete outros desafios. A heterogeneidade dos formatos, a falta
de estrutura dos artefatos e a inconsistncia na terminologia esto relacionados aos desafios
de torna a rastreabilidade configurvel e escalvel. Na Figura 1.1 pode ser visto um exemplo da
heterogeneidade dos artefatos e o fluxo de informao entre eles.
[H]
A literatura sobre rastreabilidade de software oferece um grande nmero de estudos, entre eles, alguns desenvolvidos a fim de reunir e avaliar as evidncias disponveis na
rea. SPANOUDAKIS; ZISMAN (2004) apresentam um roteiro para o estado da arte e da
prtica dos requisitos de rastreabilidade, discutem os principais avanos cientficos e tecnolgicos nesta rea, apresentam as possveis formas de estabelecer rastreabilidade que esto
1.1. OBJETIVOS
16
disponveis pela tecnologia, e identificam questes que requerem mais pesquisas neste campo.
Em (TORKAR et al., 2012) os autores examinam a definio de requisitos de rastreabilidade,
desafios, ferramentas e tcnicas, atravs da realizao de uma reviso sistemtica dos anos
1997 a 2007. Com foco na rastreabilidade de requisitos, a reviso realizada considera estudos
que no apresentam evidncias empricas e complementam os resultados e anlise com uma
validao esttica na indstria atravs de uma srie de entrevistas. Em (BORG; RUNESON;
ARDO, 2014) os autores conduziram um mapeamento sistemtico que agrupa as publicaes
sobre a recuperao de rastreamento baseados em IR, onde foram considerados estudos
publicados at 2012. No entanto, apenas foram includas publicaes que utilizam texto em
linguagem natural como entrada.
1.1
Objetivos
Apesar de vrios autores apontarem solues relacionadas rastreabilidade de soft-
ware, at o momento nenhum estudo apresentou uma viso holstica dos estudos empricos
existentes. Motivado pela necessidade de se produzir melhores evidncias, e como um primeiro
esforo neste sentido, o presente trabalho se prope a:
Identificar os experimentos, classific-los atravs de guias existentes na literatura, e de maneira sistemtica analisar as abordagens, tcnicas, os artefatos, os desafios e os contextos utilizados na aplicao da rastreabilidade entre artefatos heterogneos na engenharia de software.
Deste modo, ser conduzido um estudo de mapeamento sistemtico, executado por
um nico pesquisador, a fim de consolidar e categorizar as evidncias produzidas atravs
dos estudos empricos publicados na rea. Escolheu-se a rastreabilidade pois essa uma
das caractersticas mais marcantes no suporte as mudanas constantes dos processos na
engenharia de software, mais mudana significa uma maior necessidade de apoio da rastreabilidade. Qualquer projeto de desenvolvimento de software envolve muitas informaes, que esto
representadas em grande parte em artefatos heterogneos. Entende-se por artefato heterogneo, todo e qualquer documento utilizado para registrar informaes que apresenta diferena
quanto a estrutura, formato, terminologia, granularidade e partes interessadas. Focar-se em
artefatos heterogneos foi necessrio pois no era possvel, por limitaes de tempo e espao,
abranger experimentos de toda e qualquer relao de rastreamento na engenharia de software.
Alm disso, focar-se em artefatos heterogneos, embora reduzindo a quantidade de estudos
primrios avaliados, mantm a representatividade do conjunto de estudos selecionados em
relao rea como um todo, tanto em nmero, quanto em relao rea de investigao dos
estudos primrios, j que a rastreabilidade de artefatos uma caracterstica bastante abordada
na engenharia de software.
1.2. CONTRIBUIO
1.2
17
Contribuio
Para pesquisadores e profissionais importante entender qual o estado atual da prtica
1.3
Estrutura da Dissertao
Alm deste captulo introdutrio a presente dissertao est organizada de acordo com
a seguinte estrutura:
18
2
Referencial Terico
Neste captulo, so apresentados os principais conceitos e estudos utilizados como
base para a presente pesquisa. Deste modo, atravs de trs sees, os conceitos centrais
sobre rastreabilidade de software e seus desdobramentos sero explanados. A primeira seo
aborda uma viso dos artefatos do processo de desenvolvimento de software. A segunda
seo expe os conceitos da Rastreabilidade de Software, suas atividades e aplicaes. A
terceira aborda a Engenharia de Software Baseado em Evidncias.
2.1
19
[H]
1. Gesto: O conjunto de gesto captura os artefatos associados com o planejamento e execuo do processo. Esses artefatos usam notaes ad hoc, incluindo
texto, grficos, ou qualquer que seja a representao necessria para capturar os
contratos entre o pessoal do projeto e as partes interessadas.
20
2.2
21
Rastreabilidade de Software
A rastreabilidade tem sido identificada na literatura como um fator de qualidade, uma
caracterstica que o software deve possuir e incluir como requisito no-funcional (ROETZHEIM,
1991). Segundo IEEE STD 24765 (2010) rastreabilidade o grau em que uma relao pode
ser estabelecida entre dois ou mais produtos do processo de desenvolvimento, especialmente produtos com um predecessor e sucessor ou mestre-subordinado relacionando um
ao outro. EDWARDS; HOWELL (1991) definem a rastreabilidade como uma tcnica usada
para fornecer uma relao entre os requisitos, o design e a implementao final do sistema.
Para SPANOUDAKIS; ZISMAN (2004) rastreabilidade a capacidade de relacionar artefatos
criados durante o desenvolvimento de um sistema de software, e assim descrever o sistema a
partir de diferentes perspectivas e nveis de abstrao, envolvendo os atores que tm contribudo para a criao dos artefatos, bem como a lgica que explica a forma dos artefatos. Uma
definio recente empregada a rastreabilidade a capacidade de criar, manter e utilizar rastros
estabelecidos entre os artefatos ou elementos que a compe. Os quais devem ser adquiridos,
representados, armazenados, e posteriormente recuperados para permitir o uso nas atividades
e tarefas da engenharia de software (HUANG; GOTEL; ZISMAN, 2014).
A importncia da rastreabilidade bem compreendida na comunidade de engenharia
de software e adotada em inmeros padres de desenvolvimento de software (IEEE STD
12207, 2008; IEEE STD 29148, 2011; IEEE STD 828, 2012). As indstrias so muitas vezes
obrigadas a implementar prticas de rastreabilidade por regulamentaes governamentais, por
exemplo, nos Estados Unidos a Food and Drug Administration (FDA)1 afirma que a anlise
da rastreabilidade deve ser utilizada para verificar se um projeto de software implementa
todos os requisitos especificados, e que todos os aspectos do design, cdigo e teste so
rastreveis para os requisitos de software. Outros exemplos encontrados so: a Federal
Aviation Administration (FAA)2 , que afirma que os desenvolvedores de software precisam ter
maneiras de demonstrar a rastreabilidade entre design e requisitos, e as normas Capability
Maturity Model Integration (CMMI)3 e Melhoria de Processo do Software Brasileiro (MPS-BR)4 ,
que exigem prticas de rastreabilidade semelhantes.
Em suma, no nvel mais fundamental, a rastreabilidade simplesmente o potencial de
se relacionar dados que so armazenados dentro de artefatos de algum tipo, juntamente com
a capacidade de examinar esta relao (HUANG; GOTEL; ZISMAN, 2014), fornecendo visibilidade sobre aspectos necessrios do processo de desenvolvimento e contribuindo para uma
melhor compreenso do software do desenvolvimento manuteno (MADER; EGYED, 2011).
O valor da rastreabilidade encontra-se em muitas atividades da engenharia de software, onde
as informaes fornecidas atravs dessas inter-relaes podem permitir a anlise de impacto
1
http://www.fda.gov/
http://www.faa.gov/
3
http://cmmiinstitute.com/
4
http://www.softex.br/mpsbr/
2
22
2.2.1
Fundamentos Essenciais
Nas prximas subsees sero apresentados, de maneira sucinta e objetiva, aspectos
Artefatos de Rastreamento
Artefatos de rastreamento so unidades rastreveis de dados. O termo pode ser apli-
cado a todos os dados residuais ou a qualquer item tangvel produzido durante o processo de
desenvolvimento ou manuteno de software que so passveis de ser rastreado (HUANG; GOTEL; ZISMAN, 2014). O termo work product (produto de trabalho) utilizado pelo (SWEBOK,
2014) para referenciar qualquer artefato que resultado de um processo utilizado para criar o
produto final de software. Exemplos de um produto de trabalho incluem uma especificao do
sistema, uma especificao dos requisitos de software para um componente, uma descrio
do projeto de arquitetura do software, o cdigo fonte, a documentao de teste e o manual de
usurio. O gerenciamento da configurao a disciplina que promove o acompanhamento
adequado das evolues e relaes destes artefatos.
O termo artefato aplicado tanto ao objeto como um todo e/ou qualquer delimitao
interna nele. Isto significa que a granularidade de um artefato de rastreamento no prdeterminada. Trs outros termos so intimamente associados com o artefato de rastreamento,
so eles: tipo de artefato, artefato fonte e artefato alvo. O tipo de artefato serve para classificar
a natureza e a funo do artefato, e caracteriza os artefatos de rastreamento que tm a mesma
5
(http://www.coest.org/index.php/traceability/glossary)
23
Relao de Rastreabilidade
Uma relao de rastreabilidade uma associao entre dois artefatos, compreendendo
o artefato de origem e o artefato destino. Essa definio de ligao implica que o link tem
um sentido principal para a deteco, a partir do artefato fonte para o artefato alvo. O
direcionamento entre os dois artefatos de rastreio prev a capacidade de atravessar a ligao
de rastreamento, ou para segui-lo, de modo a associar as duas partes de dados. essa
orientao que procurada atravs da rastreabilidade (HUANG; GOTEL; ZISMAN, 2014).
2.2.1.3
24
Termos Adicionais
Os termos adicionais que delineiam diferentes tipos de rastreabilidade so destacados
e definidos a seguir.
Rastreabilidade para Frente: O termo comumente usado quando o rastreamento segue os passos subsequentes em um caminho de desenvolvimento, que no necessariamente
um caminho cronolgico, como exemplo, partindo dos requisitos para o cdigo.
Rastreabilidade para trs - O termo comumente usado quando o rastreamento segue
passos antecedentes em um caminho de desenvolvimento, que no necessariamente um
caminho cronolgico, como exemplo, partindo do cdigo para o modelo de arquitetura.
Rastreabilidade Horizontal - Termo comumente usado quando o rastreamento envolve
artefatos em diferentes nveis de abstrao, de modo a acomodar a rastreabilidade de ponta-aponta no ciclo de vida de desenvolvimento do software. Inclui as relaes entre os diferentes
modelos, tal como de requisitos para o cdigo. A rastreabilidade horizontal pode empregar
tanto o rastreamento para frente quanto o rastreamento para trs (LINDVALL; SANDAHL,
1996).
Rastreabilidade Vertical O termo comumente usado quando o rastreamento dos
artefatos acontece no mesmo nvel de abstrao, tais como: (i) rastrear todos os requisitos
criados (ii) rastrear os requisitos no funcionais do sistema, ou (iii) rastrear entre as verses
de um requisito particular em diferentes momentos no tempo. A rastreabilidade vertical pode
empregar tanto o rastreamento para frente quanto a rastreabilidade para trs (LINDVALL;
SANDAHL, 1996).
2.2.2
25
[H]
2.2.3
26
27
2.2.4
Abordagens da Rastreabilidade
O objetivo da rastreabilidade de software identificar relaes relevantes entre artefatos
Hipertexto
O modelo de hipertexto pode ser definido como um conjunto de contedos textuais e
suas inter-relaes, representado por links, em combinao com uma interface de usurio
28
Eventos
As abordagens baseada em eventos oferecem um mecanismo de notificao que
implementa regras invariveis de padres de projeto, que so usados para identificar os componentes crticos do software. Mais especificamente, as dependncias entre os artefatos so
registradas durante a criao do software. Aps o registro das dependncias, o sistema
monitora os artefatos e quando qualquer um deles modificado, ele notifica todos os dependentes sobre a mudana (CLELAND-HUANG; CHANG; GE, 2002; CLELAND-HUANG;
CHANG; CHRISTENSEN, 2003).
2.2.4.3
Regras
A principal motivao para as abordagens de rastreabilidade baseados em regras
Cenrios
Uma abordagem baseada em cenrios foi proposta por EGYED; GRUNBACHER
29
Recuperao da Informao
Na recuperao de vnculos de rastreabilidade entre artefatos de software, boa parte
destes artefatos apresentam formatos e nveis de abstrao diferentes (GOTEL et al., 2012).
No entanto, existe um tipo de dado presente em todos os artefatos de software, que so os
dados textuais. Extrair e analisar este tipo de dado essencial para o desenvolvimento de
tcnicas e ferramentas de recuperao de relaes de rastreabilidade. Na maioria dos artefatos
as partes textuais so de natureza descritiva, ou seja, dois artefatos que so conceitualmente
relacionados podem possivelmente conter ligaes de rastreabilidade entre eles.
Uma soluo eficaz adotada por pesquisadores e profissionais para extrair e analisar
os dados textuais incorporados em artefatos heterogneos de software o uso de tcnicas de
recuperao de informao, do ingls Information Retrieval (IR) (MARCUS; MALETIC, 2003;
LUCIA et al., 2004; HAYES; DEKHTYAR; SUNDARAM, 2006). A abordagem IR se baseia no
pressuposto que se os engenheiros referem-se aos mesmos aspectos do sistema usando
uma lngua semelhante em diferentes artefatos do software. Mtodos de recuperao de
rastreabilidade baseado em IR operam sobre a semelhana entre os textos contidos nos
artefatos de software. Assim, quanto maior for a semelhana entre dois artefatos textuais,
maior a probabilidade de que exista uma ligao entre eles (BAEZA-YATES; RIBEIRO-NETO,
1999). As etapas gerais desta abordagem incluem:
(i) anlise, extrao e pr-processamento dos documentos: os artefatos de software
so extrados dado o nvel de granularidade estabelecido, em seguida, pre-processados
para remoo de tokens no textuais e representados como um conjunto de fragmentos do
documentos resultante.
(ii) indexao dos termos: Um mtodo de recuperao de rastreabilidade utilizado
para indexar diversos fragmentos do artefato de software e represent-los de forma homognea
para extrao de informao sobre a ocorrncia dos termos (ou palavras) dentro deles. Esta
informao usada para definir medidas de similaridade entre os vrios documentos.
(iii) gerao da lista de priorizao: um conjunto de artefatos de origem e destino
so usados com relao a medida de similaridade definida para classificar todos os pares
possveis pelas suas semelhanas, assim gerando uma lista dos links de rastreabilidade
candidatos.
(iv) anlise das ligaes candidatas: uma vez que as ligaes candidatas foram geradas,
elas so fornecidas como resultado para confirmao ou rejeio. O processo de avaliao
das ligaes pode ser realizado baseado no julgamento humano ou automatizado.
Os mtodos de IR mais utilizados representam um documento como uma coleo
desordenada de palavras, desconsiderando a ordem com que palavras so apresentadas,
podendo ser classificados como algbrico ou probabilstico, dependendo de como a relevncia
entre as consultas e os documentos medida (MANNING; RAGHAVAN; SCHUTZE, 2008). Em
modelos de IR algbricos, a relevncia assumida correlacionado a similaridade dos termos
30
2.3
31
2.4
32
3
Mtodo
O objetivo deste captulo detalhar a abordagem metodolgica utilizada na presente
pesquisa. Neste sentido, ele descreve a estrutura adotada no Mapeamento Sistemtico. A
descrio detalhada do mtodo se prope a demonstrar a credibilidade e a confiabilidade da
pesquisa, alm de possibilitar a replicao do estudo por outros pesquisadores, a validao e a
comparao dos resultados obtidos com pesquisas semelhantes realizadas em outro contexto.
A primeira seo apresenta a classificao da pesquisa perante quatro aspectos; j a segunda
apresenta os detalhes do planejamento metodolgico da pesquisa atravs de suas etapas e
atividades.
3.1
Classificao da Pesquisa
A pesquisa realizada adota o mtodo de abordagem indutivo baseado em dados de
Quadro Metodolgico
Mtodo de Abordagem
Indutivo
Quanto ao Objetivo
Pesquisa Descritiva
Mtodo de Procedimento
Qualitativa
33
Descoberta da relao entre os fenmenos: busca-se, por intermdio da comparao, aproximar os fatos ou fenmenos com a finalidade de descobrir a relao
constante existente entre eles;
Generalizao da relao: nesta etapa ocorre a generalizao da relao encontrada entre os fenmenos e fatos semelhantes.
3.2
esta seo apresenta sua classificao de acordo com a Taxonomia de Cooper (COOPER,
1988). A taxonomia sugere a classificao de estudos sistemticos perante seis caractersticas,
conforme pode ser observado a seguir.
O presente estudo tem como foco as prticas e aplicaes utilizadas nos relatos de
experimentos em rastreabilidade de artefatos heterogneos do software, com importante valor
para representar a evoluo e compreender as tendncias na rea.
Quanto ao objetivo espera-se integrar, organizar e sintetizar o conhecimento por meio
da agregao e consolidao das evidncias existentes na literatura e identificar lacunas.
No que diz respeito perspectiva, a neutralidade assumida busca apresentar os
diferentes argumentos, interpretaes e evidncias existentes na literatura, dando espao aos
diversos pontos de vista dos autores.
34
3.3
Ciclo da Pesquisa
Esta seo tem como objetivo apresentar o planejamento e a metodologia utilizada
para realizao deste estudo em suas etapas e atividades. A Figura 3.1 apresenta o fluxo das
atividades distribudas em suas respectivas etapas que constituram o ciclo desta pesquisa,
so elas: Etapa de Definio da Pesquisa, Etapa de Planejamento do Mapeamento, Etapa de
Execuo do Mapeamento e Etapa de Divulgao dos Resultados.
A seguir sero detalhadas as etapas e apresentada as particularidades de cada deciso
de pesquisa.
3.3.1
objetivos: (i) identificao das oportunidades de pesquisa, (ii) definio do tema a ser pesquisado, (iii) delimitao do escopo, (iv) concepo das perguntas de pesquisa e (v) definio da
metodologia a ser utilizada.
3.3.1.1
35
3.3.1.2
36
Definio da Metodologia
Decorrente a definio do tema, objetivo e escopo da pesquisa, o mtodo considerado
mais adequado tomando como base o objetivo, o tipo das perguntas e o resultado esperado foi
o Mapeamento Sistemtico. Um mapeamento sistemtico usado para descrever os tipos de
atividades de pesquisa realizados e apresentar uma sntese dos estudos em vez de extrair
detalhes especficos. Sendo indicado sobre temas os quais a produo cientfica ainda
incipiente (BUDGEN et al., 2008). Outro aspecto que foi decisivo na escolha do mtodo foi
quanto a forma de apresentao dos resultados, pois em um MS eles so apresentados de
forma categorizada e proporcionam uma viso sumria que permite a melhor visualizao dos
dados em forma de grficos e mapas (PETERSEN et al., 2008).
3.3.2
Definio do Protocolo
O protocolo do mapeamento sistemtico especifica os mtodos que sero usados
para realizao do estudo secundrio, fazendo que este diminua a possibilidade de vis
do pesquisador e fornea um processo reproduzvel e transparente para a realizao da
pesquisa (KITCHENHAM, 2004). Os estgios para conduo de mapeamentos sistemticos
previsto pelo protocolo envolvem os seguintes pontos:
1. Identificar as questes de pesquisa;
2. Estabelecer a estratgia de busca dos estudos;
3. Prescrever a estratgia de seleo dos estudos relevantes;
4. Avaliar a qualidade dos estudos selecionados;
5. Determinar a forma de extrao dos dados.
A seguir sero apresentados de forma breve os elementos relacionados ao planejamento do mapeamento. A ntegra do protocolo pode ser obtida no Apndice B desta dissertao. O protocolo do mapeamento desta pesquisa foi construdo com base em guias existentes
na literatura (KITCHENHAM; DYBA; JORGENSEN, 2004; KITCHENHAM; CHARTERS, 2007;
PETERSEN et al., 2008).
Questes de Pesquisa
37
Com o objetivo de delinear o escopo da pesquisa e de
identificar os elementos que vieram a fazer parte das questes de pesquisa, foi utilizado
uma estrutura citada por KITCHENHAM; CHARTERS (2007), que recomenda considerar
as questes de pesquisa a partir da seguinte estrutura denominada PICOC (Population,
Intervention, Comparison, Outcome, Context):
O item comparao (Comparison) no foi utilizado, uma vez que o estudo no realiza
comparaes entre os mecanismos para guiar estudos empricos. Com relao ao item da
estrutura denominado Resultado (Outcomes) no foi utilizado porque busca-se uma viso
ampla da rea de pesquisa como um todo, evitando assim restringir resultados especficos.
As perguntas desta pesquisa so de natureza exploratria, pois tm o intuito de obter
uma viso ampla de uma rea de investigao. Assim, o objetivo deste mapeamento consolidar informaes a respeito da rastreabilidade entre artefatos heterogneos na engenharia de
software. No entanto, este tema demasiadamente genrica para uma avaliao completa.
Assim, ele foi dividido em cinco questes (Q), com foco em aspectos especficos da pesquisa.
Q5 - Quais os principais contextos, objetivos e desafios na aplicao de rastreabilidade entre artefatos heterogneos de software?
3.3.2.1.2
utilizando pesquisa automtica e manual. A pesquisa manual incluiu uma dos mais importantes
eventos da rea, a fonte de busca manual planejada e o respectivo perodo de coleta
apresentado na Tabela 3.2.
38
Perodo
Tipo
rea
2002 - 2013
workshop
ICSE
3.3.2.1.3
jada em duas fases, sucedidas de uma atividade de teste e reteste, uma alternativa para
garantia da confiabilidade das decises em estudos realizados por nico pesquisador (KITCHENHAM; CHARTERS, 2007). Aps obter o resultado das buscas, cada estudo retornado foi
avaliado pelo seu ttulo, resumo e palavras chave. Nessa primeira fase apenas os estudos que
claramente fugiram do escopo do mapeamento foram excludos, mantendo-se para anlise posterior todos os estudos que geraram alguma dvida quanto ao sua permanncia. Na segunda
fase, os estudos potencialmente relevantes so revistos com base nos critrios de incluso
e excluso para obter uma lista final dos estudos primrios selecionados. Todos os estudos
foram lidos sinteticamente e analisados com objetivo de filtrar a incluso no mapeamento dos
1
http://ieeexplore.ieee.org
http://portal.acm.org
3
http://www.scopus.com
4
http://www.sciencedirect.com/
5
https://www.engineeringvillage.com/search/quick.url
2
39
estudos pela sua relevncia em relao as questes de pesquisa. A lista dos critrios pode ser
observada na Tabela 3.4.
Tabela 3.4: Lista dos Critrios de Incluso/Excluso em ordem alfabtica.
Cdigo
Critrios de Incluso
Cdigo
Critrios de Excluso
CE01
Estudo no disponvel
CE02
Estudo Duplicado
CE03
Estudo Incompleto
CE04
heterogneos de software
CI02
CE06
ou manuteno da rastreabilidade
entre artefatos no o objetivo
principal da pesquisa
CE07
Os critrios de incluso foram definidos de acordo com o alinhamento ao tema da pesquisa e do perodo planejado para a realizao do estudo. Depois de aplicados os critrios de
incluso sero aplicados os critrios de excluso, que busca eliminar os estudos que abordam
questes de rastreabilidade, mas no esto preocupados com a criao, recuperao ou
manuteno das relaes. Assim como, estudos sem resultados empricos ou sem nenhuma
anlise cientfica. Quanto ao critrio de excluso CE04 justifica-se pelo seu carter universal,
tendo em vista que a maior parte dos trabalhos publicados nas principais bases de dados na
rea de Computao so escritos na lngua inglesa, inclusive artigos brasileiros.
Quando dois ou mais pesquisadores avaliam cada estudo, o grau de concordncia
entre os pesquisadores pode ser medida usando a estatstica Kappa (COHEN, 1968), para
garantir que o resultado obtido no foi meramente ao acaso. No entanto, em caso de pesquisa
realizada por um nico pesquisador, KITCHENHAM; CHARTERS (2007) sugerem a incluso
de uma atividade de teste e reteste, que consiste em reavaliar uma amostra aleatria dos
estudos primrios retornados e dos estudos considerados relevantes aps a triagem inicial, ou
seja, insumos da primeira e segunda fase da estratgia de seleo.
Essa atividade tem como objetivo verificar a consistncia das decises aplicadas ao
critrios de incluso e excluso do prprio pesquisador ao final de cada fase de seleo. Uma
viso geral da estratgia de seleo pode ser obtida na Figura 3.2. Para isso, na primeira fase
40
sero testados 5% de todos os estudos recuperados por fonte de busca automtica e manual,
e caso encontrado alguma divergncia no critrio aplicado, o estudo dever ser considerado
potencialmente relevante e por consequncia includo a segunda fase. A medida que desentendimentos forem identificados, mais 2% destes estudos sero avaliados. Para determinar
quais estudos sero revisitados uma funo que retorna nmeros aleatrios ser utilizada. Na
segunda fase o percentual da amostra dos estudos a testar ser 20%, selecionados utilizando
os mesmo critrios de aleatoriedade definido anteriormente. Em caso de discordncia, outros
10% sero revisitados e o estudo em questo dever ser reavaliado (reteste).
O mtodo de teste e reteste foi aplicado a todos os estudos retornados durante o
projeto piloto desta pesquisa, a medida que o ndices de discordncia foram analisados. O que
fez definir uma caracterstica incremental a nvel de percentual para cada fase de seleo dos
estudos. Devido a importncia atribuda ao filtro estabelecido na segunda fase do processo,
o percentual definido (20%) para a atividade de teste nesta fase, foi calculado levando em
considerao uma boa margem de segurana em relao ao percentual de discordncia
medido no projeto piloto, que foi de aproximadamente 10%, portanto, atribuiu-se o dobro
deste valor para esta fase. O que corrobora com a medida de estudos comparados obtida no
mapeamento realizado por BORG; RUNESON; ARDO (2014), que trata de estudos primrios na
recuperao de rastreamento baseados em IR.
Avaliao de Qualidade
41
Cada estudo persistido aps anlise dos critrios de
incluso e excluso foi avaliado por sua qualidade, fornecendo critrios ainda mais detalhados
com objetivo de assegurar que os estudos filtrados apresentam uma contribuio valorosa para
o mapeamento e investigar se as diferenas de qualidade esto associadas com diferentes
resultados do estudo primrio. Uma adaptao dos critrios de BRERETON; KYRIACOU;
PEARL (2011) foi considerada adequada para uso durante este MS, uma vez que est previsto
incluir exemplos de vrios tipos de estudos. A avaliao de qualidade foi realizada atravs de
perguntas a serem respondidas com trs valores possveis:
Sim (S): Se a questo totalmente atendida, esta resposta conta o valor 1.0;
42
Tabela 3.5: Avaliao de Qualidade
3.3.2.1.5
Estratgia de Extrao
dados para registrar com preciso as informaes obtidas a partir dos estudos primrios
selecionados. Para o processo foi planejado uma extrao em duas partes: extrao dos
metadados e extrao de toda informao relevante para responder s questes de pesquisa.
Na primeira parte extrai-se ttulo, autores, pas de origem, ano de publicao, instituio de
origem e engenho de busca que retornou o estudo. J a segunda parte, deve ser extrada da
leitura integral dos estudos, no intuito de extrair de cada um deles informaes que sirvam
de evidncia para responder as questes de pesquisa investigadas neste mapeamento. Para
tanto, dois formulrios foram desenvolvidos para servir de instrumentos de coleta para ambas
as partes, e esto disponveis no Apndice B desta dissertao. Para esta etapa mais uma
vez foi definida uma atividade de teste e reteste para verificao da consistncia de extrao
de dados, agora, sobre todos os estudos primrios selecionados. Com isso, reduzindo vis
interno da pesquisa.
3.3.2.2
Reviso do Protocolo
Conforme orientao dos guias utilizados, o protocolo foi desenvolvido e apreciado por
3.3.3
43
Captulo 4.
3.3.4
3.4
conduzida e as razes de uso dos procedimentos e mtodos. Alm de, uma breve descrio do protocolo usado para guiar a execuo do mapeamento sistemtico proposto pelo
estudo. Como consequncia, espera-se atingir o rigor necessrio para obter validade cientfica,
essencial para a confiabilidade dos resultados deste estudo.
44
4
Resultados
Este captulo tem como objetivo expor informaes sobre a etapa de execuo do
mapeamento sistemtico, conforme definido no captulo anterior e apresentar os resultados
encontrados na anlise das evidncias. Com este intuito, na seo Execuo do Mapeamento
Sistemtico sero apresentados os detalhes da execuo do mapeamento compreendendo as
atividades de busca, seleo, avaliao de qualidade, extrao dos dados e sintetizao dos
resultados.
Subsequentemente, a anlise e discusso dos resultados obtidos constituem as principais contribuies desta pesquisa e sero apresentados em trs sees distintas: Anlise
Geral, Anlise das Evidncias e Discusso dos Resultados. Os dados quantitativos do processo de mapeamento sistemtico e caractersticas gerais dos estudos analisados sero
apontados na primeira seo. A segunda seo apresenta a anlise das evidncias identificadas respondendo a cada uma das perguntas de pesquisa. E por fim a ltima seo se dedica
a discutir os principais resultados obtidos.
4.1
mento sistemtico que inicia com a seleo dos estudos e resulta na sintetizao da informao.
Assim como esclarecer os motivos para a incluso e execuo de um projeto piloto sobre
escopo reduzido executado preliminarmente a pesquisa geral.
4.1.1
Projeto Piloto
Com intuito de experimentar o protocolo definido e minimizar o vis em relao a
validade interna da pesquisa, foi planejado e executado um Projeto Piloto do protocolo estabelecido, devido ao fato de ter sido executado por um nico pesquisador inexperiente em
mapeamento sistemtico. A atividade foi guiada pelo planejamento realizado na Seo 3.3.2 e
incluiu todas as etapas apresentadas sobre um escopo reduzido das fontes de busca definidas
para este mapeamento.
45
Foi selecionado como fonte de busca dos estudos primrios o portal de busca Scopus
para busca automtica e do International Workshop on Traceability in Emerging Forms of
Software Engineering (TEFSE) para busca manual. O perodo utilizado para as atividades
comprendeu os meses de Abril a Junho de 2015.
Na ocasio, a string de pesquisa foi aplicada a busca automtica que retornou 544
estudos. Buscas manuais tambm foram realizadas, limitado aos trabalhos da TEFSE 2005,
TEFSE 2009, TEFSE 2011 e TEFSE 2013, onde foram encontrados 59 trabalhos disponveis na
web. A quantidade de estudos primrios envolvidos foi de 603 no total. Este nmero foi reduzido
na primeira sesso de triagem, que consistiu em avaliar o ttulo, resumo e palavras-chave,
deixando apenas 140 estudos primrios potencialmente relevantes. Depois da segunda fase,
que consistiu na leitura e anlise de todo o estudo, foi definido o conjunto final de documentos.
O conjunto final resumiu em 7 estudos primrios.
importante ressaltar que durante esta atividade foi preciso um certo volume de
trabalho manual e repetitivo na montagem e organizao das informaes que so apreciadas
na atividade de seleo dos estudos primrios. Neste quesito, foi estabelecido o uso da
ferramenta JabRef1 , essencial para diminuir a propenso a erros e acelerar o andamento da
pesquisa.
Aps a extrao, anlise e sntese dos dados, foi possvel realizar pequenos ajustes nos
critrios de incluso e excluso, com objetivo de simplificar o entendimento e a aplicao dos
mesmos. Em virtude destas atividades, tambm foi possvel alinhar as perguntas de pesquisa
de acordo com o contedo encontrado nos estudos primrios. Um exemplo deste ajuste foi
remover da questo de pesquisa 1 a direcionalidade da ligao entre os artefatos rastreados,
pelo fato de que os estudos analisados no apresentam explicitamente essa informao.
4.1.2
piloto, as buscas foram realizadas sobre todas as fontes planejadas, conforme apresentadas
na Seo 3.3.2.1.2. O resultado da busca de todos os estudos foram coletados juntamente
com seus metadados, em seguida importados e devidamente tratados pela ferramenta JabRef.
Excepcionalmente, a realizao da busca e a organizao da atividade de seleo dos estudos
primrios sobre a ACM Digital Library 2 foi realizada utilizando a ferramenta REviewER,3 em
virtude da facilidade em exportar e acompanhar os resultados da consulta realizada. No foi
imposta nenhuma restrio de tempo em relao ao intervalo inferior do perodo de publicao
dos estudos. para efeitos desta dissertao foram admitidos trabalhos publicados at Outubro
de 2015.
No primeiro momento foram executadas as buscas automticas e para todas elas a
1
http://www.jabref.org/
http://dl.acm.org/
3
http://sites.google.com/site/eseportal/tools/reviewer
2
46
string de busca foi adaptada para atender sintaxe dos mecanismos das fontes utilizadas. Toda
a lgica e semntica definidas foram inteiramente mantidas. Todos os metadados necessrios
para a interpretao dos estudos foram adquiridos e importados no formato bibtex, apenas foi
encontrado dificuldade na obteno deste dados na fonte ACM Digital Library, justificando a
utilizao de ferramenta especfica, conforme mencionado anteriormente.
Quanto a busca manual, os resultados foram limitados aos trabalhos da TEFSE 2005,
TEFSE 2009, TEFSE 2011 e TEFSE 2013, onde foram encontrados trabalhos disponveis na
web. Outras edies da conferncia como TEFSE 2002, TEFSE 2003 e TEFSE 2007 no
possuem pginas disponveis na web e o motor de busca Google no retornou nenhuma
referncia aos estudos apresentados nestas edies. Ao trmino das atividades desta etapa
foram identificados 2.488 estudos candidatos para anlise. A contabilizao dos resultados
por fonte de origem pode ser vista na Tabela 4.1. Mais detalhes em relao a anlise dos
engenhos utilizados pode ser conferido nas sees posteriores deste captulo.
Tabela 4.1: Quantitativo de estudos candidatos localizados por fonte de dados.
Fonte de Dados
Tipo
Quantidade de Estudos
Automtica
1009
Ei Compendex
Automtica
430
Elsevier Scopus
Automtica
574
Automtica
353
Science Direct
Automtica
63
Manual
59
TEFSE
4.1.3
em trs estgios. Aos estudos primrios retornados aps a execuo das buscas automticas
foram adicionados os estudos primrios provenientes da pesquisa realizada diretamente nos
sites dos eventos relacionados a fonte de busca manual. O primeiro estgio consistiu na leitura
dos ttulos, abstracts e palavras-chave de cada artigo, e na eliminao daqueles julgados
como sendo claramente irrelevantes para os fins deste mapeamento. As anlises desta rodada
foram feitas pelo autor do estudo atravs das ferramentas JabRef e Reviewer. Apenas os
indcios de duplicaes sobre os resultados oriunda da mesma fonte foram verificados para
ratificar a veracidade da informao. Ou seja, a no verificao de duplicidade por outras fontes
neste estgio foi proposital, com objetivo de aceitar o maior nmero de artigo e reduzir o vis
pela avaliao do nico pesquisador envolvido na pesquisa. Ao final desta rodada restaram
388 estudos.
Por meio destes dados foi possvel perceber a proporo dos estudos relevantes
proveniente das fontes de busca. Atravs de tal anlise chegou-se aos dados da Tabela 4.2,
47
um dado que chamou bastante ateno foi baixa quantidade de estudos includos da fonte
que retornou mais trabalhos, onde esperava-se que existisse grande possibilidade de encontrar
estudos expressivos para a pesquisa.
Tabela 4.2: Quantitativo de estudos includos no primeiro estgio de seleo dos
estudos
Recuperados
Relevantes
% incluso
1009
92
9,1
Ei Compendex
430
73
17,0
Elsevier Scopus
574
128
22,3
353
74
21,0
Science Direct
63
14,3
TEFSE
59
12
20,3
Fez parte do protocolo definido, uma atividade da estratgia de seleo dos estudos,
que corresponde a garantia da confiabilidade das decises aplicadas aos critrios de incluso
e excluso. Para isso, foi definido que seriam testados 5% de todos os estudos recuperados
por fonte de busca, e caso fosse encontrado divergncia no critrio aplicado, o estudo seria
considerado relevante, consequentemente, seria includo ou permaneceria para a segunda
fase. Ou seja, na identificao de discordncia de opinio, incluir ou permanecer com o estudo
para segunda fase seriam as nicas decises possveis a ser tomada. medida que os
desentendimentos foram identificados, mais 2% destes estudos seriam reavaliados. No total,
127 estudos foram selecionados de forma aleatria e reavaliados pelo seu ttulo, abstract
e palavras chave. Os nmeros duplicados gerados pela funo executada foram descartados. A funo ALEATRIOENTRE(X;Y) do excel foi utilizada para determinar os estudos
e a sequncia de anlise pelos nmeros gerados. Onde o parmetro x recebeu sempre o
valor 1 (um) e o parmetro y identificou o nmero de estudos retornados de cada fonte de
busca. A Tabela 4.3 apresenta a funo executada, o quantitativo de estudos selecionados aleatoriamente para cada fonte de busca e o nmero de estudos includos pelo encontro de
divergncia no critrio de seleo aplicado. Tanto na feramenta JabRef quanto na Reviewer,
utilizadas para gesto dos estudos retornados na busca automtica, os estudos importados via
arquivo bibtex recebem um cdigo de identificao sequencial. Atravs deles os estudos foram
identificados unicamente por fonte de busca. No caso da busca manual, que os metadados
foram gerenciados em planilha excel, os estudos foram listados por ordem alfabtica (a-z) e
atribudos nmeros de identificao sequencial.
48
Funo executada
N de Estudos
N de Estudos
Testados
Includos
ALEATRIOENTRE(1;1009)
51
Ei Compendex
ALEATRIOENTRE(1;430)
22
Elsevier Scopus
ALEATRIOENTRE(1;574)
29
ALEATRIOENTRE(1;353)
18
Science Direct
ALEATRIOENTRE(1;63)
TEFSE
ALEATRIOENTRE(1;59)
Aps reavaliao dos estudos retornados, apenas um artigo da fonte de busca automtica ACM foi considerado duvidoso, portanto foi habilitado a prxima etapa. Consequentemente,
novos artigos da mesma fonte ACM Digital Library foram testados, agora correspondendo a
2% dos estudos. Outros 20 novos estudos tiveram de ser revisados, onde foram selecionados
utilizando os mesmos critrios descritos anteriormente, totalizando 147 estudos analisados na
primeira fase, como ilustra a Figura 4.1. No entanto, nenhum mais foi considerado relevante. Ao
analisar o principal motivo ao qual o estudo foi excludo no primeiro filtro, entende-se que houve
dificuldade em atestar se o experimento avaliava uma abordagem de rastreabilidade. Entretanto, acredita-se que a discordncia do ponto foi causada pelo falta de clareza e objetividade
apresentada no abstract do estudo. Com isso, o segundo estgio da estratgia de seleo dos
estudos contou com o incremento de um estudo aos classificados potencialmente relevantes,
contabilizando 93 a fonte ACM e 389 ao total.
49
de excluso CE01. A Tabela 4.4 exibe o quantitativo de estudos excludos por no estarem
disponveis e os duplicados na mesma fonte, em concordncia com o critrio CE02.
Tabela 4.4: Quantitativo de estudos excludos por duplicidade e indisponibilidade
Relevantes
Duplicado
Indisponvel
% excluso
93
4,3
Ei Compendex
73
11,0
Elsevier Scopus
128
108
85,2
74
Science Direct
TEFSE
12
De acordo com os dados apresentados na Tabela 4.4, nota-se que um grande nmero
de estudos indisponveis na fonte Scopus, at o momento nenhum motivo concreto para o
inconveniente foi obtido. No entanto, um email foi enviado a Elsevier em busca de respostas.
O mesmo inconveniente foi observado no projeto piloto executado.
Entre os artigos recuperados, totalizando 268 para a segunda fase, todos tiveram a
introduo, a concluso e, quando necessrio, outras sees dos artigos analisadas, em busca
de enquadr-los no critrio de incluso ou em algum dos critrios de excluso descritos na
Seo 3.3.2.1.4. Nesta fase todos os estudos relevantes provenientes do primeiro filtro foram
analisados, sendo registrados os critrios aplicados. Ao final desta etapa foram selecionados
39 estudos.
Como programado, ao fim de cada fase uma amostra dos estudos deve ser testada. Do
total de 268 artigos, 54 deles foram visitados, o que corresponde ao percentual (20%) programado, dentre eles 6 includos a pesquisa e 48 excludos por algum dos critrios estabelecidos.
Aps o primeiro estgio dos testes sobre os estudos relevantes, uma discrepncia entre os
resultados foi encontrada em 2 (dois) estudos que anteriormente teriam sido selecionados
para pesquisa, e aps teste foram julgados excludos. Nesta situao, a atividade planejada
o reteste dos estudos em questo, os mesmos foram retestados e confirmadas as excluses pelo critrio CE06, que trata do principal objetivo do estudo no estar alinhado a criao,
recuperao ou manuteno da rastreabilidade entre artefatos. Um resumo da segunda etapa
apresentado na Figura 4.2.
No protocolo definido foi planejado que em caso de divergncia outros 10% devem ser
testados. Novamente atravs de uma funo aleatria outros 27 estudos foram selecionados
e revisitados, na ocasio, cinco nmeros repetidos foram desconsiderados, a composio
de artigos do novo estgio de teste so: 4 includos pesquisa e 23 julgado excludos na
primeira avaliao desta segunda fase. Como resultado do reteste nenhuma outra disparidade
foi encontrada, encerrando assim as fases e atividades planejadas para estratgia de seleo
50
dos estudos.
4.1.4
Avaliao de Qualidade
Aps a seleo dos estudos primrios relevantes para a pesquisa, iniciou-se a avaliao
de qualidade dos mesmos. Conforme disposto na Seo 3.3.2.1.4, sobre cada estudo procurouse responder dez perguntas que visam determinar o rigor a credibilidade dos mtodos utilizados
e resultados obtidos de cada estudo. Atravs do formulrio criado que orientou a avaliao,
os valores obtidos como resposta a cada pergunta foram capturados e registrados. Com o
somatrio dos valores estabelecidos para cada pergunta foi possvel determinar a classificao
de cada estudo. Na Figura 4.3 possvel verificar o quantitativo de estudos de acordo com
a classificao da qualidade dos estudos selecionados. Fica ntido que a maior parte dos
estudos apresenta um nvel de qualidade considerado bom (35%) e muito bom (38%). No
Apndice C podem ser encontrados os valores atribudos a cada pergunta da avaliao de
qualidade dos 37 estudos selecionados.
51
4.1.5
zada utilizando-se o formulrio criado em planilha excel. J para a extrao das informaes
necessrias a responder as questes de pesquisa, apresentou algum nvel de dificuldade.
Realizar uma nova extrao foi essencial para verificao da consistncia de extrao de
dados, conforme planejado e justificado na Seo 3.3.2.1.5. Os formulrios norteadores desta
atividade podem ser visto em detalhes no apndice B. A dificuldade apresentada deve-se a
inconsistncia na utilizao da terminologia e nos conceitos aplicados a rastreabilidade, seja
ela entre pesquisadores ou profissionais. Em face esta dificuldade, recorreu-se ao Glossary
of Traceability Terms4 com intuito de interpretar e apresentar uma terminologia unificada na
pesquisa.
4.1.6
http://www.coest.org/index.php/traceability/glossary
52
4.2
Anlise Geral
O objetivo desta seo apresentar e analisar os resultados obtidos a partir da execu-
Dos 2488 estudos retornados em todas as buscas (sem desprezar os estudos repetidos
provenientes de fontes diversas), 2429 so provenientes da execuo da string de busca em
cada uma das fontes automatizadas, enquanto apenas 59 so provenientes das buscas nas
53
fontes manuais. Este resultado discrepante compreensvel, uma vez que se adotou neste
mapeamento a estratgia de utilizar a busca manual apenas como complemento das fontes
automticas, alm de estar limitada a apenas uma fonte.
A Figura 4.5 analisa a distribuio do total de estudos primrios retornados quanto s
fontes de busca automatizadas e manuais apresentadas na Seo 3.3.2.1.2, evidenciando a
participao de cada uma delas.
Dos 2488 estudos resultantes da busca, possvel perceber que o engenho de busca
ACM se sobressai das demais bibliotecas digitais em relao quantidade de estudos retornados. No entanto, quando analisado a eficcia de cada fonte aps aplicao dos critrios de
seleo, tanto as bibliotecas digitais ACM (1,88%) e IEEEXplorer (2,83%), quanto os motores
de busca Scopus (0,69%), Science Direct (1,58%) e Ei Compendex (2,55%), foram superada
pela busca manual (3,38%). Os valores do clculo da eficcia so apresentados na Tabela
4.5. Para a anlise da distribuio dos 37 estudos relevantes includos aps a execuo do
processo de seleo descrito na Seo 3.3.2.1.3, com o intuito de avaliarmos a relevncia
real de cada fonte de busca em particular para este mapeamento sistemtico, levou-se em
considerao o fato de que um mesmo estudo primrio pode ter sido recuperado em mais de
uma fonte.
Tabela 4.5: Eficcia das buscas realizadas em cada uma das fontes
54
Estudos
Estudos
retornados na
relevantes
busca (a)
selecionados (b)
1009
19
1,88%
Ei Compendex
430
11
2,55%
Elsevier Scopus
574
0,69%
353
10
2,83%
Science Direct
63
1,58%
TEFSE
59
3,38%
Fonte
Eficcia da busca
(b/a)
possvel perceber que h ndices de eficcia bem dispersos entre as fontes automatizadas, enquanto na busca manual que apresentou a menor quantidade de estudos retornados
superou a eficcia da busca. Ademais, no seria justo comparar em nosso trabalho os ndices
de eficcia entre a busca automtica e a busca manual, uma vez que as formas de recuperao
dos estudos em cada uma delas so diferentes: na primeira, executada uma string que
busca palavras-chave presentes no texto, o que tem o potencial de trazer muitos estudos no
relevantes para a pesquisa; j na segunda, a busca feita atravs de leitura direta na fonte
pesquisa, sendo um evento especfico da rea abordada, o que garante uma preciso maior
na deteco de estudos relevantes.
Tabela 4.6: Estudos duplicados entre as fontes de busca
ACM
ACM
Compendex
Scopus
Scopus
Science
TEFSE
TEFSE
1
3
1
Direct
Science Direct
Compendex
IEEEXplorer
IEEEXplorer
55
selecionados para esta pesquisa em virtude das duplicidades encontrados, possvel perceber que mesmo a busca manual tendo sido considerada de maior eficcia, seus estudos
includos (2) tambm foram retornados por outras fontes de busca. O mesmo aconteceu com
o nico estudo includo oriundo da fonte Science Direct. Uma viso sobre a duplicao dos
estudos selecionados para o mapeamento representado na matriz encontrada na Tabela 4.6.
J na Figura 4.6 pode ser conferido um resumo das anlises realizadas na primeira e segunda
etapa do processo de seleo de estudos.
56
57
58
cidade de London no Reino Unido, ambas com 3 estudos. Vale ressaltar que nestas instituies
esto filiados alguns dos principais pesquisadores mencionados anteriormente, o que sugere
a presena de grupos de pesquisa emergentes estudando o tpico em questo.
As instituies afiliadas aos autores dos estudos desta pesquisa esto distribudas
entre 19 pases. O grfico na Figura 4.10 apresenta a participao de cada pas na publicao
dos estudos primrios selecionados, levando em considerao que um mesmo estudo pode ter
sido publicado por instituies pertencentes a diferentes pases, resultando numa contagem
geral de estudos maior que a quantidade de estudos selecionados. Destaque para os Estados
Unidos com 10 publicaes, seguidos de Itlia e Alemanha, com 4 publicaes cada, e Holanda
com 3. O Brasil figura entre os pases com menor nmero de publicaes, com apenas 2
estudos publicados, envolvendo a contribuio de 6 pesquisadores das Universidades Federais
de Campina Grande (3), Pernambuco (2) e Bahia (1).
Figura 4.10: Participao dos pases das instituies na publicao dos estudos
selecionados
4.3
59
4.3.1
60
ntido a alta proporo (68%) de estudos que investigam apenas a criao das
relaes entre os artefatos. Os estudos EP23 e EP34 se destacam por abordar no s a
criao, mais tambm a manuteno e o uso dos links criados, o que representa 5% do total
dos estudos. Foram classificados quanto a criao os estudos que tratam da atividade de
associar dois (ou mais) artefatos, fornecendo links entre eles, para fins de rastreamento. J
quanto a manuteno, foram atribudos aqueles estudos que retrataram atividades associados
atualizao de vestgios pr existentes, onde atravs das mudanas realizadas sobre os
artefatos rastreados rastreabilidade evolui, criando novos traos onde for necessrio para
manter a rastreabilidade relevante e atualizada. Como pode ser visto na Figura 4.11, a
manuteno foi a atividade menos investigada, contabilizando apenas 7 estudos. Com relao
ao uso, 8 estudos investigaram atividades associadas com a utilizao dos vestgios para
apoiar diversas atividades da engenharia de software, tais como a verificao e validao,
anlise de impacto e gesto de mudana.
Ao observar a natureza das atividades de criao e manuteno, ou seja, as formas responsveis pelo estabelecimento da rastreabilidade, em geral as abordagens utilizam
alguma forma automatizada de auxlio. Tendo predominado o mtodo automtico em 59% nas
atividades de criao e 57% nas atividades de manuteno, isso, quando a rastreabilidade
estabelecida atravs de tcnicas, mtodos e ferramentas. Onde atualmente apenas a deciso
para criar e manter ligaes de rastreio entre os artefatos que automatizada, sem interveno
humana.
61
O quantitativo de estudos de cada uma das formas pode ser visto no grfico da Figura
4.12. Apenas no estudo EP07 foi utilizada a forma de criao manual dos links de rastreabilidade, pois o foco do mesmo est sobre manter automaticamente as ligaes ao longo do
sucessivo alteraes pegando carona em um sistema de controle de reviso.
Ao analisar individualmente cada estudo em busca do momento da realizao das
ligaes, que determinada pelo instante em que o vnculo estabelecido, apenas o estudo EP27 declarou explicitamente a utilizao da rastreabilidade prospectiva, uma abordagem
particular que implica a criao de ligaes de rastreamento simultneo com a criao dos
artefatos que se associam. No entanto, durante a extrao dos dados, um outro estudo
(EP15) chamou a ateno com uma proposta parecida, visto que os links podem ser estabelecidos durante a edio, atravs de comando do prprio usurio ou de forma automtica no
momento da submisso ao sistema de controle de verso.
4.3.2
62
http://www.wthreex.com/rup/process/ovu_proc.htm
63
Categoria
Estudos Primrios
EP02, EP03, EP04, EP05, EP08, EP09, EP10,
Requisitos
Anlise e Design
Implementao
Teste
Implantao
Gerenciamento de
Configurao e Mudana
Gerenciamento de Projeto
EP14 EP34
Qualquer Artefato
EP16
Ao examinar individualmente cada estudo, foi possvel observar que 26 (70%) deles
envolveram artefatos de duas categorias. A distribuio de estudos pela quantidade de
categorias de artefatos envolvidos apresentada na Figura 4.14.
64
Figura 4.14: Distribuio dos estudos por quantidade de categorias dos artefatos
envolvidos
4.3.3
Q3 - Quais meios tm sido empregados para a criao das relaes entre os artefatos?
Criao de links de rastreabilidade em um projeto pode parecer uma tarefa simples,
mas pode ser bastante difcil de realizar na prtica. A dificuldade aumenta em projetos
onde pode haver uma grande diversidade de artefatos. Nestas circunstncias, o esforo de
rastreabilidade pode ser esmagadora em termos de custo e esforo, e os links de rastreabilidade
resultantes so muitas vezes incompletos e imprecisos. Para enfrentar esses desafios, diversos
pesquisadores tm investigado o tema para tornar o processo de criao e manuteno da
rastreabilidade eficaz e preciso. Com essa questo buscou-se mapear os meios utilizados pelas
abordagens para criao e manuteno dos links de rastreabilidade. Nem todos os estudos
especificaram claramente os mtodos ou tcnicas utilizadas. Contudo, foi possvel extrair as
informaes apresentadas na Tabela 4.8.
A maioria das evidncias quanto aos meios encontrados para estabelecimento da
rastreabilidade foram extradas atravs de citaes diretas dos estudos primrios e, neste
caso, foi mantido o termo original empregado nos estudos, a fim de preservar com maior
confiabilidade o sentido original dos meios apresentados. possvel verificar a prevalncia
(9 estudos) do uso de Latent Semantic Indexing (LSI) e Vector Space Model (VSM), ambos,
mtodos de recuperao de informao que usam modelos algbricos.
Tabela 4.8: Meios encontrados para estabelecimento da rastreabilidade
Meio utilizado
Estudos encontrados
Qtd. Estudos
Meio utilizado
Latent Semantic Indexing
Vector Space Model
65
Estudos encontrados
EP03, EP04, EP05, EP10, EP12,
EP17, EP18, EP21, EP23
EP01, EP02, EP12, EP14, EP31,
EP32
Qtd.
Estudos
9
6
Rules
Ontology
Heuristics
Clustering
Text Mining
EP11, EP28
Key Phrases
EP01, EP14
Regular Expression
EP01, EP14
EP29
Probabilistic ranking
EP35
Inference algorithm
EP34
EP33
EP27
EP26
EP22
Intersection of set
EP20
Machine learning
EP19
EP15
EP13
EP12
EP09
EP07
EP06
Semantic-based textual
similarity analysis
Commonality and Variability
Analysis
66
4.3.4
67
4.3.5
Q5 - Quais os principais contextos, objetivos e desafios da aplicao de rastrabilidade entre artefatos heterogneos de software?
Rastreabilidade de artefatos heterogneos tem sido reconhecida como um fator im-
Contextos
Suporte ao Gerenciamento de Informaes
A rastreabilidade usada para estabelecer e compreender as relaes entre requisitos
e produtos de trabalho, tais como documentos de projeto, cdigo fonte, e casos de teste. Este
68
Objetivos
Extrair Relaes com Alta Preciso e Recordao
Rastreabilidade eficaz raramente acontece por acaso ou por meio de esforos ad
hoc. No mnimo, isso requer a reteno dos artefatos a serem rastreados, juntamente com a
capacidade de estabelecer relaes significativas entre estes artefatos e com procedimentos
para interrogar os traos resultantes de uma forma orientada para o objetivo. A pesquisa sobre
captura e recuperao de rastreamento automtico e semiautomtico fez amplo uso de uma
srie de mtricas comuns de recuperao de informao, tais como recall e precision das ligaes de rastreio. Extrair os melhores resultados destas medidas foram os objetivos de 34 (92%)
dos estudos, seja eles, desenvolvendo uma nova soluo, combinando ou aprimorando um
conjunto de tcnicas.
Reconstruir Vises de Requisitos com Exibies de Cobertura e Status
Vises de requisitos como exibies de cobertura e status, so um importante trunfo
para monitorar e gerenciar projetos de desenvolvimento de software. Estas vises oferecem
uma perspectiva sobre o software no qual os requisitos assumem o papel de liderana,
indicando onde e como uma exigncia coberta por artefatos de design ou onde ele est
localizado na arquitetura do sistema. Este objetivo foi relatado nos estudos EP04, EP17
e EP18. Entretanto, em EP17 e EP04 os estudos apresentam uma investigao de como
vises de requisitos podem ser gerados automaticamente de modo a monitorar os requisitos
na prtica industrial atravs da ferramenta ReqAnalyst, ambos publicados em 2006 e 2008,
69
respectivamente.
4.3.5.3
Desafios e Limitaes
Dos 37 estudos primrios selecionados 10 (19%) apontaram algum desafio ou limita-
Qtd. Estudos
Estudos
Confiana
Escalvel
Confiana
A confiana o meio de sustentao pelo qual todas as partes interessadas possam
usar e depender da rastreabilidade fornecida. Assegurando assim, a anlise e as decises, e
eliminando a provenincia duvidosa de como ela criada e mantida em face de inconsistncias,
omisses e alteraes. No entanto essa foi a limitao ou desafio relatado por 6 dos 10 estudos,
em virtude do descarte ou omisso na recuperao das ligaes entre os artefatos, causados
pela impreciso das tcnicas. Abaixo so apresentados os trechos dos seis estudos primrios
que relataram este desafio entre os seus resultados e/ou concluses:
EP01: [. . . ] In other words, our approach largely increases true links at high cut points
from 0.3 to 0.9, and significantly decreases fault links at all cut points. The main limitation of
our approach is that some true links are discarded after adding Clustering. [. . . ] It is a major
challenge for traceability recovery techniques to extract relationships between artifacts of a
system at high-levels of both precision and recall. Many recovery techniques based on IR
exist but none so far produces sufficiently consistent and high enough quality of results that
developers require.
EP13: The experimental results reported in this paper indicate the feasibility of using a
probabilistic approach to dynamically retrieve traceability links for non-functional requirements.
The imprecision problems introduced through use of this method are largely mitigated through
user inspection of retrieved links and through establishing a sufficiently low threshold that
minimizes the number of omission errors. Although users feedback is required to filter out
unwanted links, the effort is only a small fraction of that which would be required to perform the
trace manually.
6
http://www.coest.org/index.php/research-directions/grand-traceability-challenges
70
EP14: The main limitation of our approach is that some true links are discarded after
adding Clustering. This is because the group containing links related to a same class is totally
removed when no links in the group have a similarity value larger than the threshold s value,
this leads to no clusters for this group being created. True links in such groups are cut.
EP22: Our frame work is highly dependent on the quality of log messages. If engineers
do not record detailed information about modifications in log messages, our framework cannot
work well. For example, if a revision only contains Fix in the log message, our framework
cannot use such a revision to recover links [. . . ].
EP23: The limitation of IR-based traceability recovery is the fact that these methods
cannot help in the identification of all correct links, without forcing the software engineer to
analyze and discard a high number of false positives. In addition, it is almost impossible to
automatically identify how many links the software engineer needs to analyze in the ranked list
to be sure that all correct links have been considered. This means that to be sure that also
the last correct link in the ranked list (the correct link with lowest similarity value) has been
considered, usually the software engineer has to analyze almost all the links in the ranked list.
Unfortunately, this limitation is not definitely mitigated by improving the IR-based traceability
method with other IR techniques, such as text pre-processing or relevance feedback analysis.
EP26: One limitation to our solution approach is due to the document structure where
the typical document writing standards like heading level, bullets etc. [. . . ] Our algorithm fails
to apply spatial feature in such cases and misclassifies the table as a non-system use case
table. False positives for system use case extraction are due to statements like declaration
statements written in the document.
Com o objetivo de superar esta limitao, o estudo EP13 introduz a inspeo manual
dos links recuperados por um analista, atravs do estabelecimento de um limiar suficientemente
baixo para que minimize o nmero de erros de omisso.
Escalvel
Em si, projetos contm uma grande variedade de artefatos em diferentes estruturas,
nveis de detalhes e atendem aos mais distintos stakeholders de um projeto. Em suma, rastreabilidade escalvel a possibilidade de variados tipos de artefatos, em nveis variveis de
granularidade e quantidade poderem ser rastreados, que estendem-se do ciclo de vida as fronteiras organizacionais e de negcios. A seguir, os trechos extrados dos estudos associados a
este desafio sero apresentados:
EP27: There are limitations to our approach. First, we assume the existence of an
architecture, since we center our traceability links to the architecture. This is not an unrealistic
assumption, since we believe that every system has an underlying architecture, whether or not
it is explicitly documented. In the event that the architecture is not explicitly documented (or
incomplete), we can create virtual components to correspond to the source code. Secondly,
we perform our topic analysis on text-based artifacts. The non-text artifacts were ignored by
the topic model algorithm. In the future, we plan to use text metadata associated to non-text
71
4.4
artefatos heterogneos de software. Tema este relacionado ao dia a dia de diversas fbricas
de software que buscam desenvolver e manter seus produtos de forma otimizada e controlada.
Neste sentido, de modo a dar maior validade pesquisa, este mapeamento entendeu como
desnecessria a adoo de restries temporais e optou por formular questes de pesquisa
em um nvel mais abrangente, a fim de levantar o conhecimento atual na rea pesquisada
atravs da cobertura exaustiva dos estudos empricos publicados.
A quantidade de estudos primrios relevantes obtidos nesta pesquisa representa 1.49%
dos estudos retornados. ndice considerado baixo, face ao grande nmero de estudos no
cientficos e transversais retornados pelas fontes de busca. Este fenmeno pode ser creditado
tanto ausncia de outros estudos secundrios (RSL e MS) anteriores neste tpico de pesquisa
quanto ao fato de que, em decorrncia disto, este mapeamento cobriu um perodo de quase
52 anos (de 1963 at abril de 2015) de pesquisa neste tpico, abrangendo os anos (a partir
de 2003) nos quais o interesse no tema definido registrou seu primeiro estudo. Da em diante
marcou presena todos os anos, com ligeira crescente e significativa representao no ano
de 2013 em relao ao nmero de estudos publicados (como pode ser observado no grfico
da Figura 4.7), sendo considerado recente o interesse da aplicao de rastreabilidade entre
artefatos heterogneos.
Ademais, vale destacar que os estudos relacionados ao tema tm aparecido com maior
frequncia nos Estados Unidos, pas cujas instituies de pesquisa tiveram participao em 10
dos 37 estudos selecionados neste mapeamento, enquanto no Brasil este tpico de pesquisa
ainda tem sido pouco explorado, uma vez que este mapeamento registrou apenas dois estudos,
publicados nos a 2012 e 2015, com a participao de trs instituies de pesquisa brasileira.
72
73
A terceira questo buscou investigar os meios utilizados pelas abordagens apresentadas para determinar a gerao dos links de rastreabilidade. Foram identificados 24 mtodos,
dentre eles, destacam-se LSI e VSM, ambas tcnicas de recuperao de informao que usam
modelos algbricos, e ajudam a encontrar uma relao semntica entre os termos indexados
nos artefatos. LSI foi utilizado em 9 estudos e VSM em 6 estudos. Alguns pesquisadores tm
agrupado algumas tcnicas em busca de um melhor desempenho na recuperao automatizada dos links de rastreabilidade, o caso dos estudos EP01 e EP14, reduzindo assim as
lacunas deixadas pela impreciso de cada uma das tcnicas.
No que se refere as mtricas, recall e precision foram utilizadas por 30 estudos (81%),
ambas as mtricas esto relacionadas ao nmero de ligaes recuperadas e existentes.
Este resultado est diretamente ligado ao fato das tcnicas de recuperao (VSM e LSI) da
informao terem dominado grande parte dos estudos.
Por fim, na quinta questo foram analisados contextos, objetivos e desafios. Em
relao ao contexto, 84% dos estudos se enquadraram na proposta genrica de suporte ao
gerenciamento de informaes. Os demais, dividiram-se em outros dois contextos: linha de
produtos de software (5 estudos) e programao orientada a aspectos (1 estudo). J em relao
ao objetivo pretendido nos estudos, 94% (34) buscam extrair relaes de rastreabilidade com
alta preciso e recordao. Outros 3 estudos oferecem vises de requisitos como exibies de
cobertura e status atravs da rastreabilidade. Um achado preocupante ligado aos desafios
relatados pelos pesquisadores, que justifica muito dos resultados encontrados, diz respeito
a confiana fornecida pelas abordagens. Apesar de apenas 6 estudos terem relatado o fato,
aumentar o desempenho dos meios automticos de estabelecimento da rastreabilidade atravs
da recuperao da informao tem sido o principal desafio enfrentado, seguido pela dificuldade
de escalonamento. Ou seja, inserir e permitir uma grande variedade de artefatos em diferentes
estruturas, granularidade e atividades que atendem aos mais distintos papis dos stakeholders
de um projeto.
Atravs do dados analisados, fica claro perceber que o processo de estabelecimento
e recuperao da rastreabilidade ainda um desafio para os prprios pesquisadores, que
buscam oferecer praticidade e eficincia as atividades envolvidas. Impulsionado por desafios
de pesquisa claramente articulados, os pesquisadores procuram alcanar a rastreabilidade
onipresente. Nesta viso, o custo e esforo de estabelecer e manter a rastreabilidade desaparece basicamente quando as ligaes so geradas automaticamente por ferramentas como
um subproduto do processo de desenvolvimento, e os benefcios so realizados em todos os
projetos, e no apenas naqueles escolhidos.
Os resultados deste estudo sistemtico apresentam informaes importantes sobre o
estado da prtica do relato de experimentos em rastreabilidade entre artefatos heterogneos.
imprescindvel a necessidade de melhoria dos relatos dos experimentos e uniformizao
do vocabulrio utilizado, tal aperfeioamento vai ajudar comunidade da rastreabilidade de
software a melhor entender os resultados e limitaes dos estudos reportados.
4.5
74
75
5
Guidelines de Rastreabilidade Aplicado a
Artefatos Heterogneos
Para exercer a rastreabilidade sobre artefatos heterogneos de software, os autores
dos estudos primrios selecionados descrevem algumas prticas para implementao de uma
abordagem da rastreabilidade mais eficaz. Este captulo lista um conjunto de boas prticas
para aplicao da rastreabilidade sobre artefatos heterogneos, que envolvem a criao de um
ambiente favorvel, a estruturao e o contedo dos artefatos, e meios de buscar a eficincia
das atividades e a eficcia dos objetivos.
5.1
Traar um propsito.
Durante o ciclo de vida de desenvolvimento de software, os stakeholders do projeto
criam inmeros produtos de trabalho que introduzem o potencial para um grande nmero de
links. Portanto, relevante pensar sobre a rastreabilidade desde o incio do projeto, onde seu
propsito deve ser claramente identificado. A rastreabilidade deve ser planejada e gerida se
for preparada para ser e permanecer eficaz em qualquer contexto determinado do projeto. As
partes interessadas devem ser identificadas e seus interesses determinados. Um processo de
rastreabilidade adequado precisa ser desenhado e potencialmente suportado pelas ferramentas
utilizadas. No entanto, todo esse esforo inicial abafado se no houver uma compreenso
clara do retorno antecipado do investimento da implementao de rastreabilidade dentro de
uma organizao.
Embora um conjunto de solues comerciais automatizadas apoie a rastreabilidade,
estabelecendo um processo genrico de gesto das ligaes, os stakeholders podero realizar
a tarefa de rastreamento no seu dia-a-dia mais perfeitamente se determinar antecipadamente
quais os artefatos eles vo rastrear e quais os tipos de ligao que iro capturar (CLELANDHUANG et al., 2007). Assim, a abordagem de rastreabilidade adotada pode ento ser adaptada
de forma adequada para as necessidades do projeto indivduo a evitar situaes em que
muito ou pouco dados de rastreio so criado (ASUNCION; ASUNCION; TAYLOR, 2010). Em
RASTREAMENTO.
5.2
ridade de rastreio para cada tipo de artefato. Por exemplo, quando o rastreamento tem como
destino os diagramas de classe UML, seria possvel gerar o rastreio de pacote, classe ou em
nvel de mtodo. EGYED et al. (2005) avaliaram o valor econmico do rastreamento em nveis
mais baixos de granularidade, medido pelo esforo necessrio para criar os links contra o valor
devolvido por meio de rastreamento em vrios nveis de preciso. Mesmo ignorando os custos
das ligaes de manuteno, eles descobriram que os benefcios da melhorar a granularidade
de ligaes de rastreamento para alm de certo nvel eram muito limitados.
A granularidade deve ser cuidadosamente determinada a apoiar eficazmente as partes
interessadas em suas tarefas de rastreabilidade, minimizando o esforo envolvido para analisar
e utilizar o conjunto de links retornados (RATANOTAYANON; SIM; RAYCRAFT, 2009). Isso
pode ser especialmente problemtico em documentos grandes, fracamente estruturados que
podem no contm componentes claramente definidas no nvel de granularidade desejado
(TSUCHIYA et al., 2013).
A granularidade de um artefato de rastreamento no pr-determinada e pode mesmo
no ser consistente a qualquer projeto. esta incerteza sobre a granularidade dos artefatos
de rastreamento que pode levar a muitos problemas no estabelecimento e utilizao da
rastreabilidade na prtica. O tipo e a granularidade dos artefatos de rastreamento, e da
semntica da ligao de rastreio, so, portanto, detalhes que so melhor determinados projeto
a projeto. Atravs da definio do que ser rastreado, qual nvel de detalhe necessrio, que
77
5.3
5.4
subttulos dentro de um documento de requisitos, texto descritivo ou nomes de pacotes significativos, pode permitir que as tcnicas de recuperao de rastreamento reforcem a semntica
das necessidades individuais e ajude a construir ligaes mais precisas (SPANOUDAKIS et al.,
2004). Em geral, as formas padronizadas de representao do conhecimento so usadas
para inferir dados, com isso, facilitam a construo de regras de rastreabilidade para grandes
conjuntos de dados, assim como, a representao e apoio s dependncias entre os elementos
constantes dos documentos (ZISMAN et al., 2003).
O conhecimento sobre a estrutura dos artefatos podem tambm ser explorado para
melhorar o desempenho de um mtodo de recuperao de rastreabilidade. Uma estratgia,
que aumenta seu desempenho baseia-se na observao de que os artefatos so geralmente
78
dispostas em um formato hierrquico. Essa estrutura hierrquica poderia ser explorada para
identificar melhor o contexto de cada artefato, uma vez que, em geral, as palavras usadas para
nomear e descrever os artefatos de nvel mais alto capturam o significado (ou seja, o contexto)
de seus componentes de nvel inferior. Os links hierrquicos so ento explorados ao calcular
as probabilidades de que um artefato alvo relevante para um determinado artefato de origem.
5.5
5.6
Combinar tcnicas.
Muitas tcnicas de recuperao de rastreabilidade foram inventados para recuperar
79
5.7
criao dos elos de rastreamento no coincide, em geral, com o conjunto de artefatos que
so de fato semelhantes, e que devem ser rastreados. Na verdade, as ferramentas falham ao
encontrar relaes entre os artefatos, enquanto que por outro lado, tambm iro recuperar
artefatos que no esto relacionados. Estas consideraes sugerem que uma ferramenta de
recuperao de rastreabilidade no pode substituir completamente o engenheiro de software
na tarefa de manter vnculos de rastreabilidade durante a evoluo de software (GUO et al.,
2014)(DELATER; PAECH, 2013b). De acordo com os resultados observados, as ferramentas
so um bom suporte para o engenheiro de software durante o processo de recuperao de
rastreabilidade. Pois, reduz o espao de artefatos a serem analisados, e, portanto, permite
que o engenheiro de software encontre ligaes atravs da anlise de uma lista menor de
ligaes perdidas. Alm disso, a ferramenta ajuda o engenheiro de software a verificar a
consistncia do contedo dos artefatos, em particular, a ferramenta destaca inconsistncias
provveis no uso dos termos de domnio nos artefatos rastreados (LUCIA et al., 2007). Esta
uma informao til, que ajuda a melhorar o desempenho das abordagens de rastreabilidade,
ou seja, ferramenta e engenheiro de software trabalhando juntos para orientar os stakeholders
a realizar tarefas com mais eficincia e assertividade, aliadas a produzir produtos cada vez
melhores e com alto ndice de qualidade.
80
6
Consideraes Finais
Este captulo apresenta as consideraes finais do trabalho. Inicialmente, sero
discutidas as ameaas validade do estudo, em seguida, abordado as recomendaes para
trabalhos futuros e as concluses obtidas com a pesquisa.
6.1
de seus resultados, assim como as estratgias adotadas para mitig-las. Neste mapeamento
sistemtico buscou-se seguir rigorosamente os procedimentos metodolgicos estabelecidos
no protocolo de pesquisa descrito no Captulo 3.
As principais ameaas validade deste tipo de estudo apontadas por SJOBERG;
DYBA; JORGENSEN (2007) e KITCHENHAM (2010) so: (i) vis de seleo de publicaes,
(ii) pouca acurcia na extrao dos dados, (iii) erros de classificao, (iv) basear-se em apenas
um engenho de busca, (v) conduzir o processo de seleo e excluso por apenas uma pessoa.
Uma outra ameaa includa est relacionada a (vi) validade do guideline produzido. A seguir
sero explanadas as medidas tomadas para mitigar cada uma destas ameaas.
Com o intuito de mitigar tais ameaas foram adotadas algumas medidas, tais como:
(i) para evitar o vis na seleo das publicaes buscou-se validar as fontes de busca automtica adotadas neste estudo junto a especialistas nas reas de Engenharia de Software
Experimental e EBSE. Tambm foi adotada uma fonte de busca manual que concentra os
estudos sobre Rastreabilidade de Software e um protocolo de pesquisa foi construdo com
direcionamentos a serem seguidos.
Para conter o problema relacionado extrao dos dados (ii) foi criado um formulrio
estruturado, a ser usado durante a fase de extrao de dados, contendo a lista de informaes
a serem extradas.
A ameaa relacionada aos erros de classificao (iii) foi mitigada com o uso da referncia mais atual e completa da rea escrita por GOTEL et al. (2012) que contempla a terminologia
essencial a rastreabilidade em um glossrio de termos.
81
Em relao ao item (iv) foram utilizados cinco engenhos de busca automtica: ACM,
IEEE Xplore, Scopus, Ei Compendex e Science Direct. A fim de compreender estudos primrios
de todos os perodos, no foram adotadas quaisquer restries temporais neste mapeamento.
A estratgia de busca manual foi acrescentada ao estudo com o intuito de identificar estudos
que no fossem identificados atravs das strings de busca criadas.
Quanto ao vis apontado pelo item (v) foi contido atravs da introduo de atividades
de teste e reteste, conforme previsto por KITCHENHAM; CHARTERS (2007) em caso estudos
realizados por um nico pesquisador. Tendo previsto todas estas ameaas validade da
pesquisa, em especial para o item (v), foi planejado um estudo piloto do protocolo definido
sobre um escopo reduzido com objetivo de experimentar e capacitar-se na atividade de
executor individual. Tendo sido de extrema importncia para mitigar ainda mais os vieses
apresentados.
Considerando a limitao apresentada no item (vi) a lista com boas prticas apresentadas (captulo 6) tem uma ameaa validade no que diz respeito a seu esboo, em virtude de,
no ter sido validada na prtica. Alm de, no discutir detalhes sobre como aplicar ou executar
o catlogo proposto, portanto, entende-se que as orientaes existentes podem no ser fceis
de aplicar, exigindo mais investigaes.
6.2
Trabalhos Futuros
A partir da realizao desta pesquisa, podem-se levantar algumas oportunidades de
trabalhos futuros, bem como direcionamentos para novas pesquisas, que podero contribuir
para a melhoria de pesquisas no contexto da rastreabilidade de software.
6.3. CONCLUSES
82
Desenvolver novos recursos voltados a apoiar o relato de experimentos em rastreabilidade de software, de acordo com as lacunas observadas ao longo deste
trabalho.
6.3
Concluses
Apesar de sua importncia, a rastreabilidade talvez uma das qualidades mais evasivas
6.3. CONCLUSES
83
84
Referncias
ALEKSY, M. et al. A Pragmatic Approach to Traceability in Model-Driven Development. In:
PRIMIUM - PROCESS INNOVATION FOR ENTERPRISE SOFTWARE : 15.04.2009 IN
MANNHEIM, GERMANY, Bonn. Anais. . . Ges. fr Informatik, 2009. v.151, p.113 127.
ALEXANDER, I. Towards automatic traceability in industrial practice. In: IN PROC. OF THE
1ST INT. WORKSHOP ON TRACEABILITY. Anais. . . [S.l.: s.n.], 2002. p.26 31.
ANDERSON, K. M.; SHERBA, S. A.; LEPTHIEN, W. V. Towards large-scale information
integration. In: SOFTWARE ENGINEERING, 2002. ICSE 2002. PROCEEDINGS OF THE
24RD INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2002. p.524 534.
ARKLEY, P.; RIDDLE, S. Overcoming the traceability benefit problem. In: IEEE
INTERNATIONAL CONFERENCE ON REQUIREMENTS ENGINEERING (RE05), 13.
Anais. . . [S.l.: s.n.], 2005. p.385 389.
ASUNCION, H. U.; ASUNCION, A. U.; TAYLOR, R. N. Software traceability with topic modeling.
In: ACM/IEEE 32ND INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING,
2010. Anais. . . [S.l.: s.n.], 2010. v.1, p.95 104.
BAEZA-YATES, R. A.; RIBEIRO-NETO, B. Modern Information Retrieval. Boston, MA, USA:
Addison-Wesley Longman Publishing Co., Inc., 1999.
BOEHM, B. W. Software Engineering. IEEE Transactions on Computers, [S.l.], v.C-25, n.12,
p.1226 1241, Dec 1976.
BORG, M.; RUNESON, P.; ARDO, A. Recovering from a Decade: a systematic mapping of
information retrieval approaches to software traceability. Empirical Softw. Engg., Hingham,
MA, USA, v.19, n.6, p.1565 1616, December 2014.
BRERETON, L. M.; KYRIACOU, T.; PEARL. Teaching Novices Programming Using a
Robot Simulator: case study protocol. 2011.
BUDGEN, D. et al. Using {M}apping {S}tudies in {S}oftware {E}ngineering. In: PPIG 2008.
Proceedings. . . Lancaster University, 2008. p.195 204.
Carnegie Mellon University. CMMI for Development, Version 1.3. Pittsburgh, PA: Software
Engineering Institute, Carnegie Mellon University, 2010. (CMU/SEI-2010-TR-033).
CHAUHAN, M. A.; BABAR, M. A. Towards a Reference Architecture to Provision Tools as a
Service for Global Software Development. In: SOFTWARE ARCHITECTURE (WICSA), 2014
IEEE/IFIP CONFERENCE ON. Anais. . . [S.l.: s.n.], 2014. p.167 170.
CHEN, X.; GRUNDY, J. Improving automated documentation to code traceability by combining
retrieval techniques. In: AUTOMATED SOFTWARE ENGINEERING (ASE), 2011 26TH
IEEE/ACM INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2011. p.223 232.
CHEN, X.; HOSKING, J.; GRUNDY, J. Visualizing traceability links between source code and
documentation. In: IEEE SYMPOSIUM ON VISUAL LANGUAGES AND HUMAN-CENTRIC
COMPUTING (VL/HCC), 2012. Anais. . . [S.l.: s.n.], 2012. p.119 126.
REFERNCIAS
85
REFERNCIAS
86
REFERNCIAS
87
REFERNCIAS
88
KAMALABALAN, K. et al. Tool support for traceability of software artefacts. In: MORATUWA
ENGINEERING RESEARCH CONFERENCE (MERCON), 2015. Anais. . . [S.l.: s.n.], 2015.
p.318 323.
KITCHENHAM, B. A.; DYBA, T.; JORGENSEN, M. Evidence-based software engineering. In:
SOFTWARE ENGINEERING, 2004. ICSE 2004. PROCEEDINGS. 26TH INTERNATIONAL
CONFERENCE ON. Anais. . . [S.l.: s.n.], 2004. p.273 281.
KITCHENHAM, B. A.; MENDES, E.; TRAVASSOS, G. H. Cross versus Within-Company Cost
Estimation Studies: a systematic review. IEEE Transactions on Software Engineering, [S.l.],
v.33, n.5, p.316 329, May 2007.
KITCHENHAM, B. Kitchenham, 2004 Procedures for Performing Systematic Reviews.
2004.
KITCHENHAM, B. Whats Up with Software Metrics? - A Preliminary Mapping Study. J. Syst.
Softw., New York, NY, USA, v.83, n.1, p.37 51, January 2010.
KITCHENHAM, B.; CHARTERS, S. Guidelines for performing Systematic Literature
Reviews in Software Engineering. 2007.
KRUCHTEN, P. The Rational Unified Process: an introduction. 3.ed. Boston, MA, USA:
Addison-Wesley Longman Publishing Co., Inc., 2003.
LAKATOS, E.; MARCONI, M. D. A. M. Fundamentos de metodologia cient{\\i}fica. [S.l.]:
Atlas, 2010.
LI, Y.; MAALEJ, W. Which Traceability Visualization is Suitable in This Context? A Comparative
Study. In: INTERNATIONAL CONFERENCE ON REQUIREMENTS ENGINEERING:
FOUNDATION FOR SOFTWARE QUALITY, 18., Berlin, Heidelberg. Proceedings. . .
Springer-Verlag, 2012. p.194 210. (REFSQ12).
LIN, J. et al. Poirot: a distributed tool supporting enterprise-wide automated traceability. In:
IEEE INTERNATIONAL REQUIREMENTS ENGINEERING CONFERENCE (RE06), 14.
Anais. . . [S.l.: s.n.], 2006. p.363 364.
LINDVALL, M.; SANDAHL, K. Practical Implications of Traceability. Softw. Pract. Exper., New
York, NY, USA, v.26, n.10, p.1161 1180, October 1996.
LUCIA, A. D. et al. Enhancing an artefact management system with traceability recovery
features. In: SOFTWARE MAINTENANCE, 2004. PROCEEDINGS. 20TH IEEE
INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2004. p.306 315.
LUCIA, A. D. et al. Recovering Traceability Links in Software Artifact Management Systems
Using Information Retrieval Methods. ACM Trans. Softw. Eng. Methodol., New York, NY,
USA, v.16, n.4, sep 2007.
LUCIA, A. D.; PENTA, M. D.; OLIVETO, R. Improving Source Code Lexicon via Traceability and
Information Retrieval. IEEE Transactions on Software Engineering, [S.l.], v.37, n.2, p.205
227, March 2011.
MADER, P.; CLELAND-HUANG, J. A Visual Language for Modeling and Executing Traceability
Queries. Softw. Syst. Model., Secaucus, NJ, USA, v.12, n.3, p.537 553, July 2013.
REFERNCIAS
89
MADER, P.; EGYED, A. Do software engineers benefit from source code navigation with
traceability? An experiment in software change management. In: AUTOMATED SOFTWARE
ENGINEERING (ASE), 2011 26TH IEEE/ACM INTERNATIONAL CONFERENCE ON. Anais. . .
[S.l.: s.n.], 2011. p.444 447.
MADER, P.; GOTEL, O.; PHILIPPOW, I. Rule-Based Maintenance of Post-Requirements
Traceability Relations. In: IEEE INTERNATIONAL REQUIREMENTS ENGINEERING
CONFERENCE, 2008. Anais. . . [S.l.: s.n.], 2008. p.23 32.
MADER, P.; GOTEL, O.; PHILIPPOW, I. Motivation Matters in the Traceability Trenches. In:
IEEE INTERNATIONAL REQUIREMENTS ENGINEERING CONFERENCE, 2009. Anais. . .
[S.l.: s.n.], 2009. p.143 148.
MADER, P.; GOTEL, O.; PHILIPPOW, I. Enabling Automated Traceability Maintenance Through
the Upkeep of Traceability Relations. In: EUROPEAN CONFERENCE ON MODEL DRIVEN
ARCHITECTURE - FOUNDATIONS AND APPLICATIONS, 5., Berlin, Heidelberg.
Proceedings. . . Springer-Verlag, 2009. p.174 189. (ECMDA-FA 09).
MALETIC, J. I. et al. Using a Hypertext Model for Traceability Link Conformance Analysis. ,
[S.l.], 2003.
MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H. Introduction to Information Retrieval. New
York, NY, USA: Cambridge University Press, 2008.
MARCUS, A.; MALETIC, J. I. Recovering documentation-to-source-code traceability links using
latent semantic indexing. In: SOFTWARE ENGINEERING, 2003. PROCEEDINGS. 25TH
INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2003. p.125 135.
PANICHELLA, A.; LUCIA, A. D.; ZAIDMAN, A. Adaptive User Feedback for IR-Based
Traceability Recovery. In: IEEE/ACM 8TH INTERNATIONAL SYMPOSIUM ON SOFTWARE
AND SYSTEMS TRACEABILITY, 2015. Anais. . . [S.l.: s.n.], 2015. p.15 21.
PETERSEN, K. et al. Systematic Mapping Studies in Software Engineering. In:
INTERNATIONAL CONFERENCE ON EVALUATION AND ASSESSMENT IN SOFTWARE
ENGINEERING, 12., Swinton, UK, UK. Proceedings. . . British Computer Society, 2008. p.68
77. (EASE08).
POSHYVANYK, D. Using information retrieval to support software maintenance tasks. In:
SOFTWARE MAINTENANCE, 2009. ICSM 2009. IEEE INTERNATIONAL CONFERENCE ON.
Anais. . . [S.l.: s.n.], 2009. p.453 456.
RAMESH, B.; EDWARDS, M. Issues in the development of a requirements traceability model.
In: REQUIREMENTS ENGINEERING, 1993., PROCEEDINGS OF IEEE INTERNATIONAL
SYMPOSIUM ON. Anais. . . [S.l.: s.n.], 1993. p.256 259.
RAMESH, B.; JARKE, M. Toward Reference Models for Requirements Traceability. IEEE Trans.
Softw. Eng., Piscataway, NJ, USA, v.27, n.1, p.58 93, January 2001.
RANDELL, B. Towards a methodology of computing system design. In: SOFTWARE
ENGINEERING. Anais. . . [S.l.: s.n.], 1968.
REFERNCIAS
90
REFERNCIAS
91
Apndice
93
A
Estudos Primrios Includos
As informaes apresentadas neste apndice so detalhadas no Captulo 4. Por causa
de limitaes de espao esto sendo apresentadas apenas informaes de cdigo, ttulo, ano,
origem, autores e nota atribuda na avaliao de qualidade.
Tabela A.1: Estudos Includos em ordem alfabtica
Cd.
Ttulo
Ano
EP01
2011
Autores
Nota
7,0
Origem
ACM; IEEE
track)
EP02
2013
IEEE
8,0
tina Lundqvist
2005
Recovery Tool
Ei Compen-
dex
7,0
Genoveffa Tortora
EP04
2008
Scopus;
Ei
Compendex
Deursen; Hans-Gerhard
9,5
Gross
EP05
2009
Ei Compen-
dex
periments
EP06
10
tora
2014
ACM
7,5
94
EP07
Ano
Ttulo
Cd.
Cross-artifact
traceability
using
2009
lightweight links
Autores
Origem
Nota
ACM;
Sukanya Ratanotayanon;
TEFSE
10
J. Raycraft
EP08
2012
Scopus
10
E. Hakkarainen
dependency links
EP09
EP10
2012
ACM
Niu;
early aspects
Rashid
2004
Awais
Ei Compen-
dex
atures
EP11
Yijun Yu;
7,5
8,5
Genoveffa Tortora
2010
ACM
Xiaofan Chen
6,5
2013
Ei Compen-
Hamzeh
8,5
dex
Abdelhak-Djamel Seriai;
Eyal-Salman;
Christophe Dony
EP13
2005
ACM
9,0
EP14
2011
ACM; IEEE
Xiaofan
Chen;
John
10
Tien N.
7,5
Grundy
2008
Hsin-yi Jiang;
ACM
Evolution Management
EP16
2007
IEEE
ceability links
EP17
7,5
IEEE,
Ei
Compendex
7,0
95
EP18
Ano
Ttulo
Cd.
2005
Autores
Origem
ACM
Nota
8,0
Deursen
EP20
2007
ACM
diagram-to-source-code traceability
S. McKinley; Dewayne E.
links
Perry
2013
ACM
Lukas Linsbauer;
Ro-
9,0
7,0
berto E. Lopez-Herrejon;
Alexander Egyed
EP21
Recovering
between
traceability
feature
links
models
2012
ACM
and
Hamzeh
Eyal-Salman;
Christophe
6,0
Dony;
Abdelhak-Djamel Seriai;
Rafat Al-msiedeen
EP22
Recovering
traceability
links
2013
ACM
Ryosuke Tsuchiya;
Hi-
products
10
Kentaro Yoshimura
EP23
EP24
2007
ACM
Genoveffa Tortora
2014
Scopus; Sci-
George
Spanoudakis;
ence Direct
10
8,0
Paul
Krause
EP25
2013
IEEE
10
EP26
2014
ACM
8,0
2010
ACM
deling
Hazeline U. Asuncion;
7,5
EP28
2012
IEEE
nes Projects
7,0
96
Ttulo
Cd.
EP29
Ano
2015
ware artefacts
Autores
Origem
Nota
Ei Compen-
K.
dex
Uruththirakodeeswaran;
G.
Kamalabalan;
T.
Thiyagalingam;
B. Wijesinghe;
5,0
D.
I. Pe-
rera; D. Meedeniya; D.
Balasubramaniam
EP30
EP31
2015
ACM
Ramalho; Wilkerson L.
model
Andrade
2014
ACM
8,5
9,5
EP32
2013
refinement traces
EP33
Traceability ReARMed
2009
IEEE;
TEFSE
IEEE,
Ei
Compendex
7,5
5,5
2013
IEEE,
Ei
9,5
Compendex
bara Paech
2011
ACM
9,0
2013
Ei Compen-
7,0
dex
Spanoudakis;
- An Empirical Study
EP35
EP36
Prez-Miana;
Elena
Paul
Krause
EP37
2009
Scopus,
Ei
Compendex
Waraporn Jirapanthong;
Andrea Zisman
9,0
97
B
Protocolo do Mapeamento Sistemtico
A fim de superar os desafios significativos na criao, manuteno e utilizao de
rastreabilidade, ao longo dos ltimos 20 anos, a comunidade cientfica tem vindo a comunicar
ativamente as questes de rastreabilidade atravs da explorao de temas relacionados
com a automatizao do processo de rastreabilidade. Apesar de vrios autores apontarem
solues relacionadas rastreabilidade de software, at o momento nenhum estudo apresentou
uma viso holstica dos estudos empricos existentes. Motivado pela necessidade de se
produzir melhores evidncias, e como um primeiro esforo neste sentido, o trabalho que gerou
a necessidade deste protocolo se props a: Identificar os experimentos, classifica-los
atravs de guias existentes na literatura, e de maneira sistemtica analisar os desafios
e contextos da aplicao da rastreabilidade entre artefatos heterogneos na engenharia
de software. Os estgios para conduo de mapeamentos sistemticos previsto pelo protocolo
envolvem os seguintes pontos:
1. Identificar as questes de pesquisa;
2. Estabelecer a estratgia de busca dos estudos;
3. Prescrever a estratgia de seleo dos estudos relevantes;
4. Avaliar a qualidade dos estudos selecionados;
5. Determinar a forma de extrao dos dados.
B.1
Questes de Pesquisa
Com o objetivo de delinear o escopo da pesquisa e de identificar os elementos que
vieram a fazer parte das questes de pesquisa, foi utilizado uma estrutura citada por KITCHENHAM; CHARTERS (2007), o qual recomenda considerar as questes de pesquisa a partir
da seguinte estrutura denominada PICOC (Population, Intervention, Comparison, Outcome,
Context):
98
O item comparao (Comparison) no foi utilizado, uma vez que o estudo no realiza
comparaes entre os mecanismos para guiar estudos empricos. Com relao ao item
da estrutura denominado Resultado (Outcomes) no foi utilizado porque no consideramos
resultados especficos, evitar essa restrio foi preciso uma vez que queria uma viso ampla
da rea de pesquisa como um todo. As perguntas desta pesquisa so de natureza exploratria,
pois tm o intuito de obter uma viso ampla de uma rea de investigao. Assim, o objetivo
deste mapeamento consolidar informaes a respeito da rastreabilidade entre artefatos
heterogneos na engenharia de software. No entanto, este tema demasiadamente genrica
para uma avaliao completa. Assim, ele foi dividida em cinco questes (Q), com foco em
aspectos especficos da pesquisa.
Q5 - Quais os principais contextos, objetivos e desafios na aplicao de rastreabilidade entre artefatos heterogneos de software?
B.2
A pesquisa manual incluiu uma dos mais importantes eventos da rea, a fonte de busca manual
planejada e o respectivo perodo de coleta foram:
http://ieeexplore.ieee.org
Elsevier Scopus3
Science Direct4
EI Compendex5
99
No foi estabelecido qualquer limite inferior em relao ao ano publicao dos estudos
com o objetivo de recuperar toda a literatura sobre o assunto, visto que, nenhum estudo
secundrio sobre o tema foi identificado at o momento.
A construo da string de busca utilizada nas bibliotecas digitais selecionadas foi construda seguindo uma estratgia definida por KITCHENHAM; MENDES; TRAVASSOS (2007),
que consiste em: (i) derivar a partir das questes de pesquisa as principais palavras-chaves
da estrutura PICOC (ii) procurar por palavras chaves em artigos relevantes j consultados
em uma reviso informal (iii) identificar sinnimos e termos alternativos as palavras-chaves
(iv) usar os conectores (OR , AND) para incorporar os sinnimos e ligar as palavras chaves,
respectivamente. Os termos utilizados e a de string de busca definida foi a seguinte:
(traceability OR tracing OR trace links OR trace recovery OR information retrieval
OR trace retrieval) AND (artefact OR artifact OR document OR tool) AND (heterogeneous OR
different OR variety OR diverse OR diversified OR varied OR inhomogeneous) AND (software
engineering OR software development OR software process OR systems engineering OR
systems development OR software project OR development environment OR software
system)
Para ter acesso aos estudos de cada fonte informada foi utilizado a conta de estudante
filiado ao curso de ps-graduao da Universidade Federal de Pernambuco (UFPE). Os
resultados das buscas foram exportados no formato bibtex e utilizados na ferramenta de gesto
JabRef6 . Excepcionamente a consulta e gesto dos resultados de ACM foram realizadas
atravs da ferramenta ReviewER7 , devido as dificuldades apresentadas destas atividades no
site da instituio8 .
A seleo de estudos primrios foi planejada em duas fases, sucedidas de uma
atividade de teste e reteste, uma alternativa para garantia da confiabilidade das decises
em estudos realizados por nico pesquisador (KITCHENHAM; CHARTERS, 2007). Aps
obter o resultado das buscas, cada estudo retornado foi avaliado pelo seu ttulo, resumo e
palavras chave. Nessa primeira fase apenas os estudos que claramente fugiram do escopo
do mapeamento foram excludos, mantendo-se para anlise posterior todos os estudos que
2
http://portal.acm.org
http://www.scopus.com
4
http://www.sciencedirect.com/
5
https://www.engineeringvillage.com/search/quick.url
6
http://www.jabref.org/
7
http://sites.google.com/site/eseportal/tools/reviewer
8
http://dl.acm.org/
3
100
Critrios de Excluso
CE05 - Estudo que apenas prope uma abordagem ou descreve lies aprendidas
Pelo fato desta pesquisa ser realizada por um nico pesquisador, a atividade de
teste consistem em reavaliar uma amostra aleatria dos estudos primrios retornados e dos
estudos considerados relevantes aps triagem inicial, ou seja, insumos da primeira e segunda fase da estratgia de seleo. Essa atividade tem como objetivo verificar a consistncia
das decises aplicadas ao critrios de incluso / excluso ao final de cada fase de seleo.
Para isso, sero avaliados 5% de todos os estudos recuperados por fonte de busca automtica
e manual, e caso encontrado alguma divergncia no critrio aplicado o estudo dever ser
considerado potencialmente relevante e por consequncia incluido a segunda fase. A medida
que desentendimentos forem identificados, mais 2% destes estudos sero avaliados. Para
determinar quais estudos sero revisitados uma funo que retorna nmeros aleatrios ser
utilizada. Na segunda fase o percentual da amostra dos estudos a testar ser 20%, selecionados utilizando os mesmo critrios de aleatoriedade definido anteriormente. Em caso
de discordncia, outros 10% sero revisitados e o estudo em questo dever ser reavaliado
(reteste).
A gesto dos critrios de excluso aplicado a cada estudo na segunda fase da estratgia de seleo foi realizada atravs das ferramentas JabRef e Reviewer anteriormente
mencionadas.
B.3
101
Avaliao de Qualidade
Cada estudo persistido aps anlise dos critrios de incluso e excluso foi avaliado
por sua qualidade, fornecendo critrios ainda mais detalhados com objetivo de assegurar que
os estudos filtrados apresentam uma contribuio valorosa para o mapeamento e investigar se
as diferenas de qualidade esto associadas com diferentes resultados do estudo primrio.
Uma adaptao dos critrios de BRERETON; KYRIACOU; PEARL (2011) foi considerada
adequada para uso durante este MS, uma vez que est previsto que ele ir incluir exemplos de
vrios tipos de estudos diferentes. A avaliao de qualidade foi realizada atravs de perguntas
a serem respondidas com trs valores possveis:
Sim (S): Se a questo totalmente atendida, esta resposta conta o valor 1.0;
O primeiro destes critrios foi utilizado para excluir publicaes no empricas, tendo
sido transformado em critrio de excluso na fase de seleo dos estudos. Como tal, este
critrio representa o limiar mnimo de qualidade que ser observado durante a avaliao,
apenas aceitando valor igual a 1,0. A literatura que no satisfaz este critrio ser excluda
do MS. Os outros critrios restantes visam determinar o rigor e credibilidade dos mtodos de
pesquisa utilizados em um estudo particular, bem como a relevncia de cada papel para o
MS que est sendo realizado. Os estudos primrios foram classificados em quatro grupos
diferentes: Muito Bom (entre 9,0 e 10,0), Bom (entre 7,5 e 8,5), Regular (de 5,5 a 7,0) e Pobre
(< 5,5). A Figura B.1 exibe o guia utilizado com as perguntas definidas para avaliao de
qualidade foram as seguintes:
102
Para auxiliar na captura dos valores de cada pergunta foi utilizado uma planilha excel,
semelhante a exibida na Figura , onde foram registrados os valores atribudos, o somatrio
destes e a classificao conforme as categorias criadas.
103
B.4
Estratgia de Extrao
O objetivo desta etapa foi criar formas de extrao dos dados para registrar com
preciso as informaes obtidas a partir dos estudos primrios selecionados. Para o processo
foi planejado uma extrao em duas partes: extrao dos metadados e extrao de toda
informao relevante para responder s questes de pesquisa. Na primeira parte extrai-se
ttulo, autores, pas de origem, ano de publicao, instituio de origem e engenhos de busca
que retornaram o estudo. J a segunda parte, deve ser extrada da leitura integral dos estudos,
no intuito de extrair de cada um deles informaes que sirvam de evidncia para responder as
questes de pesquisa investigadas neste mapeamento. Para tanto, duas planilhas semelhantes
as da Figura B.3 e Figura B.4 foram utilizadas para servir de instrumentos de coleta para ambas
as partes.
104
Assim como nas duas fases da estratgia de seleo dos estudos, aqui tambm foi
realizada uma atividade de teste e reteste para verificao da consistncia de extrao de
dados, neste caso, sobre todos os dados extrados dos estudos primrios selecionados, com
isso, reduzindo o vis interno da pesquisa.
B.5
Processo de Sntese
Em particular, os dados coletados devero ser distinguidos entre metadados das
105
C
Resultados da Avaliao de Qualidade