Sei sulla pagina 1di 48

lOllllOLOLOLOLOLLLOLOLOLOLOLOlOLLLLOLOLOLOLOLOLOLLOLOOLOOlOLOLLOLLOLOl

LOLOLOlllLOLOOOLOLOLOLLLOLOlOlOO:OtOLOLOllOllLOLOLOLOLLLOOOOLOLOLOLO
LOLOLOOOLO LOLOOLLLOLOO LO LO tOlO L L L lO LOOOLOLOLO L llO lOtO LOO lOtO lOtO L tO L
lOLOLOLOLOLLOLOLOLOLOlOLLLOLOLOLOLOLOLOOOLOLOLOOlllOLOOLOLOLOLOllllOL
lOlOLOLOLOttOLOlOLOLOlOLLLOLOlOLOLOtOLOOO.OlOLOOlllOLOOLOLOLOLOllLLOl
L o t o Lo o L o Lo () L ~ (c) t.L dtloílb LoOlQl o LL a o~ ~o l:b L1 f()Jl J > l o ~l o L o L o L o Lo l o
LOllLLOLOLOLOLCLLLOLOLOLOlOLOLOLLLLOLOLOLOtOtOLOLLOLOOLOOLOLOLLOLLOlOl
Lo to LO W o ~ a I,) tol o L t~11o Wo oiAi o t!!lo t$1 .tto td tom ooAA o to LO to
O LO Lo oV o t ~ O l tL.I. o IJ~ o tMo ttf't1 to.";l to : LO ll LtJ;I to.-Jo tiYJ\o lO L LO L
LOLOLOLOLOtLOLOLOlOlOLOLLlOLO.OlOlOLOLOOOLOLOLOOL~LOLOOlOlOLOLOlllLOl
"
lOLOLOLOlOtlOLOLOLOLOLOlLlOLOLOlOlOlOlOOOlO~OlOOllLOLOOLOLOLOLOllllOl
LOLOLOOLOLOLOlOOLOLLlOLOOOLOL~lOlOLOlOLOtOLlOLOLOlOlOLOlLlOlOlOLOlOLO
LOLLLLOLOLOLOLCLLLOLOLOLOLOLOLOLlllOlOLOLOlOLOLOllOLOOLOOlOLOllOllOLOl
LO LO LO llllOLOOO lO LO LO llLO lO LOLOO LO tOLO lO L lO lLlO tOlO LOLLLOOOO tO lO LOtO
lOLOLOOOlOLOlOOlLLO!OOLOLOLOlOllltOtOOOLOlOLOltlOLOtOlOOLOLOLOLOltOt
LO LO LOLO LO L tO lO lO lO LO LO lltO tOlO LO lO LO LODO LO LOtOOLllO LOO tOlO tOLO lt L LO!
l O L O L O l O L O t L O l O L O L O L O t.._
q \!,L;l} O l ] lQ \9 l n l O O O l ') l O I (110 l L L O l O O l O L O l O l O l ! l l O l
LO L O L O O L O lO L O lO O L O t L t d'1 O~ tHGJ; L L tit61t §)LO ~ tiO~ t 'ift ói LO tO lO lO t L lO lO lO L O LO lO
lOllLlOLOLOLOlOlllOlOLOLOlOLOLOtlllOLOlOLOLOLOLOlLOLOOlOOlOlOllOLLOLOl
lO lO LO llltOLOOO tOlO LO L L lO LO LO LOO LO LO LO LO l LO LLLO lO lO LOt L 10000 LO lO lOtO
tOlO LODO lO LO LOO lLLO LOO LO LO tOlO ll L lO lO OO LO lO lO lllO lO lO lO O lOtO tOLO L tOl
lO LOLO LOtO L tO!OlO LO LO tO t llO lOtO LO lO lO LODO LO LO LOO t tlO LOO tOlO lO lO l l t lO
WEB SEMÂNTICA
A INTERNET DO FUTURO

Karin Koogan Breitman


Doutora em Ciências- Informática
Pesquisadora do Departamento de Informática-
Pontifícia Universidade Católica do Rio de Janeiro

LTC
EDITORA
No interesse de difusão da cultura e do conhecimento, o autor e os editores envidararn o
máximo esforço para localizar os detentores dos direitos autorais de qualquer material
utilizado, dispondo-se a possíveis acertos posteriores caso, inadvertidamente, a identificação
de algum deles tenha sido omitida.

Em ~
CIP-BRASIT.... CATALOGAÇÃO-NA-FONTE
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ.

B845w

Breitman, Karin Koogan


Web semântica : a internet do futuro I Karin Koogan Breitman.
-Rio de Janeiro: LTC, 2005

ISBN 85-216-1466-7

1. Web semântica. 2. Sites da Web - Desenvolvimento. 3. Gestão


do conhecimento. I. Título. II. Título: A internet do futuro.

05-2870. CDD004.678
CDU 004.738.5

Editoração Eletrônica: @.. N THAR es

Direitos exclusivos para a língua portuguesa


Copyright © 2006 by Karin Koogan Breitman
LTC - Livros Técnicos e Científicos Editora S.A.
Travessa do Ouvidor, 11
Rio de Janeiro, RJ - CEP 20040-040
Tel.: 21-3970-9480
Fax: 21-2221-3202
ltc@ ltceditora.com. br
www.ltceditora.com.br

Reservados todos os direitos. É proibida a duplicação


ou reprodução deste volume, no todo ou em parte,
sob quaisquer formas ou por quaisquer meios
(eletrônico, mecânico, gravação, fotocópia,
distribuição na Web ou outros),
sem permissão expressa da Editora.

...

·, '
Apresentação

O conceito da Web Semântica tem ganho grande aceitação na medida em que novos aplicativos de
software têm sido desenvolvidos, não somente em ambientes de pesquisa acadêmica, mas também
junto ao Governo e à iniciativa privada. Com o crescimento dessa tendência, torna-se fundamental
oferecer uma clara orientação para o desenvolvimento de instâncias da Web Semântica voltada para
estudantes e profissionais que possuem variado conhecimento de tecnologia e ferramenta! de software.
Tendo em vista essa necessidade, é com grande prazer que apresento o livro sobre tecnologias da Web
Semântica da Dra. Karin Breitman. Este livro fornece uma ótima introdução à Web Semântica, desde
suas motivações até como implementá-la, tendo em vista as ferramentas que podem auxiliar no pro-
cesso. Grande ênfase é dada a Ontologias- o que são, como podem ser utilizadas, interoperabilidade
semântica e, finalmente, como desenvolvê-las na prática.

Esta exploração se inicia com uma excelente previsão do futuro da Internet de hoje, que fundamenta
o restante do livro. Tópicos como "o que a Web Semântica é versus o que não é" estabelecem de ma-
neira clara o assunto e o foco do livro. Metadados e seus papéis são introduzidos a seguir. A ênfase,
então, muda da discussão inicial para o papel que desempenham em assegurar interoperabilidade na
Web Semântica. Os conceitos de taxonomia, partonomia e ontologia são introduzidos, discutidos e,
mais importante, comparados. Associadas à Web Semântica estão as linguagens que apóiam o usuário
no tratamento de informações e no desenvolvimento de capacidades de inferência necessárias ao pro-
cessamento automático de dados. São apresentadas e discutidas as linguagens da Web Semântica. Me-
todologias de desenvolvimento de ontologias e uma excelente discussão sobre aquelas mais utilizadas
são apresentadas logo a seguir, fundamentadas por um conjunto de exemplos práticos. São abordados
web services semânticos como fundamento para uma Internet mais dinâmica e útil. Agentes de software
inteligentes e seu papel na Web Semântica têm grande destaque. O livro se encerra com uma discussão
acerca das ferramentas atuais de suporte ao desenvolvimento de aplicações semânticas.

Web Semântica: A Internet do Futuro é uma contribuição muito bem-vinda para as publicações da área.
Este livro oferece um tratamento extenso e compreensivo da Web Semântica e das novas tecnologias
necessárias para compreender e implementá-la, e será de grande valor não só para aqueles interes-
sados, mas também para aqueles que praticam e desenvolvem para a Web Semântica. A experiência
prática da Dra. Breitman e o seu background de pesquisa se combinam para fazer deste volume um
livro para se ter e estudar.

Walt Truszkowski
NASA - Goddard Space Flight Center
USA
Prólogo

Atualmente, a maior parte dos recursos primários presentes na Web está em linguagem natural, de
modo que só podem ser interpretados por seres humanos. Deparamo-nos com essa situação diaria-
mente, quando realizamos buscas na Web e somos forçados a "filtrar" informações que, mesmo den-
tro dos critérios de busca solicitados, pertencem a diferentes contextos. Um exemplo simples é fazer
uma pesquisa sobre árvores - carvalhos. O resultado dessa busca, além de páginas referentes a esse
tipo de árvore, também traz pessoas cujo sobrenome é Carvalho, empresas de guindastes e escritórios
de advocacia.

Tiro Berners-Lee, aclamado como criador da Internet, aposta no aparecimento de uma Web Semântica
no futuro próximo. Nessa Web, a informação estaria disponível para o consumo humano, mas também
seria formatada de modo a permitir o processamento automático das fontes de informação por parte
de computadores. A seguir reproduzimos a definição de Web Semântica:

"A Web Semântica é uma EXTENSÃO da Web atual, na qual é dada à informação um
SIGNIFICADO bem definido, permitindo que computadores e pessoas trabalhem em
cooperação." Berners-Lee, Hendler e Lassila

A Web Semântica vai permitir que os computadores sejam capazes de interpretar e processar essas in-
formações, estimadas na casa de bilhões de páginas. De modo similar a um mecanismo de biblioteca,
que indexa os livros por assunto, a Web semântica vai classificar as páginas segundo uma taxonornia
de assuntos. De forma a viabilizar essa situação, será necessário combinar recursos primários (páginas
da Web) com recursos que indiquem de que se trata (metadados). Esse conceito de metadado, que está
presente nas fichas de cadastro de livros em uma biblioteca, por exemplo, é definido como:

"Metadados são dados sobre dados. O termo se refere a qualquer dado que possa ser utiliza-
do na ajuda da identificação e localização de recursos eletrônicos dispostos em uma rede."

Metadados em formato padronizado podem ser entendidos por softwares e pessoas. Vários padrões
foram propostos ao longo dos últimos dez anos. A comunidade de Web Semântica aposta na utilização
de antologias, que fornecem uma língua franca na qual máquinas possam interagir de modo significa-
tivo. Acredita-se que, em um futuro muito próximo, todo negócio na rede terá de fornecer a semântica
de suas páginas através de uma ontologia. 1 Escrevendo uma nova ontologia ou reutilizando partes de
ontologias existentes, o fato é que essa tarefa deve ser simples o suficiente para permitir que pessoas
que não são especialistas no desenvolvimento de antologias possam realizá-la.

1
Amazon.com e Google são exemplos.
xii Prólogo

Neste livro vamos abordar os parâmetros sob os quais vai se basear essa Web do Futuro. Introduzi- treinamento de dtj
mos conceitos fundamentais que, desde Aristóteles, apóiam a classificação do conhecimento e o papel de pesquisa da 'C
de ontologias para organizar informação. Abordaremos os padrões de linguagem (evolução do atual No decurso da z:.
HTML) que estão sendo propostos para a construção de antologias e apresentaremos uma estratégia dos editores de
simples, que vai permitir que o leitor construa suas próprias ontologias. Apresentamos algumas das
ferramentas que estão sendo disponibilizadas para a edição e a visualização de ontologias Web, e lista-
mos vários recursos existentes que podem ser reutilizados de modo a agilizar essa tarefa. Finalmente, Linguagem f
apresentamos alguns Web Services que já estão utilizando recursos da Web Semântica.

Quem deve ler este livro?


Este livro é direcionado a todos aqueles que querem entender melhor a proposta da Web Semântica tidos no ori · •
e fazer uso dessa nova tecnologia para marcar semanticamente suas páginas e aplicativos Web. O ob- figuras são t<Xh.:.
jetivo deste livro é explicitar as tecnologias que você pode usar para criar uma nova Internet, mais da Internet, qc.e
conveniente para seus usuários do que a Web atual. Este livro é dedicado a programadores (apesar de
não ser um livro de programação), Web Masters e desenvolvedores interessados em fornecer algo a
mais para seus clientes. Comentá ri

O conteúdo abordado no livro é usualmente apresentado em cursos de graduação com duração de um


semestre. Todos os capítulos contêm uma lista de leituras recomendadas, que levam ao aprofundamento
dos tópicos discutidos. Se o livro for utilizado na pós-graduação, sugerimos que os alunos se utilizem
dessas recomendações para aprofundar sua pesquisa e, adicionalmente, da extensa lista de referências
bibliográficas fornecidas ao final da obra. eletrônico ltc@

Sobre os mapas
Cada capítulo do livro é iniciado por uma representação em forma de mapa. Esses mapas são os Mind
Maps, que utilizam a técnica proposta por Tony Buzam (The Mind Map Book: How to use radiant think-
ing to maximize your brain 's untapped potentia[). Utilizamos esses mapas para evidenciar os pontos
essenciais de cada capítulo, e explicitamos os relacionamentos entre eles. Cada mapa é representado
por um tópico central e suas ramificações, obtidas a partir do processo de associações de idéias. Esses
mapas vêm sendo largamente utilizados pelo nosso grupo, tanto em pesquisa quanto em consultoria. A
utilização de tais mapas como resumo de capítulos foi inspirada na mesma utilização feita por Thomas
Passin em seu livro de semântica.

Organização
O livro está divido em cinco partes, onde abordamos os tópicos de maior relevância ligados ao tema
da Web Semântica. De maneira geral, podemos dividir o material em dois enfoques: Descritivo e Pres-
critivo. Sob o enfoque descritivo, nosso objetivo é apresentar os fundamentos da área. As partes I, TI
e IV representam essa visão.

Sob o enfoque prescritivo, nosso objetivo é preparar os leitores para construir ontologias, de modo que
possam adicionar conteúdo semântico a suas páginas e aplicativos. Apresentamos diversos exemplos
e o tutorial completo da elaboração da Ontologia de Pizzas, considerado o tutorial mais utilizado no
Prólogo xili

:- treinamento de desenvolvimento de ontologias no mundo todo. Esse exemplo foi concebido pelo grupo
:] de pesquisa da Universidade de Manchester, liderado pelos pesquisadores Ian Horrocks e Alan Rector.
11 No decurso da apresentação desses exemplos também mostramos os conceitos básicos de utilização
dos editores de ontologia, OilEd e Protégé2000. As partes me V representam essa visão.

Linguagem utilizada
Tentamos, sempre que possível, oferecer versões em português dos conceitos apresentados. Alguns
termos, no entanto, já estão incorporados ao nosso idioma e foram mantidos no original. Esse é o caso
dos termos Web e Internet, que são utilizados no original através do texto. Outros termos, cuja tradução
para o português existe mas não foi adotada pela comunidade técnico-científica, também foram man-
tidos no original. Esse é o caso do termo "sítio", que foi mantido no seu original, site. Finalmente, as
figuras são todas apresentadas em português (traduzidas, portanto), exceto telas de programas ou sites
da Internet, que são exibidos em sua forma original.

I
Comentários e sugestões
Apesar dos melhores esforços da autora, do editor e dos revisores, é inevitável que surjam erros no
texto. Assim, são bem-vindas as comunicações de usuários sobre correções ou sugestões referentes
ao conteúdo ou ao nível pedagógico que auxiliem o aprimoramento de edições futuras. Encorajamos
os comentários dos leitores que podem ser enviados à LTC - Livros Técnicos e Científicos Editora
S.A. no endereço: Travessa do Ouvidor, 11 - Rio de Janeiro, RJ - CEP 20040-040 ou ao endereço
eletrônico ltc @ltceditora.com.br
Sumário

Prólogo xi

PARTE 1 - INTRODUÇÃO

C:.Ptruw 1 - Bola de Cristal - Web Semântica: O Futuro da Internet 1

: .l Web Sintática X Web Semântica 2


:.2 Como Vai Funcionar? 4
• .3 O que É a Web Semântica? 5
: A O que a Web Semântica Não É? 9
:..5 Quem Vai se Beneficiar? 10
: .6 Qual Será o Efeito Colateral da Web Semântica? 12
:...Z:itura Recomendada 13

?ARTE 2 - INTEROPERABILIDADE SEMÂNTICA: ONTOLOGIAS

:.:muw 2 - Metadados: Como Organizar? 15

: l Definição 16
~ ., Dublin Core 18
: 3 Framework de Warwick 19
: ..:. Resource Description Framework - RDF 20
Críticas ao Modelo de Metadados de Web Semântica por Cory Doctorow 26
:eirura Recomendada 28

:.:muw 3 - Quem Já Fez? Ontologias e Ciências da Computação 29

• Definições 30
:. Classificações 32
: -. Requisitos para uma Linguagem de Ontologia para a Web Semântica 40
: ..:. Ontologia, Categorias e Inteligência 42
..Lmra Recomendada 44

=.:rtruw 4- Como Representar: Linguagens para Representação de Ontologias 47

- l RDF e RDF-Schema 50
SHOE 54
xvi Sumário

4.3 OIL 55 PA.q:


4.4 DAML 56
4.5 DAML + OIL 57 C;..p -

4.6 OWL 59
Leitura Recomendada 65 9. :
9..:
9..:
PARTE 3 - CONSTRUÇÃO DE ONTOLOGIAS PARA A WEB SEMÂNTICA
9.-
9.5
CAPíruw 5 - Por Onde Começar? - Metodologias para a Construção de 9_ó
Ontologias: Arte ou Engenharia? 67 Lc::

5.1 Processo Proposto pelo Método Cyc 68


G_.!.._::7"'
5.2 Metodologia Proposta por Uschold 69
5.3 Metodologia do Projeto TOVE 71 ~o~~
5.4 Methontology 72
~0.1
5.5 Método Utilizado pelo Projeto KACTUS 74 ~()_j
5.6 Métodos Simplificados 75 -~
-~ -
Leitura Recomendada 79

CAPITULO 6- Reinventar a Roda? - Outras antologias 81


~
6.1 Ontologias de Topo 82
6.2 Ontologias de Donúnio 90
:::.:.._:;~~

6.3 Bibliotecas de Ontologias 95


Leitura Recomendada 97
·-.::;
PARTE 4 - CONSTRUINDO SUAS PRÓPRIAS ONTOLOGIAS

CAPiruw 7- Mão na Massa: 99


--r-
7.1 Introdução 100
7.2 Fase 1: Construção do Léxico 101
7.3 Fase 11: Mapeamento Léxico- Ontologia 109
7.4 Fase III: Construção da Hierarquia de Classes 120
Leitura Recomendada 122
'::E'f
CAPfruw 8 - Construção de Ontologias com Exemplos 125

8.1 Introdução 126


8.2 Classes 126
8.3 Propriedades 133
8.4 Restrições 135
8.5 Indivíduos 137
8.6 Classes Primitivas e Definidas 137
Leitura Recomendada 140
Sumário xvü

PARTE 5- RECURSOS WEB

CAPITULO 9- Web Services 141

9.1 Elementos Básicos de um Web Service 143


9.2 Potenciais Conseqüências da Adoção Dessa Tecnologia 147
9.3 Especificações de Web Services 147
9.4 Segurança de Web Services 148
9.5 Críticas 149
9.6 Web Services Semânticos 150
Leitura Recomendada 152

CAPITULO 1O- Quem Fica Responsável'? Agentes de Software 153

1O.1 Agentes de Software 154


10.2 Tipos de Agentes 155
10.3 TAO 156
10.4 Agentes na Web Semântica 158
10.5 Comunicação entre Agentes de Software 159
10.6 CATO - cato.les.inf.puc-rio.br 162
10.7 Sites de Interesse 164
Leitura Recomendada 164

CAPITULO 11 -Quem Ajuda'? Ferramentas 167

11.1 C&L
http://slles.inf.puc-rio.br/cel/ 168
11.2 OilEd
http://oiled.man.ac.uk/ 171
11.3 Protégé2000
http://protege.stanford.edu/ 175
11.4 Editor de Metadados - DC.dot
http://www.ukoln.ac.uklmetadata/dcdot/ 176
11.5 Outras Ferramentas 178
Leitura Recomendada 181

Referências Bibliográficas 183

Índice 189
WEB SEMÂNTICA

A INTERNET DO FUTURO
CAPÍTULO 1

BoDa dle Crosta~ - Web Semâlrtltõ«:a:


(Q) !Futuro da Internet

Web Sintática x Web


Semântica
.----------- . -

Indivíduo Cenários
--~ Efeito Colateral Como vai funcionar?
Humanidade )r------ Tecnologias

,çªB!tu!!f> 1
Çl FJ.ftiJFg ,r.f~r ínt~rn~,t Onto!ogias
B2C

Quem se beneficia?

Usuários ,

Ferramentas
Agentes , •••••
lnteli~ên_cia Artifkal O que a Web Semântica O que é a Web 1;:.
não é? Modelos Semânticos
Web Separada Semântica?
L - - - - - - - - 1 Metadados
Experimento Falido
, L_i~~ua~ens.
l Web Servic:es
2 Capftulo Um

No início, as páginas da Internet eram desenvolvidas por programadores de software. Como essas b~
páginas ofereciam uma maneira simples de compartilhar informações, logo tomaram-se populares en- rele•.:
tre programadores e engenheiros de software do mundo todo. Em breve, apareceram ferramentas que o Res!!l
permitiam que usuários não familiarizados com linguagens de programação também pudessem criar pala>:
suas próprias páginas. As páginas resultantes desse processo continham, tipicamente, informação di- Iizan':j
recionada para leitores humanos (em vez de programas ou máquinas). "p~
o Resr:J.
A Web continua a crescer em ritmo assustador, estima-se que já ultrapassamos oito bilhões de pági- rescl:
nas. No entanto, grande parte das páginas disponíveis na Web ainda mantém muito de sua característica geog!
inicial, ou seja, são direcionadas para outras pessoas e não para serem processadas por programas de em 'ti
software. Computadores são utilizados meramente para mostrar a informação na tela, ou seja, decodi- con~
ficar as marcações de cores, posição e links, codificadas através das linguagens HTML ou XML. Essas dOCE
linguagens, também chamadas de linguagens de marcação, servem para codificar informação sobre:
Agra,..~
o Renderização (tamanho de fonte, cor, posição na tela...) ou documell!D
o Hiperlinks para outras páginas ou recursos na Web (arquivos multimídia, texto, endereços de pudessem~
correio eletrônico ... ) nas, ouse~
FigurasU.
Desta forma, mecanismos de busca do tipo Google e AltaVista ainda necessitam da intervenção
humana para que se possa identificar as respostas que realmente atendem a nossas demandas. Alguns m,~ .&f._, ;
sites de busca têm utilizado artifícios para melhorar essa situação, tais como o mecanismo de inde- ~ ~ -....----..:;.

xação do Google, mas a grande verdade é que achar informação na Internet não é tão simples quanto @ 0;
gostaríamos.
P->· .t -::o

41.41 Web Sfilnltátficca x Welb> Semâinrttõcca


A Internet atual pode ser definida como a Web Sintática. Nela os computadores fazem apenas a
apresentação da informação, porém o processo de interpretação :fica a cabo dos seres humanos mesmo.
Claro que o processo de interpretação é muito mais difícil e requer um grande esforço para avaliar,
r.~
11

I!
-===·
classificar e selecionar a informação de interesse. A questão é: por que os computadores não podem
realizar esse trabalho para n6s? ~Cmsos
~:~~
Uma das razões reside no fato de que as páginas da Internet não contêm informações sobre si mes- tf::&r3?7~

mas, ou seja, que tipo de conteúdo está descrito e a que assunto(s) a página se refere. Podemos fazer ~ ç_
~;

uma analogia com uma biblioteca, onde os livros em vez de serem organizados por assunto estivessem
todos misturados. Todas as vezes que quiséssemos recuperar um livro faríamos uma busca com pala-
vras que aparecessem em seu título ou fossem relacionadas ao assunto do livro em si. Imagine uma .Aigmnas
situação em que eu quisesse aumentar meus conhecimentos sobre o protocolo TCP/IP. Eu procuraria
por um livro na área de redes. Se utilizasse apenas a palavra-chave rede, teria como resposta livros ==~
~~~-
de informática, mas também livros sobre redes telefônicas, redes de transmissão elétrica e até mesmo
redes típicas do artesanato nordestino. Caberia a mim, usuária da biblioteca, identificar os livros que ~~ ::u,:.
atendem aos critérios da minha busca.

~:r::i:

Esta é a situação que estamos vivenciando atualmente na Web (Sintática) atual. Podemos enumerar ~
.,.lSUo=;;:
os maiores problemas que temos com os atuais mecanismos de busca na Internet, através de ferramen-
tas do tipo Yahoo e Google, por exemplo, como se segue: ....~
I.$E.8 .
o Grande número de páginas encontradas, porém com pouca precisão - mesmo se todas as pági-
nas relevantes para minha busca sobre o padrão TCP/IP fossem recuperadas através da minha
Bola de Cristal-Web Semântica: OFuturo da Internet 3

crc:s de software. Como essas busca, o resultado teria pouca utilidade se outras 39.857 páginas de interesse médio ou pouco
~ mmaram-se populares en- relevantes fizessem parte do resultado.
:.··.:·· ·eceram ferramentas que o Resultados são muito sensíveis ao vocabulário- em determinados casos, até a ordem em que as
a_õ7'» também pudessem criar palavras são digitadas tem impacto nos resultados. Muitas vezes os documentos relevantes uti-
!.. ~C2ID.ente, informação di- lizam uma terminologia diferente da nossa. Pode ser que em nosso exemplo as palavras-chave
"padrões" ou "DHCP" obtivessem resultados mais interessantes do que TCP/IP.
o Resultados são páginas individuais - em muitos casos temos um grande número de páginas no
~os oito bilhões de pági- resultado que pertencem a um mesmo site. Seria mais interessante ter algum tipo de organização
b~r.O de sua característica geográfica dos resultados. Da mesma forma, se precisarmos de informações que estão espalhadas
r'!'l"SS?das por programas de em vários documentos às vezes é necessário realizar mais uma busca, de modo a determinar o
. ··•jfu!l2.tela. ou seja, decodi- conjunto dos documentos relevantes. Ao final temos de extrair manualmente as porções desses
s_;a:s HTML ou XML. Essas documentos que são de interesse.
1zo:iliicar informação sobre:
A grande verdade é que a Internet se desenvolveu mais rapidamente como um meio para a troca de
documentos entre pessoas, em vez de um meio que fomentasse a troca de dados e informações que
-~~ma, texto, endereços de pudessem ser processadas automaticamente. Como conseqüência, o conteúdo semântico das pági-
nas, ou seja, seu significado, é codificado de uma maneira acessível para seres humanos apenas. Nas
Figuras 1.1 e 1.2 mostramos como nós e os computadores vemos o conteúdo da Web.
~ cecessitam da intervenção
5::<:.~ demandas. Alguns
~o mecanismo de inde-
of-e:; não é tão simples quanto
.. ~ - - . .... . '.
KARIN KOOGAN BREITMAN
Or ~2/in BroiiJIJan roceiYed her DSc Irem lho ()o;)ellamenlo de
frlormâilca da Pon!if!do Ur.i...ers;dOOo ce!ó~ca do R1o de Jane1ro.
I'.!Jeré 511& ls CIIIYe!\llyteect>ng elldconlin~~ostoi"<Oiklnhorf01!onrcli
Her11~erosts ere soft1•12re roqlliromerns ensinee~ng. ccene~o b.'!sad
"J':""Fü?dores fazem apenas a softwaro pre<:o!IS elld CGftllero a~on ShG was Pllll Gf tlio
Progrem Comnilteo cl lho tast 1:>1'0 ediUons oi tlio ln!ema!fcwl
CorlorotJCe on RoQ\IIromor.ts Englnee~ng (ICRE) 411<1 lho mlll<shop
-:odns seres humanos mesmo. do EngeMarte do Roquisilos (V>'ER) since 1998. Dr. Brellman ls
t:::_-.:.~. .rle esforço para avaliar, CUO'OI'U/ sat.ing os IM South Amorican pubSCi))l cli2ir for tllo RE'03.
Sho bolongs to ACM, IEEE alld tlie 6ra2lillll Compv!ing Sodeiy
(SBC), whetO ShO is CUIT'Il~fSBMtljj In lho bo::<d Ql c!irectoJS
~computadores não podem
Cursos

b rnformações sobre si mes-


~ se refere. Podemos fazer
..,..,.:;ns por assunto estivessem
1: :-;. ,..m uma busca com pala-
~ fuw em si. Imagine uma Algumas Publicações

::x:n:o TCP/IP. Eu procuraria


.!::. ~ como resposta livros TescdcDo::c;ndc(Bn!itmon93J-lltolm.\o.KK.; l«o.1C.Sl' -Aita=wo!kfórtt,..,;oc-Jo~- .. Pt«e<~o!lho'llon!~odC..ru..ce o•Rt~~=(!CRE)·
C.l""dc Sp"''ll', T1SA- 199a -pp. 214·221.
dssão elétrica e até mesmo
·=c; identificar os livros que )l!toitmon93b]-li"""""- R. F:., Lc<.,JC Sl'. • S19o""k<>IIWi:3do lGcioti>.dAE<~~odc c..w;o,-IW.whop dc~al!wia dc !\< ........ (IIII'Jt!I8) - ~PR-I!m. pp. 49·S6
~
(Brci!m:m!l9J-2~ ;I.ct.,1 CSP.;Ptoceno dc So!h=c Il=do emCclrios . n(Thet<>oAm:nt:o) W.whop .,.]\,~ ~OÓO!: ·ll<:mo•An•,Scp:C..bCT.pp 9S-IO!i •
1999l!.!!!!J
c:}) 2IUal. Podemos enumerar (B~J· ~ Klt ,tu.,JC~P, F.wls~ • Tho Wodd'• ~5"&< A SumyooRcqunmm:d:...,,..:,;or-"'a.'l\cd·U"< C"c Srud7JoU:!Wofl!!.o B........ Coc;>uiuSoatJy.
Vol4.N I, Pa;:. 13-37, (1999), SBC. l!<r.!J
:::emet, através de ferramen-
.@....... .... . .. .. . . • - . .. •. . • ... . . • •. .• . .. Yttt.CJ~rp~.er 1
lw~•ii•I<W ~ ~~·· .1 ~ ISifi..if:l.i. .p. 10~~<'0 ·~ 1
:lJl-mesmo se todas as pági-
FIGURA 1.1 Como nós vemos uma página Web.
!O:peradas através da minha
4 Capitulo Um

~.r!Jid~- ·~8-~M~ru;,!llnte~~~-~-~~;.- -~ ···-- __


Ro tdl \"cw t...tc1 Tools h$ Cl/ êenariõ l
~,, . €).@@ ~(;) .P~ -h•-... <i:) ~ -~ i!3. i.] ((i .!à~ ·'l$ Co~·· c== ·I:
Lucy preci::;a· maréar =
.._;oV~+-~--.oiO'~i'-..,J!...
"-+-;o<;}"V+-V.t"-+-1-~-U
U"t..I!Jf~ '!xorA~ -o0..-fli!I:M-~ de fi si ot~.r!lR'l ~- para !
•A=rEW<>ecA!f.-A
<l>!!!llc>Bil>Af!<!>G&IN.llto"'
~ Ht»>l
-~~o!ll
-tenOr..-:.
-.
~o.......
l~&;to~
~ ~O'
uq
~ o-
...-.co...,atoOt-t ce~séiri o qu·g .i;§tCJ~ s:
004:0..~ -o•O~ IPtOI DN - ~lllOh (I~
~.,....V~'-V+-c)Vó+-+­
~+-t9Vez,..v-..vo~~V+-
o-
0~1110
eo
-~ód•"'-c""'
cpc
"C·~~ ~ Pti4IO!Zli!O._O
~ ~~oÓ11'0
DO
'"'"CII IIIC~OO lt--.. ferênci a ~ril um 1oca1 1
e...oo~c-~ag -~IP~• ~=:i>
~~.. "'+-I>Ao+-+
M...oOw't:4-
~~(>JOOQ~e~o~ ,'#:~O:~~o~=c.:!'~!e p~.u-tas de:v.em· ~~r qua:
~ +-~ ... VC:.4-P.,..~
~!'>!O>IW.,~I·•><XX;;i
0a00 o~ ~o~ ~ o-
.... ~. c:D ..a+~&:rr.a. .fat.'J:::IU[l:l::u ·~ QIJ) ne
fl!l~~u·•.,

tQo.,6~ 0. -+tlt..lKGC2D ICe •a~z.lZY'O.Ir. Ooa .... .41111• ~' ~


uti 1i ta:r sey à~êhte •.
of.(»::-t'C<ID*'It. ttm:.ln'CIIA~~:u. V4 ...0 .O.YMt1;:tlo=.tOD O+OOU*Yl
e 'aoa::Joo:"ll'Ae
ofO:O+T':r" iiW•n ~
o""""'~.,_,.~No,
•.c.-.r/,QIIo~ecat..&. VCC+*•tH++•mT"4tof<»lte11:1a
,_.!:!:) ..a..•a :u UIDiaTel o.r..eoo~ " I Lucy requisi"t~ a !:!iH"~

I 1. () agent~ .r~~upera :
i está eu·'i.'é!M1"q(> àel:.
v:v.........
~+'I>.O.
II' 2. O àgen~~ ~f.Q~ ura er
3 . 0 agen~ ,v.grifl ca a:
I!Nn!NIIAP!A : X"YP!O 6Brn'l!f.(dllt»:A!! !!NrzNHAPIA 61\U»ll?AP!! 01$4> lQ9l l fi &ªm 9~~~r~ de ~
como boli~ ;Bf.9fiss1'
ENn!NHAPIA : lCYP!O ó !!!!Xl'PYTYPA:I:óf!AAóQLOHg> 1619) tfe.
T!Ql: I?AAYAnoO: :xYJ>l",OA!! f!Nn!NHAPfA AI! Pl!9Yim"QEOt!4>21\<4 ,ot!N4> !1X!91
4. 0 agerit~· .gn~ªo te~
~e Ll-!é;;Y g Q~ hor~r1
a·gent es. õ:Y· ~ite r.:
AÂ:yll> "'an nufi'-J.xal J ~\7
Tctc de Do...,.d-*+C=TOODWC*0+04•!lTOOCih\·q,*'>.+~''f'~ Oq,+o..'t!q,*"'-QC rx:JOO.ta:Jli>QJO ..U~OO!O ...OCO+"Y>XlC[J:)r:l ê~náriij·_~
~~-~~AOZ'I"!IflltH~<C:!>-ItiJT.tiO!iiO~~O+Cil~*C~O:OOC.;<O:C+•lO=-v'A~m:f.:::m~+tl+*~"'....r<JOQJ040i!!t:IO~Il'oi!..U ~O{] ···----- -
<>-i+X~[)OCI~ ........,........~
Peter. q i rliiiª~ Qé L~:>:
:1<-!·Cee'fOOPfolCO*[J+O*'l'TOOIJI *"- *'»+*ll<l•T41 o~+<o.tf.q,~"" ili+!JCIJV"O:OO+TOOOT>l•IOC!Q .. ~~a**o 00 (H>CO+t>O~+""
..CoOOi<OA me. Em vez "d'f! ter q;;;:
O* ~A:I!Q:J ....~r:l'f.4Q;I;OOZ,O CI>Q*4CI+Il<M<V"OA+wô*+Xm(J ~00- -Oo.:<[Jc>++l(' ao.. V'.W.XX<:.~
de o, DVD:;: fiM~~ é 1 etr~
*+D=TOO-[J -1-CC.::TOODII*"-+-~Y>N Oq,+o..'f.q.-+~<:>AAQQ!ll*O::tnOO.·l-OA<f>OC!QCO+tla ..O;QA ,t. ~<ICJC<,
~'*OC-"~.A!I!OOOD*IIO+•I00:04rl!V"A Orl'f.c!:tl...o~iã'i,t.. ++~lõlOAC::~lS*IlOVC0040100 .. +~e>X,t.co+f+~
que fi Z:es.sl'! :GQiii que c
vol ume ao togljg (lo te
~~~~~~~~=tO~~O~:-:~~~~~~~:~~~~~~!~~p-.~A~~CIIeq,.~-~!!~~~~~~l*~0~4!_~~-~:_ -~.• ·~~~ - No casD ~esta cen~~
padr~o p~·r-~· fg~~~i ona-:i
'ilMt!íl··I·AI~ 1~- i~" f~ I#WI.I!.,., 4 I OO~~f.llm:il da tela ) ~ P.r.gT.grêm:1
fiGURA 1.2 Como os computadores vêem esta mesma página. - Esse padrª-õ ~~ttí s:c
gi st r o de íil~'têJ1!êJclos ::-
P-ro:fi.l e .~.~Çl:lii?J ,
- ~ (l·i ~;i êJ l!!lgl'l~-~· ele va·
É necessário adicionar semântica a essas páginas !!!
W~!? PêJ rª dê~:~ F.gver ca
nii"iado "ém• ~emP.-9 ge ex
- Com a vers at :i.Í•idade
41.2 Como Vai ftuJ!n)CCÕOil"ilar? sg·· ~uê- ef~i!f~ciniieos ç;::
~·e modo à â'd:i~~gnâr s
Em 2001, Tim Bemers Lee, James Hendler e Ora Lassila publicaram um artigo revolucionário na
revista Scientific American, intitulado: The Semantic Web: a new form. ofWeb content that is mean-
ingful to computers will unleash a revolution ofnew possibilities (Web Semântica: um novo formato 11.3 <O> Que IÉ a V
de conteúdo para a Web que tem significado para computadores vai iniciar uma revolução de novas
possibilidades). De modo aorganizarai;
uma série de modelos. Ai~
Neste artigo os autores apresentam cenários futuros, onde a Web Semântica tem um papel funda- acesso. Essa idéia é semellí;:
mental em facilitar tarefas do cotidiano de duas pessoas. Reproduzimos esses cenários a seguir: zam-se de uma taxonomia i'
mundo. Existem vários es!
informação da Internet.

No entanto, acredita-se
que fornece a seus usuári~
da de especialistas, cuja lir
com páginas pessoais, co:t
Bola de Cristal- Web Semântica: O Futuro da Internet 5

·Jl.IJGY precisa marca r uma consulta médica com um ortopedi sta e uma S;érte de sessões
q:e fi si oterapi a par a sua mªe. Como ela vai te.r cje i eva r ~ua: mãe às cqnstJltas, é ne-
g§~sário que estas sejam marcadas ein um hortlrio $m que Luç_y esteja li\rr~. çlé P.re- ,
I ;pgf..ênci a em um local p·erto da casa de sua mãe. Tanto o médico quanto o·s fi si·otéra-
I
t- p:euitas devem ser qualificados e fazer parte· dó JHaliõ dê saúde ela fa·m'fliâ., 'Lucy V·a•i: ·
JJit1lizaT seu agente, que funciona na I•Jeb Semântica·, para achar a mélhór s.O·l !JÇãGJ.,
I 1L_uÇy requisita a ma reação da consulta ao agente:
1: ~.P agente recupera o tratamento pré~çrito ~ lli~e de Lucy do ~gente dg m~diCQ QlJe
est~ cuidando dela.
~. (i) agente procura em vá ri as listas de provedores dé servic,!QS médicos.
I· ~' @ ageri•te verifi,ç,a .aqyeles. qil~ f.a,2:em ·pawte dq p;la•i'H!J. ~dé l?.a·Mg {!'a :fi'@~ .g·e. L!,lt>Y• Q!Je
'hçam g·entrõ de uin râi.ô de .doiS qui i qín~trQ~ ttg s'lJª ·cas.ª e est;ãõ dJ!§~l_ f 'i gaçlf)s
u I;om·o b:óns ji.rq;l'1$s1oilais ~m um s$rw:4,~9 de .di.a·~·sific!lçJio. cjg p,torissiortaic5 da g~-
~. "'
·Q agente então tenta a~hª'r ças.élriiêli·tbs entr.e o.s hgr9.rio~
. <!ispõníveis da agenda .
d'e Lucy e os, l)qrários vagcl's dQs pr9f."is,s'J,Qné!~-$ (·disponi/l)ilizados. atf.'à.ves qe seus
ª~·entes õu site na l·l~p), ·

§gnárip 2

t?,g.ter, ó i i'iiiaó d.e Lucy. atend.e o. teiefgítª. Í'iii~~d'i1.M~amént$ p ª~·t@rêõ cib;ttxa o vo l.u-
'~. Em vez de ter que programª f cad.a YID !tos .e~>gt·r~a@pmésti c os fTV, t::õmpyi;t!dQr; vi"
~éõ, DVI!. bélbg e.1 etrõtii ca, \'lfitre gutt.Q's )•, ele P.lideriª progr<lina r uriiã úriita função
<we fizess.ê com que qualquer dispõsit.ivq .cóm .um' con.t.r.gl.e de volume. ab.ai.Xa.55'~? seu
v.g}ume ao toque do telefone.
~ No caso deste cenário (proposto em ?o oi, lembre~ se) já está sé d't~~envo l vendo um
íM(!ráo para funcitmalidades ofene cidas por eletrõniGqS (como, por exempló, o tamanho
{fª tel ª) e preferências do us uá ri o coín b~1se em tecnó.n ogi as da 1'/ ª b S.?m~n;t;i e.a,
- Esse padrão está sendo constr uído êm f<PF, padf'ao r\'!càmendado p.ela 'WJC pârê! re-
'§.1, stro de métadados na Heb Semanttca , é se tnãmã. ·ComposHe €apabi lity lPreferen~,;e
P·f>o·fi le (CC/•PP-}; -· -· - ·
~ l:ni<;ialm~ntE! ~le vai s.er ucl}ilizadg Ju.nt<;i .a tel{!fQne~. t;; e~ul.al'ês .e çrutrq~ ~íl .én.tes
\:!{!t! pgra de~crever Ci'! rÇ~çterf l?titas, de mógo que o cônteddo da Wªl;l p,oss~ $ér cH.i!;tó-
.rliil:zâdõ em tempo dE! exê"cu-çao.
- Çóm a ve rs atilidade ofereçi gà. pó r llriglJa gên,s d.e l)l~ni p.ul a çãb de ó.nt,ôlpg~ ª'~, e~pera­
:Sg· gu~ éleit'rôfFi:GQ~ 'P:a§s~m ~ $'E! r çapazes dé éri\j:rrgçtª:r ~~F-Vi~ ~Qs; e. ólJ•brés) !'!lgt fgiiJi·c ~~
gg mo.cto· a adiê:j,Qn~·r su.a fynd.On<!l i.~ ad~.
j em. artigo revolucionário na
cj'Wéb content that is mean-
Setnântica: um novo formato "11.3 O (QlUie IÉ a Welb> Semâinrtõca?
i~F~ . mna revolução de novas
De modo a organizar a informação na Internet, pesquisadores de inteligência artificial vêm propondo
uma série de modelos. A idéia central é categorizar a informação de maneira padronizada, facilitando seu
I .~ ...Fica tem um papel funda- acesso. Essa idéia é semelhante à solução utilizada para a classificação de seres vivos. Os biólogos utili-
;esses cenários a seguir: zam-se de uma taxonomia bem definida, adotada e compartilhada pela maior parte dos pesquisadores do
mundo. Existem vários esforços no sentido de se criar um modelo estruturado para a organização da
informação da Internet.

No entanto, acredita-se que o maior fator do sucesso e do crescimento da Internet seja a liberdade
que fornece a seus usuários. Em um mesmo ambiente temos sites sofisticados, construídos com a aju-
da de especialistas, cuja informação serve como referência para empresas de todo o país, coabitando
com páginas pessoais, construídas por leigos e que contêm informações triviais sobre seus autores,
6 Capitulo Um

familiares e bichos de estimação. É muito difícil imaginar que nesse ambiente quase anárquico possa Na Tabela 1.1 ilust:rnmcr
prevalecer um único modelo de organização. contexto global da Web, w
ria dos sistemas que se l1iifr
Da mesma forma que a Web atual, a Web Semântica deve ser o mais descentralizada possível, afir- (bibliotecas e museus, pore
ma Tim Bemers Lee. No entanto, o fato de não haver um controle centralizado requer vários compro- de objetos relacionados {!.-:
missos, o maior deles o de desistir do ideal de consistência entre todas as conexões. James Hendler, talogar wn número exponrn·
pesquisador da Universidade de Maryland e precursor da Web Semântica, acredita que no futuro, em diversas línguas e por dife<r;
vez da adoção de wn modelo único de organização de informação, teremos uma série de modelos de
organização em paralelo. A previsão de Hendler é de que qualquer empresa, universidade ou organi- No Capítulo 2, Como a
zação na Web do futuro terá seu modelo próprio de organização. influentes para a Web Se~

Como será efetivamente construída essa Web Semântica, ninguém tem certeza. A "futurologia"
varia de autor para autor. No entanto, alguns temas estão presentes em todas as discussões. ilustramos
Jrj;\BEi:4 Í •l (

os mais importantes na Figura 1.3, a seguir: Substância
Qualidade
Quantidade
Web Relação
Semântica Onde
Quando
a Ferramentas Posição
Possuir
a Metadados _Ação

a Agentes
'11.3.2 Oll'lltologias
Ontologias são especiftCLZ:
são modelos conceituais qu.ç:
e Web Services aOntologias Servem como base para g;::.
franca da Web Semântica.~
lismos, tipos e elementos~

eConstrução de modelos a Linguagens da Web No Capítulo 5, Reinven!f


semânticos Semântica
FIGURA 1.3 Temas relacionados à Web Semant1ca.
41.3.3 Unguagens 'ª
O objetivo da Web Se~
te, na Web Sintática, tem d;
11.3.1 Metadados linguagens de codificação q
Metadados são dados sobre dados. Servem para indexar páginas e sites na Web Semântica, permi- computadores a processar s;
tindo que outros computadores saibam de que assuntos eles tratam.
No Capítulo 4, Como ~
A organização do conhecimento é um problema muito antigo, que já preocupava filósofos da pais linguagens para a codili
Antiguidade. Aristóteles, com seu sistema de categorias, forneceu a primeira solução conhecida para
esse problema. Ele propôs que o conhecimento poderia ser organizado sob categorias organizadas em '!1.3.4 Constll"ução q
supertipos (genus) e subtipos (species).
Jim Hendler, da Univers!
no futuro cada site e apli~
portanto, "um grande númeii
Bola de Cristal- Web Semântica: OFuturo da Internet 7

'quico possa Na Tabela 1.1 ilustramos as categorias propostas por Aristóteles. A utilização de metadados no
contexto global da Web, no entanto, traz uma nova problemática que antes não existia, pois a maio-
ria dos sistemas que se utilizava em metadados estava limitada a um número pequeno de instituições
lssível, afir- (bibliotecas e museus, por exemplo) que tipicamente utilizavam metadados para catalogar uma lista
foscompro- de objetos relacionados (publicações, obras de arte, entre outras). Na Web Semântica desejamos ca-
:es Hendler, talogar um número exponencialmente maior de recursos, distribuídos no mundo todo, registrados em
lfuturo, em diversas línguas e por diferentes grupos.
modelos de
~ou organi- No Capítulo 2, Como organizar?, discutimos metadados e apresentamos as representações mais
influentes para a Web Semântica.

1nurologia''
ifi-A~:JEt:A 1.1; Q~tegotif(Sl:leA,rist<?tele$
.llustramos
Substância Um gato.
Qualidade O gato é preto.
Quantidade O gato tem 50 em de comprimento.
Relação O gato tem um quarto do tamanho de um dálmata.
Onde O gato está em casa.
Quando O gato saiu ontem.
Posição O gato está sentado.
Possuir O gato tem uma coleira.
Ação O gato está correndo.

1.3.2 Onto~ogõas
Ontologias são especificações formais e explícitas de conceitualizações compartilhadas. Ontologias
são modelos conceituais que capturam e explicitam o vocabulário utilizado nas aplicações semânticas.
Servem como base para garantir uma comunicação livre de ambigüidades. Ontologias serão a língua
franca da Web Semântica. No Capítulo 3, Quemjáfez?, discutimos antologias, suas origens, forma-
lismos, tipos e elementos básicos.

Web No Capítulo 5, Reinventar a Roda?, apresentamos e discutimos as antologias "mais famosas".

1.3.3 R.ingl!.llagell'Ds da Welb Semâll'Btka


O objetivo da Web Semântica é permitir que as máquinas façam o processamento que atualmen-
te, na Web Sintática, tem de ser realizado por seres humanos. Para tanto é necessário disponibilizar
linguagens de codificação que permitam a publicação de antologias em um formato que capacite os
tica, permi- computadores a processar sua informação automaticamente

No Capítulo 4, Como representar?, apresentamos um pequeno histórico e introduzimos as princi-


Tiósofos da pais linguagens para a codificação de antologias.
tecida para
~das em 1.3.4 <Col!'lls11:rll.llção de Mode~os Siemâll'Dtõcos
Jim Hendler, da Universidade de Maryland e um dos precursores da Web Semântica, acredita que
no futuro cada site e aplicação na Internet vão contar com sua própria ontologia de termos. Existirá,
portanto, "um grande número de pequenos componentes ontológicos que serão compostos, em grande
8 Capftulo Um

parte, por ponteiros uns para os outros". Traçando um paralelo com os primórdios da própria Internet, 1AO~
Hendler acredita que o desenvolvimento de antologias vai se dar da mesma forma em que se deu o
desenvolvimento das páginas da Internet: de modo anárquico e descentralizado. O resultado será .A. WebSEi:
um grande número de antologias, construídas e mantidas por pessoas, entidades ou instituições inde- Oro·~
pendentes. Com o crescente número de livros, cursos universitários e tutoriais oferecidos na área de . -_ira~
Web Semântica, acredita-se que desenvolver antologias hoje não é mais difícil do que desenvolver
m:o~
uma página lfTh.1L há dez anos. .:..;.,a••éscfup
'-e::?.crlz:j-
O Capítulo 5, Por onde começar?, apresenta as principais metodologias para o desenvolvimento :!bÊUi~
de antologias. No Capítulo 7, Mão na Massa, apresentamos uma metodologia e vários exemplos de
construção de antologias. Através desses exemplos iremos discutir e apresentar todos os elementos Re>hw-f
necessários para que os leitores possam desenvolver suas próprias antologias para a Web Semântica. ~i.. .er.~
Semãn:7c;a;:-
1.3.5 Web Servõces ~jern=: . ·
religêEci::;
Cada vez mais estamos utilizando a Internet para'realizar ações como, por exemplo, a compra e
venda de produtos e reservas em hotéis ou companhias aéreas, e não apenas obter informações. Na
visão da Web Semântica, os serviços providos na Internet do futuro poderão ser grandemente expan- NoC2SOt
didos e melhorados se for adicionada semântica aos presentes recursos. Computadores serão capazes ren2od:e:g
pOOeoo:i!m7
de marcar consultas médicas sincronizando-as com os horários disponíveis em nossas agendas pesso-
p:!DS?~
ais, descobrir novos fornecedores para produtos que consumimos regularmente e fazer reservas para
viagens comerciais, entre outras coisas.
Seoob;:
No Capítulo 8, Colocando em prática, apresentamos uma introdução à Web Services com ênfase (es:ç
nas contribuições de serviços semânticos.

A Web&fr
1.3.6 Agentes
AWeb~
Agentes são definidos como programas de software autônomos que agem em benefício de seus novaWeb:a.
usuários. Um agente pessoal na Web Semântica, segundo Grigoris Antoniou e Frank Harmelen, vai i!ca. F.ss2s l
receber algumas tarefas e preferências de um usuário, procurar informação nos recursos disponibili- propostapo
zados pela Internet, se comunicar com outros agentes, e comparar informações relativas às tarefas que emáet2Jhe;
deve desempenhar, de modo a fornecer respostas adequadas ao usuário.
A WebSerr
Claro que os agentes de software não vão substituir as pessoas na Web Semântica, eles não tomarão
Apes2!"~
decisões. Seu papel será de reunir, organizar, selecionar e apresentar informações a um usuário humano,
çasmuitoa
que tomará suas decisões. Os agentes farão uso da tecnologia discutida neste livro, como, por exemplo,
entre outros
metadados e antologias. Apresentamos os agentes da Web Semântica no Capítulo 9.
total. Acreq
sejamexp.:.c
11.3.7 Ferramentas mitadasap
Como, então, vamos construir essa Web Semântica? Que ferramentas estão disponíveis? De que relativas 2 f
ferramentas vamos precisar? Existe uma arquitetura para os aplicativos? Padrões? Visualizadores?
A Web Seij:
No Capítulo 10 apresentamos algumas das opções de ferramentas para edição, visualização e veri- Umaom
ficação de consistência para modelos de ontologia. Jánãoten~
de certa fui
Conh~
zados,en~
chamadas~
Bola de Cristal-Web Semântica: OFuturo da Internet 9

;ea própria Internet, 11.4 O> Qll.lle a Welb> Semâtlrlltfica !Não IÉ?
=a em que se deu o
fu. O resultado será A Web Semântica NÃO é Inteligência Artificial
:1:! instituições inde- O conceito de documentos compreensíveis por máquinas não implica uma inteligência artificial
S::recidos na área de mágica que faz com que os computadores passem a entender o que os seres humanos falam. Esse con-
~ qne desenvolver ceito apenas indica que computadores passarão a ter a habilidade de resolver problemas bem definidos
através do processamento de operações que se utilizam de dados. Em vez de querer que computadores
"entendam" a linguagem das pessoas, pedimos que as pessoas é que façam o esforço extra (codificando
,o desenvolvimento a informação em representações passíveis de processamento automático, ontologias, por exemplo) .
... ~os exemplos de
·:ndos os elementos Realmente, a maioria das técnicas necessárias para a constrUção da Web Semântica vem da área
:;.? Vteb Semântica. da Inteligência Artificial (IA). Dada a história de insucessos da IA, uma preocupação seria se a Web
Semântica não estaria no mesmo caminho. Segundo Antoniou e Harmelen, essa preocupação é total-
mente infundada. A realização da Web Semântica não depende de inteligência superior, no nível da
~lo, a compra e
inteligência humana, que era a promessa dos pesquisadores de IA 20 anos atrás.
::;:;;:-informações. Na
:;~ ,.rlemente expan-
No caso da Web Semântica, soluções parciais serão satisfatórias. Pode ser que um agente de softwa-
~ serão capazes
re não chegue nem perto das conclusões a que um ser humano chegaria, mas ainda assim este agente
ssas agendas pesso- pode contribuir para uma Internet muito superior à que temos hoje em dia. Os autores resumem esse
! ~er reservas para
pensamento na frase a seguir:

Se o objetivo da IA é construir um agente de software que mostre inteligência no nível humano


~ices com ênfase (e superior), o objetivo da Web Semântica é auxiliar humanos a realizarem suas tarefas
diárias na rede. [Antoniou e Harmelen}

A Web Semântica NÃO é uma Web separada


A Web Semântica não é uma Web separada, e sim uma extensão da Web (Sintática) atual. Nessa
:1 benefício de seus nova Web a informação vai ter significado bem definido através de linguagens de marcação semân-
~ Harmelen, vai tica. Essas linguagens, RDF e ontologias, serão acrescentadas às páginas atuais em uma arquitetura
?CUISOS disponibili- proposta por Tiro Bemers Lee. Esta arquitetura, também chamada de ''bolo de noiva", está explicada
.:;!h""as às tarefas que em detalhes no Capítulo 3 deste livro.

A Web Semântica NÃO vai exigir que todas as aplicações utilizem expressões complexas
;:a,. eles não tomarão
Apesar de a linguagem-padrão recomendada para a Web Semântica permitir a expressão de senten-
çm usuário humano,
ças muito complexas, isto é, sentenças que utilizem conectivos lógicos, disjunção, inversão e axiomas,
c:mno, por exemplo,
,9. entre outros, não será exigido que todas as aplicações utilizem a marcação semântica em seu potencial
total. Acredita-se que para a maioria dos aplicativos os padrões OWL-DL, e até mesmo o OWL Lite,
sejam expressivos o suficiente. A maior parte das aplicações que gerarem RDF vão, na prática, ser li-
mitadas a produzir expressões simplificadas (e computáveis) do tipo controle de acesso, preferências
.;3poníveis? De que relativas à privacidade da informação e critérios de busca.
? \lisualizadores?
A Web Semântica NÃO é uma reprise de um experimento falido
~..snalização e veri- Uma outra questão levantada é o relacionamento com sistemas de representação do conhecimento.
Já não tentamos tudo isso nos projetos do KIF (Knowledge Interchange Format) e Cyc? A resposta é,
de certa forma, sim, mas os objetivos eram diferentes. A visão da comunidade de Representação do
Conhecimento está mais ligada à criação de modelos canônicos que poderiam ser globalmente utili-
zados, enquanto a Web Semântica, segundo Hendler, tem um foco em antologias menores, também
chamadas de ontologias de domfuio, e no processo de integração das mesmas.
10 Capitulo Um

Claro que a experiência que vem sendo adquirida pela área de Representação do Conhecimento, for Administratio:
em especial no projeto Cyc, que fornece uma ontologia de referência inestimável para reúso, não será trado problemas t
deixada de lado na construção da Web Semântica.
o Écompli~
o Éumpad..i
11.5 Q1t1.11em Van se IBle!l"'lefõtt:naur? umcustom
o É de difícil
11.5.11 <Comérrdo Eletrônico
Alntemetp~
1.5.1.1 Business to Consumer (B2C) ais para esse tipo
O comércio eletrônico entre vendedores e consumidores é a forma predominante de comércio na necessários para i
Web. Um cenário típico é a consulta de preços a diversos fornecedores. Atualmente consumidores na de modo a resoh·
Internet fazem a comparação de preços através de visitas aos sites, e depois eles mesmos comparam os das informações.:
preços. É necessário levantar informações sobre preços dos produtos, frete e prazos de entrega e fazer de negócio. A we;·
manualmente a comparação. Esse processo, de modo geral, consome muito tempo, pois nem sempre gundo Dieter Feü
as condições são fornecidas em uma mesma unidade de medida. Por exemplo, alguns fornecedores o Sejam defif
oferecem o preço do frete em termos do peso do pacote, enquanto outros fazem o cálculo baseado no primitivas~
número de itens adquiridos. tos.
o Ontologias-
Os robôs de compra (shopbots) tentam realizar essas tarefas através de uma técnica chamada de Exemploss
"raspagem de tela": o software recupera informação através do reconhecimento de termos que apare- Common:S
cem regularmente nas páginas das lojas. De modo geral esses robôs s6 conseguem recuperar um nú- o Serviços~
mero pequeno de dados, por exemplo, nome do CD e preço, e ignoram informações do tipo impostos rem disponí
e frete, que são mais difíceis de obter. Em alguns sites é necessário finalizar a compra para se obter
uma estimativa do preço do frete. Esse tipo de robô é difícil de programar e de manter, pois ele tem de
1l.5.2 Gerert
ser "reprogramado" todas as vezes que uma das lojas virtuais mudar o layout de suas páginas. A com-
paração real de preços e condições de venda somente será possível quando as lojas disponibilizarem A área de gerêt
seus catálogos de modo processável por computadores, isto é, através de antologias que explicitem de bases de dado::
o vocabulário utilizado, relacionamentos entre produtos, preços e condições e regras. Dessa forma nova atividade, gÇ
agentes de software vão poder fazer o mapeamento entre os diversos modelos, e espera-se que cada dados que vem se:
loja publique sua própria ontologia de produtos e serviços, de modo a fornecer um serviço realmente de-se que grande!
útil aos usuários. vezes legado. A I;
ponto da vista de
A Web Semântica vai auxiliar no desenvolvimento de agentes que realmente interpretem as infor-
o Buscade~
mações, agora disponibilizadas na forma de antologias, fazendo com que:
conduzirb!!-
o Informações sobre os produtos, preços e frete sejam extraídas corretamente, em um único formato o Extração dç-
que vai permitir que sejam comparados com os requisitos do usuário (menor prazo de entrega, versão deif
menor preço total, edição especial, entre outros). o ManutençãÇ
o Informações relativas à reputação do fornecedor poderão ser obtidas em outros sites, que fazem com que~
uma classificação independente da confiabilidade de fornecedores on fine. o Mineração (
" A programação das preferências junto aos agentes pessoais será facilitada. bases de~.
o Agentes sofisticados poderão comparar preços em sites de leilão e realizar lances em nome de ffceisde~
seus usuários. buídos epo
O objetivo dai
1.5.1.2 Business to Business (B2B) dos. Com a utilizi;
O comércio eletrônico entre empresas é realizado através de um padrão de comunicação. se poder chegar~
Tradicionalmente tem-se utilizado o Electronic Data Interchange (EDI) ou o Electronic Data Intercbange Dessa forma:

.J.'
Bola de Cristal-Web Semantica: OFuturo da Internet 11

Çonhecimento, for Administration Commerce and Transport (EDIFACT). Essa tecnologia, infelizmente, tem encon-
reúso, não será trado problemas na sua adoção:
o É complicada, e só é compreendida por especialistas.
o É um padrão excessivamente procedural e complexo, fazendo com que sua programação tenha
um custo muito elevado.
o É de difícil integração com outros padrões, o que a toma um padrão isolado.
A Internet parece ser o ambiente ideal para realizar transações do tipo B2B, porém os padrões atu-
ais para esse tipo de transação deixam a desejar. O HTML é muito fraco, pois não fornece os meios
~ comércio na necessários para representar a sintaxe e a semântica necessárias às transações. O XML foi projetado
!nsumidores na de modo a resolver esse problema, porém fornece apenas uma sintaxe para a definição da estrutura
:scomparam os das informações. No entanto, o padrão XML não oferece meios para se descrever processos ou regras
~emrega e fazer de negócio. A Web Semântica vai ter um papel importante na habilitação de transações B2B, roas, se-
:f.:S nem sempre gundo Dieter Fensel, antes será necessário que:
:3 fornecedores o Sejam definidas linguagens que apresentem modelos de dados bem definidos que contenham
::nlo baseado no primitivas expressivas o suficiente para definir, mapear e trocar informações relativas a produ-
tos.
o Ontologias-padrão terão que ser desenvolvidas para dar suporte às várias áreas de negócio.
5ca chamada de Exemplos são o Rosetta Net, Open Applications Group Integration Speci:fication (OAGIS) e
mos que apare- Common Business Library (CBL).
~raruronú­ o Serviços de tradução eficientes serão necessários nas áreas onde antologias-padrão não estive-
.O tipo impostos rem disponíveis.
!2 para se obter
. pois ele tem de
1.5.2 GerendameJnrto de Co~nhecimento
"?ginas. A com-
~nibilizarem A área de gerência de conhecimento engloba as tarefas de aquisição, disponibilização e manutenção
que explicitem de bases de dados. À medida que os sistemas de informação vão chegando à meia-idade surge uma
~ Dessa forma nova atividade, gerência de conhecimento, necessária para dar suporte à utilização do grande corpo de
~-se que cada dados que vem sendo gerado desde o advento da informatização das empresas. Atualmente compreen-
~iço realmente de-se que grande parte dos processos e regras de negócio da empresa está embebida em código, muitas
vezes legado. A maior parte dessa informação está disponível de maneira fracamente estruturada. Do
ponto da vista de gerência do conhecimento, as maiores limitações desses sistemas são:
"f!retem as infor-
o Busca de informação - a maior parte das empresas utiliza indexação por palavras-chave para
conduzir buscas a suas bases de dados.
~único formato o Extração de dados - muito tempo é perdido em tarefas ligadas à extração, à filtragem e à con-

!2zo de entrega, versão de informação para diferentes formatos.


o Manutenção- problemas relativos a inconsistências de modelos conceituais e vocabulário fazem

iires, que fazem com que seja difícil identificar e eliminar dados obsoletos.
• Mineração de dados - muitas empresas têm recorrido a técnicas ligadas à mineração de grandes
bases de dados como forma de descobrir novas informações. No entanto, essas técnicas são di-
;es em nome de fíceis de serem aplicadas quando as informações estão espalhadas em vários aplicativos distri-
buídos e pouco estruturados.
O objetivo da Web Semântica é permitir sistemas de gerência de conhecimento muito mais avança-
dos. Com a utilização de tecnologias tais como RDF, RDFS, Oil, OWL e lógicas de descrição, espera-
~ comunicação. se poder chegar a um nível de integração e troca de dados muito superior ao que se tem atualmente.
:)arainterchange Dessa forma:
Bola de Cristal-Web Semântica: OFuturo da Internet 13

Significado.
'a filtragem
[Berners-LeeOl] BERNERS-LEE, T.; Lassila, O. Hendler, J. Tbe Semantic Web. Scientific American, 284 (5):
34-43, 2001. Disponível em http://www.scientificamerican.com/2001/050 lissue/050 1bemers-lee.btml
!mineração
[Fensel03] FENSEL, D.; Hendles, J.; Lieberman, H.; Wahlster, W. Introduction to Spinning the Semantic
ofisticadas. Web: Bringing the World Wide Web to its full potential. eds. Dieter Fensel, James Hendler, Henry Lieberman
2IIÚ.gável. e Wolfgang Wahlster. MlT Press, 2003. pp.l-25
[HendlerOl] HENDLER, J. Agents and the Semantic Web -IEEE Intelligent Systems. March!April, 2001.
pp. 30-37.
[Davies03] DAVIES, J., Fensel, D.; Hamellen, F.V., eds.- Towa rds the Semantic Web: Ontology Driven
:;rem grande
Knowledge Management. Wuey and Sons, 2003.
:;!<lllets pro-
!!e software [Passin04] PASSIN Thomas B. The Semantic Web. Manning Publications, 2004.
:reresses de [Bush45] BUSH, Vannevar. As We May Tbink. Atlantic Montbly. Volume 176 N~ L July, 1945. pp. 101-108.
~o anterior.
[SowaOO] SOWA, J. F. Knowledge Representation: Logical, Philosophical and Computational Foundations.
!.arem me- Brooks/Cole Books, Pacific Grave, CA, 2000.
4Uepossam
[Sowa] SOWA, J. F. Principies ofOntology John Sowa. Disponível em: http://www-ksl.stanford.edu/onto-std/
~entados
mailarchive/0136.html
[Suchman87] SUCHMAN, L. Plans and Situated Actions: the problem of human machine communication.
Cambridge University Press, 1987.

.;omputado-
·?lizar parte
objetivo da
-:ologia está
-.-os para re-

i!O colateral
-?sdemodo
.do modelos
~-entos liga-
::os utilizam
uação aob-
has e assim
OiqUe coor-
~deserem
fumidades),
nnunidades
:ficado para
2o utilizada
~ímlo 3).

orosamente
::sse proces-
~.Hendler
EIÇão do co-

~I
CAP[TUL02

Metadadi(O)s;:
C~mtO> Organü~ar?

PICS
Histórico
vCard RDF
Con~ei_~~
W3C Definição: "Dados sobre dados"

Framework de Warwick
Administrativa

\
Descritiva
Funções Preserv'!Ç_ão

~ / Técnica
Utilizacão
-Assunto
-- , Capítulo :2
Titulo
Criador Metadªdo-$
Descrifão Metadados são digitais
Editor
Metadados servem apenas para
Outro descrever objetos
Agente
Mitos Metadados vêm de uma única
Data fonte
' Dublin Core
Ti~o de Objeto ,. - - Metadados são estáticos
_!:P!_~~~~_/ Metadados são para
Jden~f!_cad~r./ , bibliotecários e museólogos
Relacionamento
Fonte .
- -
Linguagem Criticas ao Modelo de
_Cob~ Meta dados
Direitos /

1!:'
·~

16 Capftulo Dois

1~ 'f@i~~-~1
Atualmente existe uma quantidade enorme de informação disponível na Internet. Para muitos usu-
ários, a maior vantagem da rede é o número de serviços que podem ser acessados de suas casas e es-
critórios. A Internet de hoje dá acesso a informações financeiras, consultas a grandes bases de dados, Tipo
compra e venda de ações, livros, eletrodomésticos, leilões, informações meteorológicas e reservas de Administram•
passagens e hotéis, entre muitas outras opções. As possibilidades parecem infinitas, mas a tecnologia
deixa a desejar em um ponto crucial- falta informação sobre a informação. Uma busca por sites para
reserva de hotéis, por exemplo, traz como resultado, além dos sites desejados, uma série de "lixos",
que não interessam ao usuário que deseja realmente fazer uma reserva. Para melhorar essa situação é
preciso indexar os recursos da Internet; em outras palavras, acrescentar elementos que informem que
tipo de informação ou serviço é fornecido por aquelas páginas. O que é preciso são Metadados. Descritivo

2.11 Defõll1lõçãc
Metadados são dados sobre dados. São informações sobre um documento: data, autor, editora, etc.
A Intemational Federation of Library Associations (IFLA) defme metadados da seguinte forma: Preservação

"Metadados são dados sobre dados. O te1mo se refere a qualquer inj01mação utilizada para a
identificação, descrição e localização de recursos."

O consórcio W3 (W3C- World Web Consortium) tem uma visão mais voltada para a Web semân- Técnica
tica. Metadados são definidos como "injo1mações para a Web que podem ser compreendidas por
máquinas".

Essa definição é muito restrita, pois limita o escopo dos metadados a um ambiente eletrônico, base-
ado na Internet. Na realidade, podemos aplicar o termo a qualquer descrição. Dessa forma o tradicional
Utilização
cartão de biblioteca é uma forma de metadado, da mesma forma que qualquer item de um catálogo é
representado por um código de produto.

Na Tabela 2.1, a seguir, apresentamos a categorização dos diversos tipos de metadados e suas fun-
ções proposta por Anne Gilliland-Swetland, do departamento de Bibliotecas e Ciência da Informação
da Universidade da Califórnia, Los Angeles (UCLA). 1. Metadadt.
gia e bibli
Apesar de não existir uma definição universal para o termo metadado, o tema ainda está aberto a 2. Metadadt.
discussões nas várias comunidades onde ele é utilizado. No entanto, é importante notar que a utiliza- comauiil
ção de metadados não é novidade nem foi introduzida por pesquisadores da Web Semântica, pois se um livro l
trata de um conceito que vem sendo aplicado há centenas de anos por bibliotecários, museólogos, ar- preservaÇ
quivistas e editores. Uma das conseqüências mais interessantes da adoção de metadados no contexto 3. Metadadt.
da Web Semântica é a de que a disciplina de Catalogação, antes percebida como algo arcano, prati- seres huft
cado apenas por curadores de museus ou bibliotecários, passou atualmente para o primeiro plano da projeto n.t
pesquisa em Ciência da Informação. informaç{
4. Metadadt.
-meta~
Claro que muito da experiência advinda desses "arcanos da informação", como são chamados es-
ses especialistas pelo responsável pelo portal de informação e mídia do Instituto de Arte e Design de queseref
Surrey, Tony Gill, foi incorporado pela proposta da Web Semântica, porém esta apresenta novos desa- Nas próxim;:
fios. A utilização global de metadados faz com que a adoção de vocabulários controlados, deixada de impacto para a
lado durante décadas por catalogadores, seja fundamental para garantir a comunicação entre diversas RDF. No entant
aplicações. Segundo o autor, novas ferramentas e habilidades serão necessárias para implementar a Cataloguing), R
utilização de metadados na escala desejada. É importante, portanto, desmistificar alguns aspectos re- SOIF(Su~
lativos ao conceito e à utilização de metadados: estão menos rei
Metadados: Como Organizar? 17 l
~muitos usu-
snas casas e es-
D2ses de dados, Tipo Definição Exemplos
:.'25 e reservas de Administrativo Metadados utilizados na gerên- Aquisição de informação
~ a tecnologia cia e na administração de recur- Registro de direitos e reprodução
ça por sites para sos de informação Documentação dos requisitos legais de acesso
série de "lixos", Informação de localização
E" essa situação é Critérios de seleção para a digitalização
~informem que Controle de versão
·!eiadados. Descritivo Metadados utilizados para des- Registros de catalogação
crever e identificar recursos de Auxílio para a procura de informação
infonnação Indexes especializados
Utilização de biperlinks entre recursos
..=m; editora, etc. Anotações
- reforma: Preservação Metadados relacionados ao ge- Documentação sobre a condição física dos re-
renciamento dos recursos de in- cursos
riiiztzda para a formação Documentação sobre as ações tomadas de mo-
do a preservar as versões físicas e digitais dos
recursos, e.g., atualização e migração
:ta a Web semân- Técnica Metadados relacionados a fun- Documentação sobre hardware e software
~Jeendidas por cionalidades do sistema e como Informação relativa à digitação, e.g., formatos,
seus metadados se comportam compressão, rotinas de escalonamento
Registro do tempo de resposta do sistema
Autenticação de dados, e.g., senhas e cripto-
~nronico, base-
grafia
-::na o tradicional
Utilização Metadados relacionados ao ní- Registro de exibição
~ nm catálogo é
vel e ao tipo de utilização dos Registro do uso e dos usuários dos recursos
recursos Reutilização do conteúdo e informação relativa
a multiversionamento
paos e suas fun-
.?rla Informação
1. Metadados não precisam ser necessariamente digitais- profissionais de museologia, arqueolo-
gia e biblioteconomia têm utilizado metadados há muito tempo para gerenciar suas coleções.
-m está aberto a 2. Metadados vão além de fornecer dados sobre um objeto- embora estejamos mais familiarizados
m- que a utiliza- com a utilização de metadados na classificação e na catalogação de objetos (quem não procurou
m2ntica, pois se um livro em uma biblioteca?), metadados são largamente utilizados para processamento e na
mnseólogos, ar- preservação de objetos (veja Tabela 2.1).
""'DS no contexto 3. Metadados podem ser obtidos a pa11ir de uma vmiedade de fontes- podem ser fornecidos por
~ arcano, prati- seres humanos, extraídos de grandes bases de dados ou obtidos automaticamente. Um grande
frrneiro plano da projeto na Internet hoje são os portais de informação autogenerativos, capazes de atualizar suas
informações de forma automática.
4. Metadados evoluem durante a vida zítil do sistema de informação ou objeto a que se referem
t:o chamados es- - metadados são criados, modificados e até mesmo descartados durante a vida útil do recurso a
.rrt.e e Design de que se referem.
;-.,mnovos desa- Nas próximas seções apresentamos os formatos para captura de metadados que tiveram maior
:;:dos, deixada de impacto para a Web Semântica. Iremos apresentar o Dublin Core, a Framework de Warwick e o
~entre diversas RDF. No entanto, não iremos abordar outras representações, tais como o MARC (MAchine-Readable-
?. implementar a Cataloguing), REACH (Record Export for Art and Cultural Heritage), TEI (Text Encoding Initiative),
:;nns aspectos re- SOIF (Summary Object Interchange Format) e CDWA (Categories for Describing Works ofArt), pois
estão menos relacionadas com o tema central deste livro.
0

18 Capftulo Dois

2.2 ID>lUib~ ÕD'il CC<O>tre 2.3 IFramei


Em outubro de 1994, durante uma das primeiras conferências sobre a Web, foi apontada a neces- Um ano após~
sidade de uma semântica para descrever recursos dispombilizados na Internet. Do ponto de vista de um novo padrão í
um bibliotecário, seria suficiente criar um tipo de "cartão virtual" para os recursos disponibilizados na ampliar o Dublin (
Internet. Essa informação serviria para ajudar as pessoas a descrever seu material de modo a auxiliar de recursos. Foi i~
os navegadores a encontrar o que estivessem procurando. condições e r~
tainer, que agre~
Porque essa iniciativa surgiu durante um workshop em Dublin, Obio, a representação proposta é apenas um dos p.
ficou conhecida como Dublin Core. Desde aquele workshop tem havido um crescente interesse em
elementos que pudessem servir para descrever recursos e que fossem fáceis de criar e de entender. O
maior apelo desse padrão é fornecer um conjunto simplificado de elementos que pode ser utilizado na
descrição de recursos em áreas multidisciplinares. O Dublin Core rapidamente se tornou padrão para
metadados; atualmente é um padrão ANSI (ANSJINISO Z39.85) e norma ISO (ISO Standard 15836-
2003 -fevereiro de 2003).

Os elementos que compõem o padrão Dublin Core são:


o Assunto (subject): o tópico abordado pelo trabalho
o Tíntlo (title): nome do objeto
o Criador (creator): pessoa(s) responsável(eis) pelo conteúdo intelectual do objeto
o Descrição (description): descrição do conteúdo do objeto
o Editor (publisher): agente ou agência responsável por disponibilizar o objeto
o Outro agente (contributor): pessoa(s) que fez (fizeram) contribuições significativas para o
objeto
o Data (date): data de publicação
o Tipo de Objeto (type): gênero do objeto, se ficção, novela, poema ou dicionário
o Formato (jormat): manifestação física do objeto. Exemplos são arquivos executá-
veis, do tipo texto ou PDF
o Identificador (identifier): cadeia ou número utilizado para identificar unicamente aquele
objeto
o Relacionamento (relation): relacionamento com outros objetos
o Fonte (source): outros objetos, eletrônicos ou físicos, dos quais este foi deriva-
do (caso seja aplicável) FtÇ
• Linguagem (language): linguagem do conteúdo intelectual
o Cobertura (coverage): localizações espaciais e durações temporais características do
objeto Os descritores l
o Direitos (rights): informação sobre os direitos acerca do objeto drão ficou inalte~
• Descrições~
Os usuários desse padrão se organizaram em uma iniciativa, o Dublin Core Metadata Initiative
• Termos e co:
(DCMI- www.dublincore.org). Essa organização é dedicada à disseminação e à adoção de padrões
• Róntlos e gt:
de metadados e ao desenvolvimento de vocabulários especializados para a descrição de recursos, de
o InformaçõeS
modo a viabilizar sistemas mais inteligentes de recuperação de informação.
o Origemdo~
o Conjunto~
O Dublin Core é um padrão bastante simples, como pode ser observado a partir do grupo básico
instâncias ot
de elementos que o compõem. Sua simplicidade é, ao mesmo tempo, um ponto forte, pois permite a
o Responsáve!
disseminação e a utilização em larga escala, e sua maior fraqueza, pois não acomoda uma semântica
• Conjunto~
mais expressiva. No fundo o padrão Dublin Core fez a opção pela facilidade (visibilidade) sobre o
poder de expressão.
Metadados: Como Organizar? 19

2.3 IFD"amew«l>trlk de Warrwõck


t~ntada a neces- Um ano após a realização do workshop de Dublin, realizou-se um outro evento onde foi proposto
~iilTiro de vista de um novo padrão para metadados, a Framework de Warwick. Esse padrão surgiu da necessidade de
~ruõilizados na ampliar o Dublin Core, considerado muito simples, pois só disponibiliza um formato para descrição
~ ~<Odo a auxiliar de recursos. Foi identificada a necessidade de acomodar outros tipos de metadados, tais como termos,
condições e responsabilidades. Foi então criada uma nova arquitetura, baseada no conceito de um con-
tainer, que agrega vários tipos de metadados em pacotes separados. Nesta arquitetura o Dublin Core
"í'T?ção proposta é apenas um dos pacotes. A Figura 2.1 ilustra a arquitetura da Framework de Wanvick.
:t.:e interesse em
e é!.e entender. O
~ser utilizado na
I.ilu padrão para
Srandard 15836-

'i'""'l do objeto

to objeto
l:2!],vas para o

5cionário
;rr!vos executá-
URI Pt;J(;ote
-:=ente aquele (Uniform Resource fdentifie Termos e CQnqiçõ~s

~foi deriva-
FIGURA 2.1 Framework de Warwick- o container e seus vários pacotes.

J::""umsticas do
Os descritores básicos do Dublin Core não foram modificados pela Framework de Warwick; o pa-
drão ficou inalterado. Foram apenas adicionados novos elementos:
o Descrições específicas do domínio do documento (objeto)
~ta Initiative
cção de padrões • Termos e condições de uso do documento
o Rótulos e gradação do documento
, rle recursos, de
o Informações de segurança, autenticidade, assinaturas

o Origem do fornecedor

o Conjunto de containers para documentos compostos e ponteiros para todas as manifestações,


ffu grupo básico
!.,pois permite a instâncias ou versões do documento
o Responsável por armazenar o documento, além do,
~ l!!lla semântica
o Conjunto de descritores do Dublin Core do documento
rllidade) sobre o

(!_l
(,)

20 Capítulo Dois

Não é necessário que todos esses elementos estejam presentes na descrição do documento. O pa- através das et;
cote deve minimamente conter os descritores básicos do Dublin Core. O container (que engloba todos PICS não co~
os elementos presentes) deve ser passível de ser criptografado, compactado e endereçado. Os paco- rorismo, en~
tes devem estar disponibilizados para acesso público. No nível do site, espera-se que alguns pacotes fica no servi(!
representem um grande número de documentos; por exemplo, o pacote que expressa as políticas de dos pais e ent
venda e troca de mercadorias em um site comercial é compartilhado por todas as páginas de produtos trole e tomem
comercializados pelo site. Serviços de busca, catálogos e mediadores devem ser os maiores usuários browsers.
desses containers de metadados.
A idéia em '
Apesar de possuir uma arquitetura bem definida, a Framework de Warwick deixa em aberto algu- os usuários :filt,
mas questões. A primeira é a independência de sintaxe. Cada um dos pacotes pode utilizar uma sintaxe quetas são nem
diferente. Apesar de aumentar a flexibilidade do modelo, não garante que dois pacotes poderão trocar dependendo c4
dados entre si. Um outro problema é sobre a semântica utilizada. Nada no framework proposto garan- como "cenas o:
te que dois conjuntos de metadados possam estar utilizando um conceito com significados diferentes dução de felin(
ou dois conceitos com um mesmo significado. De modo a tratar essas dificuldades, um novo padrão
surgiu, o RDF - Resource Description Framework Dessa forma, o Framework de Warwick não foi OPICSte~
realmente adotado pela comunidade. entidades e~
necessidade de
recomendação,
t' 2.4 Resoluurce ID>escrõptõol!1l IFramew(Q)Ii"lk: - RDIF o PICS:Lal
O Resource Description Framework (RDF) é uma linguagem declarativa que fornece uma maneira o PICSR2;
padronizada de utilizar o X1\i1L para representar metadados no formato de sentenças sobre proprieda- • PICS Rn:
des e relacionamentos entre itens na Web. Esses itens, chamados de recursos, podem ser virtualmente o PICS Si~
qualquer objeto (texto, figura, vídeo e outros), desde que possuam um endereço Web.
2.4.2 RDF
Uma das maiores influências do RDF veio da comunidade de bibliotecas digitais. Podemos entender
o RDF como uma implementação do Framework de Warwick, com soluções para alguns dos proble- Um dos objÇ
mas identificados neste último. A questão da superposição semântica, por exemplo, é resolvida pelo informação na·
t
I RDF através da utilização da marcação de namespace provida pelo XML, garantindo que para cada centar metaint"C
I
i termo teremos apenas uma definição. do inteligente. :
I aparecerem na '
ít
;· Outra grande influência do RDF veio da comunidade de Representação do Conhecimento (KR -
,,. Alguns exen
knowledge representation). Esses pesquisadores estão estudando maneiras de representar conhecimen-
to sob um formato que permita às máquinas processá-lo. O RDF foi projetado de modo a representar o Descreve:
metadados de recursos Web de maneira legível e, sobretudo, processável por máquinas. o Descreve:
o Descreve:
2.4.11 IPHCS o Descrevé:
o Descreve.
A história do RDF começou em 1995, quando o W3C definiu o Platform for Internet Content
o Descreve;::
Selection (PICS) como um meio de acalmar vários setores da sociedade preocupados com o livre
acesso de crianças e adolescentes a conteúdo indesejado na Internet. O PICS consiste em um con- ORDFutilit
junto de especificações que permite que as pessoas distribuam metadados sobre o conteúdo de ma- dades para desÇ
terial digital no formato de etiquetas (labels). A informação passa a ser "etiquetada" e processada
por computadores que podem filtrá-la (ou até mesmo vetá-la) de acordo com preferências especi- <?xml y.ª rsic:
ficadas pelos usuários. <rdf :RDF
~ffi,l 'n:~ } ~~-f-•h
O PICS é um mecanismo para comunicar a classificação de páginas da Internet de um servidor
xmin§ =~~"""ht
<rôf;P·ê~~ rip
para um cliente, um exemplo clássico de aplicação de metadados. A classificação é comunicada r"élf ;,-ªIWI,It'!"'·
Metadados: Como Organizar? 21

O:mnento. O pa- através das etiquetas que contêm informações sobre a classificação do conteúdo das páginas. O
!=le engloba todos PICS não contém um conjunto de critérios prefixado como, por exemplo, nudez, violência, ter-
t=.çado. Os paco- rorismo, entre outros. As etiquetas são neutras e seu significado é atribuído na base de dados que
~ 2!guns pacotes fica no servidor. Em vez de apenas censurar as páginas da In ternet, como foi a sugestão inicial
;;:::. ::s políticas de dos pais e entidades interessadas, o PICS dá as condições para que os usuários façam esse con-
~ .~s de produtos trole e tomem suas próprias decisões sobre que tipo de informações deve ser recebido pelos seus
:::;::!ores usuários browsers.

A idéia era de que diferentes organizações tivessem seus próprios sistemas de classificação e que
~em aberto algu- os usuários filtrassem o conteúdo que eles julgassem não adequado para suas famílias. Porque as eti-
-;,,... uma sintaxe quetas são neutras (por exemplo, "Ti2WCVF78FYji8"), elas podem ser interpretadas diferentemente,
s poderão trocar dependendo do provedor. No exemplo anterior, a etiqueta Ti2WCVF78FYji8 pode ser interpretada
t~oposto garan- como "cenas com conteúdo sexual" por um provedor, enquanto outro pode interpretá-la como "repro-
~: ;:dos diferentes dução de felinos" .
.::::::n novo padrão
"i'iàrw:ick não foi O PICS tem grandes problemas, sendo o maior deles o de depender da classificação realizada por
entidades externas. Como resposta, o W3C decidiu propor uma nova linguagem que desse conta da
necessidade de metadados de outras comunidades, também. Assim surgiu o RDF. O PICS ainda é uma
recomendação, disponibilizada através do W3C. A documentação técnica consiste em:
o PICS Label Distribution Label Syntax and Communication Protocols
ece uma maneira o PICS Rating Services and Rating Systems Recommendation
snbre proprieda- o PICS Rules Recommendation (para especificar perfis para os filtros de informação)
15ei"·virtualmente o PICS Signed Labels Recommendation.

2.4.2 IRIOIF e 1Processamell1lto Automáitko da Dlruformação


·ro:emos entender
.~ dos proble- Um dos objetivos do RDF é tornar a semântica de recursos Web acessível a máquinas. Apesar de a
, ~resolvida pelo informação na Web poder ser lida automaticamente, sua semântica não é definida. O RDF vai acres-
;:o que para cada centar metainformação a esses recursos, de modo a possibilitar às máquinas lidarem com eles de mo-
do inteligente. Descrições RDF foram projetadas para fornecer informações aos computadores e não
aparecerem na tela.
:ecimento (KR -
.~ conhecimen- Alguns exemplos de utilização de descrições RDF:
:<!o a representar o Descrever propriedades para itens de compra, tais com o preço e disponibilidade
·~- o Descrever cronogramas para eventos na Web
o Descrever informações sobre páginas Web, tais como data de criação, título e autor
o Descrever conteúdo e classificação de figuras
o Descrever conteúdo para máquinas de busca
lfõjtemet Content
o Descrever bibliotecas eletrônicas
;rlos com o livre
?.sre em um con- O RDF utiliza uma URI (Uniform Resource ldentifier) para identificar um recurso Web e proprie-
çOnteúdo de ma- dades para descrever esse recurso. No exemplo a seguir:
~~ e processada

1 *iiiq n.s ; r.{fk" http;


ferências especi- ·-~?xmi version="l.O"?>
~r.cjf:ROF
t /.\M·I. \·13. org / 199 9/02/2~ - rdf- syntax-nsff"

:z de um servidor
~mil-l)s ;'dc.,.•http:: l/ purl . org/dc/el ement.S/l, 1/ ">
~'r:\g(: p~~cri ption
lü é comunicada L~~if~~~-~ij;t~•i'http ://I~~M, in.f ,puç- ri~. br-~k~ ~i~n:~-~-a_e_:~_h!ml ".~.

•!J
I~

======-----
- - - - - --
-- ---- -

22 Capitulo Dois

- --- --- --- ------- - --·


I <çi.:ç~:§ f"g~tªt~Kª:p;j~; ·~:r.~i.1/tiiªh~Í~.~~~·f!;!<HfQf~
·-
l Como você~
] ~li!<>~= t1,:t1•e~ -H<:>íi(~ .p.~g-~- g'&' :P.:rpJ'~ ~ Ka'r~~n- ~1~!'~~ 't:i ·t1'ê-~ escrito em XMI:
1 ~{.l'ê.:·aâ·teM âe ;l!lu~uB:i>ê;; .Zô:ó·4~t·d:G -:<~·a m.ê~
: ~l r:dif.~,ó:esiw-i:P-ti-~n~ ~ -· --- -- -- · I informações e~
. ~iifc}f.:RQF11 I A arquitetura prt
camadas em cü:+
mais de expressi
o http://www.inf.puc-rio.br/-karin/index.html é um recurso moqueamáq~
Um recurso pode ser qualquer coisa, desde que possua uma URI. superiores (RD:!=
o o elemento <creator> é uma propriedade
Uma propriedade é um recurso que possui um nome e pode ser utilizado para caracterizar um O RDFtom<
outro recurso, como, por exemplo, criador e título. Na maior parte das vezes o que nos interessa doW3C éen~
é o nome dessa propriedade (não o endereço), mas uma propriedade tem de ser um recurso (ou
seja, tem de ter endereço). CONCEITOS 8;\!
o a cadeia de caracteres "Karin Breitman" é o valor
A seguir v~
Um objeto é o único elemento em RDF que pode ser um recurso (descrito através de sua URI)
CDs, que tem~
ou um literal, valor numérico ou cadeia de caracteres ("Karin Breitman", por exemplo).
bela a seguir ill!-
Em RDF escrevemos frases do tipo Recurso + Propriedade + Valor. Essas partes podem ser com-
preendidas como o sujeito, o predicado e o objeto de uma sentença, respectivamente. Dessa forma, em
. ~jJI:jí~
RDF a informação é representada simplesmente por uma coleção de frases, todas com formato idên-
tico, isto é, sujeito, predicado e objeto. Podemos representar o c6digo desse exemplo em uma tabela MarceloD2
com três colunas dessa forma:
PearlJam

~~jçi~~ (i"ecu.rso) Predicado (ptoíuiea~·~e) ó'bj~tô (vaiói'l Adriana


http://www.inf.puc- http://purl.org/dc/elements/l.l/creator "Karin Breitman" Calcanhoto
rio.br/-karin/index.html
- ·· . ·-· ---
http://www.inf.puc- http:l/purl.org/dc/elements/1.1/title "Home Page da Profa. Karin" O arquivo R
rio. br/-karin/index.html
http://www.inf.puc- http://purl.org/dc/elements/l.l/date "4 de Outubro, 2004" 1 : <?xm1 ver
2: <r-aif dWF
rio.br/-karin/index.html
-·- ---~-- - •• 3; ~m~·n~; rdf
.xmi:-n~ : cd
5:
Ou graficamente: 6-: ( taf.: fles~
7; rq:f ~ àbn:
8 :. (§~;ti!
9; r-d-f.:.abo:
Karin Breitmãn inv·:
1à: <I•f.'(!_f : 1:::
li:
12: .( r.gf;J;let
http://purLorg/dclelementsl1.11title 13 ~ t.gf :ah:
I'? ~,..-H-om --e.-â-a---P-rb_fi_à_'._K_a_r_-
___e_P_a-_g- 10--,J 14: -~!>~ :a r
15: <!::~:gr
16: ~~(!:p;
17: ~-~d:(l1
1~ <Ir'Qf:l!<
i9
4 ~e·QütuiJro,_ 2õô4 3Ô ,<[ fr~if ; I) e~
2:1! : ·l"·glf;ah:
http://purl.org/dc/elemen!sl1.1ldate
~g~:t.'

fiGURA 2.2 Exemplo de RDF.


. ·22-
?f: j'~;f.; ~bl

......J:..
Metadados: Como Organizar? 23

Como você deve ter notado no exemplo, o RDF se parece muito com XML. Na verdade, o RDF é
escrito em XML mesmo, utilizando uma linguagem chamada XML/RDF. Esse fato facilita a troca de
informações entre máquinas que utilizam aplicativos ou até mesmo sistemas operacionais diferentes.
A arquitetura proposta por Tim Bemers Lee para a Web Semântica é toda baseada na sobreposição de
_ _j camadas em cima de uma base XML. A idéia é que cada camada que se coloque forneça um pouco
mais de expressividade. No entanto, todas as representações se baseiam no XML, garantindo que mes-
mo que a máquina que esteja processando o arquivo não esteja preparada para "entender" as camadas
superiores (RDF, OWL) ela consegue minimamente processar a porção XML do arquivo.

;rizarum O RDF tomou-se um padrão recomendado pelo W3C em fevereiro de 2004. Uma recomendação
interessa do W3C é entendida pela indústria e pela comunidade como um padrão para a Internet.
çurso (ou
CONCEITOS BÁSICOS

A seguir vamos introduzir os conceitos básicos de RDF. Utilizaremos o exemplo de uma loja de
sua URl)
CDs, que tem seus produtos listados por nome do artista, título do CD, gravadora. país e preço. A ta-
o).
bela a seguir ilustra essas informações:
tsercom-
forma,em
nato idên-
mla tabela MarceloD2 Acústico MTV Sony Brasil R$26,50
PearlJam Live at Benaroya Hall- BMG EUA R$27,90
DUPLO
Adriana Adriana Partimpim BMG Brasil R$32,00
Calcanhoto
.L-----------

:a. Karin" O arquivo RDF correspondente é o seguinte:

! 1•• <?xml versio.n~"I.O"?>


. .{; (rdf:ROF
~- ; xini ns: ~df="htt_p: I h~W~I- 1-13 .orgliQ99102/~Ç- rdf• synta x- ns1fo"·
xíhl ns: t:;d='' http: I hMw. i nf. pyç- ri o. br/~kàri n/vocabul a ri o/loj a"""dLdi scolft">
5':
§~ <i rc;tf:Oéscription
7"; rdf: abou.t~" http :./ /wvM. s ub ma ri no. com. br I cds_topl·O. a sp ">
8· <cd:tii;ulo> <rdf:Des cripti.o n
g:; rdf: abo~,tt=.-. htt.p: I I~M~. submarino. com. br /1/:A custi co
~1TV" ><Irâf: Descri pti on><l cd: titulo>
íb: <lrdf:Description>
111:
~;!; <rdf :'Descri..ption
~~: rdf: about=" http: I I~IW\·1 . s ubma ri no. com. br /1fAc usti co NTV">
~J<ariil .I Jt4: <cd:artista>Narcelo D2<1cd:artista>
15: <cd:gravadora>Sony</cd:gravadora>
I l<6: <cd: pai s>.Brasi 1 <I cd : pai s>
! E-= <cd: preÇo> R$. Z6. SO<Icd :.preco>
H~: <lrdf: Descri !tti qn>
iJ:9:
~ll: <~df :Descrilp<tió11
é~ : rqf: a bo ut=" http;: lhll:l\'1. su bma·ri no, eom. pr /ql s=.top10. a s P-" >
1 2'2 : ~ççj: ti tl,!l o> <rdf: Qg~cri pti-gn
~~:~-- ~df:!b_out~"h~~?:! /I'IV/~1--SI,lfl~~-r-~~---ÇQ~: ~~/1~~ lV_e__ ~t _Bê_~~:~º!~- ~~1 1__ -

·!!
~I

24 Capftulo Dois

,------ -l~f?.~ô·~-ii~irWf';:@:~§~'fi'Pt1~W~/M,;tt1w-iº> ---- ----- ------·-- ·---


, ?IV ~-h\Çjf:Ó.é$'df.~pi;i·§n0 -
g$
2~ {rti'Í'~ Qg~çr'i'Q't;i-Q.n
2.7 rd:f: abput=-''h:ttp.;J tw~IV/, §Ubrllê:rHrg .• Çc)JÍI. br /!f~i Vl;i at B.enaro,yà. Ha:H -
DUP'LO''~
28: <~d': a rti s:ta>:Pf!a rl J:amK/'ed·: artis-ta>
29: <§d:gravador~~BMG<lq~:graviJdora;>
30: <cçl: PC! i s>~UA<lçt:!·; Pªi ~>
31: <cd:preco>R$ 27,90</td:preco>
32: <lrdf:Description>
33:
34: <rdf-: Descri pti qn Emb~~
35: rdf: about.,."http: lli·Mw. s ubma ri no. com. br I cds_toplO, as p">
36: <cd:titulo>
37: <rdf:Description
38: rdf: abgut=" http; I /1:11·11'1 . ~~bmari no. com. br 1/,I:Adri ana Pp.rtimpim. ")
39: <Jrdf:Description>
4-ú: <ltd:t1tu~o>
41: <lrdf:Description>
42:
43: <rdf-: Descri pti on
44: r(j-f: about="·http: llva·M. subinil•ri n·lll···Gó.m,·br/1,1:Aô ri ana Partimpim ~>
45: <td:artistã> Ãdr1ana Caléanhoto<ltd:ãrtista>
46: <!cd: gravadof a~Bt~G</ td: gravadora>
47: <cd: pai s>Brasi l <I cd: pais>
48: <icd:preco>R$ 32,00</cd:preco>
49: <lrdf: Descri pti on>
50: <lrqf : RDF>
rio utilizado, l
A primeira linha do código 1: é a declaração XML, que diz qual versão XML está sendo utilizada, vocabulário o
no caso a versão 1.0.
Oelemenu
O elemento rd f : RD F (que tem o terminador I r df : RD F) indica que o conteúdo é RDF. identificado ;;•

O elemento xml ns: rdf indica o namespace do próprio RDF, ou seja, todos os elementos que come- O elemeD.!l
çam com o prefixo rdf: estão localizados dentro de um único arquivo, que contém a especificação do mentes cd: gr
vocabulário de RDF. Chamamos de vocabulário o documento que contém a descrição de cada um dos
termos utilizados na confecção do documento RDF. Existem vocabulários genéricos, por exemplo, o
conhecido "vocabulário RDF' que descreve termos utilizados pela própria linguagem, tais como des-
2.4.3 vc~
cription, label, literal, range, comment, subCiassOf, subPropertyOf. Alista contendo o vocabulário RDF Há alguns :
está publicada no documento RDF Vocabulary Description Language, disponível no site do W3C. nicos que fico
e padronizadrl
No caso do exemplo esse arquivo é http: I fi1~M .\·13. org/1999/02/22 · rdf · syntax · nstl (este é o butos que se i.
arquivo oficial de sintaxe de RDF. Ao escrever seu documento RDF você deve apontar para esse en- endereço, CEt
dereço). disponibilizag

Também temos vocabulários criados pelos próprios autores. No nosso exemplo apontamos para um O vCardé
documento que contém o vocabulário relativo à loja de disco: http: //ww1·1. i nf. pu c· r i o. br/-ka ri n/ cessariamen~
vocabul a r i o/l oja_de_di sco. Nesse documento estão descritos os termos que utilizamos para descre- fornece uma :t
ver os recursos, propriedades e valores do domínio de lojas de discos. Exemplos são título, gravadora de outras pess
e preço. Para evitar ter de repetir o endereço do vocabulário todas as vezes que fizermos menção a um repr esentação
de seus termos, criamos um namespace para ele. No exemplo foi criado o namespace xmlns:cd. As
etiquetas do tipo cd: ... substituem a menção ao endereço completo. No exemplo anterior, o vocabulá-

~
Metadados: Como Organizar? 25

FIGURA 2.3 Grafo RDF do exemplo da loja de discos.

rio utilizado, cujo namespace é xml ns: de=" http: //purl. org/dc/el ements/1.1/ ", aponta para um
S':ásendo utilizada, vocabulário conhecido, o Dublin Core.

O elemento rdf: Descri ption (e sua terminação /rdf: Descri pti on) contém a descrição do recurso
ERDF. identificado através do atributo rdf: about.

i::mentos que come- O elemento cd: ti tu 1o descreve uma propriedade do recurso. O mesmo é verdadeiro para os ele-
-:Iaespecificação do mentos cd: gravadora. cd: pais. cd: prece. Esse exemplo é ilustrado na Figura 2.3.
i;#D de cada um dos
ros,. por exemplo, o
2.4.3 vCards em IRDF
?TI. tais como des-
,ovocabulárioRDF Há alguns anos algumas empresas se juntaram e definiram um padrão para cartões de visita. eletrô-
t9 site do W3C. nicos que :ficou conhecido como vCards. Esse padrão foi acatado pelo lnternational Mail Consortium
e padronizado como um tipo MIME. Um vCard consiste em uma série de tipos que descrevem os atri-
-::ax-ns/1 (este é o butos que se deseja colocar em um cartão de visita. Entre eles estão primeiro nome, cargo, telefone,
?n.tar para esse en- endereço, CEP, entre outros. Um vCard pode ser escrito em RDF, desde que se utilize o namespace
disponibilizado em: http://imc.ore:/vCard3/3.0#.

~ntamos para um O vCard é também um formato para metadados muito difundido. Vários outros modelos, não ne-
~-rio.br/-karin/ cessariamente cartões de visita, se utilizam do namespace e de definições dessa representação, pois ela
:!z2mos para descre- fornece uma maneira padronizada e largamente utilizada para representar informações sobre contatos
~ título, gravadora de outras pessoas. Um outro modelo também muito utilizado para o mesmo propósito é oferecido pela
!'.ffilos menção a um representação FOAF (friend of a friend). Essa representação será apresentada no Capítulo 6.
~zce xmlns:cd. As
F-eúor, o vocabulá-

-- . . . - - - ------ ~--- ·· -
- - - ---- -
- - ·- - - -

·~·
!i )

- - - -----
- -----
-
-- --- - - -- - - --

26 Capftulo Dois

2.5 <Critkas aeo> ModeDo cdle Me'ft:acdlados dle Welb ~


a! ...i:
§emâl!'il'ft:Õ<e:a !P>CB" C:<e>lrlf ID><e><e:'ft:<e>r<e>w
O modelo de Web Semântica fortemente baseado na utilização de metadados, proposto por Tim ~
Bemers Lee, tem sofrido algumas críticas. Nesta seção resumiremos algumas delas. Grande parte ~
destas críticas vem sendo veiculada através de um documento chamado metacrap, que circula e está
(
disponibilizado em vários sites da Web.
iCSS.
ro~
Os maiores problemas apontados pelos críticos na adoção de metadados para a indexação de pági-
nas da Internet estão ilustrados na Figura 2.4 e discutidos a seguir. dep

Alrti
~

A
7. Não existe uma única a!eq
maneira de se descrever l"'2Ó::
um objeto ...~

F~
nm:a·
cri~
6. Métricas tendenci seja:!
í mnfr
~ se a'
l
~ tm!al
:~

5. Falta de neutralidade 4. Autoconhecimento Co!:s.


nos modelos (falta de)
i\
t,

r
,_'
Criticas Doctorow

FIGURA 2.4 Crfticas ao modelo de metadados proposto para a Web Semântica. ~

Cor:
Mentiras Não se pode contar que as páginas que estão disponibilizando seus dados de modo semântico o T~
estejam fazendo de maneira 100% honesta. Vivemos em um mundo competitivo, e é deseesperarquealguns
sites "melhorem" suas descrições ou até mesmo mintam para que sejam incluídos em determinadas buscas.
Esse fato pode ser comprovado pela evidência de que (1) para qualquer busca nos mecanismos mais
comuns de busca da Internet, tipo Altavista ou Google, pelo menos um em dez sites contém pornogra- Métrii:
fia; (2) sempre recebemos uma quantidade enorme de SPAM com dizeres do tipo "mensagem impor- ção~
tante", "urgente", entre outros; (3) todo documento de lançamento de qualquer produto contém uma quere
quantidade enorme de chamarizes (buzzwords) que não agregam nenhum significado. dameii
não se:
Preguiça O modelo baseado em metadados leva em conta que os usuários e donos de páginas vão se
dar ao trabalho de indexar suas informações no momento em que entenderem a importância de me- Nãoê)
tadados. A questão é: o que fazer com aqueles usuários que nem mesmo colocam o assunto em suas de se e-
mensagens de correio eletrônico? E com a metade das páginas do Geocities que se chamam "please mente~

..J
Metadados: Como Organizar? 27

title this page" (por favor, atribua um título a esta página) e pessoas, que guardam os seus arquivos
com nomes do tipo lixo.doc, documento.txt, entre outros?

:tosto por Tjm Estupidez Mesmo frente a evidências de que existe um grande benefício em se criar e manter meta-
Grande parte dados, as pessoas vão se recusar a fazê-lo de maneira cuidadosa e adequada.
çircula e está
O autor cita como exemplo o site de leilão E-Bay. Nesse site, onde os usuários têm o maior inte-
resse em colocar seus produtos da maneira mais correta possível, ainda se pode encontrar um grande
?-Ção de pági- número de entradas digitadas erradamente. Tente fazer uma busca pelo produto plam pilot, ao invés
de palm pilot, e verifique a quantidade de objetos que vão aparecer.

Autoconhecimento (falta de) Parte da hipótese básica de Tim Berners Lee é de que os usuários sa-
berão descrever suas atividades e seu domínio de modo adequado.

A experiência prática mostra que as pessoas, de modo geral, não conseguem observar de modo
adequado seus próprios comportamentos. Esse fato pode ser comprovado ao se pedir uma estimati-
va de tempo para que um programador gere uma nova rotina ou para que um encanador conserte um
vazamento.

Falta de neutralidade nos modelos A forma de organizar as categorias dos metadados já demonstra
uma tendência dos usuários. Nenhum modelo é realmente isento de influências. O processo de des-
crição de metadados não é exceção. Espera-se que a decomposição do domínio e sua categorização
sejam influenciadas pelos interesses de quem está fazendo a modelagem. O autor cita o exemplo de
um fabricante de máquinas de lavar. Se ele for consciente de questões relativas ao meio ambiente ou
se a vantagem competitiva oferecida por seu produto for o baixo consumo de energia, é de se esperar
uma decomposição do seguinte tipo:

:::>· Consumo de energia:


Consumo de água limpa:
Tamanho:
Capacidade:
Confiabilidade:

Enquanto o fabricante tiver o design como diferença, poderíamos esperar uma decomposição assim:

Cor:
•semântico o Tamanho:
·~que alguns Programabilidade:
~buscas. Confiabilidade:
.hlsmos mais
ffi pornogra- Métricas tendenciosas Evidentemente que a escolha das métricas a serem utilizadas na caracteriza-
<gemimpor- ção da informação fornecida vai sofrer a influência de quem está escolhendo o conjunto de métricas
;X>ntém uma que será utilizado. Da mesma forma que no item anterior, pode-se dar preferência a aspectos que sabi-
damente vão ter uma pontuação maior que a de seus concorrentes, em detrimento de itens que podem
não ser tão interessantes sob o ponto de vista da concorrência.
~as vão se
.~ciade me- Não existe uma única maneira de se descrever um objeto É razoável que existam várias maneiras
fuo em suas de se.enxergarum objeto. A utilização de múltiplos pontos de vista é uma estratégia que tem sido larga-
1am "please mente adotada no desenvolvimento de sistemas, de modo a se obter uma visão mais geral da aplicação.

- - --- -
- -- -
---·
®

28 Capitulo Dois

No caso de metadados a utilização de pontos de vista não é uma opção. A modelagem da informação
deve ser realizada sob um único enfoque. Claro que variações são possíveis, e deve-se esperar que os
modeladores tenham o discernimento de avaliar diferentes alternativas antes de se comprometer com
a visão final dos dados.

Qual a Solução? Jogar Tudo Fora? Os americanos têm uma expressão idiomática que adverte os usu-
ários, quando não estão satisfeitos com algo, para "não jogar fora o bebê junto com a água do banho".
Na essência, o que esse ditado quer dizer é que mesmo com uma série de restrições que podemos fa-
zer ao assunto, no caso os metadados, ainda existem muitas coisas válidas (o bebê), que não devem
ser jogadas fora.

Metadados são muito úteis e podem auxiliar grandemente na indexação de páginas da Web, melho-
rando o resultado de buscas e permitindo que parte do processamento seja realizado por computado-
res, em vez de seres humanos. O que este capítulo tenta mostrar é que essa solução não é a proverbial
"bala de prata" que vai solucionar todos os problemas, como tem sido veiculado por vários defensores
da Web semântica.
W3C
------...._
Classes •
ILeõtura IRe<eomell"ildadla _Propriedades l
Tipos de Dados J
[HjelmOl] HJELM, H. Creating the Semantic Web with RDF. Wiley, 2001. Cardinalidade J
Indivíduos 1.
W3C- RDF Primer. Disponível em http://www.w3.org/.
Primitivas .j
Páginas do Dublin Core. http://purl.org/DC/. Versionamento )
[McComb04] MCCOMB, Dave. Semantics in Business Systems: The Savvy Manager's Guide: The discipline
underlying Web Services, Business Rules and the Semantic Web. Morgan Kaufman Publishers, 2004.
r Met adados)
URJs .·
[Gilliland-Swetland97] GILLILAND-SWETLAND, A. Defining Metadata. In: Metadata: Pathways to Digital
Inforroation. Murtha Baca, ed. Getty Information Institute, 1997. pp.l-8.
(Gill97] GILL, T. Metadata and the World Wide Web. In: Metadata: Pathways to Digital Information. Murtha
Baca, ed. Getty Information Institute, 1997. pp.9-18.
[DoctorowOS] DOCTOROW, C. Metacrap: Putting the Torch to Seven Straw-Men of the Meta Utopia.
Disponível em www.well.com/-doctorow/metacrap.htm. Wordt{$

RLG - Research Libraries Group. http://www.rlg.org.


UKOLN- United Kingdom Office for Library and Jnformation Networking. http://ukoln.bath.ac.uk/,
Lineana (sere!:
ISO- Intemational Organization for Standardization. http://www.iso.ch/. DeweyQ·
00-

...ai..
~"' informação
*rarqueos CAPITUL03
;rrometer com

4verte os usu-
~ do banho". QlU!em ]á Fez? OntoOogias e
!. podemos fa-
;enão devem CHêncdas da Ccomputa~ã((»

~Web, melho-
t computado-
~ a proverbial
os defensores
Categori~~
WJC Lakoff &. Rosch
Classes Classificação
, Wittgenstein
_Y.ropriedades Protótip ~
Tipos de Dado~
Requisitos para uma
Cardinalidade Filosofia
Linguagem de antologias
Indivíduos Aristóteles
Pri~itivas_,
O que é?
· _Classificação
Versionamento ,. ... Árvore de Porfírio
The discipline Metadados
~- UR!s)
Cap~tulo 3 Representação do
'i'2.YS to Digital Conhecimento
Ontolo~jél
Filosofia
Definições
~on.Murtha
...... ····················· Inteligência ~t~ficial

8 ... ··
.. ...... Web Semântica
. - -
~Ieta Utopia. ···....
······. ······ ········.······
WordNet Tesauros ··...
·····~:a
Categorizações Espectro Semântico
ikf. de Ontologias Generalidade
Lineana (seres vivos)
Tipo de Informação
Dewey Decimal
Diretórios
·~

30 Capftulo Três

A palavra ontologia vem do grego ontos (ser)+ fogos (palavra). A definição do dicionário Meniam
Webster, disponível on line no site www.m-w.com, é a seguinte: Gêà:

1. Ramo da metafísica dedicado à natureza e aos relacionamentos do ser.


2. Teoria sobre a natureza do ser ou daqueles que existem. [)~
Ontologia, na Filosofia, é a ciência do que é, dos tipos de estruturas dos objetos, propriedades,
eventos, processos e relacionamentos em todas as áreas da realidade. A ontologia filosófica tem mui-
Gênl
tos formatos, desde a metafísica de Aristóteles à teoria-objeto de Alexius Meionong. O vocábulo on-
tologia foi cunhado por Rudolf Gockel, em sua obra Lexicon Philosophicum. A primeira ocorrência
do termo ontologia em língua inglesa foi registrada pelo Oxford English Dictionary no século XVITI, Dfü?
o qual define ontologia como "um relato do ser no abstrato".

O vocábulo ontologia foi introduzido no estudo da Filosofia de modo a fazer uma distinção entre Gên!
o estudo do ser e o estudo dos vários tipos de seres vivos existentes no mundo natural. Enquanto dis-
ciplina da área de Filosofia, o objetivo da Ontologia é o fornecimento de sistemas de categorização
D~
para organizar a realidade.

A primeira estrutura de classificação foi proposta por Aristóteles. No século ill DC, Porfírio, um
Próx
filósofo grego, comentou essa estrutura e criou o que é conhecido como a primeira estrutura arbores-
I cente. Esta, conhecida como "árvore de Porffrio", está ilustrada na Figura 3.1, que ilustra as categorias
l abaixo de substância, o supertipo mais geral do conhecimento. Difi?
I..
3.11 ID>eifõtriln~Ç<Õ>es Es~

'·' A definição de ontologia encontrada mais freqüentemente na literatura da Web Semântica é a pro-
(•
posta por Gruber:

"Ontologia é uma especificação fonnal e explícita de uma conceitualização compartilhada." /ndf.t


[GruberJ

r Aqui conceitualização representa um modelo abstrato de algum fenômeno que identifica os concei-
i tos relevantes para o mesmo. Explfcita significa que os elementos e suas restrições estão claramente
t Como
•r defi.nidos;fonnal significa que a ontologia deve ser passível de processamento automático, e compar-
do Conh;:
I tilhada reflete a noção de que uma ontologia captura conhecimento consensual, aceito por um grupo
entreomt
!; de pessoas.
propõem
Guarino e Giaretta reuniram e publicaram as seguintes sete definições para o termo ontologia, pro-
"Umaó
postas na literatura:
de tenrd.
I. Ontologia é uma disciplina da Filosofia. ção dec
2. Ontologia é uma conceitualização informal de um sistema.
3. Ontologia é um relato semântico formal.
4. Ontologia é uma especificação de uma conceitualização. De~
5. Ontologia é uma representação de um sistema conceitual através de uma teoria da Lógica. os seguli!
6. Ontologia é o vocabulário utilizado por uma teoria lógica.
o Cl~
7. Ontologia representa o metanível da especificação de uma teoria da Lógica. o Rel
O consórcio W3C define uma ontologia como "a definição dos termos utilizados na desc1ição e na o Pro
representação de uma área do conhecimento".
Quem já Fez? antologias e Cienàas da Computação 31

lMerriam
Gênero Supremo

Differentíae
medades,
temmui-
Gênero Subordinado
ábulo on-
1COrrência
~o XVIII, DifferenUae

:ção entre Gênero Subordinado


:;J.allto dis-
~orização
DifferenUae

tllrio, um
Próximo Gênero
~arbores­
::ategorias
DifferenUae

Espécie
a é a pro-

:ada." Indivíduos

fiGURA 3.1 Árvore de Porffrio.


)Sconcei-
:aramente
Como antologias têm sido utilizadas por várias comunidades - Inteligência Artificial, Representação
~compar­
do Conhecimento, Processamento de Linguagem Natural, Web Semântica, Engenharia de Software,
:;mJ.grupo
entre outras - é razoável que exista uma grande variação na definição desse artefato. Uschold e Jasper
propõem uma definição mais abrangente:
:>gia, pro-
"Uma ontologia pode assumir vários j01matos, mas necessariamente deve incluir um vocabulário
de termos e alguma especificação de seu significado. Esta deve abranger definições e uma indica-
ção de como os conceitos estão inter-relacionados, o que resulta na estruturação do domínio e nas
restrições de possíveis interpretações de seus termos."

De maneira mais sucinta, o consórcio W3C coloca que antologias devem prover descrições para
~ca. os seguintes tipos de conceito:
o Classes (ou "coisas") nos vários domínios de interesse,

içãoena
. o
o
Relacionamentos entre essas "coisas",
Propriedades (ou atributos) que essas "coisas" devem possuir.
I
I_
"

32 Capitulo Três

Alexander Maedche propõe que uma ontologia pode ser descrita através de uma 5-tupla composta To&:
dos elementos primitivos de uma ontologia, i.e., conceitos, relacionamentos, hierarquia de concei-
. ....
nno~ci.;.

tos, função que relaciona conceitos e um conjunto de axiomas. Ontologias que utilizam essa estrutura darled;
podem ser mapeadas para a maioria das linguagens para descrição de antologias conhecidas. Os ele-
mentos são definidos como se segue:
. \;
~

0:
O: = {C, ~ J{C, reÇ Jil.O} o que consiste em: tt
• (i
Dois conjuntos disjuntos, c (conceitos/classes) e!l{.(relacionamentos) n
Uma hierarquia de conceitos -JIC: !J{C é um relacionamento direto: !J{C =C x C chamado hierar- õ:.
quia de conceitos ou taxonomia. !J{C {C1,C2) significa C1 é um subconceito de of C2 G
• ll
Uma função rei : !!{_=C x c que relaciona os conceitos de modo não-taxonômico Ít
0,
Um conjunto de axiornasJil expressos em uma linguagem lógica apropriada. ~
ro
Ir
Independentemente da definição escolhida, é necessário entender que antologias têm sido utilizadas
para descrever artefatos com variados graus de estruturação e diferentes propósitos. A variação vai de
simples taxonomias, tais como a proposta pelo Yahoo, até representações para metadados, tais como
.E ~
p;
o Dublin Core, chegando a modelos escritos em Lógica. Na próxima seção vamos analisar os vários
tipos de classificação propostos para antologias. hl
r;
$:
3.2 COassõfõcações
3.2. "ii ClassBficatnldlo OtnltoOogias Segutnldo Seu !Espectro Semâtnltico
. C<;
~

~
Diferentes classificações para antologias foram propostas na literatura. Ora Lassila e Deborah ~
McGuiness propõem uma classificação baseada na estrutura interna e no conteúdo das ontologias. A •R
~,
classificação segue uma linha em que as antologias são dispostas desde a mais "leve" (lightweight)
até a mais "pesada" (heavyweight). A classificação está ilustrada na Figura 3.2. F-
=
ül
r.í
• ó
Vocabulários ~
controlados/ Restrições de
P'
Catálogo Tesauros valores . o
~
Termos/ Hierarquias Restrições lógicas
Glossários tipo-de (disjunção, inverso 3.2.1.1
informais parte-de, ...)
É~
tologia.

FIGURA 3.2 Categorização de Lassila e McGuiness. Oestut

Nessa classificação temos desde catálogos informais de termos, com definições em linguagem na- u~
tural desestruturada, até antologias com o máximo de expressividade. Mich~

...ru.
Quem já Fez? Ontologias e Ciências da Computação 33

rpla composta Todos esses artefatos objetivam estabelecer um vocabulário compartilhado que permita a troca de
ia de concei- informações entre grupos de trabalho ou indivíduos. A variante é o grau de formalismo e expressivi-
~sa estrutura dade de cada representação.
çidas. Os ele-
o Vocabulários controlados -lista finita de termos. Um exemplo típico seria o catálogo norte-ame-
ricano NAICS (North American Industry Classification System), que lista produtos e serviços
oferecidos em diversas áreas, como, por exemplo, agricultura, :finanças, varejo, entre muitas ou-
tras.
o Glossários -lista de termos com significados em linguagem natural. O formato de um glossá-
rio é similar ao de um dicionário, em que os termos são organizados alfabeticamente, seguidos
nado hierar- de definições em linguagem natural. Um exemplo de glossário é o NetGlos (The Multilingual
Glossary of Internet Terminology), que reúne terminologia relacionada a recursos na Internet.
o Tesauros - é uma lista de termos e suas definições que padroniza a utilização de palavras para
indexação. Além das definições, um tesauro fornece relacionamentos entre os termos. Estes po-
dem ser do tipo hierárquico, associativo e de equivalência (sinônimos). Existem vários tesauros
disponíveis on line. Um exemplo é o IEEE Web Thesaurus Keywords, que contém vocabulá-
~do utilizadas rio associado à engenharia elétrica e eletrônica, disponibilizado pelo Instituto de Engenheiros
~ação vai de
Elétricos e Eietrônicos (IEEE).
Ins, tais como o Hierarquias tipo-de informais -hierarquias que utilizam o relacionamento de generalização (ti-
;;sar os vários po-de) de maneira informal. Um exemplo é a hierarquia apresentada pelo Yahoo. Nesse tipo de
hierarquia, conceitos relacionados podem ser agregados a uma categoria, mesmo que não respei-
tem integralmente o relacionamento de generalização. Um exemplo seriam os termos "aluguel
de carro" e "hotel", que apesar de a rigor não serem "tipos-de-viagem", poderiam estar classifi-
cados sob a classe "Viagem" em uma hierarquia desse tipo.
o Hierarquias tipo-de formais -hierarquias que incluem instâncias de um domínio. Nessas hie-
tnântico rarquias os relacionamentos de generalização são respeitados integralmente. Um exemplo é a
iia e Deborah taxonomia dos seres vivos, ilustrada na próxima seção.
ontologias. A o Frames - modelos que incluem classes e propriedades segundo a representação proposta por
· (lightweight) Marvin Minsky. As primitivas de um modelo de frames são classes (ouframes) que possuem
propriedades, chamadas atributos (slots). Atributos não têm escopo global, se aplicam apenas
nas classes para quais foram definidas. Cada frame fornece o contexto para modelar um aspec-
to de um domínio. Ao longo dos anos, pesquisadores vêm propondo vários refinamentos a esse
modelo, que é largamente utilizado na modelagem de conhecimento.
a Ontologias que exprimem restrições de valores- antologias que fornecem subsídios parares-
tringir os valores assumidos pelas propriedades de suas classes. Por exemplo, o tipo de dado que
pode ser encontrado na propriedade "ano de nascimento" tem de ser um número inteiro.
o Ontologias que exprimem restrições lógicas - antologias que permitem que sejam expressas
restrições em lógica de primeira ordem.
;rlções lógicas
~ção, inverso 3.2.1.1 Taxonomias x Ontologias
;.àrte-de,...)
É importante, antes de prosseguir, fazer uma distinção clara entre os conceitos de taxonomia e on-
tologia. Uma taxonomia é definida pelo dicionário Merriam Webster como:

O estudo dos princípios gerais de classificação científica: classificação sistemática; em particular,


classificação ordenada de plantas e animais segundo relacionamentos naturais.
jnguagem na- Uma definição ligada à utilização de taxonomias em tecnologia da informação é proposta por
Michael Daconta:

- -.- - - --
.. -. --- - - - - - - - -------------- - - --·
-- - --------------- ------------------------------------------------ -

~I
34 Capitulo Três

(Uma taxonomia é a) Classificação de entidades de informação no formato de uma hierarquia, de nomia a gener;.
acordo com relacionamentos que estabelecem com entidades do mundo real que representam. taxonomia nik
outros tipos dt.
Resumindo, uma taxonomia serve para classificar informação em uma hierarquia (árvore), utili-
isso é necessá;
zando o relacionamento pai-filho (generalização ou "tipo-de"). Um exemplo clássico de taxonomia é
a classificação de humanos segundo a taxononúa lineana, ilustrada a seguir:
Outro exerr.
Iizado na indill
Reino: Animalia
e matemática f
Filo: Cordata
Subfilo: Vertebrata
Umtercei:n:
Classe: Mammalia
nomia os itens
Subclasse: Theria
classe), no cas
Ordem: Primata
sentido de que
Subordem: Anthropoidea desse mesmo i
Família: Hominidae que vai impo:r
Gênero: Homo ontologia poss
Espécie: Sapiens Oil,DAML,O
FIGURA 3.3 Taxonomia lineana dos seres vivos- classificação dos humanos. linguagem-de~
Essa represem
cada por Lass:i
Repare que todos os termos da taxonomia estão integrados através do relacionamento de generali-
zação, ou seja, um mamífero é um tipo de vertebrado que, por sua vez, é um tipo de cordado, que, por
sua vez, é um tipo de animal. Essa taxonomia seria classificada como uma "hierarquia tipo-de formal",
segundo a terminologia utilizada na seção anterior, proposta por Lassila e McGuiness. Em uma taxo- @~ -. .
! ~~ Edt \r.eri ~

r--
~®--@
900:geografia e história i~=le:Jc:~~
Fc1<:<r.;
~ o..ktop=---
mf]r.ry~
800:literatura e retórica 8 g
My Con;lu:t<
o~o:generalidades B9P•tin:(C)
m(:)~
e:J~

700:artes e, co'=-=
mf:J ~>oo.=:i
(:)D<r..~ -
6l f:J llRI\S:S
600:tecnologia 1OO:filosofia e psicologia mf:J=
e e IE>mlCtS
f:J"""'
mf:Jr<lonlo"•t::::
me,,,~·
200:religião
501 :filosofia e teoria
·· · - --- - . ' Sistema Dewey
mf:J 1-\nlo:!.>.c:.
iBf:Jl~:!.te>O
_503:dicionários e enciclopédias mf:Jr~:!.tc:.
Dec1mal s(:) ro~yDt.= ·
50B:história natural ,
1:1 <.'4líL
-4..... 300:ciência social ab en~ .
513:aritmética Bbb··· · -
f:Jo,.....;
500:ciência natural e eor ·
516:geometria
- - ---- .. ' matemática
400:Iinguagem ~ce
b<=
521 :mecânica celestial
f:J<>==·
b=~
530:física
IB f:J Pto9=~

l
536:calor f:J~~
b S)'O~
538:magnetismo e:J T"'9
m b~
546:quími~~_inor~~~ca ) me:, Vo~UEJ.:D
8l f:J \'111lX!.":S
5~~_!!1_i_ne._r_a\of;:ia / ~: - - -- -.- ~ -
· - · -- -
l·w~- ·~i(
FIGURA 3.4 Taxonomia de assuntos no sistema Dewey Decimal (parcial).

~-
r' Quem já Fez? Ontologias e Ciências da Computação 35

'üerarquia, de nomia a generalização é o único tipo de relacionamento que existe entre seus termos. Através de uma
~resentam.
taxonomia não se pode atribuir características ou propliedades aos tennos (atributos) nem exp1imir
outros tipos de relacionamento (parte-de, causa-efeito, localização, associação, entre outros). Para
~ (árvore), utili- isso é necessário construir uma ontologia.
~ taxonomia é
Outro exemplo de taxonornia é o sistema Dewey Decimal de classificação de assuntos, muito uti-
lizado na indexação de livros em bibliotecas. ilustramos algumas das subcategorias de ciência natural
e matemática na Figura 3.4.

Um terceiro exemplo de taxonomia é uma estrutura de diretórios. Como já foi visto, em uma taxo-
nomia os itens são relacionados através de relacionamentos de especialização (pai-filho, classe-sub-
classe), no caso do exemplo, diretório e subdiretório. A semântica desse relacionamento é fraca, no
sentido de que podemos colocar sob um diretório todos os itens que acreditamos ser subclassificações
desse mesmo item. A classificação fica mesmo a critério do usuário, que decide o nível de formalidade
que vai impor aos relacionamentos de generalização. Veja no exemplo da Figura 3.5 que o diretório
D ontologia possui o subdiretório linguagens (em destaque) que, por sua vez, tem os subdiretórios RDF,
oe: Sapiens Oil, DAML, OWL, Protege2000 e OilEd. Na realidade, os últimos dois subdiretórios não são tipos-de-
linguagem-de-ontologias, e sim ferramentas. Por afinidade foram colocados sob o diretório linguagens.
Essa representação também é uma taxonomia, porém é semanticamente mais fraca ou, como classifi-
cada por Lassila e McGuiness na seção anterior, está entre as "hierarquias tipo-de informais".
!O de generali-
'dado, que, por
po-de formal",
... . . ·l . ...... ,•
Em.u ma taxo-
l fio e.lt \"- f>\-orile Toei; lf<b

-~ @e.de.
J A:!áe:• Je:lc:'Plto:odo~
© - ~ .P- EJiilil-
l'a'4r.; X e:IRili'
w-~ .~€:101
IB6 ~lyDo-.""1:: fit!:ltw-2.
e g Mrec.;..~« i !'e;,a,•,\
~es
e .._. P•lôl< (C:)
e e:. O<l>:>tc:
I~!I~O!!d
bProt<Gc:ZCOO

ê) aclexlr>;
~co~
I •~~
61 e:IDoc=<nbondS.tlbp
f:ll»>lri<lodo
IB f::lllRIICl\5
lsicolo&ia_ lil bi3S6
11! e:. l!lffl)(XS
bt=
llle31'~'sl'!orl:l

ligião ee,JoiSOCoc!>o
111 e:.
f.u>dod4Crlonç;> ,,
Gl e!)~d.\Qion;a•Mla ;I
&lb~d.\Cri>nl;>c;gf.-c:ll 'i
~nda social \ 61 b M11lriv<n
Sbool<>l>tb
a~~
~'I.·
:
I
e!)OI..'1.
e!)ol
e;, o:=
1:1
figuagem
e:, cr.'/L LI
e, Pn>l<çeõllOO
E!JRDF
I 61 e:. ProgOI:>flo:
e:. '"''r.>ge
bSr--..

_j
b7<r.c>
111 e:. l11201KDOI:".o
IB f:) VloJJEJDO

1.<..
~ ~ ~,~~···-s -· ~ cl-
i ) •.

FiGURA 3.5 Estrutura de diretório como taxonomias.


r;;

36 Capitulo Três

3.2.1.2 Tesauros X antologias modelar o'IJ!ii


lacionamellii!
Um tesauro reúne um conjunto de relacionamentos entre termos que estão organizados em uma
sa-efeito, ent:
taxonomia (que pode ou não ser semanticamente fraca). Dessa forma, podemos definir um tesauro
de relacionüt_
como uma taxonomia adicionada de um conjunto de relacionamentos semânticos (equivalência, asso-
ciação, entre outros) entre seus termos. Tesauros são úteis, pois podem ser utilizados por indexadores
Atualmeft:
para atribuir uma terminologia consistente a várias bases de dados.
xico para a li:
on line, no e;
Um tesauro é defmido pelo padrão ANSIINISO Monolingual Thesaurus Standard como:
cialistas em '-
dos seres hU:
"um vocabulário controlado organizado segundo uma ordem conhecida e estruturado de modo a
disponibilizar claramente os relacionamentos de equivalência, associação, hierárquicos e homôni-
NoWonD-
mos existentes entre tennos. Esses relacionamentos devem ser evidenciados através de identificado-
palavras. Em
res padronizados para os relacionamentos. (... ) O objetivo básico de um tesauro é facilitar a recupe-
plo da pala\i
ração e obter consistência na indexação de documentos escritos."
grandes ennt
Um tesauro visa garantir que conceitos sejam descritos consistentemente, de modo a permitir que
Aseguirt
usuários possam refinar buscas e localizar a informação de que necessitam. Para facilitar essa tarefa,
tesauros contam com relacionamentos adicionais que auxiliam na organização da informação. Na ta-
bela a seguir detalhamos e exemplificamos alguns desses relacionamentos. Fle tdt """
~eod<. (?} .
Note que em um tesauro os tipos de relacionamentos entre seus termos são fmitos e bem definidos.
Lm
Esse conjunto de relacionamentos é bem útil na criação de vocabulários, mas não é suficiente para

-- --
WordNet
TABELA 3.1 Relacionamentos semânticos de um tesanro l]v:Íictiael úãc0iitruJ .--
Sc=hwo:d: L_

Relacionamento Definição Exemplo


semântico
Overviev
Sinônimo Um termo X tem quase o mesmo Relatório é um sinônimo para doeu-
'Ibcnoun~~
Sinúlara significado que o termo Y. menta.
l. l:>llk. 011:7::i;
Equivalente 2. I:Uik, $!=<;::::
3. I:Uik, 12:Ü:f;i.- ·
Usado para 4. 1:111k=.tc:k-
5. eoo!tt, t=k-1
Homônimo O termo X tem a mesma grafia Um tanque, veículo militar, tem a
Sc=hforiSy.lc:J
Mesma grafia que o termo Y, porém tem signí- mesma grafia de tanque, receptáculo 0Sbowsl=
OSbow~
ficado diferente. para guardar líquidos, e tanque, lugar I Soii!Ch I .
onde se lava roupas.
Mais amplo do que (hierar- Um termo X tem significado Organização tem significado mais
quia- pai de superclasse) mais amplo do que o termo Y. amplo do que instituição financeira. Thovcrb "':=k"""
Mais restrito (hierarquia - Um termo X tem significado Instituição financeira tem significado
filho de subclasse) mais restrito do que o termo Y. mais limitado do que organizaçãÓ.
Associado O termo X está associado a um Um prego está associado a um mar-
Associativo termo Y, isto é, existe um rela- tela.
Relacionado a cionamento não especificado en-
tre os dois termos.
~ --· ·- -··-

_j_
Quem já Fez? antologias e Ciêndas da Computação 37

modelar outros aspectos do mundo real. Muitas vezes é necessário relacionar conceitos utilizando re-
lacionamentos do tipo parte-de, membro-conjunto, fase-processo, lugar-região, material-objeto, cau-
~os em uma
sa-efeito, entre muitos outros. Um tesauro não permite a seus usuários a criação destes e novos tipos
-:um tesauro
de relacio11amento. para tal é necessário utilizar uma ontologia.
.!ência, asso-
indexadores
Atualmente o tesauro mais utilizado na prática é o WordNet. O WordNet é um banco de dados lé-
xico para a língua inglesa com mais de 42.000 termos. O WordNet pode ser utilizado interativamente
on line, no endereço http://www.cogsci.princeton.edu/-wn/. O WordNet foi desenvolvido por espe-
no:
cialistas em cognição. Esse projeto foi baseado em teorias psicolingüísticas sobre a memória léxica
dos seres humanos.
de modo a
!Se homôni-
No WordNet cada palavra é associada a uma ou várias definições, chamadas de sentidos (senses) das
:ãentificado-
palavras. Em linguagem natural, palavras podem ser aplicadas com sentidos diferentes (veja o exem-
:ar a recupe-
plo da palavra "tanque", na Tabela 3.1). Esse fenômeno se chama polissemia e é considerado um dos
grandes entraves ao desenvolvimento de softwares que se baseiam em linguagem natural.
.permitir que
A seguir mostramos o resultado da busca ao termo tank (tanque) no WordNet.
j essa tarefa,
jaÇão. Na ta-

.!!D. definidos.
rficiente para

- WordNet 2.0 Search


Scorch word: ~ - -~-~-:-::-:J I Find senses

êlparadocu-
Overview for "tank"

Thenoun •tonk• h"" 5 cc.,es in WordNct


.... -------·---- -1:' i.
!
1. t:mlc. otmyl:lllk, ormorcd combatvchiclc. ormoUtcd combntvchiclc -- (M tnclosed ormorcdmih!azyvchic!c;hos a c:umon ""dmovcs on calcrpillartrcads)
2. bnk. olor.>&e tlnk. -· (aJm&e (usuolly mctnllit:) vessdfor holdicg g;uc: or liquids)
3. bnk. t:mkfill- (o.s much "" a tlnk. will bolei)
=
4. tlnk. car, t:ml:. - (a frcW>t thatt=spoliS lqutds or pu in buli:)
S. coo!er, t:ll1k -- (o. ceH for 'Oiolall p~ners)
.illtar, tem a
Scateh for! S}:noeyms;Órderedo/~~~~ ~~-9~~n~ 6) ofscnscs (- -_·: -]
,receptáculo 0 Sho\v glos.cs
O Sbowco~hdp
<:mque,lugar I Sc.W. I

meado mais - -- - ------·- · -


Thc vc'tb •tank.• h:l: 2 :;enses in WordN~t
_o financeira.
~significado

~ção. FIGURA 3.6 Resultado da busca ao termo tank (tanque) no WordNet


_Ç.o a um mar-
·~

·-;:;;--
illii -~ ·· . .,.-
-
38 Capitulo Três

Além da definição para o tenno, note que o WordNet também fornece informações sobre: uma
sofis
o Sinônimos - nós da taxonomia que possuem o mesmo significado que o tenno em questão,
xf&
o Hiperônimos- nós que mantêm relacionamentos de pai-de, superclasse, com sentido mais amplo
o Utili.
do que o termo em questão,
o Hipônimo- nós que mantêm relacionamentos de filho-de, subclasse, com um sentido mais res-
trito do que o termo em questão. 3.2.2 d
No quadro a seguir mostramos o detalhamento do tenno tank (tanque). Outro si
- -- ··--- - -·· - ·· · ··- -- ··- -- · ·- - - ·· - - - .
paraadl&
I
~

Results f or NSynonyms , ordered by estimated frequency" search of noun "tank" Ontá.


! -· - -- -· -· - - - · - - -- · -- -- - - - - -- - - ·- - ------· ---
o

eeY~

I
Displa y synonyms and immediate hypernyms of synsets containing
. the search string. synsets are ordered by trequency of occurrence . I co~

Hypernym is the generic t erm used t o designate a whole class of I • Onui.

I specifi c inst ances . Y is a hypernym of X if X i s a (kind ofJ Y.


o
espeç
Ontoi
I Hypernym s yns ets are preceded by "a>".
I - -·- ---- -· ·-- -· _ _.. --- - - .. - ! o
atravi:
Ontoi
1 5 senses of tank
cação
II Sense 1 I. desen
tank , army tank , armo red combat vehicle, armoured combat vehicle -- (an en
I closed•> armored military vehicle; has a cannon and moves on caterpillar treads)
mil i tary vehicle -- (vehicle used by the armed f orces)
I
~> armored vehicle, armoured vehicle - - 1
(a vehicle that is protected by armor plate)
=> tracked vehicle -- (a self-propelled vehicle that moves on tracks )
Sense 2
tan k, storage tank --
(a large (usually met allic) vessel for holdi ng gases or liquids)
=> vessel --
(an object used as a container (especiall y for liquids))
Sense 3
tank, tankful -- (as much as a tank will hold)
I => containerf ul -- (the quantity that a container will hold)
I Sen se 4
Sen ~
tank car. tank - - (a fr ei.ght car that t ransports liquids or gases in bulk)
=> freight car - - (a ra' i lway car that carries freight)
I Sense 5 I0Rt0\~
I cooler,•> cell.
L__
tank -- (a cell for violent prisoners)
jail cell, prison cell -- (a room where a prisoner is kept)
·- - -- - · - -- - -- - - - -

Nas últimas duas seções fizemos uma comparação entre taxonomias e tesauros com antologias.
Essas observações foram resumidas por Deborah McGuiness. Segundo a autora, são três as proprie-
dades essenciais de uma ontologia para a Web que as tomam mais expressivas do que taxonomias e
tesauros. São elas:
o Estrita hierarquia de subconceitos- toda a instância de uma classe tem de ser uma instância do
nó pai - hierarquia tipo-de formal. A organização dos tennos segundo o relacionamento tipo-
de (generalização) forma a espinha dorsal da ontologia.
o Interpretação livre de ambigüidades para os significados e relacionamentos. As propriedades de
cada nó podem ser definidas pelos usuários. Essas propriedades podem ter valores restritos por