Sei sulla pagina 1di 66

Deep Web

Ronaldo S. Mello
GBD/INE/CTC/UFSC

GBD
UFSC

Novembro, 2010

Grupo de Banco de
Dados da Universidade
Federal de Santa
Catarina

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Dados na Web

Um oceano de contedo

Pesquisa a dados na Web

Atirar uma rede neste oceano

Oceano

Tem uma superfcie

Alguns animais (dados) so facilmente visveis


Fcil captur-los com a rede (pesquis-los)

profundo

Animais que no so visveis


Difcil encontr-los e captur-los

Surface Web (ou Web Visvel)

Dados em pginas Web estticas

Dados alcanados pelas mquinas de busca search engines - barcos pesqueiros

Google, Yahoo!, Bing, ...

Processo de pesquisa

No focado em domnio (keywords)

Dados so facilmente localizados no contedo


da pgina ou atravs de seus links

Deep Web (ou Web Escondida)

Dados invisveis

Visveis
apenas
quando
mostrados
em
pginas
dinmicas criadas a
partir do resultado de
uma
pesquisa
definida sobre um
formulrio - Web
Form

Web Form (WF)


Interface de pesquisa
para um Banco de
Dados
(BD)
escondido na Web

Deep Web: Oceano de Dados & Domnios

Cars.com

Amazon.com
Biography.com
Apartments.com

411localte.com

401carfinder.com

Deep Web vs. Surface Web


Similaridade
- Ambas crescem rapidamente em diversos domnios
Diferenas
- Quadrantes de Kevin Chang

Access
Structure

Surface Web

Deep Web

Por qu o Interesse pela Deep Web?

Principal fonte de dados estruturados na Web a


disposio

Servios teis em diversos domnios!

Companhias areas, concessionrias e revendas


de veculos, hotis, classificados, acervos
bibliogrficos e cientficos,
Exemplo:

Vou mudar de cidade por motivos pessoais e


preciso investigar opes baratas para a viagem,
aluguel de carro e casa, bem como ofertas de
emprego no novo local

No consider-los (descobrir e utilizar) um


desperdcio!

Por qu o Interesse pela Deep Web?

Principais Aplicaes

Diretrios/catlogos de BDs escondidos (BDs na Web)


por domnio

Sistemas de busca de BDs na Web baseados em seus


dados/metadados

Sistemas integrados de busca/prestao de servicos


baseados em BDs na Web

Preciso comprar um carro. Onde encontro revendas online?


Desejo consultar informaes de marca, modelo, ano e
preo

Quero consultar valores de dirias de hotel em Florianpolis


(num nico site, de preferncia...)

Busca por WFs similares

Esse formulrio de busca de ofertas de emprego um


pouco limitado ou tem poucos dados. Quero acessar
outros...

Deep Web Algumas Informaes

Deep Web ~2000x maior que Surface Web

No h estimativas atualizadas do seu tamanho...

2001: 7500 Tb (Deep Web) vs. 19 Tb (Visible Web)

#WFs ~= 25 milhes

#Deep Web (#BDs na Web) ~= 2.6 milhes

95% da Deep Web estimada como pblica

No est sujeita a taxas e registros

Grandes domnios em ordem de frequncia


1) Servios (hotis, veculos, empregos, previso do tempo, )
2) Cincia & educao (bases cientficas, sites educacionais,
instituies, )
3) Arte & cultura (cinema, msica, eventos, tickets, )
4) Acervo bibliogrfico (conferncias, peridicos, ...)

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Deep Web - Tpicos de Pesquisa

Implementar aplicaes para Deep Web traz desafios


de pesquisa para a comunidade de BD

Como descobrir onde existem BDs na Web?

Como descobrir a estrutura/dados dos BDs na Web?

Extrao de dados da Deep Web

Como prover catlogos e servios integrados por


domnio para BDs na Web?

Deep Web crawling

Matching (casamento) de dados da Deep Web

Como acessar dados de interesse em BDs na Web?

Consulta a dados na Deep Web

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Web Crawling (tradicional)

Descoberta de dados (estticos) na Web pelas


mquinas de busca
Web

Web Crawling (tradicional)

Descoberta de dados (estticos) na Web pelas


mquinas de busca
Web

pgina seed

Web Crawling (tradicional)

Descoberta de dados (estticos) na Web pelas


mquinas de busca
Navegao em
Web

hyperlinks a partir
das seeds

Web Crawling (tradicional)

Descoberta de dados (estticos) na Web pelas


mquinas de busca
ndice de termos
Web

...
Graduao

(URL1, freq y), ...

...
SECCOM

(URL1, freq x), ...

...

BD de pginas
com alto acesso

Deep Web Crawling

O que procurar?

Pginas que possuam forms para BDs!

Abordagem mais simples

Encontrar pginas HTML com tag <form>


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<HTML>
...
<FORM ...>
<LABEL for="firstname">First name: </LABEL>
<INPUT type="text" id="firstname"><BR> ...
</FORM> ...
</HTML>

Deep Web Crawling


Forms
para cadastro

O que procurar?

Forms
para Login
Pginas que possuam forms para
BDs!

Abordagem mais simples:

Encontrar pginas HTML com tag <form>


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<HTML>
...
<FORM ...>
<LABEL for="firstname">First name: </LABEL>
<INPUT type="text" id="firstname"><BR> ...
</FORM> ...
</HTML>

PROBLEMA: Nem toda WF uma porta de entrada


para pesquisa um BD na Web!

Deep Web Crawling

Necessita-se de focused-crawlers !

Crawlers especializados na busca de WFs para


BDs (geralmente focados em um domnio)

Algumas Abordagens

Comparao com termos relevantes do domnio

Comparao com templates estruturais de WFs

Tcnicas de aprendizado de mquina (machine


learning)

...

Aprendizado de caractersticas de WFs


relevantes a partir de amostras de pginas

Abordagem de (Barbosa & Freire, 2007)

Um classificador de pginas de WFs de BDs em


um certo domnio
Aplica machine learning (classificao)

Aprende caracteristicas relevantes existentes


nas WFs

Aprimora, a cada crawling, estas caractersticas

Incorpora novas caractersticas encontradas


Aprende a classificar melhor a relevncia das
WFs

Passos da Abordagem
1) Treinamento

Anlise do contedo e dos links (navegao


backward) que conduzem a pginas "seeds"
(amostra)

Seleo manual de caractersticas do domnio

atributos (aspectos estruturais relevantes)


termos (valores mais significativos do dominio)
encontrados nas WFs, ncoras e links

Passos da Abordagem
2) Aprendizado

Analisa links para outras pginas, comparando termos na


ncora e palavras prximas a ela (at uma certa distncia)
com termos do domnio

Aplica stemming (radicalizao) e remoo de stop words


(artigos, preposies, ...) para facilitar a comparao

Exemplo: 'make of cars', 'car makes' 'car make'

Analisa a URL do link, verificando se termos significativos


aparecem como substrings nela
Analisa o contedo da pgina apontada pelo link, comparando
os atributos e valores na WF com atributos e termos j
aprendidos no domnio
Caso a pgina seja considerada relevante:

Registra a sua URL

Cataloga novos aspectos estruturais e termos aprendidos

Exemplo Domnio de Veculos

Caractersticas conhecidas

Termos: buy, rent, new, used,


car, make, model, year,
price, from, to

Estruturas:
Make

Model

Year

Make

Model

Price: From

To

URL:
http://www.cars.com

Exemplo Domnio de Veculos

Caractersticas conhecidas

Termos: buy, rent, new, used,


car, make, model, year,
price, from, to

Estruturas:
Make

Model

Year

Make

Model

Price: From

To

URL:
http://www.cars.com

Exemplo Domnio de Veculos

Caractersticas conhecidas

Termos: buy, rent, new, used,


car, make, model, year,
price, from, to

Estruturas:
Make

Model

Year

Make

Model

Price: From

To

Aprendizado:
Termos: ZIP, miles,
Estrutura: Maximum Price

, ..., Your Zip

URL:
http://www.cars.com

Exemplo Domnio de Veculos

Caractersticas conhecidas

Termos: buy, rent, new, used,


car, make, model, year,
price, from, to

Estruturas:
Make

Model

Year

Make

Model

Price: From

To

PROBLEMAS:
- No considera sinnimos na comparao
Ex.: brand ~ make e manufacturer ~ make
- Domnios com WFs muito heterogneas
(muitos templates possveis...)

URL:
http://www.cars.com

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Deep Web - Extrao

Aquisio e catalogao de informaes


relevantes sobre os BDs na Web
Tipos de extrao

Metadados (WFs)

Atributos e restries (valores e dependncias)

Dados

Contedo escondido nos BDs

Extrao de Metadados

Abordagem mais simples

Analisa a tag <label> das WFs nas pginas


HTML, extrando informao delas

<HTML> ...
<FORM> ...
<LABEL for="example_text_1">Name:</label>
<INPUT type="text" name="text_1" id="text_1" /> ...
<LABEL for="example_select_1">State:</label>
<SELECT name="select_1" id="select_1">
<option>AK</option>
<option>AL</option>
<option>AR</option> ...
</SELECT> ...
restries de valor
rtulos de
</FORM>
de atributos
atributos
</HTML>

Extrao de Metadados

Abordagem mais simples

Analisa a tag <label> das WFs nas pginas


HTML, extrando informao delas

<HTML> ...
<FORM> ...
<LABEL for="example_text_1">Name:</label>
<INPUT type="text" name="text_1" id="text_1" /> ...
<LABEL for="example_select_1">State:</label>
<SELECT name="select_1" id="select_1">
<option>AK</option>
<option>AL</option>
<option>AR</option> ...
</SELECT> ...
</FORM>
PROBLEMAS:
</HTML>

- Nem todo campo de uma WF possui <label>


- Nem sempre fcil descobrir o rtulo e as restries de um campo
em um cdigo HTML!

Extrao de Metadados
<HTML> ...
<FORM ...> ...
Name: <INPUT type="text" name="customerName"> ...
eMail: <script language="JavaScript" ...> ... </script>
... (required field) ...
<INPUT type="text" name="email"> ...
</FORM> ...
</HTML>
<HTML> ...
<FORM ...> ...
<LABEL for="makeid">Make:</label>
<SELECT name="makeid" id="makeid"
onchange="popMakes();">
</SELECT> ...
</FORM> ...
</HTML>

PROBLEMAS:
- Nem todo campo de uma WF possui <label>
- Nem sempre fcil descobrir o rtulo e as restries de um campo
em um cdigo HTML!

Extrao de Metadados

Algumas abordagens

Comparao com termos do domnio

Anlise do layout da WF e inferncia do nome do


atributo

Tcnicas de machine learning

Aprendizado da estrutura e da teminologia de


atributos de WFs em um certo domnio

Anlise de dependncias entre atributos

Proximidade rtulo-campo, tamanho e estilo de


fonte, ...

...

Make e Model so atributos que em geral aparecem


juntos, pois Make Model. Se encontrei um (1)
deles, provavelmente encontrarei o outro

Abordagem de (Alvarez et al., 2007 )

Abordagem para extrao de atributos de WFs

Estratgias:

anlise do layout da WF

comparao com termos do domnio

Compara o contedo de cada WF com um


template do domnio que descreve

atributos (nomes, sinnimos e peso)

valores (termos mais comuns em buscas)

Exemplo de Template de Domnio

Descoberta de Atributos de WFs


1) Determina a relevncia de palavras prximas a campos
com base em

Distncia mnima no layout da WF

ngulo no layout da WF (preferncia por posies left / top)

Comparao de nomes e sinnimos no template

Comparao de valores vlidos (caso existam)

Similaridade das palavras

Mtricas de similaridade: TF-IDF + Jaro-Winkler

TF-IDF: importncia de um termo nas WFs de


mesmo domnio (sua frequncia)
Jaro-Winkler: similaridade de strings

2) Ranking de associaes candidatas e poda com base


em um threshold

Descoberta de Atributos - Anlise de Layout

Campo 1 (f1): apesar da string (example: Thinking in Java) estar ligeiramente


mais prxima que a string Book Title, a string Book Title est
posicionada em um ngulo mais adequado
(posicionamento mais usual)

Descoberta de Atributos - Resultados

Descoberta de Atributos - Resultados

PROBLEMAS:
- Dependncia do template de domnio (que fixo!)
- A abordagem falha em casos como este (rtulo
do atributo dentro dos valores permitidos!):

Extrao de Dados

Problema: no se sabe quantos dados existem,


pois o BD est escondido!

Principal questo:

Qual o conjunto adequado e mnimo de consultas


a serem submetidas nas WFs para cobrir todos
os dados do BD?
Compromisso: cobertura vs. #consultas

Tema ainda em aberto

Poucas solues na literatura...

Abordagem de (Halevy et al., 2008)

Abordagem utilizada em experimentos para


indexao da Deep Web pela Google
Estratgia:

Define templates de consulta (TCs)

Subconjunto de atributos da WF

Verifica se um TC informativo

Testam combinaes de valores e verificam a


cobertura dos resultados

TC informativo se D / S > threshold, onde


D = #conjuntos fortemente distintos de resultado
(leva em conta tambm volume de dados)
S = #consultas submetidas (<= 200)

Abordagem de (Halevy et al., 2008)

Estratgia: (cont.)

Inicia com TCs de tamanho 1 (1 atributo) e vai


incrementando at tamanho 3 (3 atributos)

TCs superiores a 3 so muito restritivos


Um TC pouco informativo descartado

Exemplo: (make, year) mais informativo que (make,


price), pois existem mais veculos de um certo ano do
que veculos com um certo preo

Inicia com valores seeds (considerados relevantes)


para cada atributo

Novos valores relevantes descobertos vo sendo


incorporados aos testes

Exemplo: inicia-se com 'Ford' e 'Fiat' para make, mas


posteriormente, ao testar outros atributos, descobre-se
que h muitos veculos 'Toyota'. Novos testes so feitos
ento com make = 'Toyota'

Abordagem de (Halevy et al., 2008)

Estratgia: (cont.)

Iniciam com TCs de tamanho 1 (1 atributo) e vo


incrementando at tamanho 3 (3 atr.)

TCs superiores a 3 so muito restritivos

PROBLEMAS:
Um TC pouco informativo descartado
- Difcil avaliar
a cobertura de qualquer abordagem...
Exemplo: (make, year) mais informativo que (make,
- Valores seeds
ruins reduzem a cobertura, pois retornam
price), pois existem menos veculos com um certo preo
poucos dados no do
resultado
(chute
!!)
que veculos
em umruim
certo ano.
- Abordagem fica pesada para WFs com muitos atributos
Iniciam com entre
valores
seeds
relevantes)
- Dependncias
atributos
no (considerados
foi considerada,
para cada
atributo
no sentido
de evitar
o teste de combinaes invlidas
Novos
Exemplo:
makevalores
= 'Fiat' relevantes
e model = 'Focus'
descobertos vo sendo
incorporados aos testes

Exemplo: inicia-se com 'Ford' e 'Fiat' para make, mas


posteriormente, ao testar outros atributos, descobre-se
que h muitos veculos 'Toyota'. Novos testes so feitos
ento com make = 'Toyota'

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Deep Web - Matching

Foco: casamento de esquemas de WFs

Enfoques tradicionais de matching de BDs so usados

Esquema global

ai:
aj:

ai:
aj:

ai:
aj:

ai:
aj:

Expanso de consultas (WFs interoperveis)

ai:
aj:

ai:
aj:

Viso integrada (cetralizada) de esquemas de WFs


Distribuio da consulta e integrao do resultado
Vantagens: usurio interaje sobre uma viso mais
ampla do domnio; mapeamentos apenas 1-N
Desvantagem: manuteno do esquema global

ai:
aj:

Consulta em uma WF propagada para outras WFs


Resultados apesentados segundo o esquema local
Vantagem: evita a gesto de um esquema global
Desvantagens: mapeamentos do tipo M-N

Deep Web - Matching

Problema fundamental de matching em WFs

Definio de afinidades entre atributos

Problema complicado devido a alta heterogeneidade das WFs

Mapeamentos 1-N

Diversidade de nomenclaturas e de restries de valores

Dicotomia atributo-valor

...

Deep Web - Matching

Tcnicas aplicadas (no-exclusivas)

Dicionrios gerais (Wordnet) e de domnio

Funes de similaridade para atributos (rtulos,


tipos de dados inferidos e valores permitidos)

Correlaes

Anlise da co-ocorrncia / proximidade


conjuntos de atributos em WFs

Exemplo: make e model

de

Abordagem de (Nguyen et. al, 2008)

Definio de grupos (clusters) de atributos


similares em WFs distintas
Principais passos:
a) Pr-processamento: stemming e eliminao de "stop

words"

Ex.: "select a make", "select makes" "select make"

b) Definio da similaridade entre pares de atributos:


Sim (ai, aj) = f ( labelSim (ai,aj), valueSim (ai,aj),
correlNeg (ai,aj), correlPos (ai,aj) )

Abordagem de (Nguyen et. al, 2008)

LabelSim (ai, aj) = cos (ai.label, aj.label)

Converte as strings de rtulos em vetores e


calcula a distncia cosseno entre eles

Considera a frequncia de cada termo do rtulo


sozinho ou em conjunto com outros termos
nas WFs no clculo da similaridade

Fato muito comum em WFs

Exemplo:

LabelSim (ai.'departure',aj.'departure date') = 0.76

strings parecidos
date aparece com alta frequncia associada a departure
no domnio areo

Abordagem de (Nguyen et. al, 2008)

ValueSim (ai, aj) = cos (


concat (sort(ai.valor-1, ..., ai.valor-n)),
concat (sort(aj.valor-1,...,aj.valor-n)))

Converte
as
strings
representativas
da
concatenao ordenada dos valores permitidos
para os atributos em vetores e calcula a distncia
cosseno entre eles

Considera tambm a frequncia dos valores na


amostra no clculo da similaridade

Exemplo:

ValueSim ( ai.{'fiat ford toyota'},


aj.{'fiat ford wolkswagen'} ) = 0.67

Abordagem de (Nguyen et. al, 2008)

correlNeg(ai,aj) = 0, se ai, aj esto na mesma WF


freq(ai).freq(aj) / freq(ai)+freq(aj),
caso contrrio.

Considera que 2 atributos que aparecem juntos em


WFs jamais tero correlao negativa

A frmula gera valores mais altos para termos


sinnimos (no aparecem juntos em WFs)

correlPos(ai,aj) = freq(ai+aj) / min (freq(ai), freq(aj))

2 atributos que aparecem juntos em WFs tero alta


correlao positiva

Abordagem de (Nguyen et. al, 2008)

Exemplos (situaes extremas)


Model

Alta correlao
Make

correlNeg(Make, Model) = 0

50

50

100

5000

correlPos(Make, Model) = 5000 / min(50,100) = 100


Brand

Sem correlao

Make

10

20

5000

correlNeg(Make, Brand) = 5000.20 / (5000+10) = 100000 / 5020 ~= 20


correlPos(Make, Brand) = 0 / min(20,5000) = 0

Abordagem de (Nguyen et. al, 2008)

Exemplos (situaes extremas)


Model

Alta correlao
Make

correlNeg(Make, Model) = 0

50

50

100

5000

correlPos(Make, Model) = 5000 / min(50,100) = 100

PROBLEMAS:
- Requer uma amostra de WFs pr-computada com
Brand
frequncias de rtulos e valores vlidos
1
- No trata a dicotomia atributo-valor, pois no0define
uma
0
10
20
Sem correlao
estratgia
para comparao de rtulos
Make e valores
1
5000 0
- No trata correspondncias 1-N entre atributos

(testa apenas pares de atributos em WFs diferentes)


correlNeg(Make, Brand) = 5000.20 / (5000+10) = 100000 / 5020 ~= 20
correlPos(Make, Brand) = 0 / min(20,5000) = 0

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Deep Web - Consultas

Crawling,
extrao
e
matching
visam
disponibilizar dados para consultas integradas
Quadrantes

Metadados
(WFs)
Dados

Consultas
No-Estruturadas

Consultas
Estruturadas

Principal foco de pesquisa


e desenvolvimento

Deep Web - Consultas


- algumas iniciativas

Mquinas de busca
matching
visam
baseadas
em keywords

Crawling,
extrao
e
- indexam domnios, rtulos
disponibilizar dados para consultas
integradas
e valores de atributos das WFs

Dados de WFs geralmente


mantidos
em
BDs
relacionais

Quadrantes

Metadados
(WFs)
Dados

Consultas
No-Estruturadas

Consultas
Estruturadas

Pouca iniciativa, devido


dificuldade de extrao
Informaes sobre strings
de dados extrados de WFs
Crawling,
extrao
e somatching
mantidas emvisam
BDs
relacionais integradas
disponibilizar dados para consultas
Abordagens (prottipos)

Deep Web - Consultas

Quadrantes

Metadados
(WFs)
Dados

- retorna as WFs onde o dado


(keyword de entrada) se
encontra
Consultas - preencheConsultas
WFs com os dados
(keywords)
de
entrada,
No-Estruturadas
Estruturadas
retornando os resultados ao
usurio (Ex.: 'Fiat' infere que

uma marca de carro e busca


informaes em WFs de veculos) Google

Problema ainda em aberto

Deep Web - Consultas

- Inexistncia de sistemas e linguagens de


consulta para WFs e para dados dos BDs na
Web

Crawling,
extrao
e
matching
visam
Carncia de BDs tradicionais (visveis) com
disponibilizar
esquemas
e dados bemdados
definidos para
sobre aconsultas integradas

Deep Web (por domnio) que permitam

consultas
a seus dados e metadados

Quadrantes

Exemplos:
Consultas
SELECT * FROM WebForms
WHERE LABEL = 'Make' No-Estruturadas
(filtro por metadado)
SELECT Model FROM Veiculos
WHEREMetadados
Make = 'Ford'
(filtro por dado)

(WFs)

* Para formular estas consultas, preciso saber que


'LABEL' um metadado passvel de consulta e
que 'Make' um atributo do esquema de um BD na
Dadoscujos dados tambm posso
Web (Veculos)
consultar

Consultas
Estruturadas

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Deep Web Algumas Iniciativas

Catlogos / Diretrios de sites / metadados

Busca Integrada em um ou mais Domnios

http://metaquerier.cs.uiuc.edu/repository/
http://www.completeplanet.com
...
http://www.expedia.com
http://www.travelocity.com
(hotis, carros, areo)
http://apartments.cazoodle.com/ (locaes)
...

Mquinas de Busca

http://www.deeppeep.org
http://turbo10.com

...

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias
Referncias

Deep Web Tendncias de Pesquisa

Mecanismos eficientes de extrao e matching

Lidar com a alta heterogeneidade de metadados nas WFs

Boa cobertura de dados recuperados de BDs na Web

Conhecimento da semntica da Deep Web

Preencher automaticamente WFs a partir de keywords (Ex.:


'Toyota corolla 2010' preencher WFs de Veculos)

Contextualizar keywords
determinados domnios

como

atributos

ou

valores

Extrair esquemas/dados de BDs na Web e organiz-los em


BDs relacionais

Viabiliza consultas estruturadas e por similaridade

(Edital Universal CNPq Projeto: 481569/2010-3)

em

Identificar relacionamentos entre dados na Web

Viabiliza consultas inter-BDs na Web

(Ex.: livros a venda (BD e-commerce) de atores famosos (BD cinema))

Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta

3. Algumas Iniciativas
4. Tendncias

Referncias

Algumas (Outras) Referncias Web

www.press.umich.edu/jep/07-01/bergman.html
(Deep Web artigo introdutrio)

http://dblp.mpi-inf.mpg.de/dblpmirror/index.php#query=deep
web&qp=H1.20.21:W1.4:F1.4:F2.4:F3.4

(Deep Web artigos acadmicos)

http://en.wikipedia.org/wiki/Deep_Web

http://www.inf.ufsc.br/~ronaldo/deepWeb

Deep Web
Ronaldo S. Mello
GBD/INE/CTC/UFSC

GBD
UFSC

Novembro, 2010

Grupo de Banco de
Dados da Universidade
Federal de Santa
Catarina

Potrebbero piacerti anche