Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Ronaldo S. Mello
GBD/INE/CTC/UFSC
GBD
UFSC
Novembro, 2010
Grupo de Banco de
Dados da Universidade
Federal de Santa
Catarina
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Dados na Web
Um oceano de contedo
Oceano
profundo
Processo de pesquisa
Dados invisveis
Visveis
apenas
quando
mostrados
em
pginas
dinmicas criadas a
partir do resultado de
uma
pesquisa
definida sobre um
formulrio - Web
Form
Cars.com
Amazon.com
Biography.com
Apartments.com
411localte.com
401carfinder.com
Access
Structure
Surface Web
Deep Web
Principais Aplicaes
#WFs ~= 25 milhes
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
pgina seed
hyperlinks a partir
das seeds
...
Graduao
...
SECCOM
...
BD de pginas
com alto acesso
O que procurar?
O que procurar?
Forms
para Login
Pginas que possuam forms para
BDs!
Necessita-se de focused-crawlers !
Algumas Abordagens
...
Passos da Abordagem
1) Treinamento
Passos da Abordagem
2) Aprendizado
Caractersticas conhecidas
Estruturas:
Make
Model
Year
Make
Model
Price: From
To
URL:
http://www.cars.com
Caractersticas conhecidas
Estruturas:
Make
Model
Year
Make
Model
Price: From
To
URL:
http://www.cars.com
Caractersticas conhecidas
Estruturas:
Make
Model
Year
Make
Model
Price: From
To
Aprendizado:
Termos: ZIP, miles,
Estrutura: Maximum Price
URL:
http://www.cars.com
Caractersticas conhecidas
Estruturas:
Make
Model
Year
Make
Model
Price: From
To
PROBLEMAS:
- No considera sinnimos na comparao
Ex.: brand ~ make e manufacturer ~ make
- Domnios com WFs muito heterogneas
(muitos templates possveis...)
URL:
http://www.cars.com
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Metadados (WFs)
Dados
Extrao de Metadados
<HTML> ...
<FORM> ...
<LABEL for="example_text_1">Name:</label>
<INPUT type="text" name="text_1" id="text_1" /> ...
<LABEL for="example_select_1">State:</label>
<SELECT name="select_1" id="select_1">
<option>AK</option>
<option>AL</option>
<option>AR</option> ...
</SELECT> ...
restries de valor
rtulos de
</FORM>
de atributos
atributos
</HTML>
Extrao de Metadados
<HTML> ...
<FORM> ...
<LABEL for="example_text_1">Name:</label>
<INPUT type="text" name="text_1" id="text_1" /> ...
<LABEL for="example_select_1">State:</label>
<SELECT name="select_1" id="select_1">
<option>AK</option>
<option>AL</option>
<option>AR</option> ...
</SELECT> ...
</FORM>
PROBLEMAS:
</HTML>
Extrao de Metadados
<HTML> ...
<FORM ...> ...
Name: <INPUT type="text" name="customerName"> ...
eMail: <script language="JavaScript" ...> ... </script>
... (required field) ...
<INPUT type="text" name="email"> ...
</FORM> ...
</HTML>
<HTML> ...
<FORM ...> ...
<LABEL for="makeid">Make:</label>
<SELECT name="makeid" id="makeid"
onchange="popMakes();">
</SELECT> ...
</FORM> ...
</HTML>
PROBLEMAS:
- Nem todo campo de uma WF possui <label>
- Nem sempre fcil descobrir o rtulo e as restries de um campo
em um cdigo HTML!
Extrao de Metadados
Algumas abordagens
...
Estratgias:
anlise do layout da WF
PROBLEMAS:
- Dependncia do template de domnio (que fixo!)
- A abordagem falha em casos como este (rtulo
do atributo dentro dos valores permitidos!):
Extrao de Dados
Principal questo:
Subconjunto de atributos da WF
Verifica se um TC informativo
Estratgia: (cont.)
Estratgia: (cont.)
PROBLEMAS:
Um TC pouco informativo descartado
- Difcil avaliar
a cobertura de qualquer abordagem...
Exemplo: (make, year) mais informativo que (make,
- Valores seeds
ruins reduzem a cobertura, pois retornam
price), pois existem menos veculos com um certo preo
poucos dados no do
resultado
(chute
!!)
que veculos
em umruim
certo ano.
- Abordagem fica pesada para WFs com muitos atributos
Iniciam com entre
valores
seeds
relevantes)
- Dependncias
atributos
no (considerados
foi considerada,
para cada
atributo
no sentido
de evitar
o teste de combinaes invlidas
Novos
Exemplo:
makevalores
= 'Fiat' relevantes
e model = 'Focus'
descobertos vo sendo
incorporados aos testes
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Esquema global
ai:
aj:
ai:
aj:
ai:
aj:
ai:
aj:
ai:
aj:
ai:
aj:
ai:
aj:
Mapeamentos 1-N
Dicotomia atributo-valor
...
Correlaes
de
words"
Exemplo:
strings parecidos
date aparece com alta frequncia associada a departure
no domnio areo
Converte
as
strings
representativas
da
concatenao ordenada dos valores permitidos
para os atributos em vetores e calcula a distncia
cosseno entre eles
Exemplo:
Alta correlao
Make
correlNeg(Make, Model) = 0
50
50
100
5000
Sem correlao
Make
10
20
5000
Alta correlao
Make
correlNeg(Make, Model) = 0
50
50
100
5000
PROBLEMAS:
- Requer uma amostra de WFs pr-computada com
Brand
frequncias de rtulos e valores vlidos
1
- No trata a dicotomia atributo-valor, pois no0define
uma
0
10
20
Sem correlao
estratgia
para comparao de rtulos
Make e valores
1
5000 0
- No trata correspondncias 1-N entre atributos
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Crawling,
extrao
e
matching
visam
disponibilizar dados para consultas integradas
Quadrantes
Metadados
(WFs)
Dados
Consultas
No-Estruturadas
Consultas
Estruturadas
Mquinas de busca
matching
visam
baseadas
em keywords
Crawling,
extrao
e
- indexam domnios, rtulos
disponibilizar dados para consultas
integradas
e valores de atributos das WFs
Quadrantes
Metadados
(WFs)
Dados
Consultas
No-Estruturadas
Consultas
Estruturadas
Quadrantes
Metadados
(WFs)
Dados
Crawling,
extrao
e
matching
visam
Carncia de BDs tradicionais (visveis) com
disponibilizar
esquemas
e dados bemdados
definidos para
sobre aconsultas integradas
consultas
a seus dados e metadados
Quadrantes
Exemplos:
Consultas
SELECT * FROM WebForms
WHERE LABEL = 'Make' No-Estruturadas
(filtro por metadado)
SELECT Model FROM Veiculos
WHEREMetadados
Make = 'Ford'
(filtro por dado)
(WFs)
Consultas
Estruturadas
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
http://metaquerier.cs.uiuc.edu/repository/
http://www.completeplanet.com
...
http://www.expedia.com
http://www.travelocity.com
(hotis, carros, areo)
http://apartments.cazoodle.com/ (locaes)
...
Mquinas de Busca
http://www.deeppeep.org
http://turbo10.com
...
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
Contextualizar keywords
determinados domnios
como
atributos
ou
valores
em
Roteiro
1. Introduo
2. Principais Tpicos de Pesquisa
i. Crawling
ii. Extrao
iii. Matching
iv. Consulta
3. Algumas Iniciativas
4. Tendncias
Referncias
www.press.umich.edu/jep/07-01/bergman.html
(Deep Web artigo introdutrio)
http://dblp.mpi-inf.mpg.de/dblpmirror/index.php#query=deep
web&qp=H1.20.21:W1.4:F1.4:F2.4:F3.4
http://en.wikipedia.org/wiki/Deep_Web
http://www.inf.ufsc.br/~ronaldo/deepWeb
Deep Web
Ronaldo S. Mello
GBD/INE/CTC/UFSC
GBD
UFSC
Novembro, 2010
Grupo de Banco de
Dados da Universidade
Federal de Santa
Catarina