Sei sulla pagina 1di 38

Web di superficie

⚫ La surface web è quella porzione del world wide web


indicizzabile dai motori di ricerca convenzionali.
⚫ È anche noto come Clear net, il web visibile o il web
indicizzabile.
⚫ Il 96% degli utenti web utilizza i motori di ricerca per
trovare le informazioni necessarie, ma quasi una percentuale
altrettanto alta cita l'incapacità di trovare le informazioni
desiderate come una delle più grandi frustrazioni del web
⚫ Un motore di ricerca tradizionale vede solo una piccola
quantità di informazioni disponibili - un misero 0,03%
[fonte: OEDB]
Come funzionano i motori
di ricerca
L’attività dei motori di ricerca si divide in tre fasi:
• Analisi dei documenti e dei dati in genere attraverso appositi software, detti spider
• Catalogazione del materiale
• Risposta alle ricerche.

Il motore di ricerca ha l’obiettivo di analizzare i documenti (pagine web, foto, video)


pubblicati in Internet li classifica sulla base di alcuni CRITERI e restituisce all’utente
che compie la sua ricerca un elenco ordinato.
Da un paio di anni lo sviluppo delle funzioni legate alla geolocalizzazioni hanno
permesso ai motori di ricerca di restituirci risultati sempre più personalizzati.
Quando ci colleghiamo al sito di Google automaticamente siamo dirottati sulla
versione appartenente al paese dal quale ci stiamo collegando. Così se siamo in
Italia si aprirà Google Italia, se siamo in Francia Google Francia e così via. Questo è
possibile grazie all’individuazione del nostro IP. L’IP è un numero che identifica un
dispositivo collegato in rete. Una sorta di cap. In questo modo se la nostra ricerca
ha “intenti locali”, ad esempio: cerchiamo un ristorante, Google ci restituirà
risultati che riguardano la nostra zona di appartenenza con le annesse mappe.
Come funzionano i motori
di ricerca
⚫ I motori di ricerca costruiscono un database del Web utilizzando
programmi chiamati Spider o Web Crawler che si trovano con un
elenco di pagine Web conosciute.
⚫ Lo spider ottiene una copia di ogni pagina e indici, memorizzando
informazioni utili che permetteranno alla pagina di essere
rapidamente recuperata di nuovo in seguito.
⚫ Eventuali collegamenti ipertestuali a nuove pagine vengono
aggiunti all'elenco delle pagine da sottoporre a scansione.
⚫ Alla fine tutte le pagine raggiungibili vengono indicizzate, a meno
che lo spider non esaurisca il tempo o lo spazio su disco.
⚫ La raccolta di pagine raggiungibili definisce Surface Web.
i motori di ricerca

Lo “spider” è un robot che simula il comportamento di un qualsiasi


navigatore della rete (clicca su tutti i pulsanti e i link presenti) e
raccoglie tutta una serie di informazioni che vengono registrate nella
banca dati del motore di ricerca.
I criteri di classificazione non includono mai il giudizio umano
sulla qualità o la pertinenza di un sito.

5
Come funzionano i motori
di ricerca
Gli algoritmi di ricerca e di classificazione delle pagine sono
segreti e modificati regolarmente per 2 ragioni:
1. Tutti i motori sono gestiti da società a fini di lucro che ci
tengono a tenere segreto il codice informatico per il proprio
successo economico
2. I gestori dei motori non vogliono che i risultati della
ricerca siano manipolabili da parte di chi vuole
promuovere prodotti, informazioni o altro nel Web

6
Come funzionano i motori
di ricerca
I Webmaster, attraverso l’esperienza, cercano di scoprire
come ottenere il miglior posizionamento per il proprio sito.
Il criterio di ricerca più importante è quello per cui la parola o le
parole che stiamo cercando ricorrano effettivamente nella pagina. Se
il termine cercato è scritto in grassetto o è contrassegnato come
sottotitolo all’interno della pagina, gli viene assegnato un valore più
alto.
Importante per un sito è la “Link popularity” ossia il numero di
link presenti nel Web che portano ad esso.
(scrivere su Google: “link: nomedominio” per ottenere la “link popularity” del sito)

7
Un problema tipico delle ricerche in rete è la
difficoltà di "centrare" il documento o la
risorsa che ci interessa, e di essere quindi
sommersi da un mare di risposte non
significative, in mezzo alle quali annega ciò
che stiamo cercando.

Questo problema si
chiama:

8
Nessun motore di ricerca può offrire un giudizio di qualità e di autorevolezza
dell’informazione in termini di affidabilità e serietà.
Nessun motore di ricerca è capace di liberarci da un’analisi critica dei risultati fornitici e di
ricostruire per ciascuna pagina il contesto nella quale è nata.

Esistono però strumenti alternativi come i portali specializzati o


verticali (generalmente a carattere monografico);
esistono le “virtual library” (servizi di consultazione virtuali di carattere
universalistico in cui le informazioni sono raggruppate per categorie e
sottocategorie) ed anche le directory.
Tratto comune a tutte queste risorse è proprio la selezione umana e non
automatica dei Siti a differenza dei portali generalisti od “orizzontali” che
offrono poco o nessun accesso ragionato alle risorse del Web. 9
Il Web

10
Deep Web – Introduzione
⚫ Il deep web sono i contenuti world wide web che non fanno
parte del surface web, che invece è indicizzato dai motori di
ricerca standard.
⚫ E’ anche chiamato Deep net, Invisible Web o Hidden Web. E’
la più grande categoria in crescita di nuove informazioni su
Internet.
⚫ 400 - 500 volte più informazioni pubbliche rispetto al Surface
Web.
⚫ Qualità totale 1000 – 2000 superiore alla qualità del Surface
Web.
Caratteristiche
Surface
Web
(indicizzato,
accessibile)

WEB
Deep Web
(non indicizzato,
accessibile)

Dark Web
(non indicizzato,
nascosto)

12
Storia
⚫ Jill Ellsworth usò il termine Web invisibile nel 1994 per
riferirsi a siti Web che non erano registrati con alcun motore di
ricerca.
⚫ Mike Bergman ha citato un articolo del gennaio 1996 di Frank
Garcia: «E’ un sito che è forse ben progettato, ma non si è
voluto registrarlo su nessuno dei motori di ricerca. Quindi,
nessuno può trovarlo! E’ nascosto. Io lo chiamo Web
Invisibile."
⚫ Un altro primo uso di Invisible Web è stato Bruce Mount e
Matthew B. Koll di Personal Library Software nel 1996.
⚫ Il primo utilizzo del termine specifico Deep Web, ormai
generalmente accettato, avvenne nel già citato 2001
UN PO’ DI STORIA

• Nasce nel 1995 negli USA

• Scopi militari

• TOR (The Onion Router) per proteggere le


comunicazioni governative

• Crittografia a strati
14
Contenuti
⚫ Dynamic Content
⚫ Content non linkati
⚫ Reti Private
⚫ Contextual Web
⚫ Contenuti ad accesso limitato
⚫ Non-Scripted Content
⚫ Non-HTML/Text Content
Dynamic Content
⚫ Pagine dinamiche che vengono restituite in risposta
a una query inviata o a cui si accede solo tramite un
form.
⚫ Soprattutto se vengono utilizzati elementi di input
Open-Domain (come campi di testo).
⚫ Tali campi sono difficili da navigare senza la
conoscenza del dominio

Contenuto non collegato


Pagine non collegate da altre pagine.
Il che potrebbe impedire ai programmi di scansione
Web di accedere al contenuto. Questo contenuto è
indicato come pagine senza backlink (o inlink).
Private Web
⚫ Siti che richiedono registrazione e login (risorse
protette da password)

Web contestuale Pagine con contenuti che variano per


diversi contesti di accesso (ad es. intervalli di indirizzi IP
client o sequenze di navigazione precedenti).

Contenuti ad accesso limitato


⚫ Contenuti ad accesso limitato Siti che limitano l'accesso alle
loro pagine in modo tecnico (ad esempio utilizzando il Robots
Exclusion Standard, i CAPTCHA o le intestazioni HTTP
Pragma No-Cache che vietano ai motori di ricerca di sfogliarle
e creare copie memorizzate nella cache).
Scripted Content

⚫ Pagine accessibili solo tramite collegamenti prodotti da Java


Script e contenuti scaricati dinamicamente da server Web
tramite Flash o Ajax Solutions.

Contenuto non HTML/testo


⚫ Contenuti testuali codificati in file multimediali (immagine
o video) o formati di file specifici non gestiti dai motori di
ricerca.
Potenziale Profondo
⚫ Il Deep Web è un archivio infinito per una quantità di
informazioni che da alla testa.
⚫ È potente. Scatena la natura umana in tutte le sue forme,
sia buone che cattive.
⚫ Ci sono database di ingegneria, informazioni finanziarie di
ogni tipo, documenti medici, immagini, illustrazioni...
l'elenco potrebbe continuare, fondamentalmente, per
sempre.
⚫ Ad esempio, gli ingegneri edili potrebbero potenzialmente
cercare documenti di ricerca in più università al fine di
trovare i più recenti e migliori materiali per la costruzione
di ponti.
⚫ I medici potrebbero individuare rapidamente le ultime
ricerche su una malattia specifica.
⚫ Il potenziale è illimitato. Le sfide tecniche sono
scoraggianti. Questa è l'attrazione del Deep Wep.
Shadow Land
⚫ Il Deep Web può essere una shadow land di potenziale non sfruttato.
⚫ Le cose cattive, come sempre, ottengono la maggior parte dei titoli.
⚫ Puoi trovare beni illegali e attività di ogni tipo attraverso il Dark
Web.
⚫ Ciò include droghe illecite, pornografia infantile, numeri di carte di
credito rubati, traffico di esseri umani, armi, animali esotici, media
protetti da copyright e qualsiasi altra cosa tu possa pensare.
Teoricamente, potresti anche, diciamo, assumere un sicario per
uccidere qualcuno che non ti piace.
⚫ Ma non troverai queste informazioni con la ricerca di Google. Questi
tipi di siti Web richiedono l'utilizzo di software speciali, come The
Onion Router, più comunemente noto come Tor.
The Onion Router(TOR)
⚫ TOR è un software che si installa nel tuo browser e imposta il
connessioni specifiche necessarie per accedere ai siti Dark Web
⚫ Criticamente è un software gratuito per abilitare l'anonimato online e
la resistenza alla censura.
⚫ Il routing onion si riferisce al processo di rimozione dei livelli di
crittografia dalla comunicazione Internet, simile alla rimozione degli
strati di una cipolla.
⚫ L'utilizzo di TOR rende più difficile rintracciare l'attività su Internet,
comprese le "visite a siti Web, post online, messaggi istantanei e altri
moduli di comunicazione", all'utente.
⚫ Ha lo scopo di proteggere la privacy personale degli utenti, nonché la
loro libertà e capacità di condurre affari riservati impedendo che le
loro attività su Internet vengano monitorate..
FUNZIONAMENTO DI TOR

Entry Node Middleman Exit Node


Tor Destination
Client
• Scelta di 3 nodi diversi tramite cui far passare la
richiesta

• Nei nodi intermedi i dati sono crittografati

• Fra Exit Node e la destinazione passano22


informazioni non crittografate
Crittografia a strati della rete Tor
Crittografia a strati della rete Tor
Cont….
⚫ Invece di vedere i domini che terminano con.com o.org, questi i siti
nascosti terminano in .onion.
⚫ Il più famigerato di questi siti cipolla era l'ormai defunta Silk Road,
un mercato online in cui gli utenti potevano acquistare droghe,
pistole e ogni sorta di altri oggetti illegali.
⚫ L'FBI alla fine catturò Ross Ulbricht, che gestiva Silk Road, ma siti
di imitazione come Black Market Reloaded sono ancora
prontamente disponibili.
⚫ TOR è il risultato di una ricerca condotta dal Naval Research
Laboratory degli Stati Uniti, che ha creato TOR per dissidenti
politici e informatori, consentendo loro di comunicare senza timore
di rappresaglie.
⚫ TOR è stato così efficace nel fornire l'anonimato a questi gruppi che
non ci è voluto molto perché i criminali iniziassero a usarlo
COME SI ACCEDE AL DARK
WEB?
• Scaricare TorBrowser (esistono altri software quali I2P, Freenet e GNUnet)

25
• Disabilitare JavaScript e non attivare altri
plugin esterni

• Usare VPN

• Coprire la webcam

• Avere un antivirus attivo per scansionare i


file in caso di download

• Firewall attivo

• Non immettere dati personali reali 26


• Accedere a siti .onion, cercando i link nella HIDDEN WIKI

27

Paolo Vedorin
Czarnecki e Mariagiovanna
- Deep
Web Web & Dark
SERVIZI E CONTENUTI

28
Motori di ricerca più noti: DuckDuckGo, Onion Link, Grams,
TORCH, TorSearch
Mail Client
• Mail2Tor

30
Social Network: Blackbook,
TorBook, Galaxy2
• Blackbook

31
• Torbook
Transazioni di
denaro
⚫ Potresti chiederti come possono accadere transazioni legate al
denaro quando venditori e acquirenti non possono identificarsi a
vicenda. È qui che entra in gioco Bitcoin.
⚫ Bitcoin, è fondamentalmente una valuta digitale crittografata.
⚫ Come il denaro normale, Bitcoin è buono per transazioni di ogni
tipo. Consente inoltre l'anonimato; nessuno può rintracciare un
acquisto, illegale o meno.
⚫ Se abbinato correttamente a TOR, è forse la cosa più vicina a un
modo infallibile per acquistare e vendere sul Web.
Il lato luminoso
dell’oscurità
⚫ Il Deep Web ospita motori di ricerca alternativi, servizi di posta
elettronica sociale, archiviazione di file, condivisione di file, media,
siti di chat, agenzie di stampa e siti per denunciare irregolarità,
nonché siti che forniscono un terreno di incontro sicuro per i
dissidenti politici e chiunque altro possa trovarsi ai margini della
società.
⚫ In un'epoca in cui la sorveglianza di tipo NSA è onnipresente e la
privacy sembra una cosa del passato, il Dark Web offre un certo
sollievo alle persone che apprezzano il loro anonimato.
⚫ Bitcoin potrebbe non essere del tutto stabile, ma offre privacy, che è
qualcosa che la tua società di carte di credito sicuramente non fa.
⚫ Per i cittadini che vivono in paesi violenti o oppressivi, il Dark Web
offre un modo più sicuro per comunicare con persone che la pensano
allo stesso modo.
Futuro
⚫ I confini tra i contenuti dei motori di ricerca e il Deep Web
hanno iniziato a sfocarsi, poiché i servizi di ricerca iniziano a
fornire l'accesso a una parte o a tutti i contenuti una volta
limitati.

⚫ Una quantità crescente di contenuti Deep Web si sta aprendo


alla ricerca gratuita poiché editori e biblioteche stipulano
accordi con grandi motori di ricerca.

⚫ In futuro, i contenuti del Deep Web potrebbero essere definiti


meno dalla possibilità di ricerca che dai costi di accesso o da
altri tipi di autenticazione.
Conclusioni
⚫ Il Deep Web continuerà a lasciare perplessi e affascinare chi
utilizza Internet.

⚫ Contiene una quantità avvincente di conoscenza che potrebbe


aiutarci a evolvere tecnologicamente e come specie quando
collegati ad altri bit di informazioni.

⚫ E, naturalmente, anche il suo lato oscuro sarà sempre in


agguato, proprio come fa sempre nella natura umana.

⚫ Il Deep Web parla del potenziale insondabile e sparso non solo


di Internet, ma anche della razza umana.
INTERVENTI DA PARTE
DELLE AUTORITA’
• Un caso internazionale: Silk Road (2013) e Silk Road
2.0 (2014)
PRO:
• Anonimato
•Libertà di espressione
CONTRO:
• Materiale illegale
• Criminalità
• Truffe
• Infiltrazioni cracker nel pc

Potrebbero piacerti anche