Sei sulla pagina 1di 28

Università degli Studi di

Trieste
Facoltà di Ingegneria
Anno Accademico 2007/2008

PROGETTO E REALIZZAZIONE
DELL'INFRASTRUTTURA
DI CONTROLLO IN UNA FARM
PER LA RILEVAZIONE DI
ATTACCHI WEB A SITI REMOTI

Relatore:
Prof. Alberto
Bartoli Laureando:
Correlatore: Enrico Sorio
Ing. Eric Medvet
Il problema…
Un numero enorme di
organizzazioni in tutto il mondo
basa il proprio business sulla rete
e sulle tecnologie web

L’immagine e la solidità di una


organizzazione dipendono anche
dalla qualità della sua presenza
in rete
… quindi
Ogni intrusione in un sito può
arrecare seri danni di immagine
alla azienda, aggravati
ulteriormente dal passare del
tempo
Defacement: cos’è?
 Nella accezione più classica consiste nella
sostituzione della home-page originale di
un sito web con un contenuto arbitrario

 Molto spesso i contenuti inseriti sono di


rivendicazione o di propaganda
politico/religiosa

 Possono essere fatti anche in maniera


automatizzata con software ad hoc

 Gli “invisible defacement” sono


l’evoluzione di questo tipo di attacchi, volti
a realizzare sistemi di phishing o a
diffondere software malevolo
Qualche esempio reale (I)
http://sfa.nasa.gov/nmiscalendar/

11/04/2009
Qualche esempio reale (II)
http://www.archeopd.benicultura

27/01/2009
Statistiche: quanti (I)
Dai dati forniti da zone-h.org si
può rilevare:

Più di 490.000 di defacement


nel 2006

Più di 1,7 milioni di defacement


nel 2005-2007

Il numero è in costante aumento…


Statistiche: quanti (II)

Nella prima metà del mese di


aprile 2009 sono stati rilevati:
767 defacement di web site solo
fra i domini .it
36027 defacement globalmente

Non è un caso, sempre fra i domini


.it:
Dal 1 al 15 Ottobre 2008: 608
Statistiche: quanto durano
(III)
Altro dato di analisi interessante è la durata di un
defacement
Si può notare il tempo medio di reazione
decisamente alto
Soluzioni esistenti (I)
Si basano (quasi) tutte sullo stesso
approccio:

Mantenere una copia della risorsa


richiesta, considerata affidabile, in
una locazione sicura
Prima di rispondere ad una
richiesta confrontare la risorsa
con la copia considerata affidabile
Soluzioni esistenti (II)
Sebbene funzionanti, poco
utilizzate…
Perché?

È necessario:
La soluzione del
“Laboratorio Reti di
Calcolatori”

Un servizio di rilevamento di
defacement che possa avere
realmente un vasto utilizzo.

Dotato di alcune caratteristiche…


La soluzione proposta
caratteristiche (I)
La soluzione proposta
caratteristiche (II)
La soluzione proposta
approccio generale (I)
Web-Server remoti…

INTERNET
La soluzione proposta
alert generati
Amministratore:
Riceve alert (email/sms)
◦ Content alert
possibile defacement (contenuto
anomalo)
◦ Network alert
problema nel prelevare la risorsa

Può accedere ad applicativo web


per analizzare alert / snapshot
La soluzione proposta
approccio generale (II)
LEARNING MONITORING
(alcuni giorni)
t
Viene generato Viene generato un alert se la risorsa si
un profilo discosta dal profilo generato

Normale
o
Sospetto
Sperimentazione degli
algoritmi
Test set (I)
Gli algoritmi di rilevazione sono
stati testati su un archivio di 300
web-resources, scaricate ogni 6
ore per 4 mesi (ogni versione
della risorsa è chiamata
snapshot).

Usato sia per simulare


la fase di learning (prime 50
rilevazioni)
Sperimentazione degli
algoritmi
Test set (II)
L’archivio contiene web-site di vario tipo (news,
tecnici, e-commerce, università…)

Quasi tutti hanno porzioni dinamiche che si


modificano ad ogni accesso, ad esempio:
Sperimentazione degli
algoritmi
Test set (III)
In aggiunta all’archivio delle web-
resources è stato creato un
archivio di 900 differenti
defacement (attack set) reperiti
dall’archivio di zone-h.org

sono stati selezionati defacement con varie


caratteristiche:
• dimensione
• lingua
• con o senza immagini
• con o senza script
Sperimentazione degli
algoritmi
Indici di performance (I)

FPR dovrebbe essere


zero

FNR dovrebbe essere


zero

...
LEARNING MONITORING
Sperimentazione degli
algoritmi
Risultati (I)
L’esito del test è:

False Negative Rate (FNR) è


esattamente zero
Sperimentazione degli
algoritmi
Risultati (II)
False Positive Rate (FPR)
dopo alcune ottimizzazioni si è
attestato sullo 0,24%
Architettura del sistema
In queste tesi è stata
implementata una infrastruttura
scalabile basata su questi
algoritmi di rilevazione così
composta:
Architettura del sistema
HTML

alerts
Alert ICEFaces
fetch alerts task
er
Instan Facelets
ce task warden
db check
warden snapsh Lazy
er
Repair
snapsh ot Load
thread
cache ot

load
db heartbe
index
at
fetcher
timer
dep.
downlo feed senso aggrega
analiz
ad er rs tor
er
Architettura del sistema
(I)
Architettura del sistema
(II)
Architettura del sistema
(III)