Sei sulla pagina 1di 37

Tell Me Quality

Uno strumento per misurare la qualità dei dati


Marco Berlot
Qualità dei Dati
•Lo stato di completezza, validità, consistenza e
accuratezza che rende un dato efficiente per un
utilizzo specifico.
•La qualità dei dati viene identificata come il grado
con cui le caratteristiche dei dati, utilizzate in
condizioni specifiche, soddisfano determinati
requisiti.

2
Dati di Bassa Qualità
• Un nominativo scritto male ("mrio rossi" invece di "Mario Rossi") è
indice di scarsa accuratezza sintattica.

• Un termine come "Patrizia Rossi" al posto di "Patrizio Rossi" è


anche indice di non accuratezza semantica.

3
Dati di Bassa Qualità
Dati di Bassa Qualità
Dati di Bassa Qualità
E’ realmente un problema?

Attualmente la qualità dei dati è un problema per molti


professionisti operanti in un ampio settore dei sistemi
d’informazione. Uno studio aziendale ha stimato che il costo totale
per l’economia degli Stati Uniti legata ai problemi di qualità dati
superi i 600 miliardi di dollari l’anno (Eckerson, 2002).

7
8
ISO/IEC 25024:2015

9
ISO/IEC 25024:2015

10
Perché un Frontend?
Accuracy: 98,34%

Completness: 94,12%

Consistency: 95,43%

Credibility: 98%

Compliance: 97,79%

Currentness: 90%

Understandability: 0%
Currentness
Confidentiality: 0%

Precision: 98%

11
Perché un Frontend?
ACCURACY

5.783.968

- Syntactic: 98,63%

- Semantic: 97,77%

- Data accuracy assurance: 100%

- Risk of dataset inaccuracy: 5%

- Data accuracy range: 95%

12
Perché un Frontend?

13
Come funziona TMQ?

• Upload

• Selezione del tipo di Misure

• Visualizzazione dei risultati

14
Architettura
Upload

16
Shape File
“ SHACL Shapes Constraint
Language, a language for
validating RDF graphs against a
set of conditions. These conditions
are provided as shapes and other
constructs expressed in the form
of an RDF graph. RDF graphs that
are used in this manner are called
"shapes graphs" in SHACL and
the RDF graphs that are validated
against a shapes graph are called
"data graphs” vocabolario,insieme
vocabolario,vincoli dati

17
Shape File
Configurazione dello Shape File

19
Selezione Misure

20
Selezione Misure

21
Pagine interamente dinamiche

• Minor numero di linee di codice.


Mustache Framework
• Unica pagina che si crea
dinamicamente in base ai
parametri generati dal backend.

• Maggior complessità nella


scrittura all’inizio ma permette una
manutenzione del codice molto
più semplice. https://mustache.github.io/

22
Visualizzazione dei risultati
Due tipologie di risultati: April

May

• Un risultato che riassume la June


performance di ogni categoria
July
di misure e che permette di
confrontarle velocemente. 0 25 50 75 100

• Un risultato che permette di


confrontare la performance di
ogni misurazione in modo
approfondito.

23
Radar Chart

Currentness

Confronto non preciso di aree, ma che riesce a dare una buona idea generale.
24
Grafico a barre orizzontali

Buona precisione nel confronto tra le diverse misurazioni.

25
Un caso reale
Le informazioni fornite al sistema provengono da più di 300,000 XML files
pubblicati da 15,000 pubbliche amministrazioni

26
Un caso reale

Shape
File
28
29
Not performed

Understandability
Not performed

Currentness
Currentness

Understandability

30
Not performed

Understandability
Not performed

Currentness

31
5.783.968 data points

-57.850 data points

-347.038 data points

-4.048 data points

-115.679 data points

32
-4.048 data points

-115.679 data points

-57.850 data points

-13.303 data points

-43.958 data points

-37.595 data points

33
-220.369 data points

-104.111 data points

34
Conclusioni
• Le percentuali di errori, per quanto basse, su un numero di file molto
alto sono significative.

• Una buona performance nella compliance del formato produce dati di


buona qualità (e.g. nella precisione).

• Currentness e completness sono collegate poiché alcuni dati si sanno


solo dopo (e.g. pagamento e data fine).

• La presenza di diversi errori di accuratezza possono essere un


campanello di allarme per inserimenti manuali e/o non controllati che
possono produrre dati errati anche oltre quelli rilevati dal nostro studio.

• Nell'accuratezza ci sono più errori semantici che sintattici.

35
Conclusioni
• Non avere un vero database produce molti problemi di consistenza
This work is under the terms of Creative Commons Public License. The whole text of the license in version 4.0 can be found at the web address: http://
creativecommons.org/licenses/by-sa/4.0/deed.it.

You are free to:

Share — copy and redistribute the material in any medium or format

Adapt — remix, transform, and build upon the material for any purpose, even commercially.

The licensor cannot revoke these freedoms as long as you follow the license terms.

Under the following terms:

Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but
not in any way that suggests the licensor endorses you or your use.

ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.

No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.

Version 1.1 © Marco Berlot, 2017

37

Potrebbero piacerti anche