Sei sulla pagina 1di 64

Fundamentos de Calidad de Datos

Ing. Alejandro Mnguez


1

Calidad como Way of life

Estamos en la era de la
calidad, y es esta la que
nos dar una ventaja
competitiva, en un mundo
globalizado

Aunque
En cualquier proceso de calidad

Calidad

Cuanta ms inversin de tiempo, mayor


calidad, pero nunca se llega al 100%

Tiempo
3

Agenda

Evolucin de la calidad de los datos

Calidad de datos en entornos analticos DWH

Cmo aplicar la calidad de datos?

Otras reas de aplicacin

Conclusiones y recomendaciones

Evolucin de la calidad de los datos

Historia de la Calidad de Datos


Desde que existen los datos informatizados, siempre ha existido
la preocupacin de que sean correctos. Inicialmente la Calidad
de Datos se realizaba con edicin manual o con programas
desarrollados con lenguajes no adaptados para ese uso, o
incluso la edicin manual de los datos.
A principios de los 80 se desarrollaron los primeros sistemas de
Calidad de Datos, por parte del gobierno de Estados Unidos,
para regular los cambios de domicilio, fallecimientos, bodas,
divorcios, etc en un sistema denominado NCOA (National
Change of Address Registry)
6

Historia de la Calidad de Datos


La primera vez que se implemento un sistema
especializado en la calidad de datos en Espaa fue
para corregir y/o informar el cdigo postal, en la
direccin de los clientes, de las principales entidades
financieras del pas. Este fue desarrollado a principios
de los 90, basado en un sistema semiautomtico, y
apoyado

por

un

departamento

de

codificacin

manual, en el que se utilizaban multitud de listados


en papel. La tcnica utilizada era muy primitiva
(fuerza bruta), y no implementaba las metodologas,
que actualmente poseen los sistemas modernos de
calidad de datos.
7

Definiciones de Data Quality


Data Quality refers to the quality of data. Data are of high quality if
they are fit for their intended uses in operations, decision making
and planning"
2. The state of completeness, validity, consistency, timeliness and
accuracy

that

makes

data

appropriate

for

specific

use.

Government of British Columbia


3. The totality of features and characteristics of data that bears on
their ability to satisfy a given purpose; the sum of the degrees of
excellence for factors related to data. Glossary of Quality Assurance
Terms

www.wikipedia.org
8

Qu es la calidad de datos?
La Calidad de Datos no slo se refiere a la
ausencia de defectos:
Los datos deben proporcionar una visin
nica
Debe estar correctamente relacionada
interrelacionada con todas las fuentes

Los datos deben ser consistentes, completos


y adecuados para su funcin
Debemos asegurarnos de cumplir normativas
y leyes

Evolucin de la Calidad de Datos y la Integracin

10

Impactos de Negocio
Riesgo en el cumplimiento normativas
Sistema de gestin del riesgo
Sistema de integracin del riesgo
Riesgo en la inversin

Riesgo competitivo
Deteccin del fraude
Riesgos legales (LOPD)
Otros riesgos

Mayor
Riesgo

Cobro ineficiente
Mala relacin con el cliente
Prdida de oportunidades
Aumento de costes

Incremento
de Costes

Prdida ingresos
Baja confianza
Falta de credibilidad
Temor en toma decisiones
Menor predictabilidad

11

Forecasting incorrecto
Reporting ineficiente

Deteccin y correccin
Prevencin
Reingeniera de procesos
Penalizaciones
Sobrepagos
Recursos incrementados
Retrasos
Cargas de trabajo
Tiempos de proceso

Quienes son los responsables del DQ las


organizaciones?

12

Futuro inmediato de la Calidad de Datos


Los problemas de Calidad de Datos
son
a
menudo
ignorados
/
desconocidos / minusvalorados por la
direccin
Calidad de Datos es una ventaja
competitiva
Falta de una figura responsable
Se requieren cambios organizativos
Una compaa debe contar con
responsables que velen por la
calidad de los datos de todos los
sistemas de informacin.

13

Otros conceptos: Calidad de la Informacin


El concepto Calidad de la Informacin, o IQ,
est surgiendo con fuerza en los ltimos aos
Se trata del concepto de Calidad de Datos
orientado a los Sistemas de Informacin, es
decir, a la mejora de la informacin
proporcionada a la compaa
Algunos expertos extienden el trmino a lo
que tambin se denomina Calidad de
Metadatos

14

Otros conceptos: Calidad de Metadatos

El concepto Calidad de Metadatos surge en


grandes corporaciones que cuentan con miles de
atributos e indicadores
Se trata de una problemtica de integracin y/o
de herramientas de gestin de metadatos, no de
Calidad de Datos en s
Objetivos: claridad de las definiciones, lenguaje
comn, nica versin de la verdad, accesibilidad,
disponibilidad, seguridad, auditabilidad.

15

En que momento se producen los errores


En la entrada de
datos (Data Entry)
Incorporacin de
datos externos
Errores de carga de
los sistemas
transaccionales
Migraciones de datos
16

Causas de la creciente mala Calidad de Datos

Ms datos de ms fuentes en ms sistemas

Datos introducidos para un propsito ahora


est siendo aplicados a otras aplicaciones

La mala calidad de datos lleva a problemas de


pagos en sistemas ERP, SCM, etc.

Mayor sensibilidad del pblico

17

La Calidad de Datos puede ser relativamente


bueno para los sistemas transaccionales pero no
para sistemas BI o CRM

Mayores niveles de Calidad de Datos


requerido para procesos automatizados

ERPs, fuentes externas, web, call centres

Los clientes esperan un mejor servicio. Los datos


defectuosos llevan a una pobre gestin del cliente.

El impacto de la mala Calidad de Datos

Impide la Business Intelligence

Informes errneos, defectos en el anlisis

Costes de Gestin

Discrepancias entre aplicaciones puede requerir trabajos de


reconciliacin de registros

Daa nuestra relacin con el cliente

Imposibilidad de ofrecer un buen servicio y un trato personalizado

Imposibilidad de detectar fraudes, sobrepagos, etc

No puede identificar duplicados, unidades familiares y corporativas


(households), etc

Incumplimiento de normativas

Regulaciones
Leyes: La calidad de datos es uno de los pilares fundamentales
para el cumplimiento de la LOPD

18

2 Calidad de datos en entornos analticos

DWH

19

Reflejo de la mala calidad de los datos en


el BI

20

DWH-BI
Through 2007, more than 50 percent of data warehouse projects
will have limited acceptance, or will be outright failures, as a
result of a lack of attention to data quality issues Gartner
La toma de decisiones basada en datos incorrectos puede generar
decisiones incorrectas.
Concepto: Calidad de la Informacin
Beneficios de la Calidad de Datos:

21

Mejora de la toma de decisiones

Aumento de la confianza de los usuarios

Soluciones de Calidad de Datos Arquitectura

Cuadros de Mando
Calidad de Datos

Cliente

Runtime
Runtime

Servidor

Aplicaciones
Bases de Datos

Repositorio

Realtime /
SOA
Soluciones
integracin

Diccionarios
22

La (r)evolucin, Calidad de Datos e


Integracin

Auditora, control y creacin de informes


Garantizar la coherencia de los datos, realizar anlisis de impacto y
supervisar constantemente la calidad de la informacin

Acceso
A cualquier
sistema, por
lotes o en
tiempo real

Perfilado
Buscar y
perfilar
cualquier tipo
de datos de
cualquier
fuente

Calidad

Integracin Entrega

Validar, corregir
y estandarizar,
relacionar datos
de todo tipo

Transformar y
conciliar datos
de todo tipo

Desarrollo y gestin

Entregar los datos


adecuados en el
momento y forma
adecuados

Desarrollar y colaborar con un repositorio comn y metadatos


compartidos

23

Fuentes
de datos

Integracin
de datos

Almacena- Inteligencia
miento

Calidad de Datos, Donde acta? ETQL

24

Reporting
Calidad

Aplicacin

Reporting

Servidor DQ

Visin nica
del cliente
o producto

Data
Warehouse

BBDD

Calidad de Datos

Front End Y
Aplicacin X

Data Mart

Carga

Conciliacin fuentes
Lgica difusa
Scorecarding
Limpieza
Enriquecimiento

Operational
Data Store

Transformacin
Extraccin

Exploracin: Anlisis & Medicin


CRM

Finanzas

Datos no
estructurados

Sistemas
externos

Etc

3 Cmo aplicar la calidad de datos?

25

Requerimientos de Calidad de Datos


Limpieza,
Limpieza,
estandarizacin,
estandarizacin,
identificacin
identificacinde
dedatos
datos
personales,
personales,como
como
nombres,
nombres,direcciones
direccionesyy
telfonos
telfonos

Eficacia
del
Contacto

Localizar
Localizar relaciones
relaciones
entre
entre registros,
registros, como
como
desduplicacin,
desduplicacin,
relacin
relacin de
de dos
dos o
o ms
ms
tablas,
deteccin
tablas, deteccin de
de
unidades
unidades familiares
familiares o
o
corporativas,
corporativas,

Identificacin
de relaciones

Calidad
Calidad de
de Datos
Datos para
para
cualquier
rea
cualquier rea
incluyendo
incluyendo finanzas,
finanzas,
control
control de
de gestin
gestin yy
produccin
produccin

Calidad de
Datos
General

Perfilado,
Perfilado, medicin
medicin yy
cuantificacin
cuantificacin del
del
impacto
impacto de
de la
la calidad
calidad
de
de datos,
datos, adems
adems de
de
su
seguimiento
su seguimiento yy
monitorizacin
monitorizacin

Anlisis de
Calidad de
Datos
(perfilado)

Suite de Calidad de Datos Corporativa


Fuente: Gartner Jun. 2007

26

Ciclo de vida de un proyecto de Calidad de Datos


Ciclo de vida
Fuentes

Acceder

Auditar

Data Experts /
Owners definen
iniciativas de
correccin

27

Data Experts
/ Owners
validan
informes

Destinos

implementar las
reglas
2
4

Entregar

Auditar para
conocer

3
6

Limpiar

Informes

Definir reglas
de negocio
para:

Conformidad
Consistencia
Normalizacin
Desduplicacin

Procesos de Calidad de Datos

Matching

Perfilado de
Datos

Datos

Mejora de datos

Limpieza de Datos
28

Perfilado de datos

El perfilado de datos permite localizar,


medir,
monitorizar
y
reportar
problemas de calidad de datos

El perfilado no debe ser slo el inicio


de un proyecto de Calidad de Datos,
es un proyecto en s

Existen dos tipos de perfilado:


Perfilado de estructura
Perfilado de contenido

29

Perfilado de Estructura

El perfilado de estructura consiste en el anlisis de los datos


sin tener en cuenta su significado

El anlisis se realiza de forma semi-automtica y masiva

Tipos de anlisis del Perfilado de Estructura:


Perfilado de Columnas
Perfilado de Dependencias
Perfilado de Redundancias

30

Perfilado de Contenido

31

El perfilado de contenido analiza con profundidad el dato y


su significado

Requiere una configuracin para cada campo a analizar

Se combina con el uso de diccionarios, componentes


especficos de tratamiento de datos, separadores, etc

Etapas del Perfilado de Datos


Acceder
Tipo de
proyecto

Descubrir
Proyecto de
descubrimiento

Limpiar
Limpieza
Monitorizacin

Integrar

Integracin

Entregar
Implantacin
Validacin

Cuadro de Mandos Calidad de Datos

Nivel
Actividad
Perfilado
Tipo de
Actividad

P.
Estructura

32

P.P.
Estructura
Estructura

Descubrimiento Anlisis de Contenido Anlisis de estructura Monitorizacin

Analista

Roles

P.
Contenido

Data Steward

Desarrollador
ETL

Operaciones TI

Perfilado de datos, indicadores de calidad

Existencia

Conformidad

33

Qu dato falta o no es til?

Qu dato est almacenado en un formato no estndar?

Consistencia

Qu datos aportan informacin conflictiva?

Precisin

Qu datos son incorrectos o estn caducados?

Duplicados

Qu datos o atributos estn repetidos?

Integridad

Qu informacin no est referenciada?

Ejemplo Datos de Cliente

EXISTENCIA

34

CONFORMIDAD

CONSISTENCIA

DUPLICACION

INTEGRIDAD

PRECISION

Ejemplo datos de Producto

EXISTENCIA
35

CONFORMIDAD

CONSISTENCIA

PRECISION

DUPLICACION

INTEGRIDAD

Ejemplo datos de Riesgo

EXISTENCIA
36

CONFORMIDAD

CONSISTENCIA

PRECISION

DUPLICACION

For illustration purposes only.


Actual reports featured later in presentation

INTEGRIDAD

Capacidades de Reporting
Para el perfilado es fundamental una solucin de
reporting

37

Ejemplo Scorecard Calidad de Datos

38

Limpieza y Enriquecimiento de datos

La limpieza de datos permite:


Determinar y separar elementos de
un campo situndolo en su lugar
correspondiente
Estandarizar formatos
Corregir errores en los datos
Enriquecimiento de datos

39

Determinacin y separacin de Datos (parsing)


La determinacin y separacin de datos consiste en la
descomposicin de los distintos elementos que componen los
datos
Por ejemplo, el nombre siguiente:

Ingeniero JOSE RODRIGUEZ SILVA

Ttulo: Ingeniero
Nombre: Jos
1 Apellido: Rodrguez
2 Apellido: Silva

40

Estandarizacin
La estandarizacin es la adecuacin de un
dato a un formato esperado.
Por ejemplo, el NIF siguiente:

5428846

NIF estandarizado: 05428846H

41

Correccin
La correccin consiste en el reemplazo de un
elemento errneo por uno correcto
Por ejemplo, la direccin siguiente:
Calle Tumaco 14, 28010 Madrid

Cdigo postal corregido: 28027

42

Enriquecimiento
El enriquecimiento consiste en la adicin de
datos que no existan
Por ejemplo, el nombre siguiente:
Jose Mara Gomez Hurtado

Sexo: Varn

43

Matching

44

El matching de datos se utiliza para:


Deteccin de duplicados
Relacin entre dos fuentes de datos
que no tienen campos de unin
entre s
Deteccin de unidades familiares y
corporativas (Householding)

Se pueden aplicar mltiples criterios


para las relaciones, que posteriormente
se pueden asociar entre s

Previo al matching es conveniente


hacer una pre-agrupacin de la
informacin

Existen dos mtodos de matching:


Determinstico
Probabilstico

Pre-Grouping

45

Cdig
o

Nombre

Group
Key

Juan Gutierrez

G36

Juan Manuel
Gutierez

G36

Juana Gutierrez
Gomez

G36

Luis Fernandez

F16

Luis Alberto
Frenandez

F16

Luis Fernandes

F16

Luis Fernandez
Gomez

F16

Comparaciones sin pregrouping


Sin Agrupacin: A-B, A-C, A-D, A-E,
A-F, A-G, B-C, B-D, B-E, B-F, B-G, CD, C-E, C-F, C-G, D-E, D-F, D-G, E-F,
E-G, F-G=21 comparaciones

Comparaciones con pregrouping


Con agrupacin fontica 1
apellido: A-B, A-C, B-C, D-E, D-F, DG, E-F, E-G, FG= 9
comparaciones

Matching Determinstico
Razn Social

CIF

LABORATORIOS EVA
ESPAOLA SL

CCC

Direccin

08070271716

SAN LUIS 90

EVA

46

90

SANT LLUIS

EVA

3116311

SANT LLUIS

{}

Telfono

Poblacin
Barcelona

933116311

933116311

Razn Social

CIF

CCC

Direccin

Telfono

Poblacin

EVA
ESPAOLA,S.L

B0809357
7

08010271716

SANT LLUIS 9

933116311

Barcelona

SI coincide(Razn) y coindice(calle) y
coincide(telfono) y
noesdistinto(CIF) entonces: Match
positivo

Matching Probabilstico
Razn Social

CIF

LABORATORIOS EVA
ESPAOLA SL

CCC

Direccin

08070271716

SAN LUIS 90

EVA

80%

{}

47

SANT LLUIS

90

100%

50%

92%

SANT LLUIS

EBA

Telfono

3116311

Poblacin
Barcelona

933116311

100%

100%

933116311

Razn Social

CIF

CCC

Direccin

Telfono

Poblacin

EBA
ESPAOLA,S.L

B0809357
7

08010271716

SANT LLUIS 9

933116311

Barcelona

92
%

SI media
ponderada>90%
entonces match
positivo

Consolidacin

Cuando se ha usado el matching para


la deteccin de duplicados, con
frecuencia se desea fusionar estos
registros. A esto se le denomina
Consolidacin.

Existen dos mtodos principales de


consolidacin:
Registro Superviviente
Mejor Registro

48

Mtodos de consolidacin

Registro
Superviviente

Mejor Registro

49

Un proceso iterativo

Matching

Perfilado de
Datos

Datos

Mejora de datos

Limpieza de Datos
50

51

Otras reas de aplicacin

Aplicaciones del DQ en las compaas


Las principales tipologas de proyecto de DQ son:

52

Calidad de Datos asociada a un proyecto de integracin


DWH-BI
CRM
Data Mining
Migracin
Consolidacin
Sincronizacin

Entorno Financiero

Entornos de Marketing

Sistemas de Informacin Geogrfica

Gestin de Datos Maestros

Calidad de Datos Preventiva

Requerimientos por tipo proyecto


Data Governance
Madurez Visin Corporativa

Soluciones Verticales. P.ej. SOX, Basilea II, GDS RFID


MDM Gestin de Datos Maestros
CDI Integracin de Datos de Clientes
SvoC (Visin nica del Cliente)
Proyectos integracin: p.ej: Migraciones, CRM, Datawarehouse
Marketing (mailshots)
High

Identificacin
de relaciones

Eficiencia
del contacto
Low

53

High

High

Calidad Datos
General
Low

EDQM

Low

High

Anlisis
Calidad Datos
Low

Conclusiones y recomendaciones

54

Resumen
En resumen:
La Calidad de Datos es fundamental para
cualquier compaa
Ahorro de costes
Eficiencia
Cumplimiento de la Ley
Existe la tecnologa y la metodologa para
corregir la mala Calidad de Datos
Calidad e Integracin: una Solucin
Corporativa
55

Resumen Beneficios de la Calidad de Datos

56

Corrige errores de manera PROACTIVA e INDUSTRIALIZADA

Reduccin de costes: de gestin, de oportunidad, operacionales, etc

Proporciona una visin nica de los elementos de las bases de datos


y da visibilidad de las posibles agrupaciones que existan

Facilita el cumplimiento de normativas

Mejora el mantenimiento de clientes y del servicio ofrecido, adems


da confianza a los usuarios de la informacin

Reduce las ineficiencias operacionales

Maximiza el xito de las iniciativas y proyectos de Datawarehousing,


CRM y BI y por consiguiente se mejora la toma de decisiones

Aumenta el conocimiento de los datos y permite conocer dnde se


estn produciendo los errores

Gartner : Calidad de Datos

57

Prediccin: A travs de 2008, las organizaciones incrementarn las iniciativas


de mejora de la calidad de datos, llevados por la presin de las normativas, por el
deseo de la mejora de la eficiencia y agilidad, y una insatisfaccin general del estado de
sus datos corporativos

Claves: Organizaciones donde la gerencia de alto nivel comprende el impacto


de la calidad de datos estn mejor posicionados para completar con xito
programas de mejora de calidad de los datos.

Implicaciones de mercado: los datos de alta calidad (y los conocimientos,


organizacin, procesos y tecnologa para lograrlos) ser un significante diferencial
competitivo entre negocios. Las organizaciones que olviden o ignoren sus
problemas de calidad de datos van a ser superados por la competencia.

Recomendaciones: Las organizaciones deben ver la calidad de datos como un


problema estratgico de su negocio, y alinear sus recursos a travs de la mejora de
calidad de datos. Las actividades clave incluye el desarrollo de programas de
administracin de datos, anlisis y medicin de la calidad de datos, mejora de
procesos de negocio y la implementacin de tecnologa para soportar los
controles de calidad de datos.

Los factores de xito

Tecnologa

Metodologa

Apoyo

58

Apoyo
Cual es la mejor forma de lograr el apoyo para un
proyecto de Calidad de Datos?
Divulgacin interna, principalmente a las unidades de
negocio, tecnologa y a direccin
Auditora de Calidad de Datos:
Anlisis y medicin de los problemas de Calidad
de Datos de la Compaa
Conclusiones de los problemas de Calidad de
Datos
Propuesta de soluciones
Anlisis del ROI

59

Metodologa

Decidir la metodologa adecuada en funcin del nivel


de apoyo logrado.
Proyectos estratgicos con apoyo de la direccin:
metodologas de Data Governance.
Proyectos tcticos con apoyo de una o varias
unidades de negocio. Proyectos relacionados de
Calidad de Datos, con establecimiento de mejores
prcticas para cada uno de ellos.
Proyectos departamentales, orientados a la
resolucin de un problema determinado.

Establecer objetivos, definir mtricas, monitorizar,


corregir, repetir y evolucionar.
60

Tecnologa
La tecnologa es fundamental para la resolucin de
problemas de Calidad de Datos.
En la eleccin de la tecnologa deben exigirse los
siguientes requisitos:
Combinacin con una plataforma de integracin de
datos: acceso universal a los datos
Tratamiento de cualquier tipo de datos. No slo
nombres y direcciones.
Solucin de reporting, scorecarding y monitorizacin
Orientado a negocio

61

Previsin de la inversin en Calidad de Datos


Por Forrester Research, Inc.

2000

62

2001

2002

2003

2004

2005

2006

Information Quality Market On Target To Top $1Billion By 2008,


Forrester Research, 21 de Marzo de 2005

2007

2008

Resistencia al cambio
No veo que
tengamos
problemas en
los datos

Escptico

63

No es mi
responsabilida
d

Desentendido

Mejor no decir nada,


no vayamos a abrir la
caja de Pandora

Catastrofista

64

Potrebbero piacerti anche