Subscribe:

Calidad de los Datos

Calidad de los Datos

Dado que la calidad tiene componentes objetivos y subjetivos es necesario catalogar los
requisitos de calidad de datos de los usuarios según unas determinadas dimensiones de
calidad. Se intenta definir el concepto de calidad de datos y catalogar las dimensiones de
calidad en función de unos determinados criterios, como pueden ser el ciclo de vida de los
datos o los tipos de investigación realizadas o simplemente la forma en la que se usan los
datos. Pero todos están de acuerdo en que la calidad de datos es un concepto
multidimensional que comprende distintos aspectos según las necesidades de los
consumidores de datos o de los diseñadores de sistemas, y que se justifica por el hecho de
la concepción de calidad que aporta ISO.

 

Dimensión Definición
Facilidad de acceso Los datos están disponibles o bien son fácil o rápidamente recuperables.
Cantidad apropiada de datos El volumen de datos es adecuado para la tarea que se está realizando.
Compleción Los datos son completos y suficientes para la tarea que se está desarrollando.
Facilidad de comprensión Los datos son fácilmente comprensibles.
Credibilidad Los datos pueden ser considerados como creíbles y verdaderos.
Disponibilidad temporal Los datos están lo suficientemente actualizados para la tarea que se está desarrollando.
Facilidad de manipulación Los datos son fácilmente aplicables y manipulables en diferentes tareas.
Facilidad de interpretación Los datos están representados en el idioma apropiado, con una simbología correcta y adecuada y con la definición apropiada.
Libres de error Los datos son correctos y fiables.
Objetividad Los datos son imparciales, sin prejuicios y connotaciones.
Relevancia Los datos son útiles y aplicables en la tarea que se está desarrollando.
Representación concisa Los datos están representados de una forma compacta.
Representación consistente Todos los datos se representan en el mismo formato, que además es el más adecuado para la tarea que se está desarrollando.
Reputación Los datos están altamente relacionados en términos de sus fuentes o contenidos.
Seguridad El acceso a los datos está restringido apropiadamente para garantizar su seguridad
Valor añadido Los datos son beneficiosos y ofrecen ventajas al usarlos.

 

Metodología para la Medición de la Calidad de los Datos

Existe una metodología para la medición de la calidad de los datos guardados en un
almacén de datos. Se parte de la idea de almacenar información referente a la calidad de los datos en el mismo almacén de datos, dicha metodología propone una serie de pasos
bien estructurados y definidos que, partiendo de los requisitos de calidad de datos de los
usuarios, trata de identificar las dimensiones de calidad de datos de los usuarios, trata de
identificar las dimensiones de calidad que mejor describen esos requisitos, para después
obtener métricas a partir de ese conjunto de dimensiones; después se realiza el proceso de
medición propiamente dicho, que consiste en generar un valor numérico como resultado de
un juicio de un determinado valor del dato con respecto a la dimensión elegida;
posteriormente los resultados se guardan en el mismo almacén de datos, para después
analizar los resultados. La forma de guardar los datos depende fuertemente del modelo de
datos elegido para el almacén de datos.

El objetivo de esta metodología es ofrecer al usuario un marco de trabajo para determinar
la calidad de los datos de un almacén de datos atendiendo a la calidad de los datos
propiamente dicho. Lo que se propone en este marco de trabajo es, tras analizar los
requisitos de calidad de datos para la aplicación, buscar las dimensiones más significativas
según dichos requisitos, obtener valores para dichas dimensiones según los datos y analizar
las medidas aplicando algún criterio de valoración.


La metodología se compone de un total de 4 fases independientes. Cada una de estas fases
está a su vez formada por unos pasos o actividades. Lo recomendable es seguir las fases de
manera consecutiva, pero habrá ocasiones en las que se puedan saltar alguna por no
contemplarlas los objetivos de la medición.

Fase 1 – Identificación de los objetivos y las medidas
Es una fase de análisis donde a partir de los requisitos de calidad de los usuarios se
obtendrían una serie de productos de trabajo tras completar cada una de las siguientes
actividades:
1.1- Determinar el objetivo de la medición
Se trata de determinar las razones por la que se quiere medir el nivel de calidad de datos
1.2- Determinar los parámetros e indicadores de calidad
A partir de los requisitos de los usuarios se identifican las dimensiones y métricas de
calidad de datos más significativos para acotar el problema de calidad de datos.1.3- Localizar datos a valorar
Esta actividad se divide de la siguiente forma:
1.3.1- Determinar la cantidad de datos que deben ser valorados
Se trataría de decidir si para determinar la calidad de los datos hay que tomarlos todos o
bastaría con tomar una muestra de ellos y luego extrapolar los resultados.
1.3.2- Localizar esos datos en la base de datos
Se pretende indicar el lugar exacto donde la lógica y/o físicamente están esos datos.
1.3.3- Elegir el momento en el que debe hacerse la valoración de los datos
Puede ocurrir que el estado de la calidad de los datos que es verdaderamente significativo
se dé en un momento determinado. Se trata de definir ese momento para que la medición
de la calidad sea la apropiada.
1.4- Definición de criterios de calidad
Se trata de establecer criterios de valoración para juzgar la bondad de un dato y de definir
criterios de evaluación para determinar la bondad del conjunto de los datos.
Fase 2 – Creación de una estructura de calidad
Es la fase de diseño, donde el objetivo es dotar al almacén de datos de una estructura para
guardar los valores que más tarde se recogerán para las medidas de calidad. En función del
número de veces que se haya analizado la calidad de los datos guardados en el almacén de
datos, se puede presentar algunas de estas 3 situaciones:
2.1- Que no hay ni siquiera almacén de datos, con lo que será necesario diseñarlo
añadiéndole directamente los aspectos de calidad que se consideren más adecuados.
2.2- Que no haya almacén de datos pero que no dé soporte para los aspectos o dimensiones
de calidad. Lo que habrá que hacer será modificar el modelo para dar el citado soporte
2.3- Que el almacén de datos ya cuente con estructura de calidad debido a análisis
realizados anteriormente
En cualquiera de las circunstancias en las que haya que modificar el modelo del almacén
de datos hay que tener presente que se pueden ver afectados todos los procesos que
manejaban esos datos, por lo que se recomienda tener en cuenta todos esos cambios.
Fase 3 - Medición de los atributos de calidad
Una vez que el almacén de datos disponga de una estructura para guardar las medidas de
las dimensiones de calidad, esta fase consiste en recopilar valores para dichas medidas en
las dimensiones especificadas. Puede llegar a ser necesario que para algunas dimensiones
de calidad se deba conocer el valor del dato real y compararlo con el dato almacenado. En
función de la cantidad de datos y del nivel de calidad exigido puede ser necesario medir los
valores de todos los datos o seleccionar por muestreo sólo una parte de esa totalidad. En
cualquier caso estas mediciones se guardarán en el almacén de datos.
Fase 4 – Análisis y evaluación de los valores de los atributos de calidad
En esta fase, se someterán los valores individuales medidos en la fase anterior a los
criterios de valoración para determinar el grado de bondad de un dato, y según el número
de datos con calidad y los criterios de evaluación establecidos se juzgarán si esos datos
tienen o no el grado de calidad deseado. Si es así, se certificarán los datos como válidos
para la aplicación. En caso contrario se desechan como inválidos, procediendo
posteriormente como mejor convenga: corrección de los datos existentes o captura de
nuevos datos.

 

0 comentarios:

Publicar un comentario