jump to navigation

La calidad de los datos 07.8.15

Posted by Migsar in Computación, GIS.
Tags: , , , , , , , , , ,
add a comment

Lo más importante a la hora de obtener información mediante el procesamiento de datos, sean geoespaciales o no, es la calidad de los datos. Si los datos no sirven no es posible extraer información de ellos, para saber si sirven o no, existen algunos criterios, entre los principales se encuentran los siguientes. Es importante entender que los criterios pueden ser cualitativos o cuantitativos, a mi parecer es más sencillo tratar con criterios cuantitativos pues se trata de una escala numérica en base a una regla establecida; para los criterios cualitativos es necesario definir la escala en base a experiencia, en ambos casos se puede ser más o menos subjetivo y también tener escalas erróneas. Por ejemplo, si queremos saber si la llanta de un coche sirve podemos establecer el criterio de la presión del aire, medida en kilogramos fuerza por centímetro cuadrado o libras por pulgada cuadrada, que sería un criterio cuantitativo, con un rango de utilidad basado en el dato, por otro lado, podríamos utilizar un criterio visual sobre el desgaste, en donde se diga si está nueva, tiene poco uso, mucho uso o está inservible, esta vez se trata de un criterio cualitativo. Ambos criterios son necesarios y muy útiles, sin embargo, el juzgar el uso dependerá mucho de la experiencia del encargado y de su conocimiento sobre distintos grados de uso, apariencia y desempeño, es decir, requiere una mayor capacitación. Los cinco primeros criterios mostrados son cuantitativos y los otros tres cualitativos.

Exactitud posicional

Se refiere a la precisión del componente espacial de una base de datos. Las medidas de la exactitud posicional dependen de la dimensionalidad. El método está muy bien definido para los puntos, pero no es tan aceptado para las líneas y los polígonos. Para los puntos el error se define como la diferencia (normalmente mediante distancia euclideana) entre la unicación codificada y la definida en la especificación. El error puede ser medido en cada uno de los ejes combinados o en combinación de todos. La medida más usada es el error horizontal (tanto x como y) y el error vertical (z). Existen varios métodos, como el error promedio o el error cuadrático medio (RMSE) . Se llama sesgo a un error sistemático, es decir, presente en todos los datos.

Exactitud temática

Los métodos para medir la exactitud temática, también llamada exactitud de atributos, varían según la escala de medición. Para los atributos cuantitativos los métodos son similares a los utilizados para la exactitud posicional de puntos, ya que los atributos cuantitativos pueden verse como superficies estadísticas en las que la exactitud se percibe de un modo similar a la elevación. Para datos categorizados la mayoría del trabajo se ha hecho en investigaciones de calidad de datos en percepción remota. Es importante no confundir la resolución con la presición. La resolución baja puede ser adecuada para ciertos trabajos pero la presición baja no lo es.

Exactitud temporal

La exactitud temporal no es la más tratada en la literatura quizá porque el tiempo no es considerado explicitamente en los modelos geoespaciales convencionales. El término se refiere a la concordancia entre las coordenadas codificadas y las ‘actuales’ refiriéndose a las del momento al que se compara el dato. A veces se confunde con actualidad, sin embargo, la actualidad es una medida de exactitud temporal particular a una aplicación. Un valor es actual si es correcto a pesar de cualquier posible cambio temporal de su valor. Esto significa que la actualidad se refiere al grado de relevancia respecto al presente de una base de datos. Para que la actualidad y la exactitud temporal sean iguales se necesita que una base de datos temporalmente exacta este puesta al día, es decir, con datos respecto al tiempo presente. Evidentemente una base de datos puede tener gran exactitud temporal sin estar referida al tiempo presente, de hecho, los registros históricos dependen de la exactitud temporal de sus datos. Para evaluarla es necesario tener un marco temporal definido, algo que ha costado mucho trabajo en la práctica.

Completitud

Completitud se refiere a la relación entre los objetos de una base de datos y el universo abstracto de los mismos, es decir, la posibilidad de variación en los valores. Los criterios de selección, las definiciones y otras reglas de mapeo se utilizan para determinar la completitud de una base de datos. Se necesita una descripción precisa del universo de datos para evaluar la relación entre este y los datos. El universo puede describirse en términos del grado de abstracción deseado y de las generalizaciones asumidas. Así, existen dos tipos de completitud, la de los datos, que significa que no existen omisiones, es decir, contienen todos los datos especificados; y la del modelo, que se refiere a la concordancia de la definición del modelo con el universo abstracto requerido para la aplicación en particular. La completitud o falta de la misma se puede definir respecto al tiempo, al espacio o al tema.

Consistencia lógica

Se refiere a que no haya contradicciones aparentes en una base de datos. Para datos geoespaciales el término se refiere usualmente a que los datos respeten ciertas reglas topológicas, que varian de acuerdo a la dimensionalidad de los datos. Quitar las inconsistencias topológicas se considera un requisito previo al procesamiento en sistemas de información geográfica. La consistencia topológica es sólo un aspecto de la consistencia lógica, en el dominio espacial, sin embargo, también debe de existir consistencia lógica para el resto de los atributos, en estos casos el método para verificarla depende del atributo a considerar. El identificar inconsistencias no siempre significa que puedan ser resueltas y en algunos casos, tampoco significa identificar en que atributo se encuentra el error, se identifica simplemente el conjunto en el que se presenta la inconsistencia. Por otro lado, la falta de inconsistencias lógicas no tiene nada que ver con la exactitud de los datos.

Objetivo

Se refiere al propósito de los datos. Tanto de su obtención como de su representación en un sistema de información geográfica o una base de datos. La calidad misma de los datos está fuertemente ligada a este concepto, pues las características de aceptaptación de los datos dependen de para que piensen usarse. Siendo el modelo una abstracción del mundo real el objetivo determina que cualidades deben observarse al realizar el modelado.

Uso

El uso está muy relacionado al objetivo, sin embargo, existe una diferencia fundamental, el uso se refiere a la materialización del objetivo. Cuando se diseña una base de datos espacial se contempla un uso deseado, que puede o no corresponder con el uso real que se hará. Existe una disparidad generada por esta dicotomía entre la utilidad prevista y la obtenida siempre que el uso sea diferente del objetivo, que es algo muy usual en los campos tecnológicos y científicos.

Linaje

Se refiere a las fuertes de los datos, los métodos de obtención de los mismos y las transformaciones aplicadas para representarlos en una base de datos. Incluye información temporal y debe de ser lo suficientemente preciso para identificar las fuentes de objetos individuales. Si una base de datos se obtuvo de una funete distinta al levantamiento o captura de datos, o de varias fuentes diferentes, se de considerar incluir información sobre el linaje en un atributo u objeto de la base de datos.