Limpieza de Datos

DataCleansingLa Limpieza de Datos o Datacleansing es la tarea de descubrir errorres en la carga de los datos de análisis y realizar su corrección.

Siempre resulta ser una tarea por lo demás engorrosa y de gran consumo de tiempo. Las empresas mayormente prefieren no analizar la información provista por estos campos si está muy dañada.

Actualmente existen herramientas que  facilitan enormemente la tarea

No se puede dar este lujo si dichos campos de la base de datos corporativa tienen información sensible. Si se trata de información transaccional que afecta a la operatoria de la compañía, será necesario realizar la inversión lo antes posible. Si se trata de información estratégica, ha de trazarse un plan de corrección, ya que la información que no se está aprovechando se convierte en una debilidad que las empresas competidoras pueden hacernos observar.

Las maneras de tratar esta tarea han sido tradicionalmente trabajo de los data entrieso o los gestores del transaccional. Les llegan los requerimientos por avisos específicos de los usuarios del sistema al encontrar un error, o bien en forma de lote o listados de revisión enviados por un sector que ha visto demasiadas anomalías en un campo de datos. Su arreglo es una dolorosa modificación regustro por registro.

Muchas veces se envían estas tareas en lote al personal de sistemas, quienes pueden aplicar correcciones en masa. No obstante no sigue siendo la solución adecuada porque estas personas no tienen dominio de las ariables analizadas y cumplen con las órdenes simples con las que vino el requerimiento. Un detalle pasado por alto puede llegar a  sgnificar millones de regustros modíficados erróneamente sin vuelta atrás o sin poder ser advertido a tiempo.

La tarea de limpieza de datos debe encomendarse a las personas que tengan conocimiento sobre los datos a modificar. La dificultad que ha habido hasta hace poco es la falta de herramientas qu eagilicen esta tarea. Ultimamente Google ha desarrollado unas herramientas gratuitas que pueden ayudar a colaborar junto con las planillas de cálculo.

Este Video presenta las capacidades de Google Refine, una herramienta gratuita provista por Google. Nos permite medante agrupaciones y técnicas de anagramas y similaridades, hallar descripciones de conceptos qu esignifican lo mismo, pero que estpan escritos de manera similar.

Para tareas de Geolocalización, Google también dispone de una herramienta gratuita llamada FusionTables, Esta aplicación en la nube nos permite estandarizar direcciones de domicilio en masa.

Para ambas herramientas es necesario tener una cuenta de Gmail y trabajar desde la nube.