Cómo usar OpenRefine para trabajar una base de datos

 

Por Natalia Sampietro(*) (**)

Cuando trabajamos con datos buena parte de nuestros esfuerzos y tiempo se va en el acondicionamiento, limpieza y puesta en orden de los mismos. Problemas de codificación, estándares, delimitadores, errores de tipeo, entre otros, se convierten en uno de los primeros obstáculos a superar en el camino hacia la generación de información de calidad.

En la búsqueda de una herramienta que simplifique ese camino nos encontramos con Open Refine, antes conocido como Google Refine, un producto de código abierto que ofrece múltiples funcionalidades que van desde limpieza, organización y transformación en diferentes formatos, hasta la posibilidad de extender los datos a través de web services y relacionar con bases de datos como Freebases.

Combina una interfaz amigable e intuitiva para quienes se inician en su uso con una ventana de comandos que permite aumentar la complejidad de las acciones para aquellos usuarios familiarizados con la herramienta.

Primeros pasos

En el tutorial a continuación desarrollamos un ejemplo a partir de la base de datos de BAset, sistema de tramitación de permisos de filmación en la Ciudad, disponible en el catálogo de Datos Abiertos Buenos Aires Data. Mostraremos cómo se puede combinar el uso de Open Refine para el acondicionamiento de los datos y la API de codificación geográfica de Google para extender los datos disponibles. Al finalizar, podremos utilizar la base de datos resultante para generar un mapa con filtros interactivos en Fusion Tables, aunque los variados formatos de exportación permitirían el uso de herramientas alternativas para el análisis o visualización de la información.

En este documento podés encontrar toda la lista de comandos y expresiones utilizadas durante el tutorial, para que te sea más sencillo reproducirlo. También, es posible recorrer el video mediante las anotaciones en el mismo y ver directamente los pasos que te interesan.

 

 

Recursos

Catálogo de Datos Abiertos del Gobierno de la Ciudad Autónoma de Buenos Aires

Open Refine

Wiki de Open Refine

 

Dudas más frecuentes sobre la API de codificación Geográfica de Google.

Descargá el proyecto de este tutorial. Para ello, recordá guardarlo en tu computadora, ingresar a Open Refine y luego importarlo desde la opción “Import Project”.

 

* Economista y Jefa de Data Mining en la Dirección de Gobierno Abierto de la Ciudad Autónoma de Buenos Aires.

** Post actualizado el 16/01/2013 a las 12.45 hs.