Datos Bien Cerrados

 

Datos Bien Cerrados

Para hacer periodismo de datos se puede prescindir de muchas cosas, ya que hay herramientas digitales gratuitas que todos los periodistas podemos usar para sortear casi cualquier obstáculo; pero de lo que no podemos prescindir, es de los datos. Son una condición de borde necesaria sin la cual no podemos siquiera comenzar a diseñar hipótesis periodística alguna. En la Argentina de nuestro tiempo, si un ciudadano quiere procesar los datos del gasto público del Gobierno Nacional en materia de publicidad oficial, se encontrará con varios escollos a partir de este enlace. Siempre y cuanto tenga la suerte de rescatarlo de las entrañas de la Web. La información fue alojada en el Website “Mejor Democracia“, de la Jefatura de Gabinete de Ministros, bajo una variable que pocos usarían al momento de hacer una búsqueda en línea: “Fondos Públicos destinados a la difusión de actos de gobierno”.  No es la única barrera entre los datos allí alojados y gente: para comenzar, no están debidamente actualizados, ya que el último documento corresponde al primer semestre de 2011.  Durante una sesión de entrenamiento con periodistas pedí que intentaran rescatar los datos sin ayuda de programas pagos. Ninguno de ellos pudo hacerlo. El formato lo complicó todo. El segundo PDF contiene 18 hojas, creado el 7 de mayo pasado desde Excel, según se lee en sus Propiedades.  Pero no se mantuvo el formato original con opción de descarga, con lo cual hubiéramos tenido, como en otros países, datos abiertos. Lejos de eso, los PDFs que se visualizan en el citado sitio, pueden convertirse en una pesadilla si no de dispone de la habilidad para exportar los datos y dependiendo del software instalado en la computadora, para lograr la meta, en algunos casos habría que repetir determinado procedimiento ¡18 veces! 

En otros PDFs gubernamentales, el asunto se complica más.

La Comisión Nacional de Comunicaciones, publica PDFs que provienen de imágenes. Cuando sólo incluyen texto, con recurrir a un programa de Reconocimiento Óptico de Caracteres gratuito, como Free-OCR, sería suficiente. Por citar el caso de una herramienta sencilla. O También se puede abrir una cuenta en DocumentCloud, que al momento de “subir” un documento a su plataforma, ofrece al usuario 3 pestañas por defecto: Documento, Páginas y Texto (ver ejemplo aquí). En la última se visualizan los datos que fueron extraídos, automáticamente al momento de la subida. Pero cuando el contenido incluye tablas, rescatar los datos de cada celda y obtener un resultado estructurado implica un obstáculo, si el periodista no dispone de habilidades desarrolladas, recursos adecuados, conocimiento en lenguajes de programación o la ayuda de un experto.

Veamos algunos ejemplos.

  1. El Ministerio de Infraestructura de la Provincia de Buenos Aires publica resoluciones como esta (ver aquí), de la que el texto se extrae con facilidad, pero las tablas que aparecen en las últimas hojas, no.
  2. El detalle de las “Soluciones Habitacionales” que muestra el sitio del Ministerio de Planificación Federal (siga este enlace), provee una lista de PDFs comprimidos. Una vez rescatados de la compresión, para casi todos los casos, el conversor gratuito Zamzar funciona bien, aunque durante el proceso de PDF a Excel, la información aparece separada en muchas hojas imposibles de unir de modo sencillo, a menos que se copien y peguen las celdas desde cada hoja a una principal, decenas de veces. (Secreto de Zamzar: cuando toma un archivo no lo muestra en el cuadro de carga o subida, pero el documento está, aunque éste no se visualice)
  3. La Dirección Nacional de Propiedad del Automotor y Créditos Prendarios, publica las valuaciones de distintos rodados, (como se visualiza en este link), a lo largo de una serie temporal. Pero lo hace al revés, del año más reciente al más antiguo y para extraer los datos hay que copiar y pegar los datos en Excel, luego estructurar el texto en columnas desde la pestaña “Datos”, delimitar las tabulaciones por comas y espacios, para finalmente rescatar todo el contenido.
  4. Las variables expresadas al revés, como las series temporales, no son una característica única de la fuente antes citada. Los Indicadores de producción del Hospital Garraham también aparecen en orden inverso con relación a la secuencia anual. Para un correcto análisis de datos, la línea de tiempo se debería mostrar desde el momento más antiguo hasta el más reciente; a menos que se calcule una variación porcentual, en cuyo caso se analiza la diferencia porcentual del último año, con relación al anterior o al primero de la serie. (Si no sabe cómo calcular variaciones porcentuales usando Excel,  puede recurrir a Percent-Change, colocando el primer dato de la serie en el primer cuadro y el final en el último)

 

Por supuesto, todos los casos expuestos corresponden a datos no abiertos, (no reutilizables, no descargables),  que plantean un problema no menor. No existe una cultura de datos abiertos en nuestro país.

Los periodistas, ciertamente, podemos resolver estos escollos aprendiendo técnicas específicas. Pero ¿qué ocurre con los ciudadanos? ¿acaso los contribuyentes no tienen derecho a un mejor acceso a los datos directamente relacionados con el dinero público?

La información con atraso, desordenada, en formatos inadecuados, ciertamente se lee en pantalla, pero visualizar datos no es lo mismo que acceder a ellos.

En el filme “Ojos Bien Cerrados”, dirigido en 1999 por Stanley Kubrick poco antes de su muerte,  el eje argumental versa sobre dos sentimientos concretos:  la incertidumbre y la insatisfacción. Sin los componentes del thriller que rodean aquella oscura historia, 13 años después, ciudadanos y periodistas argentinos, nos encontramos con “Datos Bien Cerrados”. Ante ellos, experimentamos incertidumbre y nadie puede sentirse satisfecho con un escenario en el que hay que tener habilidades específicas, cuando no pagar por recursos adicionales, para acceder a datos legítimamente públicos.

 

Recurso: Herramientas de Extracción de datos

Recurso: Ejercicios Prácticos

Fuente Foto

 

*Sandra Crucianelli es Knight International Journalism Fellow de ICFJ. Integra como consultora el equipo de Nación Data.