Datos abiertos con impronta propia

 

 

Unos días antes del comienzo de los Juegos Olímpicos de Londres 2012 accedimos a una gran base de datos del portal inglés The Guardian integrada por 29.217 registros. Es un interesantísimo listado de todos los atletas que ganaron una medalla a lo largo de la historia, desde Atenas 1896 hasta Pekín 2008. The Guardian, en su Data Blog compartió una galería de visualizaciones y abrió los datos para que la audiencia pudiera hacer sus propios análisis. Y así lo hicimos, bajamos los datos en formato Excel y empezamos a procesarlos. 

Les cuento nuestra experiencia:

  1. Acceso a los datos: Esto fue realmente sencillo. Los verdaderos datos abiertos son aquellos que le solucionan la vida a quien quiere adueñarse de ellos y no los que ponen millones de trabas para poder ser descargados.
  2. Traducción: Obviamente, como los datos provenían de The Guardian Data Store estaban en inglés así que nos tomamos el trabajo de traducir el nombre de cada deporte, disciplina, sede olímpica, etc.; menos el nombre de los atletas, todo lo demás fue traducido al español. Si entendemos que una visualización de datos es una pieza comunicación, jamás deberíamos hacerlo en un idioma que no sea entendido por la gran cantidad de lectores que suponemos que la van a ver.
  3. Chequeo de datos: Que los datos sean abiertos no quiere decir que estén armados de una manera que sirva para el fin específico que tiene cada usuario en particular. Si bien esta base era completísima,  Pablo Lisotto, nuestro especialista en datos estadísticos del mundo del deporte, detectó algunos problemas que no podíamos dejar pasar.
  4. Entender el problema: El problema se originaba con los deportistas que formaban parte de un equipo. Les cuento.  Cuando un equipo gana una medalla olímpica se le entrega una a cada integrante del equipo, pero a la hora de contabilizar el total de medallas ganadas por el país, se entiende que sólo ganó una. Correcto? Bueno, esto que parece tan obvio no era facil de plasmar en la base de datos.
  5. La solución: Debíamos buscar la manera de contabilizar una sola medalla por equipo para cuando quisieron hablar del total por país; pero seguir teniendo una por atleta para visualizaciones que fueran más al detalle. Teniendo en cuenta que el Excel tenía 29.217 registros, el problema no era tan fácil solucionar. Entonces creamos dos columnas distintas: en una le adjudicamos el valor “1″ a cada registro, y en la otra, solo pondríamos el valor “1″ al primer atleta de cada equipo y al resto, “0″. Gabriela Bouret, nuestra experta en minería de datos, creó una pequeña fórmula en Excel que nos ayudó a solucionar este tema.
  6. Visualizaciones: Una vez finalizado el trabajo según nuestros requerimientos, empezamos a diseñar las visualizaciones interactivas. Algunas acompañaron varias notas de canchallena.com, y otras fueron pensadas directamente para la Landing Page de los Juegos de Londres 2012.

Acá les muestro algunos gráficos

Resumiendo

A veces uno puede bajarse los datos y usarlos directamente como vienen, pero otras veces no. Por otro lado, siempre es bueno poder chequearlos con una persona idónea en el tema y, si es necesario, traducirlos al idioma que hablen los lectores.

Una de las tantas cosas buenas que tiene este tipo de curación de datos es que con una misma base se pueden generar múltiples visualizaciones como en el caso que les mostré arriba. Ah! Casi me olvidaba, todas nuestras visualizaciones se hicieron en Tableau Public, nuestro mejor aliado hasta el momento en lo que se refiere a visualizaciones de datos.

Bajate los datos y probá vos también.