Los datos no hablan por sí mismos

 

¿Creyeron que los datos hablaban? Bueno, disculpen que les pinche el globo, pero no. Les cuento el porqué.

Para explicar esta frase encontré una metáfora muy conocida y súper popular; la del vaso medio lleno o medio vacío.

Un vaso contiene líquido hasta la mitad de su volumen. Un optimista diría que el vaso está medio lleno, pero un pesimista, con una visión totalmente diferente, diría que el vaso está medio vacío. Ambos miran lo mismo, pero llegan a conclusiones diferentes.

  • Los datos no dan un mensaje inequívoco, necesitamos de un marco que los valide.
  • La percepción de los datos varía según cada intérprete, porque cada uno de ellos utiliza un lente diferente para mirarlos.
  • Cualquier conjunto de datos es sólo una colección de números abstractos que sólo toman sentido luego de una interpretación. De esta manera, es entendible que frente a los mismos datos se llegue a conclusiones diferentes, hasta opuestas; como es el caso del vaso del agua, ambas interpretaciones son “correctas”, pero el hecho real es que el vaso está por la mitad.

Entonces, cuando alguien dice: “los datos hablan por sí solos”, en realidad quiere decir “si mirás los datos con el marco que los estoy viendo yo, seguramente veas lo mismo que yo”.

Ej.: La producción de petróleo

Hace unos días tuve acceso a una base de datos bastante interesante y resonante en estos días. El archivo contenía el total de yacimientos petroleros de YPF, dividido por cuencas petrolíferas, provincias y cantidad de petróleo producido durante 2009, 2010 y 2011. Estos son los datos crudos. Prueben a ver si les hablan jajaj 

Desarrollado por Junar

No soy una especialista en petróleo ni mucho menos y por eso la visualización de estos datos fue complicada. No lograba hacer nada con ellos, precisamente porque no podía darles ningún marco de interpretación. Levanté la mano, pedí ayuda y finalmente, la mirada periodística de Jorge Oviedo logró darle el marco de interpretación que yo no podía.  Esos datos a él sí le hablarían ya que es un especialista en hidrocarburos. 🙂 Abajo le dejo la visualización que finalmente publicamos.

 

Esta visualización contiene muchos más datos que el cuadro anterior, porque no solo incluye la producción de petróleo de YPF sino la de todas las empresas que producen en nuestro país. Por este motivo, quisimos darle al usuario varias opciones de filtro, ya que el caudal de datos era realmente abundante. Y a mayor cantidad de filtros, mayor posibilidad de encontrar datos más detallados.

El filtro que nos pareció más importante, y por eso lo colocamos arriba de todo, fue el de las empresas. Y en una segunda línea siguieron todos los demás: fecha (anual), cuencas petrolíferas de todo el país, provincias, y por último, los yacimientos.

Entrecruzando todas estos filtros/variables, los datos se potenciaban y seguramente cada lector lograría exprimir la base de datos y encontrar cualquier dato específico que necesitara. Obviamente y por lo que podrán ver, acompañado por la geolocalización de la provincia en donde se encontraba el o los yacimientos seleccionados junto con un código cromático que hablaría de la cantidad de petróleo producido en dicha locación. Por otro lado, si el foco estaba puesto en una empresa en especial y no en el detalle de sus yacimientos, el lector también podía saberlo.

Si bien los datos no hablan por sí mismos, los visualizaciones le dan el marco que ellos necesitan para comunicarse. Con lo cual seguiría diciendo que ellos no hablan por sí mismos, sino que son las visualizaciones las que los hacen hablar. Se entiende, ¿no?