Podríamos considerar como caso “histórico” de Periodismo de Base de Datos el de las “MP’s Expenses” de The Guardian.
El 8 de mayo de 2009, The Telegraph comenzó a publicar notas relativas a gastos presentados a reembolso por los ministros parlamentarios. La información la obtuvo de una fuente non sancta a la que pagaron £ 110.000.
Destacaremos cuestiones relacionadas con la gestión de información que realizó The Guardian a partir de dicha publicación oficial.
A) la construcción de una aplicación orientada a interactuar con la audiencia para recoger información relevante de los reclamos de reembolso (via “crowdsourcing”)
B) la conformación de la base de datos principalmente a partir de los aportes de la audiencia.
C) la puesta a disposición de la base obtenida en planillas símil Excel (Google Spreadsheets) para que otros puedan trabajar con los datos.
D) las visualizaciones realizadas por Tony Hirst a partir de la combinación de herramientas de procesamiento como Yahoo Pipes y de visualización como Many Eyes y Google Maps.
E) los principios relacionados al Periodismo de Base de Datos: #OpenGov, #Crowdsourcing, #OpenData, #Scraping y #DataViz
Un trabajo presentado recientemente por el equipo de periodismo de base de datos de ProPublica muestra de una manera clara e interactiva el círculo que rodea a Rupert Murdoch -magnate australiano propietario de News Corporation- en el escándalo de las escuchas ilegales que lo involucra y que provocó ya la renuncia de los dos principales jefes de Scotland Yard y de algunos de los máximos responsables del multimedio.
El desarrollo permite navegar entre todos los protagonistas, aquellos personajes que fueron arrestados y los que tuvieron que dimitir. El despliegue visual permite distinguir cada persona de acuerdo a su proximidad con Rupert Murdoch, James Murdoch y otros altos funcionarios.
Datos, datos y más datos; esa es la materia prima de las visualizaciones. Sin datos, no podemos hacer nada. Pero bueno, el tema es que cuando se produce el “milagro” y aparecen los datos, nunca están presentados de una manera “digerible” para el usuario común. «¿A quién le puede servir un montón de planillas de Excel con múltiples columnas y miles de filas de números?», me pregunté varias veces. No cualquiera los entiende y, mucho menos, interpreta lo que esos datos quieren decir.
Cifras, fechas, lugares, personas, todos son datos; pero no todos son información relevante para aquello que queremos contar. «¿Y qué quiero contar?», se preguntarán. Bueno, en este punto es donde comienza para mí el proceso de visualización de datos. Un proceso que presenta múltiples aristas.
Periodística
Hay que saber qué historia quiero contar y para ello es sumamente necesario comprometerse con la información. Entenderla de la “A” hasta la “Z”. Si no entiendo qué quiero contar, menos va a entender el lector que ve nuestras visualizaciones.
Visual Tenemos que diseñar la manera en que se va a ver nuestra visualización. Niveles de lectura, colores, formas, tipografías, etc.
Infográfica
«¿Qué tomamos de este mundo?» La síntesis y su manera de graficar. Barras, tortas, fiebres, etc.
Interactiva Este punto se focaliza en la manera que el usuario va a navegarlas. Todas las opciones que le demos al lector deben haber sido pensadas previamente por nosotros y deben verse en forma clara. Para confundirlos, ya existen las eternas planillas de Excel con miles de datos. O no?
Les presento algunos trabajos de NPR (EEUU) que inspiraron mi camino de interiorización en periodismo de base de datos.
La primera es una entrevista realizada por la IJNet (International Journalists Network) a Robert Benincasa donde el periodista explica los rudimentos del CAR (Computer-Assisted Reporting)
El video está en inglés pero dejo las ideas principales traducidas más abajo.
Definiciones y Objetivo
Benincasadefine “CAR” como la disciplina que usa análisis de data para contar una historia; encuentra información escondida y la pone a disposición de la opinión pública.
Define “Data” como aquella información altamente estructurada que puede ser leída por software. La información sigue un patrón y está bien documentada. No obstante, las bases de datos en crudo pueden tener errores y debilidades.
El desafío es encontrar tendencias o asociaciones en la data que sean relevantes periodísticamente.
Mariano Blejman es editor de tecnología y cultura joven del diario Página/12, pero hace unos años es uno de los principales referentes periodísticos en la experimentación con proyectos sustentados en bases de datos.
En 2011 fundó junto con colegas y programadores web el movimiento local del Hacks/Hackers, un encuentro multidisciplinario que busca resolver problemas a través de aplicaciones de uso periodístico. Uno de sus principales intereses es trabajar junto con especialistas en tecnología para agregar valor en las historias que le toca contar como profesional de prensa, desarrollar visualizaciones a través de enormes bases de datos y construir conocimiento sobre una problemática de interés común con el aporte de otros usuarios.
El equipo de esta página web chequeó si la frase era cierta o no consultando cifras de la Subsecretaría de Desarrollo Urbano y Vivienda de la Nación. En su discurso, la presidenta afirmaba que habían construido 800 mil viviendas en ocho años. Pero Chequeado comprobó que la cantidad de viviendas construidas era menor ya que la cifra citada incluía las “soluciones habitacionales”, que no son específicamente viviendas, sino subsidios o préstamos para realizar mejoras en los hogares. En rigor, no son el gobierno que más viviendas construyó en la historia.
Esta nota fue la más comentada en el sitio web. Y de hecho tuvo grandes repercusiones, ya que según “Pepe” José Bekinschtein, uno de sus fundadores, luego de la publicación de la nota, la subsecretaría de vivienda cambió el sistema para contabilizar las viviendas y pasaron todas a categorizarse como “soluciones habitacionales”. “No sabemos si esto fue porque se difundió la nota o no”, dice Bekinschtein y agrega “solo sabemos que si hoy queremos hacer la misma nota, no se puede porque ya no están disponibles las cifras (en la página de la subsecretaría)”
No obstante, la presidenta Cristina Kirchner, no fue el único personaje público que reprobó el examen de Chequeado. Hay otros políticos como Mauricio Macri, Francisco de Narváez -por sólo nombrar algunos- que tampoco aprobaron el examen. De hecho la mayoría de políticos cae en discursos falsos, engañosos, insostenibles o exagerados, según las distintas categorizaciones del sitio. Los políticos revisan más sus discursos públicos desde la creación de Chequado.com– o por lo menos deberían hacerlo-.
Chequeado.com, que depende de la Fundación La Voz Pública, una organización sin fines de lucro creada en febrero del 2010, es una herramienta de verificación del discurso público que se toma muy enserio el tema de datos.
Si se trata de una opinión, “no es un hecho verificable. Pero si se habla de dato, ahí hay un hecho verificable”, dice Julio Aranovich, co-fundador de chequeado. Que además, cuenta que se inspiraron, para la creación del sitio en otras iniciativas como FactCheck, Channel 4 News, Politifact y Decodeurs de Le Monde.
Aranovich, dice que los datos son elementales para que los ciudadanos “tomen decisiones razonables” y es por eso que (citando a Simon Rogers) cree firmemente que los hechos son sagrados.
En este video, Aranovich y Bekinschtein revelan cuáles sus armas para verificar el discurso público:
Su método de trabajo es simple. Primero identifican la afirmación que quieren chequear, luego verifican el dato, califican el dato como falso o verdadero y por último publican la nota. Para conocer cómo es un día de chequeado, escuchá a Olivia Sohr, una de sus redactoras en este video:
Le preguntamos a Julio Aranovich, si la subjetividad de la ciencias sociales era un problema para su trabajo de chequeo de información. Aranovich, que tiene un doctorado en física aplicada en la universidad de Stanford, fue contundente en su respuesta:
_Actualmente se discute que el periodismo y las ciencias sociales son subjetivas. ¿Qué pensás al respecto de esto? ¿Y cómo le hacen frente ustedes a esto considerándose fiel defensores de los hechos?
_Que lo que hay se llama ciencia social, acá, tiene una mirada subjetiva necesariamente parece ser cierto, pero hay que tener cuidado con esto de discusión de la subjetividad y la objetividad. Por ejemplo hay que recordad la famosa discusión de (George Edward) Moore que dice esto es una mano, si vamos a discutir eso, avíseme que me voy. Y no conozco a nadie que le contesten, cuando dicen que no tiene plata para alimentar a sus hijos, que ese es un hecho que puede ser como no ser
Sohr, del staff de Chequeado te invita a que conozcan y navegues con ella en la página web de Chequeado.com en este screenr:
En la página de la CNRT se pueden encontrar también datos de transporte público interurbano.
3 conclusiones a simple vista si comparamos datos de 1987 con 2010:
se concentra la cantidad de empresas pasando de ser 126 a 91 en 2010
baja la cantidad de líneas de 147 a 136 pero aumenta la cantidad de vehículos por empresa y los kms de distancia media recorrida.
baja la cantidad de pasajeros transportados de 2.173MM a 1.610MM pero se mantiene, aunque con un leve descenso, el ratio de pasajeros por km de 2,82 en 1987 a 2,20 en 2010
Darío Wainer es cofundador de GarageLab, “un espacio de de colaboración, innovación y producción científica, artística y tecnológica, para descubrir problemas, emprender soluciones y generar riqueza”, según reza su declaración de principios. Se trata de un grupo de experimentación integrado por 22 miembros que provienen de diferentes disciplinas, pero que tienen un único interés: resolver problemas a través de la creación de herramientas y la construcción de conocimiento colectivo. Lo hacen a través de diferentes actividades como charlas, talleres, hackatones y proyectos especiales.
En esta entrevista exclusiva para LN Data, Wainer comparte sus impresiones sobre el movimiento de datos abiertos (Open Data) y explica por qué es tan importante el trabajo entre diferentes organizaciones de la sociedad civil para transparentar información que resulta crucial para la vida de las personas. Además, considera fundamental el trabajo que la ciudadanía y los medios pueden realizar para empujar la acción del Estado en políticas públicas concretas y comparte algunas soluciones creativas.
- ¿Cuáles son las ventajas del trabajo con datos abiertos?
- Hay muchísimos beneficios que se derivan del trabajo con datos abiertos. Uno que me importa especialmente es la oportunidad de abordar problemas de alto impacto a partir de contar con fuentes de datos abiertos. Puede ocurrir que estos datos sean generados por la Administración Pública y ya no hablemos sólo de datos sino de Gobierno Abierto y en ese caso el espectro de tópicos en el que emergen estos problemas coincida con la agenda de gobierno: desde el Medio Ambiente, hasta la Salud, la Educación, o la Ciencia y la Tecnología. Pero también pueden ser abiertos los datos generados por la población, reportando incidentes, comunicando sucesos que sólo son conocidos localmente por quienes son sus testigos. En ese caso, lo que tenemos es “crowdsourcing” o “externalización masiva”.
“Hola mundo DATA” , saluda el eslogan de nuestro nuevo blog.
Se trata de un espacio en el que el protagonista es el dato, el más insignificante, el que parece invisible a los ojos. Queremos levantar su voz, su imagen y que sean millones de datos, cuanto más abiertos mejor.
¿Y el otro protagonista? las personas. Los que hacen la diferencia, los que empujan primero, los que construyen, los que superan el escepticismo, los que prestan su tiempo y conocimiento para mejorar algo, para cambiar algo o simplemente para divertirse creando.
Y el resto: los que interactúan con los datos, los que aportan datos, y los que colaboran para convertirlos en información , servicios, conocimiento.
Queremos registrar lo que está pasando en este momento en la Argentina y el mundo con el movimiento creciente de acceso bases de datos, públicas o no, pero cada vez más cercanas y abiertas.
Algunos dirán que ésto no es nuevo, es cierto. Los investigadores, los programadores, los científicos, los académicos, las consultoras, las empresas de diferentes rubros, algunos medios de comunicación, muchas ONG, periodistas y universidades trabajan a diario con los datos y extraen conocimiento de ellos.
Pero la gran novedad es que en este momento la plataforma digital y los medios online permiten a todos ver esos mismos datos, almacenar otros, interactuar, explorar o construir algo nuevo.y… ¡publicarlo!.
“La información es un bien de dominio público y, por lo tanto, es de toda la sociedad”, afirmó el presidente de la Corte Suprema, Ricardo Lorenzetti, que ayer presentó el programa de Gobierno Abierto del Poder Judicial.
El titular del alto tribunal sostuvo que “la iniciativa representa un cambio de paradigma en el modo de gobernar el Poder Judicial” y evaluó que “la colaboración de la gente y su participación permitirán instalar juzgados en los lugares mismos donde están los conflictos”.