En LA Times robotizan tareas de investigación tediosas

 

 

¡Gracias http://marksfisher.com/ !

 

Ben Welsh (@palewire)  es un “Database Producer” en Los Angeles Times Data Desk (@LATDataDesk). Claramente uno de los nuevos perfiles profesionales dentro de las redacciones del mundo.

Su apasionada presentación en la Conferencia de ISOJ arrancó con un juego de palabras entre Computer-Assited Reporting (CAR) y Human-Assisted Reporting. Me costó elegir cuál presentación traducir de todo el panel de Periodismo de Datos en Austin, pero ésta fue la más disruptiva.

Recomiendo enfáticamente ver el video que tiene subtítulos. Mis mejores esfuerzos de explicarlo en texto no pueden compararse con el carisma y claridad de Ben para contarnos esta historia.

 

 

Al referirse al CAR lo definió como la disciplina con décadas de existencia que permite ser más productivo y escribir mejores historias, sirviéndose de una computadora. Ironizó que, hoy por hoy, todas las profesiones son “Computer-Assisted” (arquitectos, fotógrafos, etc.) y que  sólo a los periodistas se les ocurre distinguirse con esa denominación según sepan o no manejar planillas de datos como Excel de Microsoft.

Enseguida recordé la entrevista de Teresa Bouza a Aron Pilhofer y a Matemática para periodistas del #WJCHAT.

 

Cómo lograr que la computadora realice tareas tediosas

Durante su presentación, Ben buscó demostrar la ventaja competitiva de eficientizar procesos que suelen ser repetitivos, llevando el razonamiento a Human-Assisted Reporting.

Cuenta que descubrió la idea al navegar un sitio desarrollado por Matt Waite el fundador del sitio Politifact, ganador del Pulitzer. Se trataba de una página de Propiedades Inmuebles de St. Petersbourg del área de Tampa.

Al mirar los listados de casas descubrió que cada una tenía descripciones automáticas con novedades del barrio en la última semana.

Y pensó, ¡ésto es noticia!

Foto con permiso expreso vía Twitter de Alastair Dant @ajdant

A partir de ese momento resolvió experimentar automatizando información para lograr que un algoritmo produzca noticias en proyectos propios de Los Angeles Times.

Empezó buscando un hecho simple, que variara en cuanto al alcance de información y  se repitiera en el tiempo en forma periódica. Por ejemplo, el mail que reciben todos los días alrededor de las 2.30 de la madrugada remitido por la Policía de Los Angeles. El correo adjunta una planilla CSV informando quiénes fueron las personas arrestadas el día anterior.

 

El mail que reciben todos los días de LAPD y su adjunto en CSV

 

Para monitorear esa información crearon una secuencia de comando (script) que toma (pull) y parsea (parse) los datos adjuntados en el mail para volcarlos en la base de datos, en forma cíclica (loop). El sistema realiza la misma operación todos los días.

 

Ben recomendó definir procesos similares para que contesten preguntas como:

¿Cuál fue lo más importante? ¿Y lo más reciente? ¿Qué pasó últimamente? ¿Qué es tendencia en un breve tiempo? ¿Qué se vuelve típico en un lapso de tiempo determinado? ¿Cuáles son los valores atípicos? ¿Cómo se comparan las entidades? ¿Estuvieron activos los protagonistas de noticias? ¿Qué se puede combinar con otro dataset?

–  ¡Dame respuestas! ¡Soy un hombre de noticias!

 

Esto no tiene que ser complicado.

– Hay que desarrollar el sistema para que te mande alertas.

– Hacer un panel de control para ver los detalles

– Entrenarlo para que escriba un pequeño párrafo informativo.

 

 

El código que escribieron busca cada día las penas en la planilla CSV, las ordena por severidad del hecho y arma una lista con las máximas condenas.

Luego envía un mail para los editores de Policiales.

 

Ejemplo de alertas (enfermera, músico, productor, ministro, actor)

 

También tienen un sistema de monitoreo y alerta cuando los arrestos involucran personas con ciertos oficios (ministros, productores, músicos, artistas, etc).

Desarrollaron una intranet con esta base agregando opciones de búsqueda, como ser si la persona tuvo arrestos anteriores, etc.

 

La intranet con su archivo, buscador, multas y monitor x rankings


¡Y el sistema también escribe párrafos automáticos!

Ben mostró otro código que toma la información requerida a otro dataset con información de la ciudad de Los Angeles (Mapping L.A.) y la convierte en un pequeño párrafo de texto, producido automáticamente.

 

 

¡Cómo lo vio en el sitio de St. Pete! Misión cumplida.

Ejemplo de ingresos promedios de hogares en un barrio de Mapping L.A.

 

Es quasi obligatorio para los lectores de este post navegar Mapping L.A. y descubrir párrafos automáticos basados en información de base de datos.

 

Otros casos donde se benefician de sistematizar información

Cuando se atacó brutalmente a un fan del equipo de baseball Los Angeles Dodgers, al arrestar al supuesto culpable, la policía llamó a una gran conferencia de prensa. Pero resultó ser una persona equivocada. Al encontrar a la persona correcta, la policía trató de ocultarlo pero en LA Times tenían el sistema de alerta configurado y se enteraron durante la madrugada del arresto. Fueron los primeros periodistas en visitar a los vecinos del detenido para obtener referencias.

También la cobertura de incidentes durante Occupy LA tuvo soporte en esta sistema. En ese caso la base de arrestos estaba vinculada con la del Censo e incluyeron la planilla de datos para ser descargada en formato CSV, XLS y JSON.

¡Y tiene dos blogs con posts automáticos!

Ver para creer…

El Homicide Report, que abre con un párrafo automático de mínima con las víctimas de asesinato. Según los casos, a posteriori van ampliando en extensión de información del caso.

Y LA NOW, que contiene: a) información de tendencias de crímenes en barrios de Los Angeles en función de la información que reciben de la policía, y b) posts sobre terremotos que también se publican automáticamente al reunirse las condiciones indicadas al código para considerar los datos editorialmente relevantes.

El pensamiento lineal es deducir que con esto se busca quitar el trabajo a los periodistas. La lectura que pregona Ben es muy distinta. Al automatizar procesos repetitivos en la rutina de una investigación, el periodista queda liberado de una tarea tediosa y gana tiempo fructífero para para pensar otras historias originales ¡y tomar cafecitos a la Cary Grant!

 

Premios Pulitzer basados en softare para computadoras

Al ir terminando su presentación destacó que los “softwares para computadoras” lograron alzarse con varios premios Pulitzer. Entre los que mencionó se encuentran

1989 Bill Dedman “The Color of Money”

2002 Washington Post

2009 Politifact

2011 Sarasota

 

Por último, cerró visiblemente emocionado diciendo que los periodistas de base de datos pueden salvar al periodismo combinando parámetros tradicionales de calidad profesional con la eficiencia de procesos automatizados desarrollados con criterio editorial.

A mí me rompió la cabeza. ¿A ustedes?

 

¿Me ayudan a traducir el video?

Update: Misión cumplida. ¡Viva el crowdsourcing!

Los invito a ayudarme a transcribir los subtítulos en español dentro del video (DotSub).

Primero hay que terminar la versión en inglés. ¡Listo!

Gracias a Helge Holler, alemán radicado en Argentina por incluir los subtítulos en inglés a todo el video. No tiene twitter pero éste es su blog en alemán!! http://mellamanjorge.wordpress.com y es miembro de @HacksHackersBA.

Y a Maite Fernández, (@maits) de IJnet en Español por subtitular a castellano.

Me avisan en Twitter vía @fcoel o aquí como comentario y los agrego en este mismo post con crédito. Aunque sea solo una parte de la transcripción o traducción. 🙂

 

+ Info

– La presentación en Google Docs para ver imágenes a pantalla completa.

– Delicious Stack de la presentación.

Video de presentación del Los Angeles Data Desk en ONA, mayo 2012.

– Nota de Gastón Roitberg “La ciencia narrativa o el Periodismo Robot”, Blog Conectados.

– La presentación de LA NACION Data en ISOJ 2012 (incluye Power Point y links)

– El Panel completo de Periodismo de Datos en ISOJ 2012 (Storify y video con Aron Pilhofer, Brian Boyer, Alistair Dant, Alberto Cairo, Ben Welsh y Momi Peralta Ramos).