Hambre de futuro: cómo se hizo el proyecto

Por Mariana Trigo Viera y Gabriela Bouret

GRAN VOLUMEN DE DATOS

Cuando comenzamos este trabajo, teníamos 3542 localidades de todo el país y la planilla de datos incluía el índice de muchas variables y categorías para cada una de ellas. El mayor desafío era transformar esta hoja de cálculo en información entendible para nuestro lector. Hacer sencillo aquello que a simple vista, parecía inabordable.

 ELEGIR QUÉ CONTAR

La primera decisión fue seleccionar aquellos datos que íbamos a trabajar y cuáles dejaríamos de lado.
Elegimos las 100 localidades más vulnerables de cada región geográfica de nuestro país teniendo en cuenta el promedio del índice factorial de vulnerabilidad. Las 100 localidades con los índices más altos por región serían las seleccionadas. De este modo redujimos la cantidad de datos a contar, focalizándonos en los lugares más pobres. Respecto a las variables, las resumimos en tres grandes categorías: Población, Vivienda y Calidad de vida.

LA GEOLOCALIZACIÓN COMO PROTAGONISTA

Este tipo de datos no se puede imaginar sin un mapa como protagonista. Para ello se utilizó una herramienta automática para geolocalizar las 539 localidades seleccionadas para nuestro trabajo y después se hizo un chequeo manual para constatar que las coordenadas geográficas fueran las correctas.

MIRADA INTEGRAL

El Observatorio de Deuda Social de la UCA realizó el estudio de estimación de la  vulnerabilidad socioeconómica de la totalidad de hogares de Argentina para medir el riesgo de encontrarse en situación de pobreza. Lo hizo a partir de un diseño de investigación que combina datos de dos fuentes diferentes: la Encuesta de la Deuda Social Argentina (EDSA-UCA) y el Censo Nacional de Personas, Hogares y Viviendas. Este fue nuestro principal indicador y variaba si mirábamos el mapa por región geográfica, por provincia o por localidad. Consideramos entonces necesario mostrar los tres mapas al mismo tiempo para facilitar las mirada integral de la problemática.

NIVEL DE DETALLE

El equipo periodístico viajó por todo el país y visitó entre 4 y 6 localidades por región, siempre priorizando a las más vulnerables. Para cada lugar visitado se creó un mapa de dicha localidad incluyendo también a las localidades vecinas. Este mapa está acompañado por una planilla con el detalle de las variables de la localidad en cuestión, categoría por categoría. De esta manera, destacamos el lugar elegido, sin perder el contexto de las demás localidades de la misma región. Como esta misma lógica se usaría para cada localidad, armamos una pieza visual fácilmente editable para una rápida reutilización.

Mapas de apertura

Ficha con el detalle por localidad

 

 

Sin comentarios

Simulando cuántos sobres hacen falta para llenar el álbum del mundial

Por Ernesto Mislej (Socio Fundador de 7Puentes)

Se acerca el mundial de fútbol Rusia 2018 y acompañando a este vital evento para todos los fanáticos del deporte, nos sucede otro de importancia semejante al primero: llenar el álbum de figuritas con las imágenes de nuestros ídolos. Esta edición, el álbum será de 669 figuritas y los sobres serán de 5 figuritas cada uno. Si tuviésemos toda la suerte del mundo, con 134 sobres (lo que equivale a 669 dividido 5) lo llenaríamos, pero sabemos que para eso tenemos que tener mucha suerte.

Album de Figuritas Rusia 2018

Volviendo a nuestro álbum, ¿cuántos sobres son necesarios para llenarlo? Para averiguarlo tenemos 2 maneras, acudir a la teoría estadística -cosa que no nos asusta, pero implica tener bastante conocimiento previo- o hacer una simulación con un programa de computadoras. Vamos por la segunda.

Tomamos el caso de llenar el álbum para ejemplificar cómo encarar una situación problemática desde una perspectiva formal y poder medir eficazmente los insumos y demás recursos necesarios para tomar mejores decisiones. Compartimos esta nota con ejemplos y explicaciones sobre el proceso de diseño de una solución.

Esperamos la disfruten.

Comencemos la simulación

Una simulación -según Wikipedia- es un artificio contextual que referencia la investigación de una hipótesis o un conjunto de hipótesis de trabajo utilizando modelos para la enseñanza y el aprendizaje. En nuestro caso, la simulación tendrá como objetivo medir cuántos sobres (de 5 figuritas cada uno) se necesitan para llenar un álbum de 669. Y para ello necesitaremos construir un modelo computacional que contemplen los sobres, las figuritas y el álbum.

Python

Haremos un pequeño programa en Python, un lenguaje de programación muy popular que tiene una sintaxis muy simple de entender (para quienes necesiten una ayuda extra, pueden leer estos recursos introductorios preparados por la PyAr – Comunidad Python Argentina ).

In [1]:
print "Cuántos sobres se necesitan para llenar el album usando Python"
Cuántos sobres se necesitan para llenar el album usando Python

El azar y la computadora

La simulación consiste en realizar numerosas corridas de un sistema estocástico, es decir, una situación que está regulada por la aleatoriedad o la suerte, como nuestro caso de ir abriendo sobres de figuritas sin saber de ante mano cuales son las que te van a tocar. Necesitaremos entonces alguna forma que simular el contenido de los sobres de manera azarosa utilizando nuestro modelo computacional. Y eso es todo un tema, porque las computadoras no saben de azar: justamente, son aparatos guiados por el determinismo de los ceros y unos.

Pero no desesperemos, este tema ha sido tratado desde hace mucho tiempo y Python implementa un módulo de generación de números pseudo-aleatorios, que a los efectos de nuestra simulación nos alcanza de sobra.

In [2]:
import random

#la funcion randint(a, b) devuelve un numero entero pseudo-aleatorio N talque 
#a <= N <= b. 
dado = random.randint(1, 6)

print dado
2

Para modelar el sobre de figuritas utilizaremos la funcion sample(seq, k), que toma k elementos de la secuencia seq; en nuestro caso 5 números del intervalo [0, 660). La forma de extraer los números es sin reposición, es decir, los sobres estarán compuestos por figuritas no repetidas.

In [3]:
#para modelar el sobre utilizaremos la funcion sample. 
sobre = random.sample(xrange(669), 5)

print sobre
[586, 414, 255, 474, 12]

Otras librerías

Para esta simulación vamos a incluir otras 2 librerías muy utilizadas en análisis de datos:

  • NumPy para el manejo de estructuras de datos eficiente (listas o vectores).
  • Matplotlib para realizar las gráficas.
In [0]:
import numpy as np
import matplotlib.pyplot as plt

Seteamos las constantes de la simulación, en nuestro caso las FIGURITAS_POR_PAQUETE, las FIGURITAS_POR_ALBUM y la CANTIDAD_DE_CORRIDAS que tendrá nuestra simulación.

Cuántas más corridas hagamos, más preciso será nuestro resultado, pero también más costoso computacionalmente será. Unas 10000 corridas está OK, y la simulación tardará unos 5-10 minutos.

In [0]:
#las constantes de la simulacion
FIGURITAS_POR_PAQUETE = 5
FIGURITAS_POR_ALBUM = 669
CANTIDAD_DE_CORRIDAS = 1000

Iremos registrando cuántos sobres serán necesarios en cada corrida.

In [0]:
#inicializo el vector simulacion
#alli voy a ir registrando cuantos sobres necesito en cada corrida
simulacion = np.empty(CANTIDAD_DE_CORRIDAS)

Ciclo principal de la simulación

El siguiente bloque es el ciclo principal de la simulación. Cuántas más corridas hacemos, más preciso será nuestra estimación.

In [0]:
#voy a realizar tantas corridas como dice la constante CANTIDAD_DE_CORRIDAS
for i in xrange(CANTIDAD_DE_CORRIDAS):

	#modelo el album vacio como un vector lleno de ceros
	album = np.zeros(FIGURITAS_POR_ALBUM, dtype=int)

	#en esta variable contabilizare cuantos sobres se necesitan 
	cantidad_de_sobres = 0

	#voy abriendo sobres nuevos hasta llenar el album
	#si el vector contiene algun 0 en alguna posicion significa 
	#que aun no esta completo esa condicion la podemos expresar de muchas 
	#formas la que elegi es min(album) == 0, 
	#tambien podria ser len( album [ album == 0 ] ) > 0 
	while min(album) == 0:

		#un nuevo sobre formado por figuritas tomadas de manera aleatoria
		sobre = random.sample(xrange(FIGURITAS_POR_ALBUM), FIGURITAS_POR_PAQUETE)

		#voy llenando el album
		#sumo 1 en cada posicion correspondiente a cada una de las figuritas 
    #del sobre
    #
    #Nota: para quienes conocen otros lenguajes de programacion, esta 
    #operacion puede llegar a causar confusion. La libreria NumPy permite
    #realizar operaciones sobre multiples indices a la vez. 
    #Aprovechenla, es muy util.
		album[sobre] += 1

		#incremento la cantidad de sobres en 1
		cantidad_de_sobres += 1

	#para llenar este album he necesitado tantos sobres como 
  #lo dice cantidad_de_sobres
	simulacion[i] = cantidad_de_sobres

Presentación visual de los resultados

Luego de finalizar las corridas, tenemos muchos resultados. Presentaremos la información de una manera visual utilizando un histograma.

In [8]:
#cuantos sobres necesitamos en promedio para llenar el album
sobres_promedio = simulacion.mean()

#visualizamos la simulacion con un histograma de las corridas
plt.hist(simulacion, bins=50)
plt.axvline(sobres_promedio, color='r')
plt.legend(["%.2f sobres" % sobres_promedio])
plt.title("Cantidad de sobres en promedio para llenar 1 album")
plt.show()

Llenar el álbum costará…

Por su condición de experimentos aleatorios, las simulaciones darán resultados levemente distintos, pero sí podemos ver que para llenar el álbum se necesitarán aproximadamente 941 sobres. A $15 por sobre, llenar el álbum de esta manera costará… ¡un ojo de la cara!

In [9]:
print "Llenar el album costará... %2.f pesos. Y qué hago con las %d repetidas!" % (sobres_promedio * 15, sobres_promedio * FIGURITAS_POR_PAQUETE - FIGURITAS_POR_ALBUM)
Llenar el album costará... 14085 pesos. Y qué hago con las 4026 repetidas!

…más el costo de álbum en sí, que ya a esta altura parecen monedas.

Con amigos todo es mejor

Como vimos, para llenar un álbum de 669 figuritas necesitaremos aproximadamente 341 sobres y nos sobrarán 4000 figuritas repetidas. Con tantas repetidas estamos muy cerca de llenar un 2º y 3º álbum; y las que nos sobran las podemos cambiar con algún otro amigo que las necesite. Sin duda si nos juntamos con otros amigos, llenar todos los álbumes es mucho más rápido, barato y divertido.

Cuánto costará llenar n álbumes

Démosle una vuelta al problema y pensemos cuántos sobres son necesarios para llenar n álbumes.

Agreguemos la constante CANTIDAD_DE_ALBUMES

In [0]:
#pensemos un grupo de 20 amigos que se juntan para llenar cada uno su album
CANTIDAD_DE_ALBUMES = 20

El vector simulación ahora registrará cuántos sobres se necesitan para llenar 1, 2, 3, … , 20 álbums. Ésto lo haremos con un vector de 2 dimensiones (cuando el vector tiene 2 dimensiones suele llamarse matriz, aunque cuando tiene 3 dimensiones o más, vuelve a llamarse vector, cosas que pasan…).

In [0]:
#inicializo el vector simulacion_grupo con 2 dimensiones 
simulacion_grupo = np.zeros([CANTIDAD_DE_ALBUMES+1, 
                             CANTIDAD_DE_CORRIDAS], dtype=int)

Ciclo principal de la simulación de grupo

Con algunas pocos agregados podemos calcular cuántos sobres se necesitan para llenar n álbums

In [0]:
#voy a realizar muchas corridas, tantas como dice la constante CANTIDAD_DE_CORRIDAS
for i in xrange(CANTIDAD_DE_CORRIDAS):

  #modelo el album vacio como un vector lleno de ceros
  album = np.zeros(FIGURITAS_POR_ALBUM, dtype=int)

  #en esta variable contabilizare cuantos sobres se necesitan para llenar 1..n albumes
  cantidad_de_sobres = 0

  #aqui voy a contabilizar cuando albumes estan llenos
  albumes_llenos = 0

  #a diferencia de la simulacion anterior, la condicion de corte sera cuando se 
  #llenen los n albumes. Eso lo podemos expresar asi:
	#albumes_llenos < CANTIDAD_DE_ALBUMES
  while albumes_llenos < CANTIDAD_DE_ALBUMES:

    #un nuevo sobre formado por figuritas tomadas de manera aleatoria
    sobre = random.sample(xrange(FIGURITAS_POR_ALBUM), FIGURITAS_POR_PAQUETE)

    #voy llenando los albumes
    album[sobre] += 1

    #incremento la cantidad de sobres en 1
    cantidad_de_sobres += 1    

    #si el min(album) se incremento, significa que se ha llenado un nuevo album. 
    if albumes_llenos < min(album):      
      #hemos llenado un album nuevo
      albumes_llenos = min(album)

      #registramos la cantidad de sobres
      simulacion_grupo[albumes_llenos, i] = cantidad_de_sobres

Presentación visual de la simulación de grupos de amigos

Ya recopilamos los resultados de muchas corridas, veamos qué tal nos fue para llenar n álbums.

In [13]:
#cuantos sobres necesitamos en promedio para llenar n-albumes
#usamos una matriz de histogramas

amigos = [2, 5, 10, 20]

fig, axes = plt.subplots(nrows=2, ncols=2, sharey=True, sharex=True)

for ax, q in zip(axes.flat, amigos):
  simulacion = simulacion_grupo[q]/q
  sobres_promedio = simulacion.mean()
  ax.set_title('$albumes=%d $' % (q))
  ax.hist(simulacion, bins=50)
  ax.axvline(sobres_promedio, color='r')
  ax.legend(["%.2f sobres" % sobres_promedio])

fig.suptitle("Cantidad de sobres en promedio para llenar $n$ albumes")
plt.show()

Algo que suponíamos: cuántos más amigos tenemos, la cantidad de sobres por integrante del grupo para llenar su álbum disminuye. Y se acerca a la cantidad óptima de (FIGURITAS_POR_ALBUM / FIGURITAS_POR_PAQUETE). No hace falta tener mucha suerte, sino muchos amigos. (Aunque tener muchos amigos es ser muy afortunado).

In [14]:
#Otra forma de visualizar la cantidad promedio de sobres para llenar n-albumes

plt.boxplot([simulacion_grupo[i]/i for i in xrange(1,CANTIDAD_DE_ALBUMES+1)])
plt.title("Cantidad de sobres para llenar $n$ albumes")
plt.show()

Conclusiones

Como pudimos ver, para llenar un álbum necesitaremos aproximadamente 941 sobres; pero para llenar 20 álbumes, se necesitan un poco más de 4940 sobres, lo que nos da 247 sobres por integrante. Muchísimo menos.

In [16]:
print "Llenar %d albumes costara... %2.f pesos por integrante. Que bueno es tener amigos!" % (CANTIDAD_DE_ALBUMES, (simulacion_grupo[CANTIDAD_DE_ALBUMES]/CANTIDAD_DE_ALBUMES).mean() * 15)
Llenar 20 albumes costara... 3704 pesos por integrante. Que bueno es tener amigos!

Gracias por la atención y ¡vamos Argentina!

Las nuevas funcionalidades de Tableau para la versión 10.5

 Foto: Adam Savage – Tableau Conference – 

Proximamente Tableau lanzará una nueva versión de su producto. Entre las principales incorporaciones, Tableau anunció una nueva tecnología de motor de datos en memoria, llamada Hyper; Proyecto Maestro, un nuevo producto para la preparación de datos y una extensión API para que los desarrolladores puedan extender Tableau con aplicaciones de terceros.

LA NACION DATA te adelanta algunas de las principales funcionalidades que tendrá la nueva herramienta:

.
Hyper: la nueva tecnología de Tableau para obtener extractos más rápidos ahora en versión beta pública 10.5.

API de extensiones: con esta nueva API, los desarrolladores pueden crear extensiones que permiten a los usuarios integrarse e interactuar con otras aplicaciones directamente en Tableau. Con esta nueva mejora se puede acceder a la funcionalidad completa de las aplicaciones de terceros sin tener que abandonar su Dashboard.

Tableau en Linux: incluido también en Tableau 10.5, el sistema operativo Tableau Server en Linux combinará los beneficios de Tableau con la flexibilidad de un sistema operativo de código abierto. Con esta nueva oferta, las organizaciones que utilizan un sistema operativo Linux pueden optimizar e integrar sin problemas Tableau en sus procesos y flujos de trabajo actuales. Además,  aprovechar al máximo su infraestructura de IT existente.

•  Project Maestro: estará disponible en beta pública este trimestre y  ayudará a más personas a transformar rápida y confiadamente sus datos para el análisis de una manera visual y directa. De este modo se pueden combinar y limpiar sus datos, operacionalizar su flujo de datos y compartir su trabajo en toda su organización con la plataforma Tableau. 

Seguir leyendo

Sin comentarios

#HHBA Entrevista a Greg Barber, Newsroom Product Director del Washington Post

Es la sexta edición del Media Party organizado por Hack Hackers Buenos Aires en el Centro Cultural Konex. Acaban de terminar las conferencias y en minutos empiezan los workshops. Es el momento para nuestra entrevista, en una esquina alejada del bullicio de las conversaciones que los encuentros, las mesas de ping pong y los foodtracks generan entre periodistas y programadores.

Greg Barber es nuestro entrevistado. Dirige el equipo de Producto Digital en el Washignton Post, creando templates y herramientas digitales para contar historias. También es co-fundador de The Coral Project, un software que permite la participación colaborativa entre los diarios y sus lectores. Y la mejor parte es que es open source, es decir gratis y accesible a cualquiera.

¿Cuál es tu rol dentro del Washington Post?

Soy el director del área de producto, es decir, coordino los productos que el diario utiliza para contar historias. Trabajo en el Washington Post hace 14 años, y con productos digitales hace 7.

 ¿Cuál es tu profesión?

Llevo 20 años siendo periodista. Trabajo con escritories, fotógrafos, diseñadores e ingenieros. Trabajamos todos juntos para crear productos en el Post. ¡Y con lectores también! Para asegurarnos que construimos el tipo de noticias que ellos necesitan.

 ¿Tienen alguna plataforma colaborativa?

Acabamos de lanzar nuestra plataforma de comentarios. Es un producto llamado The Coral Project. Es una colaboración entre Washington Post, The New York Times y Mozilla. Nuestro objetivo es construir software abierto, gratuito para todos, para que los medios de comunicación mejoren su contacto con los lectores. El trabajo ya está terminado, aunque para los ingenieros nunca nada está terminado; pero creo que la mayor parte ya está completada.

Ya estamos probándolo en el Washington Post y hemos estado conversando con nuestros lectores por un par de años, mientras construíamos esto. Para asegurarnos que sus necesidades estuvieran cubiertas.

 ¿Trabajan con noticias automatizadas?

Acabamos de lanzar este producto esta misma semana. Utiliza diferentes tecnologías permitiendo crear templates básicos de “cartillas” de futbol americano. El proceso comienza con un compilador tecnológico que escribirá historias basadas en datos y luego las presentará en plantillas creadas previamente por nosotros. Nos permite crear notas a escala que no seríamos capaces de escribir debido a los pocos recursos. Para nuestros lectores significa la oportunidad de profundizar en un jugador de fútbol particular y ver cómo han sido sus temporadas hasta ahora, pueden hacerlo y pueden leerlo de una manera narrativa y no tienen que leer los datos por sí mismos.

¿Qué piensan los periodistas tradicionales sobre esta nueva herramienta?

Desde mi perspectiva lo veo como el camino para que podamos escribir ese tipo de historias que no seríamos capaces de escribir de cualquier manera. El tipo de trabajo que los periodistas deben hacer es contar historias que impliquen más investigación, descripción, entrevistas. Los periodistas deben hacer lo que todos esperamos de ellos, interpretar historias y contarlas. De esta manera, con periodistas y bots, potenciamos nuestras producciones.

¿Cuál es tu opinión sobre el futuro del periodismo?

El futuro del periodismo se parece mucho al presente del periodismo, donde diferentes lectores quieren diferentes cosas y diferentes tipos de presentaciones para el contenido que están leyendo. Y como organizaciones de noticias lo mejor que podemos hacer es averiguar qué es lo que hacemos bien y enfocar nuestros recursos en hacerlo bien. Así que si quieres que tu publicación cubra la política nacional realmente bien, debes concentrar los recursos en eso, contar esas historias de la manera que son convincentes, asegurarte de que estás analizando lo que quiere la audiencia y de seguir innovando para que la competencia no se levante y te gane. Eso es lo que el periodismo era cuando empecé hace 20 años. Y supongo que va a ser muy similar en 20 años.

¿Qué tiene el Washington Post que no tienen los demás diarios?

Lo que tenemos en el Washington Post y que ha sido muy bueno para nosotros es el deseo de probar cosas nuevas. Tenemos el deseo de innovar. Y tenemos el liderazgo que nos empuja a esa dirección, dándonos el espacio para poder probar, a veces con excelentes resultados, otras con errores. Pero siempre nos preocupamos por lo que hemos hecho para mejorar la próxima vez.

Sin comentarios

¿Cuántos bloques reales hay en la Cámara de Diputados?

Por Dr. Daniel Gervini (*) 

Dadas las alianzas de facto que se produjeron en la votación sobre la expulsión de Julio De Vido el 26 de julio (Kirchnerismo+Izquierda por un lado y Cambiemos+Massismo por el otro, con el resto del PJ repartido), surge la pregunta de cuántos bloques reales existen en la Cámara de Diputados a la hora de votar, más allá de las identificaciones ideológicas y partidarias. Por ejemplo, ¿son el Massismo y la izquierda bloques realmente separados y diferenciados del Kirchnerismo y Cambiemos? Por otra parte, ¿hubo algún cambio en los patrones de votación entre el 2016 y el 2017, sobre todo del Massismo y el PJ-no-K, como comúnmente se afirma?

Para responder esto de manera cuantitativa y gráfica podemos hacer lo siguiente. Usando datos del Congresoscopio del diario La Nación, definimos la “distancia” entre dos diputados como la proporción de veces que dos diputados votaron de manera discordante. Por ejemplo, en el 2016 Carrió y Kunkel estuvieron presentes (simultáneamente) en 11 de las 68 votaciones y votaron distinto 4 veces, por lo que la distancia entre ellos sería de 4/11 = 0.36, mientras que Máximo Kirchner y Kunkel estuvieron presentes simultáneamente en 28 votaciones y sólo una vez votaron distinto, por lo que la distancia entre ellos sería de 0.04.

Una vez que tenemos todas las distancias entre todos los diputados, podemos crear un mapa ubicando a los diputados como puntos en un plano, de manera que las distancias entre dos puntos del mapa se correspondan con las distancias de votación definidas antes (para los que gustan de detalles técnicos, estamos usando una técnica estadística que se llama escalamiento multidimensional).

Para el año 2016 obtuvimos el siguiente “mapa”:

Se ve claramente que el Massismo, Cambiemos y el PJ-no-K formaron un bloque de facto en el 2016, separados del Kirchnerismo y la izquierda.  Seguir leyendo

¿Presupuesto Abierto de Municipalidades? Es sólo una cuestión de voluntad política

Por Esteban Mirofsky

“No te creí ni los buenos días”, me dijo hace unos días Manuel Aristarán cuando le pregunté con qué sensación se había ido de mi oficina hace 4 años cuando le dije que el Gobierno de Bahía Blanca le iba a dar acceso directo a la base de datos administrativas. Una decisión de la gestión anterior había hecho muy difícil que Gasto Público Bahiense (https://github.com/jazzido/GPB)—plataforma de su autoría que en el 2010 comenzó a mostrar los gastos del municipio de una manera muy clara — actualizara sus datos, y queríamos que volviera a funcionar.  Seguir leyendo

El detrás de escena de la investigación y clasificación de las 40.000 escuchas de Nisman

I. Especial Video Presentación.

II. Antecedentes.

Por orden judicial, la ex Secretaría de Inteligencia del Estado (SIDE) intervino el teléfono de Jorge Yussuf Khalil, descripto por Alberto Nisman como “la voz y oídos de Irán” en Argentina y persona de confianza de Mohsen Rabbani, principal sospechoso por el atentado a la AMIA. Nisman como titular de la Unidad Fiscal de la AMIA utilizó las escuchas realizadas entre noviembre de 2012 y octubre 2014 para la elaboración de la denuncia que presentó ante Ariel Lijo, cuatro días antes de su muerte.

La denuncia contempla la existencia de un plan delictivo orquestado por las altas autoridades del gobierno nacional argentino y destinado a dotar de impunidad a los imputados de nacionalidad iraní en la causa AMIA con el fin restablecer plenas relaciones comerciales a nivel estatal.

III. Investigación periodística.

El equipo de La Nación Data, junto con voluntarios y estudiantes universitarios (periodismo, derecho, ciencias políticas) inició un largo proceso investigación que abarcó la clasificación de las 40.000 escuchas.

La tarea de análisis implicó la carga de los audios en Voz Data, una plataforma colaborativa desarrollada por La Nación con el apoyo de Knight Mozilla Open News y Civicus Alliance. Se trata de una aplicación web de código abierto que permitió convertir los audios a un formato amigable y clasificar cada uno de ellos en base a diversas categorías establecidas por el equipo de Data. El trabajo se dividió en dos etapas. En 2015 se seleccionaron los 20.000 audios cuya fecha corresponden a los 6 meses antes y después de la firma del Memorándum, y los restantes se examinaron al año siguiente.


IV: El imprescindible rol de los voluntarios.

La investigación involucró a grupos de voluntarios registrados y distribuidos en equipos: estudiantes de las universidades Austral, UCA, Di Tella; y voluntarios de Abogados Ruralistas, Poder CiudadanoCentro Latinoamericano de Derechos Humanos (CLADH) y Datos Concepción. Y si bien la mayoría del trabajo se hizo a distancia, se realizaron cuatro maratones cívicas intensivas de escuchas en la redacción del diario, en la que se compartieron los múltiples hallazgos y se elaboraron los perfiles de los personajes involucrados.  Seguir leyendo

S.O.S Riachuelo: cómo trabajamos el especial sobre el río más contaminado de Argentina

Por Gabriela Bouret y Mariana Trigo Viera

Mucho se habló, mucho se escribió y mucho más se prometió en relación a la contaminación y la posible limpieza del Riachuelo, el río más contaminado de la Argentina. Pero la realidad es que los años pasan y la contaminación avanza sin pedir permiso. Las enfermedades se multiplican y afectan a los miles de vecinos de los 15 partidos que lo rodean.

S.O.S. Riachuelo es un especial multimedia que utiliza datos abiertos para mostrar la calidad del agua y su relación con las enfermedades causadas por la contaminación.

Seguir leyendo

Una mirada al portal de datos abiertos del Ministerio de Agroindustria

Agroindustria fue el segundo ministerio que adhirió al Decreto 117/2016 que creó el Plan de Apertura de Datos con el objetivo de garantizar el derecho de acceso a la información pública. A la fecha, ya son 3 los ministerios adheridos: Energía, Agroindustria y Justicia.

En la plataforma se puede encontrar información relevante sobre producción, comercio, inversión, precios y padrones de todas las actividades agroindustriales del país. Todos los datasets son producidos por la Secretaría de Mercados Agroindustriales a través de la Subsecretaría de Información y Estadística Pública, y se descargan en formato .csv.

 

En algunos casos se puede acceder a información histórica, de períodos de tiempo que inician en 1969 y están actualizados a hoy. Al elegir las variables a consultar, la plataforma ofrece dos opciones: descargar los datos o simplemente visualizarlos y descargar el gráfico como .jpg.

A continuación, presentamos un ejemplo sencillo de los análisis que se pueden aplicar a los dataset publicados por el ministerio.

 

Al analizar las diversos datos y variables que ofrece el portal, se pueden encontrar algunos datos curiosos:  Seguir leyendo

Sin comentarios

¡Lanzamos Dónde van mis impuestos – Ciudad de Buenos Aires!

¡Sí! ¡Llegó el día! Hoy presentamos ¿Dónde van mis Impuestos? Ciudad de Buenos Aires (http://presupuestos.lanacion.com.ar/). Con él queremos mostrar el detalle de los presupuestos de la Ciudad: en qué se gasta, cómo se gasta y quién lo gasta. Una visión sobre los gastos del 2015 existe ya en el portal que desarrolló el gobierno (http://gcba.github.io/presupuesto-gcba/) pero nosotros queríamos llegar a un nivel mayor de profundidad, añadiendo además históricos de los años anteriores.

Demo Tutorial en HD por Marta Alonso Fernandez

Utilizando el desglose del presupuesto anual, disponible en el portal de Datos Abiertos del Gobierno de la Ciudad (http://data.buenosaires.gob.ar/), representamos los datos desde diferentes puntos de vista, de manera gráfica, para hacerlos más accesibles a todos los ciudadanos.  De este modo, se podrá consultar no sólo la sanción presupuestaria sino también el gasto ejecutado real al final del año, sin olvidarse de los recursos que ingresa cada año el Gobierno para hacer frente a esos gastos.

En colaboración con Marta Alonso (@malonfe) creamos esta aplicación utilizando el código desarrollado por la Fundación Ciudadana Civio (http://www.civio.es/) en España para la presentación de datos presupuestarios de la Comunidad Atónoma de Aragón y de otras regiones y municipios de ese país.. Al tratarse de código Open Source lo adaptamos a las necesidades concretas del caso porteño (¡gracias Civio!).

El resultado es un proyecto que presenta una foto global de los gastos frente a los ingresos, para pasar luego a un detalle en el que se desagregan los recursos y los gastos, estos últimos a través de dos interrogantes:cómo se gasta y en qué se gasta. La primera pregunta se responde mediante una clasificación económica, mientras que la segunda mediante una clasificación funcional.

 Es importante resaltar que las cantidades se pueden ver ajustadas o no a la inflación (para años anteriores al último), pero también per-cápita y en valores porcentuales del total. Además, quien navega  la aplicación y quiere descargar los datos que está viendo, puedo hacerlo en formato CSV (valores separados por comas) y Excel o compartirlos en tus redes sociales.

Fuentes:

Portal de datos del Gob de la Ciudad: http://data.buenosaires.gob.ar/

Página de estadística presupuestaria: http://www.buenosaires.gob.ar/hacienda/presupuesto/estadistica-presupuestaria

Dirección General de Estadística y Censos: http://www.estadisticaciudad.gob.ar/eyc/

Sin comentarios