Aprendiendo R: análisis de emails

 

Flickr/CC/Social Blz Solutions


Por Ernesto Surijon Frimis *

Cuantas veces nos dijeron –”¡Vivís en una nube !”

Hoy vamos a conocer una “nube de palabras”.

El correo electrónico suele ser un fiel referente de nuestra actividad diaria, nos muestra en alguna medida cómo estamos invirtiendo el tiempo y qué temas estamos abordando.

Un interesante modo de revisar nuestra gestión, es permitirnos monitorear los mails enviados / recibidos y analizar su contenido.

Podemos descubrir cuáles son los temas que nos demandan más mails y, por lo tanto, más tiempo de nuestra gestión.

La propuesta en este artículo es utilizar una herramienta para analizar la información de nuestro mail.

Elegimos uno de nuestras herramientas preferidas, llamada “R”,  para que nos ayude a través de sus herramientas de text-mining.

Nos proponemos crear una “nube de palabras”, un gráfico elegante y ágil que nos va a mostrar cuales son las palabras más frecuentemente utilizadas.

 

Vamos primero al correo…

En nuestro caso utilizamos Outlook como software de correo.

Podemos exportarnos la información de los mails de un determinado lapso de tiempo, para el ejemplo tomaremos un mes.

En el Outlook tipeamos <CTRL><SHIFT><F>, nos presenta la pantalla de búsqueda avanzada

 

 

Vamos a la solapa de “Advanced”  Seguir leyendo

Ecofacts, aplicación para el clima

Andrés Quijano, de Parque Chas, Argentina, diseñó una aplicación para poder simular qué puede hacer cada uno frente al calentamiento global. Por la iniciativa ganó el primer premio del concurso que organizó el Banco Mundial sobre su catálogo de datos abiertos.

 

 

Ecofacts es una aplicación que permite conocer el nivel de contaminación que genera el uso de la energía. Especialmente sirve para que los habitantes de países desarrollados puedan visitar el sitio y ver cuál es la huella de carbono que generan y qué pueden hacer al respecto.

 

 

El aporte que hace es que como individuo uno sabe qué cosas se pueden hacer para aportar en esta pelea global. Una de las cosas por las que esta aplicación ganó es cambiar esa idea de que no se puede hacer nada al respecto.

Seguir leyendo

Andy Tow, un argentino apasionado por los datos y las visualizaciones.

 

A. Tow navega su blog mostrando ejemplos y herramientas.

Ver en 720p HD, a pantalla completa

 

Conociendo a Andy Tow y su trabajo

 

1) Piense en alguien que no lo conoce: ¿Qué le diría si le pregunta quién es Andy Tow? Un apasionado de la tecnología al que le gusta compartir sus intereses. Soy blogger y mantengo un Atlas Electoral, que es una recopilación de resultados de elecciones nacionales, provinciales y municipales. Son datos públicos organizados en una web para que sean más accesibles, con tablas, mapas y visualizaciones. Estudié ciencias políticas, trabajo en el Congreso y me encanta explorar formas de presentar datos, de convertir información y conocimiento en herramientas interactivas para un mejor análisis de la sociedad. Esto también satisface mi afición por la informática y el arte, porque me permite programar y hacer diseño gráfico.  Seguir leyendo

Datos Bien Cerrados

Datos Bien Cerrados

Para hacer periodismo de datos se puede prescindir de muchas cosas, ya que hay herramientas digitales gratuitas que todos los periodistas podemos usar para sortear casi cualquier obstáculo; pero de lo que no podemos prescindir, es de los datos. Son una condición de borde necesaria sin la cual no podemos siquiera comenzar a diseñar hipótesis periodística alguna. En la Argentina de nuestro tiempo, si un ciudadano quiere procesar los datos del gasto público del Gobierno Nacional en materia de publicidad oficial, se encontrará con varios escollos a partir de este enlace. Siempre y cuanto tenga la suerte de rescatarlo de las entrañas de la Web. La información fue alojada en el Website “Mejor Democracia“, de la Jefatura de Gabinete de Ministros, bajo una variable que pocos usarían al momento de hacer una búsqueda en línea: “Fondos Públicos destinados a la difusión de actos de gobierno”.  No es la única barrera entre los datos allí alojados y gente: para comenzar, no están debidamente actualizados, ya que el último documento corresponde al primer semestre de 2011.  Durante una sesión de entrenamiento con periodistas pedí que intentaran rescatar los datos sin ayuda de programas pagos. Ninguno de ellos pudo hacerlo. El formato lo complicó todo. El segundo PDF contiene 18 hojas, creado el 7 de mayo pasado desde Excel, según se lee en sus Propiedades.  Pero no se mantuvo el formato original con opción de descarga, con lo cual hubiéramos tenido, como en otros países, datos abiertos. Lejos de eso, los PDFs que se visualizan en el citado sitio, pueden convertirse en una pesadilla si no de dispone de la habilidad para exportar los datos y dependiendo del software instalado en la computadora, para lograr la meta, en algunos casos habría que repetir determinado procedimiento ¡18 veces!  Seguir leyendo

WEBINARIO Introducción al Periodismo de Base de Datos

 

El viernes 29 de junio participé de un Webinario organizado por el Foro de Periodismo Argentino (FOPEA), en el marco del convenio con el Centro Internacional de Periodistas (ICFJ) y el programa de becarios de la Fundación Knight.

El Knight Center de la Universidad de Texas dio el soporte técnico.

La expositora fue Sandra CrucianelliSeguir leyendo

Taller de Rails Girls en Buenos Aires

 

Viernes 15 de junio. Rails Girls Buenos Aires. Foto: Annie Rautio.

 

El viernes 15 y sábado 16 de junio participamos del taller abierto que ofreció RailsGirls.com en Buenos Aires.  Llegamos con Momi Peralta, Gaby Bouret y Romina Colman (Alaveteli). Fue una experiencia muy enriquecedora donde se entremezclaron presentaciones y el  trabajo por equipos. Los participantes fuimos agrupados por niveles de conocimiento y se nos asignó un tutor por equipo.  Seguir leyendo

En LA Times robotizan tareas de investigación tediosas

 

¡Gracias http://marksfisher.com/ !

 

Ben Welsh (@palewire)  es un “Database Producer” en Los Angeles Times Data Desk (@LATDataDesk). Claramente uno de los nuevos perfiles profesionales dentro de las redacciones del mundo.

Su apasionada presentación en la Conferencia de ISOJ arrancó con un juego de palabras entre Computer-Assited Reporting (CAR) y Human-Assisted Reporting. Me costó elegir cuál presentación traducir de todo el panel de Periodismo de Datos en Austin, pero ésta fue la más disruptiva.

Recomiendo enfáticamente ver el video que tiene subtítulos. Mis mejores esfuerzos de explicarlo en texto no pueden compararse con el carisma y claridad de Ben para contarnos esta historia.

Seguir leyendo

Junar lanza su plataforma de datos abiertos

 

Junar (@junar en Twitter) -socio de NACION Data en el dashboard de indicadores de lanacion.com– lanza su plataforma integral de datos abiertos de última generación que permite a empresas, gobiernos y otras organizaciones manejar en forma integral sus proyectos de datos abiertos de principio a fin y así evitar el desarrollo de complejos sistemas para maximizar el valor de los datos que las organizaciones quieren abrir a terceros.

La solución de “Software como un Servicio” (SaaS, de su sigla en inglés) puede ser utilizado para extraer, curar, publicar, socializar y obtener reportes de proyectos completos de apertura de datos. Desde la extracción de datasets, hasta la transformación de los mismos en gráficas y colecciones estructuradas de datos, y la debida publicación de los datos en tiempo y forma, Junar permite que los datos se transformen en activos de valor para las organizaciones que los publican.  Seguir leyendo

BAhackaton de aplicaciones móviles y datos abiertos

 

Flickr/GCBAdata

El sábado pasé por #Bahackaton, el primer hackaton de aplicaciones móviles de código abierto en Argentina. Se realizó durante el viernes 11 y sábado 12 de mayo de 2012 en el Centro Metropolitano de Diseño.  Seguir leyendo

Libros sobre Datos para Periodistas

Todavía recuerdo cuando por primera leí vez el libro “Periodismo de Precisión” de Philip Meyer. La versión en español, traducida por José Luis Dader, era difícil de conseguir en Argentina. Hace 11 años tuve que pagar 62 dólares y esperar casi un mes para que la obra de Meyer llegara a mis manos. Fue, definitivamente, el primero de una sucesión de manuales y ensayos, capaces de cambiar la mirada a cualquier periodista interesado por el fascinante mundo de los datos numéricos. Seguir leyendo