El viernes 30 de junio y sábado 1° de julio nos reunimos casi 30 personas en ACIJ Argentina para trabajar con datos públicos de sentencias judiciales, Boletín Oficial, IGJ, facturas, etc.
Fuentes de Datos
- IGJ
- Facturas Truchas
- Panama Papers
- Boletin Oficial Nacional – Requiere ver el codigo para extraer los PDF o la herramienta
- Boletin Oficial PBA: – Boletin Oficial Provincia de Buenos Aires
- Boletines Oficiales Cordoba
- Padron Afip
- Base de CUIT AFIP – reemplazar “acavaelcuit” en la URL
- Consultas de Sentencias Judiciales
- Neo4j
- Python Natural Language Toolkit
- Stanford CoreNLP – Natural language software
- Jupyter
- Repo de NLTK para BoletinOficial – Martin kondra + Juliana Minalese
- Pandas Python
Hackdash
https://hackdash.org/dashboards/svlhack
Y este es el repositorio de GITHUB del hackatón https://github.com/pupii/sousveilliance
A continuación compartimos algunas notas sobre los proyectos de los equipos que trabajaron usando distintas herramientas de machine learning, entre otras.
I. IGJ (Inspección General de Justicia)
I. a) Mapa de Empresas
Foto: Javier Lujan
Este equipo busca relaciones entre autoridades y empresas. Usaron como herramientas Neo4J para acomodar y visualizar datos a partir de datos de IGJ:
Javier Lujan, Martín Szyszlican, Franco Bellomo y Juan Manuel García
I.b) Calles (direcciones de IGJ de las empresas)
Max Zierer y Lucas Bellomo querían plotear en un mapa las direcciones de las empresas y ver si eran reales.
Se encontraron con una base de calles muy mal escritas. Mediante programación, estuvieron contrastando los resultados de direcciones de IGJ con los de Open Street Map, con puntuación de porcentaje según la calle se aproxima al resultado de la base OSM.
II. Boletín Oficial
II. a) Cargos
Un equipo de egresados de Letras de la UBA buscaron entrenar un clasificador con machine learning que extraiga y relacione personas y cargos.
Trabajaron con CoreNLP de Stanford y NLTK.
Quieren presentar el caso para un Congreso de Linguistica.
Ellos eran Martin Kondratzky, Julia Milanese y Victoria Colombo.
Hicieron un script para detectar entidades dentro del Boletín Oficial.
II. b) Extracción de entidades y personas
Sandra Crucianelli y Javier Lujan tomaron el BO Nacional como modelo y trabajaron con publicaciones de la década del 30 y 40. También descargaron boletines desde 1897 hasta finalizar la década del 30.
Buscan desarrollar herramienta que pueda detectar nombres propios. Para ello usaron CoreNLP de la Universidad de Stanford con módulo en español. Los PDFs ya los tenían descargados.
También experimentaron con Elastic Search para motor de búsqueda para su aplicación de boletines cuya base es tan grande que el diseño se rompe al ejecutar consultas.
Max Zierer, periodista alemán, los puso en contacto con otro programador alemán que trabajó con el Boletín Oficial de Portugal para una investigación periodística sobre el paraíso fiscal de la Isla Madeira.
III. Facturas Apócrifas (Truchas)
El equipo actualizó la base de datos de 2015 (registro) cruzando los datos de AFIP (fuente) con 2 listados (uno de CUITs y otro con nombre, dirección, ciudad y provincia de una EMPRESA, código postal, número agencia, fecha de alta. y si se le dio de baja . (a esos lo dan de baja de la base general, pero los guardan por si tuvo alguna inspección)
Cuando AFIP liberó inicialmente la información eran 11.000. Ahora hay 13.000. Están actualizando la base con programación. El web scrapping va a tirar un CSV.
Ellos eran Sandra Crucianelli, Marcos Mesmer y Rosset y Franco Bellomo.
IV. Sentencias Judiciales
Ines Selvood, especialista en Acceso a la Información Pública, Julia Milanese y Juan Manuel García utilizaron de base sentencias de 2017 de primera instancia que están abiertas en Google Drive del Juzgado Penal, Contravencional y Faltas N° 10 (CABA) a cargo del Juez Dr. Pablo Casas.
Se buscó identificar entidades en este texto no estructurado como ser personas, operadores judiciales, delito, pena, monto, si participaba de algún tipo de organización, etc.
Trabajaron usando la versión gratuita de IBM Watson.
V. Dinero e influencia a nivel nacional
El equipo de la Universidad Católica de Córdoba, Sebastián Freille y Pablo Soffietti, vienen trabajando hace un par de años en financiamiento de campañas electorales para elecciones nacionales.
Cruzan información de resultados electorales, registro de audiencias, licitaciones públicas, con datos de 2015 y 2016.
Quieren presentar los resultados en la Conferencia de SAAP (Sociedad Argentina de Análisis Político) en agosto.