Logiciels

Contexte des développements logiciels du projet

Le projet ANR APPEL conduira à des développements dans des logiciels produits au CEDITEC (TextObserver) et au LIGM (TreeCloud).

Les premiers mois de ce projet ont permis de faire découvrir aux participants plusieurs outils de textométrie, c’est-à-dire d’analyse de textes accompagnées par des outils informatiques et statistiques, en vue d’une utilisation sur plusieurs données textuelles issues du corpus de pétitions en ligne traité dans le projet.

Une séance de démonstration et de formation à ces outils a eu lieu les 11 et 12 septembre 2015 à l’UPEC. Elle a permis d’identifier plusieurs pistes d’amélioration de ces outils, qui seront détaillées dans un cahier des charges fourni début 2016.

Rapprochement de TreeCloud et TextObserver

00-allCorpusUne perspective majeure du point de vue des développements logiciels est l’intégration de la visualisation en nuage arboré fournie par TreeCloud au sein du logiciel TextObserver, favorisant le développement de méthodologies nouvelles d’analyse fondées sur les interactions entre les deux outils. Cette intégration, qui aura lieu avant fin 2017, a commencé par une première réunion de travail le 17 octobre 2015, permettant de présenter les aspects techniques des deux logiciels (l’un en Java, intégrant du code Python, R, et C++ ; l’autre en Python, intégrant un outil développé en Java), et de réfléchir aux choix techniques pour l’intégration des visualisations de TreeCloud à TextObserver.

gsoc-logo-vertical-200Elle s’est poursuivie par le développement d’un code entièrement réalisé en Java pour la construction de nuages arborés au sein du logiciel libre Unitex dans le cadre d’un projet Google Summer of Code 2016, par Aleksandra Chaschina, étudiante à la Higher School of Economics de Moscou. Ce code développé sous la licence libre LGPL pourra être intégré dans TextObserver dans le cadre de ce projet ANR.

Développement d’un outil d’export de sous-corpus

iconexporaLa base de données de textes de pétitions et de commentaires de signataires de ces pétitions étant fournie sous un format ne permettant pas directement le traitement par les logiciels de textométrie, il a été proposé durant les premiers mois du projet APPEL de concevoir une interface web d’export de sous-corpus textuels dans divers formats classiques pour les logiciels de textométrie usuels,  à partir de la base de données.

Cet outil, nommé Expora, a été implémenté, sous forme d’un logiciel libre sous licence GPL, par un étudiant de l’IIT Ropar (Inde), Sai Samarth R. Phaye, durant son stage financé par le projet ANR APPEL dans les laboratoires CEDITEC et LIGM entre mai et juillet 2016. Expora est adaptable pour d’autres bases de données que celle du projet ANR APPEL (voir la vidéo de présentation et la vidéo d’installation)