Séance 3 séminaire Textopol 14/12/13

Séance 3 : Expérimentation sur le recueil, la constitution, la mise en forme et l’analyse d’un corpus – 12 décembre 2013

Séminaire doctoral Informatique pour la recherche

balisage xml pour TextObserver: Innov10_60Fin_xml

Séance 2 séminaire Textopol 23/11/13

Séance 2 : Construire et analyser des corpus textométriques – 23 novembre 2013

10h-17h salle 306 I2 Campus Centre

10h-10h30 : Retour sur la séance du 19 octobre (Initiation à Lexico3)

10h30-11h30 : Approfondissement: L’analyse factorielle des correspondances
L’analyse factorielle des correspondances, le tableau lexical
L’analyse factorielle, Lexico3/TextObserver
Comprendre l’analyse factorielle des correspondances, profils lignes et colonnes
l’exemple du carnet de notes.

11h30-12h30 : Interprétations/visualisations
Présentation/Démonstration de TextObserver (Corpus « genres »)
Prise en main de TextObserver éléments d’interprétation (points contributifs, affichage points lignes et points colonnes,
Problèmes de visualisation)

Travail en surface/catégorisations
Catégoriseurs morhposyntaxiques (cordial, Treetagger)
Catégoriseurs sémantiques (Topes)
Recherche de motifs textuels (l’exemple de TextObserver ou de Weblex)

Soumettre un corpus à TextoBserver:
Surface (forme graphique)
Catégories prise en main de TextEndoder (M. Pérès)

Ressources
>> Motifs et expression régulières (Cordial/Weblex)
>> Etiquettes Treetagger (français)
>> Boîte à outils de Textopol

Corpus de travail
>> Corpus voeux xml (treetagger/TextObserver)
>> Notes (fichier tab)
>> Editos (tab)
>> Textes genres (txt)

Téléchargement de TextObserver :
>> fichiers log
>> Version 37 (ancienne version)

15h30-17h00 Questions des participants, travaux sur les corpus

seminaire MESHS : Les méthodes quantitatives d’analyse des textes politiques

seminaire MESHS : Les méthodes quantitatives d’analyse des textes politiques

Les méthodes quantitatives d’analyse des textes politiques

Projet partenariat ADA 2012-2013

L’analyse de contenu apparaît aujourd’hui comme un passage obligé pour tout chercheur qui souhaite travailler à partir de ou à propos de textes politiques. Cette étude s’opère toutefois souvent de manière très artisanale avec un ensemble d’outils plus ou moins rudimentaires issus de la linguistique et appliqués assez directement aux sciences sociales et politiques: analyse thématique, analyse sémantique, analyse séquentielle, analyse par oppositions, analyse argumentative, etc. Cette façon de faire se heurte toutefois à trois inconvénients majeurs. D’abord, elle laisse une large place à la subjectivité du chercheur.
Ensuite, elle laisse le chercheur relativement démuni lorsqu’il a à faire à des corpus importants alors, précisément, qu’avec le développement des outils numériques, il est de plus en plus fréquent qu’on se trouve face à des corpus de plus en plus vastes (cf le développement des humanités numériques et des « big data »). Enfin, elle ne donne qu’une place limitée aux spécificités propres au caractère politique des discours analysés (par exemple, souci particulier de l’argumentation et de la persuasion, publics et enjeux spécifiques,etc.).
Pour dépasser cette difficulté, un ensemble d’équipes, en France et ailleurs, ont commencé à développer des outils et des concepts en s’appuyant sur des fondements disciplinaires relativement distincts, voire opposés, qui se concrétisent dans des logiciels eux-mêmes différents (Lexico, TXM, Alceste, Tropes, Prospero, Hyperbase, Spad-T, Trideux, etc.). Certains proviennent plutôt de la linguistique et de la statistique, voire de l’informatique; d’autres plutôt de la sociologie, de l’histoire ou de la science politique; d’autres encore plutôt de la psychologie, voire du marketing. Ces manières parfois différentes de traiter les textes politiques tendent à cohabiter sans nécessairement se croiser.
Le séminaire proposé se donne précisément pour objet de faire intervenir des représentants de ces différentes écoles relevant de champs disciplinaires différents, travaillant sur des types de corpus différents et usant d’outils pour partie eux-mêmes différenciés, en vue d’une publication inédite en ce qu’elle rassemblerait leurs approches en un seul volume et permettrait ainsi de les faire dialoguer

>> sur le site du MESHS

Mercredi 25 septembre 2013

Christine Barats, (Paris Descartes/ Céditec), « Approche longitudinale de corpus socio-politiques : l’exemple des discours présidentiels sur l’immigration (1981-1993) et de la médiatisation du classement de Shanghai”.
Jean-Marc Leblanc (Université Paris-Est Créteil (UPEC)/ Céditec (EA 3119)), « Analyses statistiques des données textuelles : introduction générale »

Mercredi 9 octobre 2013

Julien Bonneau (post-doctorant, Université Paris-Est Créteil (UPEC)/ Céditec (EA 3119)), « De la lexicométrie à la textométrie et la logométrie. Nouvelles pratiques descriptives »
Jean-Marc Leblanc (MCF, Université Paris-Est Créteil (UPEC)/ Céditec (EA 3119)), « Problèmes de visualisation en textométrie. Présentation de quelques outils logiciels »

Mercredi 30 octobre 2013

Mathieu Brugidou (chercheur senior, EDF R&D et PACTE), « Analyse de grands corpus politiques écrits, le cas du grenelle de l’environnement : une approche morphologique et formelle avec des logiciels d’analyse des données textuelles, Alceste et Tropes »
Claire de Galembert (CR CNRS, ISP), « Alceste, un outil d’investigation de la fabrique parlementaire du droit. Quelques enseignements tirés de l’analyse des débats parlementaires sur la loi sur le voile du 15 mars 2004 ».

Mercredi 30 novembre 2013

Claude Martineau Université Marne-la-Vallée (LIGM) « Extraction d’information avec l’environnement Unitex »
Philippe Gambette Université Marne-la-Vallée (LIGM) » Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud »
Margareta Kastberg-Sjöblom Université de Franche-Comté, ELLIAD » Analyser et comprendre, à travers Hyperbase, des corpus de dimensions très différentes »

Boite à outils

Boîte à outils

>> TextObserver
>> Treetagger
>> TextEncoder (développement M. Pérès, conception J.M. Leblanc) Ce dispositif permet de transformer des données étiquetées (Treetagger, Cordial, etc…) en XML et de créer des partitions.

Catégoriser le corpus au moyen de tout étiqueteur générant en sortie des donnés tabulées
Convertir le corpus au moyen de TextEncoder (mode d’emploi à venir)
Soumettre le corpus à TextObserver

Autres applications en ligne :

S. Fleury (P3)
- >> Nuage de mots…

Le Trameur
- « Specif-Partie-JS », les mots spécifiques d’une partie d’un corpus,
- « CooCs-Bitext-JS », les cooccurrents d’un pôle sur un corpus aligné (avec retour en contexte),
- « CooCs-JS », un graphe de cooccurrents sur un pôle donné (avec retour en contexte),
- « CooCs-JS-regexp », un graphe de cooccurrents sur un ensemble de pôles définis via une regexp,
- « Réseau CooCs-JS », un réseau de cooccurrences généralisées ; illustrations ci-dessous (à gauche: sur Le père Duchesne ; à droite : sur le discours de politique générale de B. Cazeneuve du 12/12/2016)

Autres outils :

>> Voyant Tools

Voir également la page « Sites applicatifs » de Textopol

Séance 1 séminaire Textopol 19/10/13

Séance 1 : Approches textométriques des discours – 19 octobre 2013

10h-17h salle 306 I2 Campus Centre

10h-13h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

14h-17h Atelier pratique

Prise en main de Lexico 3:

– Fonctions documentaires, décomptes statistiques, modèles probabilistes.

– Distributions statistiques, distributions linguistiques.

– Analyse factorielle des correspondances, spécificités, fréquences…..

Questions des participants

Ressources:

>> Lien vers le support

>> Corpus de travail

>> Accès à l’application

>> Enoncé – exercice-lexico

>> Quelques fonctionnalités de Lexico3

>> Barre d’outils de Lexico 3

>> Balisage Lexico3/Alceste

Liens à visiter et revues à consulter :

http://jadt.org/

http://www.cavi.univ-paris3.fr/lexicometrica/

En savoir plus sur Lexico 3

>> Lexico 3 Paris3 Syled

>> Tutoriels (version provisoire page Textopol)

Séminaire 2013-14

>> Version imprimable du programme

>> Atelier infographie

Calendrier

19 octobre 2013 : Introduction – Approches textométriques des discours.
23 novembre 2013: Construire et analyser des corpus textométriques.
14 décembre 2013: Des corpus textuels aux corpus multimodaux (annoter, catégoriser, étiqueter).
18 janvier 2014 : Visualisation et interprétations des résultats. Analyse de contenu et analyse de discours.
08 mars 2014: Corrélations et causalités interprétatives. Expérimentations, distance intertextuelle et voisinages.
05 avril 2014 : De la textométrie à l’analyse des données, quels outils pour quels usages?
mai 2014 : journée de présentation des outils de traitements de corpus textuels

Séminaire du CEDITEC du 24 mai 2013

Réflexion sur les visualisations en sciences humaines, quels apports pour la textométrie?

Séminaire du CEDITEC, vendredi 24 mai 2013, 10h30-17h30

Salle Keynes – Bâtiment des Sciences Economiques et de Gestion
Mail des Mèches
61 avenue du Général de Gaulle
94010 Créteil

>> programme
Métro Créteil Université, Ligne 8
Séance coordonnée par
JM Leblanc – UPEC – Céditec (EA 3119) – Chantier Textopol
jean-marc.leblanc@u-pec.fr

Supports de communication

« Modèles tridimensionnels pour la représentation de l’état des connaissances »
Marie Pérès: Docteure en histoire ancienne, plasticienne, (UPEC)

Proposera une contribution portant sur les problèmes posés par l’interprétation des données dans le cadre de la modélisation des sites archéologiques, et présentera des productions artistiques interrogeant les modalités de la représentation des données.

partie 1 : Données et visualisations
[stream base=x:/textopol.u-pec.fr/wp-content/uploads/2013/06/videotest/ flv=diaporama-p1.flv img=x:/textopol.u-pec.fr/wp-content/uploads/2013/05/vignette-150×150.jpg hd=diaporama-p1.flv embed=false share=false width=640 height=360 dock=true controlbar=over bandwidth=high autostart=false responsive=16:9 /]

partie 2 : exemples de modélisation de site archéologique et productions artistiques
[stream base=x:/textopol.u-pec.fr/wp-content/uploads/2013/06/videotest/ flv=diaporama-p2.flv img=x:/textopol.u-pec.fr/wp-content/uploads/2013/05/vignette-150×150.jpg hd=diaporama-p2.flv embed=false share=false width=640 height=360 dock=true controlbar=over bandwidth=high autostart=false responsive=16:9 /]

« Extraction automatisée et analyse de données à partir des pages web, quelles perspectives ? »
Jérôme Baray, PR géomarketing, (UPEC), Chercheur à l’Institut de Recherche en Gestion

Evoquera les problèmes de visualisation qui se posent dans le domaine des S.I.G (Systèmes d’Information Géographique) et proposera par ailleurs un outil d’extraction automatique de données à partir des pages web pour analyser le rayonnement des territoires, la notoriété et la valeur financière des marques ou encore établir un classement plus rationnel des revues de recherche.
L’intervention permettra en outre de poser les jalons d’un échange entre visualisation en SIG et textométrie et d’évoquer quelques perspectives de développement.

>> voir le support

« Nuages arborés et analyse textuelle. Présentation de l’outil TreeCloud »
Philippe Gambette, MCF informatique, LIGM, Université Paris-Est Marne la Vallée

Présentera la visualisation de textes en nuages arborés et ses applications en analyse textuelle, sur un corpus de théâtre et un corpus de presse, puis fera une démonstration du logiciel libre TreeCloud, téléchargeable sur treecloud.org, pour construire ces visualisations.

« Opérations sur graphes lexicographiques issus de corpus à des fins de visualisation sémantique »
Romain Loth, MoDyCo – UMR 7114 Université Paris Ouest Nanterre

Présentera des opérations sur graphes lexicaux permises par les librairies R et autres outils (définition matricielle, clustering puis travail sur les zones : sélection de parangon, intersections de zones,…), de ce que cela permet d’envisager comme visualisations de données et des pistes que cela alimente en retour sur la recherche lexicographique/sémantique.

>> voir le support

« Propositions de visualisations pour l’analyse des corpus textuels et multimodaux. TextObserver/WebObserver, état d’avancement des développements et perspectives »
JM Leblanc – MCF Linguistique informatique UPEC Céditec

Nous ferons plus particulièrement état des développements de TextObserver outil d’exploration des données textuelles multidimensionnelles et multimodales, conçu par notre équipe de recherche.
TextObserver est fondé initialement sur des préoccupations ergonomiques. Il propose des fonctionnalités originales sur le plan de la visualisation, rendues explicites par l’interactivité, et du traitement dynamique des données et des résultats textométriques. Il rend possible l’intégration de données textuelles diversifiées dans un cadre multimédia.
Il répond en temps réel aux questionnements expérimentaux comme les facteurs de la variation discursive.
Nous en présenterons les principes essentiels en prenant pour terrain d’expérimentation un corpus constitué de discours politiques rituels, (voeux de présidents de la cinquième République, de 1959 à 2012)

>> http://textopol2.u-pec.fr/textobserver

>> voir le support

«TextObserver/WebObserver: L’utilisation d’agents communicants pour l’extraction et la visualisation de corpus textuels.»
Amani Daknou docteure en informatique, post-doc Ceditec

Nous proposons un système multi agent dynamique et ouvert qui vise à la recherche, la classification et l’extraction des informations nécessaires et pertinentes de pages web pour créer un corpus évolutif interrogeable en temps réel. Cette approche présente un grand avantage dans la mesure où elle déploie une collecte coopérative d’informations à base d’agents. Le système proposé permet donc de prendre en compte des contextes de recherche en considérant des regroupements de pages Web liés à des domaines particuliers. Ce système, couplé à la visualisation dynamique des résultats propre à TextObserver, constituera une fonctionnalité importante du dispositif.

>> voir le support

Séance 6 séminaire Textopol 23/03/13

Séminaire doctoral Informatique pour la recherche
Approches Textométriques – Ergonomies numérique

Séance 6 du 23 mars 2013

TXM, Iramuteq, TextObserver: outils open source pour l’analyse des données textuelles.

1. Introduction-rappels

– Rappel des séances précédentes.
– Panorama des outils existants.
– Quels outils pourquoi faire?

2. Weblex: Rappel de quelques fonctionnalités

– Cooccurrences associées à un pôle, lexicogrammes simples et récursifs
– Textes annotés, expressions CQP…

3. Initiation à TXM

– Installation, import de corpus, manipulations sur corpus de travail
– Etude de cas : A. Policka : Utilisation de la plate-forme TXM: Analyse du corpus Rapcor pour l’analyse socio-lexicale du français actuel (A confirmer)

4. Outils de visualisation

– Introduction: Lexicométrie, textométrie, data-visualisation…
– Treecloud, Gephi, Linkurious…

5. Présentation du logiciel Iramuteq

– Téléchargement, installation, expérimentation sur corpus de travail

6. Etude de cas : Analyser des corpus multimodaux

– Application de TextObserver à l’analyse automatisée de pages web.

7. Préparation de la séance du 20 avril (10h-13h00)

>> Télécharger le corpus vœux encodé pour TXM
>> Télécharger le corpus « genres »

Séance 5 séminaire Textopol 23/02/13

Séance 5 du 23 février 2013

1. Rappel des séances précédentes.

– Rappel: approches longitudinales et contrastives: Alceste et Lexico sur un corpus de discours politiques.

2. Statistique multidimensionnelle:

– Classes Alceste, axes factoriels, des résultats identiques? Exemple corpus IREB

3. Cooccurrences

– Rappel: les calculs de cooccurrences

4. Prise en main du logiciel Hyperbase

– Présentation Hyperbase…

Fonctionnalités documentaires, statistiques et structurelles.
Listes: Recherche par mots, lemmes catégories, cumul détail…Distributions, AFC, une arborée, radiale ou rectangulaire…
Structure/distribution : Calculs de distance, accroissement lexical (par tranches ou par partition), richesse du vocabulaire
Evolution et coefficient de corrélation.
Thème, cooccurrences, réseaux, associations, corrélats

5. Etude de cas : Analyser des corpus multimodaux

– Application de TextObserver à l’analyse automatisée de pages web.

6. Questions corpus des participants.

Préparation de la séance 6: Installation/Présentation du logiciel Iramuteq

Pièce jointe : Corpus Balzac

Séance 4 séminaire Textopol 19/01/13

Séance 4 :Ontologies et mondes sémantiques : Tropes, Alceste, Astartex… – 19 janvier 2013

1. Cours – Rappel Identifier des thématiques:

annotation/ontologie de type tropes / méthode des cooccurrences
Cooccurrences généralisées, cooccurrences inter énoncés…

2. La méthodologie Alceste et les « mondes lexicaux »

– Quelques exemples de résultats:
Prise en main d’Alceste
– Balisage, mots étoilés, UCE, UCI…
– Exercice sur le corpus voeux 1959-2012 / Comparaison aux résultats 1959-2001
Expérimentations textométriques:
Alceste: Analyse en tri croisé
Utiliser les résultats d’un logiciel pour le soumettre à d’autres outils:
– Exemple d’Alceste et de Lexico [quantifier les énoncés rituels, politiques…)
– Analyse récursive au moyen d’Alceste:
Représentations factorielles Alceste/Lexico3

3. Exercice lexico3/Alceste/Tropes sur la campagne présidentielle de 2012 – meetings 1er tour

4. Après-midi : Travail sur le corpus des participants ou atelier Web design

– Comprendre le web : Outils graphiques. Initiation à illustrator
– Développement web : Prise en main de Dreamweaver. Ergonomie des interfaces

5. Séance du 23 février 2013:

Approfondissement Hyperbase/ Prise en main d’un logiciel open source: Iramuteq

Ressources:

>> Voeux 1959-2012 ALC
>> Premier tour lexico.txt
>> Base textopol