Séance 3 : Expérimentation sur le recueil, la constitution, la mise en forme et l’analyse d’un corpus – 12 décembre 2013
Séminaire doctoral Informatique pour la recherche
balisage xml pour TextObserver: Innov10_60Fin_xml
BASE TEXTUELLE ET OUTILS INFORMATISÉS POUR L’ANALYSE DES DISCOURS SOCIOPOLITIQUES
Séminaire doctoral Informatique pour la recherche
balisage xml pour TextObserver: Innov10_60Fin_xml
10h-17h salle 306 I2 Campus Centre
10h-10h30 : Retour sur la séance du 19 octobre (Initiation à Lexico3)
10h30-11h30 : Approfondissement: L’analyse factorielle des correspondances
L’analyse factorielle des correspondances, le tableau lexical
L’analyse factorielle, Lexico3/TextObserver
Comprendre l’analyse factorielle des correspondances, profils lignes et colonnes
l’exemple du carnet de notes.
11h30-12h30 : Interprétations/visualisations
Présentation/Démonstration de TextObserver (Corpus « genres »)
Prise en main de TextObserver éléments d’interprétation (points contributifs, affichage points lignes et points colonnes,
Problèmes de visualisation)
Travail en surface/catégorisations
Catégoriseurs morhposyntaxiques (cordial, Treetagger)
Catégoriseurs sémantiques (Topes)
Recherche de motifs textuels (l’exemple de TextObserver ou de Weblex)
Soumettre un corpus à TextoBserver:
Surface (forme graphique)
Catégories prise en main de TextEndoder (M. Pérès)
Ressources
>> Motifs et expression régulières (Cordial/Weblex)
>> Etiquettes Treetagger (français)
>> Boîte à outils de Textopol
Corpus de travail
>> Corpus voeux xml (treetagger/TextObserver)
>> Notes (fichier tab)
>> Editos (tab)
>> Textes genres (txt)
Téléchargement de TextObserver :
>> fichiers log
>> Version 37 (ancienne version)
15h30-17h00 Questions des participants, travaux sur les corpus
Les méthodes quantitatives d’analyse des textes politiques
Projet partenariat ADA 2012-2013
L’analyse de contenu apparaît aujourd’hui comme un passage obligé pour tout chercheur qui souhaite travailler à partir de ou à propos de textes politiques. Cette étude s’opère toutefois souvent de manière très artisanale avec un ensemble d’outils plus ou moins rudimentaires issus de la linguistique et appliqués assez directement aux sciences sociales et politiques: analyse thématique, analyse sémantique, analyse séquentielle, analyse par oppositions, analyse argumentative, etc. Cette façon de faire se heurte toutefois à trois inconvénients majeurs. D’abord, elle laisse une large place à la subjectivité du chercheur.
Ensuite, elle laisse le chercheur relativement démuni lorsqu’il a à faire à des corpus importants alors, précisément, qu’avec le développement des outils numériques, il est de plus en plus fréquent qu’on se trouve face à des corpus de plus en plus vastes (cf le développement des humanités numériques et des « big data »). Enfin, elle ne donne qu’une place limitée aux spécificités propres au caractère politique des discours analysés (par exemple, souci particulier de l’argumentation et de la persuasion, publics et enjeux spécifiques,etc.).
Pour dépasser cette difficulté, un ensemble d’équipes, en France et ailleurs, ont commencé à développer des outils et des concepts en s’appuyant sur des fondements disciplinaires relativement distincts, voire opposés, qui se concrétisent dans des logiciels eux-mêmes différents (Lexico, TXM, Alceste, Tropes, Prospero, Hyperbase, Spad-T, Trideux, etc.). Certains proviennent plutôt de la linguistique et de la statistique, voire de l’informatique; d’autres plutôt de la sociologie, de l’histoire ou de la science politique; d’autres encore plutôt de la psychologie, voire du marketing. Ces manières parfois différentes de traiter les textes politiques tendent à cohabiter sans nécessairement se croiser.
Le séminaire proposé se donne précisément pour objet de faire intervenir des représentants de ces différentes écoles relevant de champs disciplinaires différents, travaillant sur des types de corpus différents et usant d’outils pour partie eux-mêmes différenciés, en vue d’une publication inédite en ce qu’elle rassemblerait leurs approches en un seul volume et permettrait ainsi de les faire dialoguer
>> sur le site du MESHS
Mercredi 25 septembre 2013
Mercredi 9 octobre 2013
Mercredi 30 octobre 2013
Mercredi 30 novembre 2013
Voir également la page « Sites applicatifs » de Textopol
10h-17h salle 306 I2 Campus Centre
Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.
Prise en main de Lexico 3:
– Fonctions documentaires, décomptes statistiques, modèles probabilistes.
– Distributions statistiques, distributions linguistiques.
– Analyse factorielle des correspondances, spécificités, fréquences…..
>> Enoncé – exercice-lexico
>> Quelques fonctionnalités de Lexico3
Liens à visiter et revues à consulter :
http://www.cavi.univ-paris3.fr/lexicometrica/
En savoir plus sur Lexico 3
>> Tutoriels (version provisoire page Textopol)
>> Version imprimable du programme
Séminaire du CEDITEC, vendredi 24 mai 2013, 10h30-17h30
Salle Keynes – Bâtiment des Sciences Economiques et de Gestion
Mail des Mèches
61 avenue du Général de Gaulle
94010 Créteil
>> programme
Métro Créteil Université, Ligne 8
Séance coordonnée par
JM Leblanc – UPEC – Céditec (EA 3119) – Chantier Textopol
jean-marc.leblanc@u-pec.fr
Supports de communication
« Modèles tridimensionnels pour la représentation de l’état des connaissances »
Marie Pérès: Docteure en histoire ancienne, plasticienne, (UPEC)
Proposera une contribution portant sur les problèmes posés par l’interprétation des données dans le cadre de la modélisation des sites archéologiques, et présentera des productions artistiques interrogeant les modalités de la représentation des données.
partie 1 : Données et visualisations
[stream base=x:/textopol.u-pec.fr/wp-content/uploads/2013/06/videotest/ flv=diaporama-p1.flv img=x:/textopol.u-pec.fr/wp-content/uploads/2013/05/vignette-150×150.jpg hd=diaporama-p1.flv embed=false share=false width=640 height=360 dock=true controlbar=over bandwidth=high autostart=false responsive=16:9 /]
partie 2 : exemples de modélisation de site archéologique et productions artistiques
[stream base=x:/textopol.u-pec.fr/wp-content/uploads/2013/06/videotest/ flv=diaporama-p2.flv img=x:/textopol.u-pec.fr/wp-content/uploads/2013/05/vignette-150×150.jpg hd=diaporama-p2.flv embed=false share=false width=640 height=360 dock=true controlbar=over bandwidth=high autostart=false responsive=16:9 /]
« Extraction automatisée et analyse de données à partir des pages web, quelles perspectives ? »
Jérôme Baray, PR géomarketing, (UPEC), Chercheur à l’Institut de Recherche en Gestion
Evoquera les problèmes de visualisation qui se posent dans le domaine des S.I.G (Systèmes d’Information Géographique) et proposera par ailleurs un outil d’extraction automatique de données à partir des pages web pour analyser le rayonnement des territoires, la notoriété et la valeur financière des marques ou encore établir un classement plus rationnel des revues de recherche.
L’intervention permettra en outre de poser les jalons d’un échange entre visualisation en SIG et textométrie et d’évoquer quelques perspectives de développement.
« Nuages arborés et analyse textuelle. Présentation de l’outil TreeCloud »
Philippe Gambette, MCF informatique, LIGM, Université Paris-Est Marne la Vallée
Présentera la visualisation de textes en nuages arborés et ses applications en analyse textuelle, sur un corpus de théâtre et un corpus de presse, puis fera une démonstration du logiciel libre TreeCloud, téléchargeable sur treecloud.org, pour construire ces visualisations.
« Opérations sur graphes lexicographiques issus de corpus à des fins de visualisation sémantique »
Romain Loth, MoDyCo – UMR 7114 Université Paris Ouest Nanterre
Présentera des opérations sur graphes lexicaux permises par les librairies R et autres outils (définition matricielle, clustering puis travail sur les zones : sélection de parangon, intersections de zones,…), de ce que cela permet d’envisager comme visualisations de données et des pistes que cela alimente en retour sur la recherche lexicographique/sémantique.
« Propositions de visualisations pour l’analyse des corpus textuels et multimodaux. TextObserver/WebObserver, état d’avancement des développements et perspectives »
JM Leblanc – MCF Linguistique informatique UPEC Céditec
Nous ferons plus particulièrement état des développements de TextObserver outil d’exploration des données textuelles multidimensionnelles et multimodales, conçu par notre équipe de recherche.
TextObserver est fondé initialement sur des préoccupations ergonomiques. Il propose des fonctionnalités originales sur le plan de la visualisation, rendues explicites par l’interactivité, et du traitement dynamique des données et des résultats textométriques. Il rend possible l’intégration de données textuelles diversifiées dans un cadre multimédia.
Il répond en temps réel aux questionnements expérimentaux comme les facteurs de la variation discursive.
Nous en présenterons les principes essentiels en prenant pour terrain d’expérimentation un corpus constitué de discours politiques rituels, (voeux de présidents de la cinquième République, de 1959 à 2012)
>> http://textopol2.u-pec.fr/textobserver
«TextObserver/WebObserver: L’utilisation d’agents communicants pour l’extraction et la visualisation de corpus textuels.»
Amani Daknou docteure en informatique, post-doc Ceditec
Nous proposons un système multi agent dynamique et ouvert qui vise à la recherche, la classification et l’extraction des informations nécessaires et pertinentes de pages web pour créer un corpus évolutif interrogeable en temps réel. Cette approche présente un grand avantage dans la mesure où elle déploie une collecte coopérative d’informations à base d’agents. Le système proposé permet donc de prendre en compte des contextes de recherche en considérant des regroupements de pages Web liés à des domaines particuliers. Ce système, couplé à la visualisation dynamique des résultats propre à TextObserver, constituera une fonctionnalité importante du dispositif.
Séminaire doctoral Informatique pour la recherche
Approches Textométriques – Ergonomies numérique
TXM, Iramuteq, TextObserver: outils open source pour l’analyse des données textuelles.
1. Introduction-rappels
– Rappel des séances précédentes.
– Panorama des outils existants.
– Quels outils pourquoi faire?
2. Weblex: Rappel de quelques fonctionnalités
– Cooccurrences associées à un pôle, lexicogrammes simples et récursifs
– Textes annotés, expressions CQP…
3. Initiation à TXM
– Installation, import de corpus, manipulations sur corpus de travail
– Etude de cas : A. Policka : Utilisation de la plate-forme TXM: Analyse du corpus Rapcor pour l’analyse socio-lexicale du français actuel (A confirmer)
4. Outils de visualisation
– Introduction: Lexicométrie, textométrie, data-visualisation…
– Treecloud, Gephi, Linkurious…
5. Présentation du logiciel Iramuteq
– Téléchargement, installation, expérimentation sur corpus de travail
6. Etude de cas : Analyser des corpus multimodaux
– Application de TextObserver à l’analyse automatisée de pages web.
7. Préparation de la séance du 20 avril (10h-13h00)
>> Télécharger le corpus vœux encodé pour TXM
>> Télécharger le corpus « genres »
1. Rappel des séances précédentes.
– Rappel: approches longitudinales et contrastives: Alceste et Lexico sur un corpus de discours politiques.
2. Statistique multidimensionnelle:
– Classes Alceste, axes factoriels, des résultats identiques? Exemple corpus IREB
3. Cooccurrences
– Rappel: les calculs de cooccurrences
4. Prise en main du logiciel Hyperbase
– Présentation Hyperbase…
Fonctionnalités documentaires, statistiques et structurelles.
Listes: Recherche par mots, lemmes catégories, cumul détail…Distributions, AFC, une arborée, radiale ou rectangulaire…
Structure/distribution : Calculs de distance, accroissement lexical (par tranches ou par partition), richesse du vocabulaire
Evolution et coefficient de corrélation.
Thème, cooccurrences, réseaux, associations, corrélats
5. Etude de cas : Analyser des corpus multimodaux
– Application de TextObserver à l’analyse automatisée de pages web.
6. Questions corpus des participants.
Préparation de la séance 6: Installation/Présentation du logiciel Iramuteq
1. Cours – Rappel Identifier des thématiques:
annotation/ontologie de type tropes / méthode des cooccurrences
Cooccurrences généralisées, cooccurrences inter énoncés…
2. La méthodologie Alceste et les « mondes lexicaux »
– Quelques exemples de résultats:
Prise en main d’Alceste
– Balisage, mots étoilés, UCE, UCI…
– Exercice sur le corpus voeux 1959-2012 / Comparaison aux résultats 1959-2001
Expérimentations textométriques:
Alceste: Analyse en tri croisé
Utiliser les résultats d’un logiciel pour le soumettre à d’autres outils:
– Exemple d’Alceste et de Lexico [quantifier les énoncés rituels, politiques…)
– Analyse récursive au moyen d’Alceste:
Représentations factorielles Alceste/Lexico3
3. Exercice lexico3/Alceste/Tropes sur la campagne présidentielle de 2012 – meetings 1er tour
4. Après-midi : Travail sur le corpus des participants ou atelier Web design
– Comprendre le web : Outils graphiques. Initiation à illustrator
– Développement web : Prise en main de Dreamweaver. Ergonomie des interfaces
5. Séance du 23 février 2013:
Approfondissement Hyperbase/ Prise en main d’un logiciel open source: Iramuteq
Ressources:
>> Voeux 1959-2012 ALC
>> Premier tour lexico.txt
>> Base textopol