Séance 2 : Construire et analyser des corpus textométriques – 12 décembre 2014

Séance 2 : Construire et analyser des corpus textométriques – 12 décembre 2014

14h-17h

Présentation de TextObserver

14h-14h30 : Retour sur la séance du 28 novembre 2014 (Initiation à Lexico3)

14h30-15h30 : Approfondissement: L’analyse factorielle des correspondances

L’analyse factorielle des correspondances, le tableau lexical L’analyse factorielle, Lexico3/TextObserver Comprendre l’analyse factorielle des correspondances, profils lignes et colonnes l’exemple du carnet de notes.

15h30-16h30 : Interprétations/visualisations

Présentation/Démonstration de TextObserver (Corpus « genres ») Prise en main de TextObserver éléments d’interprétation (points contributifs, affichage points lignes et points colonnes, Problèmes de visualisation)

Travail en surface/catégorisations

Catégoriseurs morhposyntaxiques (cordial, Treetagger) Catégoriseurs sémantiques (Topes) Recherche de motifs textuels (l’exemple de TextObserver ou de Weblex)

Soumettre un corpus à TextoBserver:

Surface (forme graphique) Catégories prise en main de TextEndoder (M. Pérès) Ressources

>> Motifs et expression régulières (Cordial/Weblex)

>> Etiquettes Treetagger (français)

>> Boîte à outils de Textopol

Corpus de travail

  >> Corpus voeux xml (treetagger/TextObserver)

>> Notes (fichier tab)

>> Editos (tab)

>> Textes genres (txt)

Téléchargement de TextObserver :

>> fichiers log

>> Version 39

Séance prochaine : travaux sur les corpus et donnés catégorisées

Séance 1 : Approches textométriques des discours – 28 novembre 2014

Séance 1 : Approches textométriques des discours – 28 novembre 2014

14h-17h salle — Campus Val d’Europe

14h-15h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

15h-17h Atelier pratique

Prise en main de Lexico 3: – Fonctions documentaires, décomptes statistiques, modèles probabilistes. – Distributions statistiques, distributions linguistiques. – Analyse factorielle des correspondances, spécificités, fréquences…..

Questions des participants

Ressources:

Séance 1 : Séminaire Textopol 2014-2015

Séance 1 : Approches textométriques des discours – 8 novembre 2014

10h-17h salle 306 I2 Campus Centre

10h-13h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

14h-17h Atelier pratique

Prise en main de Lexico 3: – Fonctions documentaires, décomptes statistiques, modèles probabilistes. – Distributions statistiques, distributions linguistiques. – Analyse factorielle des correspondances, spécificités, fréquences…..

Questions des participants

 

Ressources:

Séminaire 2014-15

Séminaire 2014-15

>> Version imprimable du programme
>> Atelier infographie

Calendrier

  • 8 novembre 2014 : Introduction – Approches textométriques des discours.
  • 13 décembre 2014 : Comprendre l’analyse factorielle des correspondances.
  • 17 janvier 2015 : Des corpus textuels aux corpus multimodaux (annoter, catégoriser, étiqueter).
  • 7 février 2015 : Visualisation et interprétations des résultats. Analyse de contenu et analyse de discours.
  • 14 mars 2015 : Corrélations et causalités interprétatives. Expérimentations, distance intertextuelle et voisinages.
  • 11 avril 2015 : De la textométrie à l’analyse des données, quels outils pour quels usages?
  • Courant 2014 – 2015 : 2e journée de présentation des outils de traitements de corpus textuels
  • Stages de formation à TextObserver (dates à préciser)

Outils de traitement de corpus textuels développés à Paris Est

Outils de traitement de corpus textuels développés à Paris Est : Présentations, démonstrations, formations

Cette journée se tiendra le 18 juin prochain à l’UPEC, Campus Centre, salles I2-306 et I2-314, 61 avenue du Général de Gaulle, 94000 Créteil (ligne 8 – Métro Université) A l’interface entre sciences du langage, informatique et statistique, le traitement automatique de données textuelles vise des applications multiples : tests d’hypothèses à partir de productions écrites ou orales, analyses exploratoires de corpus web, journalistiques, politiques ou littéraires, visualisation d’opinions, etc. Plusieurs laboratoires de l’Université Paris-Est développent des outils dédiés au traitement automatique de données textuelles : TextObserver, Unitex/Gramlab, TreeCloud, etc. Ils se proposent de les présenter, le 18 juin 2014 à l’UPEC, à leurs utilisateurs potentiels, mais aussi aux concepteurs de méthodologies ou d’outils qui exploitent des données textuelles.

Merci de confirmer votre participation au moyen du formulaire suivant: https://docs.google.com/forms/d/1I2BIOH26yRLZ6k9bGiXSCxtvEnjQQtuz4KZ-4fSdjhA/viewform

>> télécharger le programme
>> Treecloud
>> Unitex/Gramlab
>> TextObserver
>> Cortex
>> seminaire Data Digital methods and mapping social complexity

>> L. Villard – Présentation CorText Partie1
>> L. Villard – Présentation CorText Partie2

Séminaire du CEDITEC du 21 mars 2014

Corpus issus du web : enjeux, méthodes et outils

Séminaire du CEDITEC, vendredi 21 mars 2014, 14h-17h30

Séminaire organisé par Christine Barats, maître de conférences en sciences de l’information et de la communication et Jean-Marc Leblanc, maître de conférences en sciences du langage à l’UPEC, membres du Céditec.

Cette séance se propose d’examiner les enjeux méthodologiques liés à la constitution de corpus issus du web. L’accent portera sur ce que change le web par rapport aux méthodes de collecte de corpus propres aux analyses textométriques. Il s’agira d’examiner en quoi le web contribue à renouveler le questionnement sur ce moment privilégié d’une recherche que constitue la définition des critères de sélection d’un corpus et le choix des outils d’analyse. Les particularités des corpus issus du web exigent-elles une documentation spécifique des corpus ? Comment définir des critères de clôture et tenir compte des spécificités du dispositif (liens hypertextes, images, émoticon, flux…) ? Il s’agira également de mieux appréhender les outils de traitement et la nécessité d’articuler des approches quantitatives avec des approches qualitatives. Des exemples illustreront les interventions.

Intervants :

– « Collecte et analyse de corpus issus du web : une introduction »
Christine Barats, enseignante-chercheuse en SIC et membre du Céditec
Jean-Marc Leblanc, maître de conférence en Sciences du langage à l’UPEC, membre du Céditec, UPEC.

– « Le métalangage XML et les langages dérivés utilisés en sciences humaines, tels que Text Encoding Initiative (TEI) : quels apports pour le traitement, l’annotation, l’enrichissement de corpus textuels et multimodaux ? »
Florence Clavaud, conservateur en chef du patrimoine, responsable des référentiels documentaires aux Archives nationales, membre de l’EA 3624 (Centre Jean-Mabillon) de l’École nationale des chartes.

– « Les corpus web et l’approche textométrique: conditions de collecte et nécessaire combinaison d’approches quantitatives et qualitatives. »
Valérie Beaudoin, Enseignante-chercheuse en sciences sociales, Télécom ParisTech.

>> télécharger le diaporama de V. Beaudouin

>> télécharger le diaporama de la présentation de C. Barats et JM. Leblanc

sources Trameur

Trameur 

http://www.tal.univ-paris3.fr/trameur/

Mises à jour :

Téléchargement :

>> Vidéo de démonstration

Séance 5 séminaire Textopol 8/03/14

Approches Textométriques – Ergonomies numérique

 

Séance 5 : Informatique Textuelle – Ergonomies Numériques – 8 mars 2014

 

10h00-10h30 Présentation JML
Rappels
Typologies des outils logiciels
Travail en surface (forme graphique) catégories…
Recherche de motifs textuels
Cooccurrences

10h30 – 11h30 Loïse Bilat
Prise en main et présentation de Nvivo
>> télécharger le diaporama

12h00 – 13h00 Emilie Née
Présentation et prise en main du Trameur
>> sources Trameur

14h00 – 17h00 JML
Présentation de l’outil Hyperbase
– cooccurrences, voisinages, distances intertextuelles
– forme graphique, catégories morphosyntaxiques, séquences…

Questions des participants
– Programme séance 6
– Propositions de séance supplémentaire

 Ressources  Hyperbase
>>  
Corpus test pour Cordial/Treetager/Tropes
>>  Corpus test Hypertag
>>  Recherche de motifs textuel
>> 2012: «Extraction des isotopies d’un corpus textuel», [En ligne], Volume XVII – n°3 (2012). Coordonné par Christophe Cusimano, revue Texto (avec Margareta KASTBERG SJÖBLOM)

Séance 4 séminaire Textopol 18/01/14

Séance 4 : Visualisation et interprétations des résultats. Analyse de contenu et analyse de discours – 18 janvier 2014

Ontologies et mondes sémantiques (Tropes, Alceste, Astartex)

Présentation et prise en main de deux outils open source: UNITEX et TreeCloud. (Claude Martineau, Philippe Gambette)

Contenu du TD proposé par Philippe Gambette et installation des composants de TreeCloud

http://tinyurl.com/UPEC20140118

Présentation et prise en main de l’outil UNITEX (Claude Martineau)

http://infolingu.univ-mlv.fr/