Séance 2 : Construire et analyser des corpus textométriques – 12 décembre 2014

14h-17h

Présentation de TextObserver

14h-14h30 : Retour sur la séance du 28 novembre 2014 (Initiation à Lexico3)

14h30-15h30 : Approfondissement: L’analyse factorielle des correspondances

L’analyse factorielle des correspondances, le tableau lexical L’analyse factorielle, Lexico3/TextObserver Comprendre l’analyse factorielle des correspondances, profils lignes et colonnes l’exemple du carnet de notes.

15h30-16h30 : Interprétations/visualisations

Présentation/Démonstration de TextObserver (Corpus « genres ») Prise en main de TextObserver éléments d’interprétation (points contributifs, affichage points lignes et points colonnes, Problèmes de visualisation)

Travail en surface/catégorisations

Catégoriseurs morhposyntaxiques (cordial, Treetagger) Catégoriseurs sémantiques (Topes) Recherche de motifs textuels (l’exemple de TextObserver ou de Weblex)

Soumettre un corpus à TextoBserver:

Surface (forme graphique) Catégories prise en main de TextEndoder (M. Pérès) Ressources

>> Motifs et expression régulières (Cordial/Weblex)

>> Etiquettes Treetagger (français)

>> Boîte à outils de Textopol

Corpus de travail

>> Corpus voeux xml (treetagger/TextObserver)

>> Notes (fichier tab)

>> Editos (tab)

>> Textes genres (txt)

Téléchargement de TextObserver :

>> fichiers log

>> Version 39

Séance prochaine : travaux sur les corpus et donnés catégorisées

Séance 1 : Approches textométriques des discours – 28 novembre 2014

14h-17h salle — Campus Val d’Europe

14h-15h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

15h-17h Atelier pratique

Prise en main de Lexico 3: – Fonctions documentaires, décomptes statistiques, modèles probabilistes. – Distributions statistiques, distributions linguistiques. – Analyse factorielle des correspondances, spécificités, fréquences…..

Questions des participants

Ressources:

>> Lien vers google lab
>> Lien vers le support
>> Corpus de travail >> Accès à l’application
>> Enoncé – exercice-lexico
>> Quelques fonctionnalités de Lexico3
>> Barre d’outils de Lexico 3
>> Balisage Lexico3/Alceste
Liens à visiter et revues à consulter :
- http://jadt.org/
- http://www.cavi.univ-paris3.fr/lexicometrica/
En savoir plus sur Lexico 3

Séance 1 : Séminaire Textopol 2014-2015

Séance 1 : Approches textométriques des discours – 8 novembre 2014

10h-17h salle 306 I2 Campus Centre

10h-13h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

14h-17h Atelier pratique

Questions des participants

Ressources:

>> Lien vers google lab
>> Lien vers le support
>> Corpus de travail >> Accès à l’application
>> Enoncé – exercice-lexico
>> Quelques fonctionnalités de Lexico3
>> Barre d’outils de Lexico 3
>> Balisage Lexico3/Alceste
Liens à visiter et revues à consulter :
- http://jadt.org/
- http://www.cavi.univ-paris3.fr/lexicometrica/
En savoir plus sur Lexico 3

Sites applicatifs

On trouvera dans cette rubrique les adresses des équipes universitaires ou des laboratoires de recherche développant des outils d’analyse ou proposant des exploitations dans le domaine lexicométriques et textométriques en relation avec Textopol.

>> vers les sites

D’autres liens sur le >> forum de textopol

Séminaire 2014-15

>> Version imprimable du programme
>> Atelier infographie

Calendrier

8 novembre 2014 : Introduction – Approches textométriques des discours.
13 décembre 2014 : Comprendre l’analyse factorielle des correspondances.
17 janvier 2015 : Des corpus textuels aux corpus multimodaux (annoter, catégoriser, étiqueter).
7 février 2015 : Visualisation et interprétations des résultats. Analyse de contenu et analyse de discours.
14 mars 2015 : Corrélations et causalités interprétatives. Expérimentations, distance intertextuelle et voisinages.
11 avril 2015 : De la textométrie à l’analyse des données, quels outils pour quels usages?

Courant 2014 – 2015 : 2e journée de présentation des outils de traitements de corpus textuels
Stages de formation à TextObserver (dates à préciser)

Outils de traitement de corpus textuels développés à Paris Est

Outils de traitement de corpus textuels développés à Paris Est : Présentations, démonstrations, formations

Cette journée se tiendra le 18 juin prochain à l’UPEC, Campus Centre, salles I2-306 et I2-314, 61 avenue du Général de Gaulle, 94000 Créteil (ligne 8 – Métro Université) A l’interface entre sciences du langage, informatique et statistique, le traitement automatique de données textuelles vise des applications multiples : tests d’hypothèses à partir de productions écrites ou orales, analyses exploratoires de corpus web, journalistiques, politiques ou littéraires, visualisation d’opinions, etc. Plusieurs laboratoires de l’Université Paris-Est développent des outils dédiés au traitement automatique de données textuelles : TextObserver, Unitex/Gramlab, TreeCloud, etc. Ils se proposent de les présenter, le 18 juin 2014 à l’UPEC, à leurs utilisateurs potentiels, mais aussi aux concepteurs de méthodologies ou d’outils qui exploitent des données textuelles.

Merci de confirmer votre participation au moyen du formulaire suivant: https://docs.google.com/forms/d/1I2BIOH26yRLZ6k9bGiXSCxtvEnjQQtuz4KZ-4fSdjhA/viewform

>> télécharger le programme
>> Treecloud
>> Unitex/Gramlab
>> TextObserver
>> Cortex
>> seminaire Data Digital methods and mapping social complexity

>> L. Villard – Présentation CorText Partie1
>> L. Villard – Présentation CorText Partie2

Séminaire du CEDITEC du 21 mars 2014

Corpus issus du web : enjeux, méthodes et outils

Séminaire du CEDITEC, vendredi 21 mars 2014, 14h-17h30

Séminaire organisé par Christine Barats, maître de conférences en sciences de l’information et de la communication et Jean-Marc Leblanc, maître de conférences en sciences du langage à l’UPEC, membres du Céditec.

Cette séance se propose d’examiner les enjeux méthodologiques liés à la constitution de corpus issus du web. L’accent portera sur ce que change le web par rapport aux méthodes de collecte de corpus propres aux analyses textométriques. Il s’agira d’examiner en quoi le web contribue à renouveler le questionnement sur ce moment privilégié d’une recherche que constitue la définition des critères de sélection d’un corpus et le choix des outils d’analyse. Les particularités des corpus issus du web exigent-elles une documentation spécifique des corpus ? Comment définir des critères de clôture et tenir compte des spécificités du dispositif (liens hypertextes, images, émoticon, flux…) ? Il s’agira également de mieux appréhender les outils de traitement et la nécessité d’articuler des approches quantitatives avec des approches qualitatives. Des exemples illustreront les interventions.

Intervants :

– « Collecte et analyse de corpus issus du web : une introduction »
Christine Barats, enseignante-chercheuse en SIC et membre du Céditec
Jean-Marc Leblanc, maître de conférence en Sciences du langage à l’UPEC, membre du Céditec, UPEC.

– « Le métalangage XML et les langages dérivés utilisés en sciences humaines, tels que Text Encoding Initiative (TEI) : quels apports pour le traitement, l’annotation, l’enrichissement de corpus textuels et multimodaux ? »
Florence Clavaud, conservateur en chef du patrimoine, responsable des référentiels documentaires aux Archives nationales, membre de l’EA 3624 (Centre Jean-Mabillon) de l’École nationale des chartes.

– « Les corpus web et l’approche textométrique: conditions de collecte et nécessaire combinaison d’approches quantitatives et qualitatives. »
Valérie Beaudoin, Enseignante-chercheuse en sciences sociales, Télécom ParisTech.

>> télécharger le diaporama de V. Beaudouin

>> télécharger le diaporama de la présentation de C. Barats et JM. Leblanc

sources Trameur

Trameur

http://www.tal.univ-paris3.fr/trameur/

Mises à jour :

Mise à jour de la base Base Rhapsodie2Trameur : http://www.tal.univ-paris3.fr/trameur/bases/baseTrameurFromRhapsodie.zip (cf présentation de la Base Rhapsodie2Trameur http://www.tal.univ-paris3.fr/trameur/bases/rhapsodie2trameur.pdf )
Mise à jour du module « Recherche de relation de dépendance » : cf http://www.tal.univ-paris3.fr/trameur/bases/rhapsodie2trameur.pdf pour une présentation des différentes fonctionnalités disponibles

Téléchargement :

Trameur v11.30 : http://www.tal.univ-paris3.fr/trameur/setup-trameur-11.exe
Trameur v11.30 (64 bits) : http://www.tal.univ-paris3.fr/trameur/setup-trameur-11-x64.exe (nouveau type de setup pour cette version)

>> Vidéo de démonstration

Séance 5 séminaire Textopol 8/03/14

Approches Textométriques – Ergonomies numérique

Séance 5 : Informatique Textuelle – Ergonomies Numériques – 8 mars 2014

10h00-10h30 Présentation JML
Rappels
Typologies des outils logiciels
Travail en surface (forme graphique) catégories…
Recherche de motifs textuels
Cooccurrences

10h30 – 11h30 Loïse Bilat
Prise en main et présentation de Nvivo
>> télécharger le diaporama

12h00 – 13h00 Emilie Née
Présentation et prise en main du Trameur
>> sources Trameur

14h00 – 17h00 JML
Présentation de l’outil Hyperbase
– cooccurrences, voisinages, distances intertextuelles
– forme graphique, catégories morphosyntaxiques, séquences…

Questions des participants
– Programme séance 6
– Propositions de séance supplémentaire

Ressources Hyperbase
>> Corpus test pour Cordial/Treetager/Tropes
>> Corpus test Hypertag
>> Recherche de motifs textuel
>> 2012: «Extraction des isotopies d’un corpus textuel», [En ligne], Volume XVII – n°3 (2012). Coordonné par Christophe Cusimano, revue Texto (avec Margareta KASTBERG SJÖBLOM)

Séance 4 séminaire Textopol 18/01/14

Séance 4 : Visualisation et interprétations des résultats. Analyse de contenu et analyse de discours – 18 janvier 2014

Ontologies et mondes sémantiques (Tropes, Alceste, Astartex)

Présentation et prise en main de deux outils open source: UNITEX et TreeCloud. (Claude Martineau, Philippe Gambette)

Contenu du TD proposé par Philippe Gambette et installation des composants de TreeCloud

http://tinyurl.com/UPEC20140118

Présentation et prise en main de l’outil UNITEX (Claude Martineau)

http://infolingu.univ-mlv.fr/