Séminaire 2018-19

Calendrier

17 novembre 2018 : Introduction – Approches textométriques des discours.
15 décembre 2018 : Présentation et prise en main de TextObserver [10h-16h]
19 janvier 2019 : Des corpus textuels aux corpus multimodaux (annoter, catégoriser, étiqueter, visualiser, interpréter).
16 février 2019 : De la lexicométrie au traitement automatique des langues (TAL) [10h-16h]
16 mars 2019 : Exploration textométrique sur une base annotée – Prise en main du Trameur [10h-16h]
13 avril 2019 : De la textométrie à l’analyse des données, quels outils pour quels usages?
Corrélations et causalités interprétatives. Expérimentations, distance intertextuelle et voisinages.

Séance 6 – 4 mai 2018

Iramuteq
>> lien vers les documents de travail
>> télécharger et installer Iramuteq (attention le package proxy nécessite que R >= 3.4.0 soit installé)
Nouvelles fonctionnalités de TextObserver
>> télécharger TextObserver 9.4.5 (Nb: enregistrez le dossier où vous voulez puis décompressez le)

Séance 5 – 24 mars 2018

Emilie Née (UPEC, Céditec) : i-Trameur

Matinée sera consacrée à la présentation et à la prise en main du Trameur et de i-Trameur, développés par Serge Fleury (Syled/Cla2T, université Sorbonne nouvelle Paris 3).

Ressources

>> corpus brut
>> base à importer
>> i-Trameur

Téléchargement

>> Exécutable windows
>> Exécutable windows (64 bits)
>> Exécutable Mac

Séance 4 – 24 février 2018

P. Gambette (LIGM-MLV) : Les nuages arborés dans TextObserver et Treecloud.

C. Martineau (LIGM-MLV) : Présentation et prise en main du logiciel UNITEX.

Étude de cas : Phraséologie, recherche de cooccurrences multiples, grammaires. Extraction et analyse de formules rituelles : l’exemple du corpus vœux.

>>http://unitexgramlab.org/fr

TextObserver

module de préparation de corpus
module catégorisation morphosyntaxique
module d’annotation/commentaires
topologies, cooccurrences

Transformer des textes pour les soumettre à des traitements automatisés.

Balisage, encodage, nettoyage des données
Expressions régulières, rechercher remplacer (notepad ++)
>> télécharger le corpus exemple à modifier
>> corpus Alceste à transformer en Lexico

>> diaporama REGEX et notepad++

Un outil de visualisation et de « design » de graphes: Gephi

Expérimentations et prise en main.
Utiliser les sorties de TextOberver pour les visualiser et les mettre en forme dans Gephi
>> télécharger le fichier de graphe (gdf) généré par TextObserver

>> diaporama Gephi

Questions des participants, travail sur les corpus, (TextObserver)

Séance 2 : Présentation et prise en main de TextObserver – 16 décembre 2017

10h-16h salle 317 I2 Campus Centre

1. Retour sur la séance du 18 novembre (Initiation à Lexico3)

>> Prise en main de Lexico3 en 5 tutoriels interactifs

2. Visualisation des données textuelles : Lexicométrie, Textométrie, Datasciences, Bigdatas, TAL et… Sciences du langage (PPT, JML)

>>> télécharger le support

3. Approfondissement: L’analyse factorielle des correspondances

L’analyse factorielle des correspondances, le tableau lexical. Comprendre l’analyse factorielle des correspondances, profils lignes et colonnes l’exemple du carnet de notes.

4. Interprétations/visualisations

Présentation/Démonstration de TextObserver (Corpus « voeux ») Prise en main de TextObserver éléments d’interprétation (points contributifs, affichage points lignes et points colonnes, Problèmes de visualisation.

Expressions régulières, spécificités, cooccurrences.

>> télécharger le fichier .lis

5. Travail en surface/catégorisations

Catégoriseurs morhposyntaxiques (cordial, Treetagger) Catégoriseurs sémantiques (Tropes) Recherche de motifs textuels.

Exercice

Constitution de corpus : Les déclarations de candidature Balisage XML ou fichiers texte.

Ressources

>> Motifs et expression régulières (Cordial/TXM)
>> Etiquettes Treetagger (français)
>> Boîte à outils de Textopol
>> Expressions régulières sous TextObserver
>> Importer un corpus au format txt
>> Baliser un corpus au format xml
>> Créer et utiliser une table morphosyntaxique

Corpus de travail

>> Corpus voeux xml (treetagger/TextObserver)
>> Notes (fichier tab)
>> Editos (tab)
>> Textes genres (txt)

Téléchargement de TextObserver

>> dernière version

Questions des participants, travaux sur les corpus

>> base textopol
>> expérimentation voeux
>> corpus candidatures
>> candidatures étudiants et politiques pour TO

Séance 1 – 18 novembre 2017

Séance 1 : Approches textométriques des discours – 18 novembre 2017

10h-13h salle 317 I2 Campus Centre

10h-11h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

11h-13h Atelier pratique

Prise en main de Lexico 3: – Fonctions documentaires, décomptes statistiques, modèles probabilistes. – Distributions statistiques, distributions linguistiques. – Analyse factorielle des correspondances, spécificités, fréquences…..

Questions des participants

Ressources:

>> Lien vers google lab
>> Lien vers le support
>> Corpus de travail >> Accès à l’application
>> Enoncé – exercice-lexico
>> Quelques fonctionnalités de Lexico3
>> Barre d’outils de Lexico 3
>> Balisage Lexico3/Alceste
Liens à visiter et revues à consulter :

http://jadt.org/
http://www.cavi.univ-paris3.fr/lexicometrica/
Ngram, un bon outil pour les Sciences Humaines ? (internetactu.net, article du 19/10/15, par Rémi Sussan)

En savoir plus sur Lexico 3

Séminaire 2017-18

>> Version imprimable du programme

Calendrier

18 novembre 2017 : Introduction – Approches textométriques des discours.
16 décembre 2017 : Présentation et prise en main de TextObserver [10h-16h]
20 janvier 2018 : Des corpus textuels aux corpus multimodaux (annoter, catégoriser, étiqueter, visualiser, interpréter).
24 février 2018 : De la lexicométrie au traitement automatique des langues (TAL) [10h-16h]
24 mars 2018 : Exploration textométrique sur une base annotée – Prise en main du Trameur [10h-16h]
21 avril 2018 : De la textométrie à l’analyse des données, quels outils pour quels usages? Corrélations et causalités interprétatives. Expérimentations, distance intertextuelle et voisinages.

24-25 novembre – 2017 : Workshop ECLAVIT – Analyse et représentation de données textuelles expériences d’interaction entre concepteurs et utilisateurs https://eclavit.hypotheses.org/150

Séminaire 2018-19

Calendrier

Séance 6 – 4 mai 2018

Séance 5 – 24 mars 2018

Ressources

Téléchargement

Séance 4 – 24 février 2018

C. Martineau (LIGM-MLV) : Présentation et prise en main du logiciel UNITEX.

TextObserver

Séance 3 – 20 janvier 2018

Transformer des textes pour les soumettre à des traitements automatisés.

Un outil de visualisation et de « design » de graphes: Gephi

Questions des participants, travail sur les corpus, (TextObserver)

Séance 2 : Présentation et prise en main de TextObserver – 16 décembre 2017

1. Retour sur la séance du 18 novembre (Initiation à Lexico3)

2. Visualisation des données textuelles : Lexicométrie, Textométrie, Datasciences, Bigdatas, TAL et… Sciences du langage (PPT, JML)

3. Approfondissement: L’analyse factorielle des correspondances

4. Interprétations/visualisations

5. Travail en surface/catégorisations

Exercice

Ressources

Corpus de travail

Téléchargement de TextObserver

Questions des participants, travaux sur les corpus

Séance 1 : Approches textométriques des discours – 18 novembre 2017

10h-11h: Introduction :

11h-13h Atelier pratique

Questions des participants

Ressources:

Séminaire 2017-18

Calendrier

Workshop Eclavit

Quantilille séance 7 : 29/06/2017 – Matin

Antoine Schoen – Cortext

Quantilille séance 7 : 29/06/2017 – Après-midi

Marie Pérès – Visualisation et traitement des sorties