Centre national des ressources textuelles et Lexicales

Le CNRTL fédère au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue.

http://cnrtl.fr/

RapCor

RAPCOR est un corpus de rap pour l’analyse socio-lexicale du français contemporain et une base de données textuelles pour l’enrichissement du lexique à destination des apprenants.

Créé à partir de 2008 au sein de l’Institut des Langues et Littératures romanes de la Faculté des Lettres de l’Université Masaryk de Brno, RAPCOR sert de base à des analyses sociodidactiques, traductologiques et lexicométriques. Quelques 2000 chansons sont en cours de traitement et plus de 700 chansons sont déjà annotées et disponibles pour des recherches quantitatives via un module adapté de la plate-forme TXM.

L’import de la base RAPCOR à TEXTBOSERVER permettra d’apporter des preuves de la naissance et de la diffusion des néologismes, (Les hapax idiolectaux des rappeurs peuvent se transformer en mots identitaires à travers la chanson), permettra d’observer en synchronie dynamique les chaînes synonymiques, les procédés typiques du français substandard tels que la verlanisation, les hésitations graphiques, etc.

Le projet ciblera également les analyses thématiques et les analyses sur les sous-genres musicaux (gansta rap, rap revendicatif…)

Alena Podhorná-Polická, Université Masaryk, Brno.

>> Vers le site RapCor

séance 1 Séminaire Textopol 20/10/12

Séance 1 : Approches textométriques des discours – 20 octobre 2012

10h-17h salle 306 I2 Campus Centre

10h-13h: Introduction :

Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.

14h-17h Atelier pratique

Prise en main de Lexico 3:

– Fonctions documentaires, décomptes statistiques, modèles probabilistes.

– Distributions statistiques, distributions linguistiques.

– Analyse factorielle des correspondances, spécificités, fréquences…..

Questions des participants

Ressources:

>> Lien vers le support

>> Corpus de travail

>> Accès à l’application

>> Enoncé – exercice-lexico

>> Quelques fonctionnalités de Lexico3

>> Barre d’outils de Lexico 3

>> Balisage Lexico3/Alceste

Liens à visiter et revues à consulter :

http://jadt.org/

http://www.cavi.univ-paris3.fr/lexicometrica/

En savoir plus sur Lexico 3

>> Lexico 3 Paris3 Syled

>> Tutoriels (version provisoire page Textopol)

Treetagger

Développé par Helmut Schmid, TreeTagger permet d’annoter un texte en projetant sur la forme graphique des informations d’ordre morphosyntaxique.(genre, POS, noms, verbes, infinitifs) et de lemmatiser ce texte. Plusieurs langues sont disponbiles.

>> En savoir plus sur Treetagger

Treetagger en ligne sur le site de l’ULB

http://cental.fltr.ucl.ac.be/treetagger/

infotext

Infotext

Infotext est une plateforme d’enseignement et de ressources en informatique textuelle, infographie, bureautique, multimédia.

Ce portail met à disposition des étudiants de l’UPEC des tututoriels (PAO, animation, webdesign, développement web, objets interactifs, retouche d’images, dessin vectoriel, ergonomie des interfaces) des cours, des exemples de travaux.

>> Vers infotext

Visualisation en graphes des parlers professionnels

Visualisations en graphes des parlers professionnels.

La construction de ces graphes s’appuie sur une LSI et ils constituent des petits mondes hiérarchiques. Ajoutés à un indice composite pour noter l’importance de chaque noeud, il permettent de construire des visualisations panoramiques intuitives de lexiques spécialisés.

On peut intégrer comme mécanisme de suggestion de requêtes sur un moteur de recherche. Une ébauche de cette application se trouve sur le site

http://www.modyco.fr/navigraph

TreeCloud

TreeCloud permet de générer des nuages arborés à partir d’un texte, c’est à dire des nuages de mots disposés autour d’un arbre qui indique leur proximité dans le texte. Le premier nuage arboré est apparu sur le blog de Jean Véronis en décembre 2007. Il est désormais possible de créer ces visuels en ligne ou avec le logiciel TreeCloud.

Chantier visualisation

Outils de visualisation

Les résultats produits par les outils textométriques intègrent désormais divers modules de mises en forme des données et des résultats demandant aux utilisateurs une maîtrise des outils de codage et de visualisation et une réflexion ergonomique.

Textopol, avec le projet TextObserver participe de la réflexion sur la visualisation des données textuelles et multi-modales.

TXM

Plate forme TXM

La plateforme TXM combine des techniques puissantes et originales pour l’analyse de grands corpus de textes au moyen de composants modulaires et open-source (Heiden, 2010 ; Heiden et al., 2010 ; Pincemin et al., 2010). Elle a été initiée par le projet ANR Textométrie[1] qui a lancé une nouvelle génération de recherches textométriques, en synergie avec les technologies de corpus et de statistique actuelles (Unicode, XML, TEI, TAL, CQP et R).

La plateforme TXM aide couramment les utilisateurs à construire et à analyser tout type de corpus textuel numérique éventuellement étiqueté et structuré en XML. Elle est diffusée sous forme d’une application logicielle Windows, Linux ou Mac (basée sur la technologie RCP) et sous forme d’un portail en ligne exécuté par une application web (basée sur la technologie GWT) hébergée sur un serveur.

>> Vers la plateforme TXM

autres liens

Déposez vos suggestions d’ajouts d’autes outils, vos remarques, vos commentaires sur le forum de Textopol, rubrique OUTILS.