Centre national des ressources textuelles et Lexicales
Le CNRTL fédère au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue.
BASE TEXTUELLE ET OUTILS INFORMATISÉS POUR L’ANALYSE DES DISCOURS SOCIOPOLITIQUES
Le CNRTL fédère au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue.
RAPCOR est un corpus de rap pour l’analyse socio-lexicale du français contemporain et une base de données textuelles pour l’enrichissement du lexique à destination des apprenants.
Créé à partir de 2008 au sein de l’Institut des Langues et Littératures romanes de la Faculté des Lettres de l’Université Masaryk de Brno, RAPCOR sert de base à des analyses sociodidactiques, traductologiques et lexicométriques. Quelques 2000 chansons sont en cours de traitement et plus de 700 chansons sont déjà annotées et disponibles pour des recherches quantitatives via un module adapté de la plate-forme TXM.
L’import de la base RAPCOR à TEXTBOSERVER permettra d’apporter des preuves de la naissance et de la diffusion des néologismes, (Les hapax idiolectaux des rappeurs peuvent se transformer en mots identitaires à travers la chanson), permettra d’observer en synchronie dynamique les chaînes synonymiques, les procédés typiques du français substandard tels que la verlanisation, les hésitations graphiques, etc.
Le projet ciblera également les analyses thématiques et les analyses sur les sous-genres musicaux (gansta rap, rap revendicatif…)
Alena Podhorná-Polická, Université Masaryk, Brno.
10h-17h salle 306 I2 Campus Centre
Présentation et typologie pratique de logiciels standard et d’analyseurs de données textuelles. Options théoriques, principes méthodologiques, limites interprétatives.
Prise en main de Lexico 3:
– Fonctions documentaires, décomptes statistiques, modèles probabilistes.
– Distributions statistiques, distributions linguistiques.
– Analyse factorielle des correspondances, spécificités, fréquences…..
>> Enoncé – exercice-lexico
>> Quelques fonctionnalités de Lexico3
Liens à visiter et revues à consulter :
http://www.cavi.univ-paris3.fr/lexicometrica/
En savoir plus sur Lexico 3
>> Tutoriels (version provisoire page Textopol)
Développé par Helmut Schmid, TreeTagger permet d’annoter un texte en projetant sur la forme graphique des informations d’ordre morphosyntaxique.(genre, POS, noms, verbes, infinitifs) et de lemmatiser ce texte. Plusieurs langues sont disponbiles.
>> En savoir plus sur Treetagger
Treetagger en ligne sur le site de l’ULB
Infotext est une plateforme d’enseignement et de ressources en informatique textuelle, infographie, bureautique, multimédia.
Ce portail met à disposition des étudiants de l’UPEC des tututoriels (PAO, animation, webdesign, développement web, objets interactifs, retouche d’images, dessin vectoriel, ergonomie des interfaces) des cours, des exemples de travaux.
La construction de ces graphes s’appuie sur une LSI et ils constituent des petits mondes hiérarchiques. Ajoutés à un indice composite pour noter l’importance de chaque noeud, il permettent de construire des visualisations panoramiques intuitives de lexiques spécialisés.
On peut intégrer comme mécanisme de suggestion de requêtes sur un moteur de recherche. Une ébauche de cette application se trouve sur le site
TreeCloud permet de générer des nuages arborés à partir d’un texte, c’est à dire des nuages de mots disposés autour d’un arbre qui indique leur proximité dans le texte. Le premier nuage arboré est apparu sur le blog de Jean Véronis en décembre 2007. Il est désormais possible de créer ces visuels en ligne ou avec le logiciel TreeCloud.
Les résultats produits par les outils textométriques intègrent désormais divers modules de mises en forme des données et des résultats demandant aux utilisateurs une maîtrise des outils de codage et de visualisation et une réflexion ergonomique.
Textopol, avec le projet TextObserver participe de la réflexion sur la visualisation des données textuelles et multi-modales.
La plateforme TXM combine des techniques puissantes et originales pour l’analyse de grands corpus de textes au moyen de composants modulaires et open-source (Heiden, 2010 ; Heiden et al., 2010 ; Pincemin et al., 2010). Elle a été initiée par le projet ANR Textométrie[1] qui a lancé une nouvelle génération de recherches textométriques, en synergie avec les technologies de corpus et de statistique actuelles (Unicode, XML, TEI, TAL, CQP et R).
La plateforme TXM aide couramment les utilisateurs à construire et à analyser tout type de corpus textuel numérique éventuellement étiqueté et structuré en XML. Elle est diffusée sous forme d’une application logicielle Windows, Linux ou Mac (basée sur la technologie RCP) et sous forme d’un portail en ligne exécuté par une application web (basée sur la technologie GWT) hébergée sur un serveur.
Déposez vos suggestions d’ajouts d’autes outils, vos remarques, vos commentaires sur le forum de Textopol, rubrique OUTILS.