Domaine

Domaine

>> Nouveaux liens

Technologies du Langage (Blog de Jean Véronis)

>> http://aixtal.blogspot.com/

Psychologie politique et analyse du discours assistée par Ordinateur (Pascal Marchand)

>> http://pascal-marchand.fr/

Approches textométriques de la campagne présidentielle américaine de 2008

>> http://www.scharloth.com/cgi-bin/poltracker/poltracker.pl

Blog de Textopol sur les voeux présidentiels et sur le rituel

>> http://textopol.org/dotclear/

Discours sur la ville.

Corpus de français parlé parisien des années 2000

(CFPP2000)

>> http://ed268.univ-paris3.fr/syled/ressources/Corpus-Parole-Paris-PIII/

Un corpus et des outils pour étudier le positionnement et le raisonnement dans les écrits scientifiques – SCIENTEXT

>> http://aiakide.net/scientext-site/

 

On trouvera dans cette page les adresses des équipes universitaires ou des laboratoires de recherche développant des outils d’analyse ou proposant des exploitations dans le domaine lexicométriques et textométriques en relation avec Textopol.

D’autres liens sur le >> forum de textopol

>> Equipes de recherche

>> Sites applicatifs

Vos commentaires, vos suggestions de liens sur le >> forum de textopol

Quelques outils…

Quels outils, pour quoi faire ?

Les outils sont le résultat d’un projet initial, d’une certaine conception méthodologique, mais aussi des utilisations qu’en font les expérimentateurs. La présente rubrique fait un premier bilan de la question à travers:

  • Quelques applications et expériences menées au moyen de différents outils

  • Un tableau récapitulatif (à venir)

>> mise en commun, échanges sur le forum de textopol)
>> autres initiatives (tableau élaboré par Philippe Gambette)

Tropes

Tropes

Acetic, Paris

Tropes fonctionne sur la base d’ontologies et de classifications sémantiques et indentifie des « univers de référence » correspondant aux grands thèmes du texte analysé. Classification automatique des mots du texte, contraction du texte, détection des contextes, séries chronologiques répérages des catégories de mots (parties du discours, classe sémantique des verbes) constituent les fonctionnalités essentiels de Tropes. Le logiciel offre la possibilité de visualiser les relations entretenues au sein du texte entre les thèmes dominants, sous forme de graphes et de revenir aux contextes d’emplois des mots entrant dans la classe d’équivalence.

>> Vers ACETIC

Cordial

Cordial 7 & 8 analyseur

Synapse developpement, Toulouse

Cordial est un outil grammaticalisé. Fonctions documentaires (concordances, segments répétés), correction grammaticale et orthographique, dictionnaires, conjugueur, aide à la rédaction, classifications sémantiques, module stylistique.

Mais c’est surtout dans l’outil d’étiquetage morphosyntaxique et lemmatiseur que réside le principal intérêt du logiciel. Cordial peut être couplé à Weblex ou Hyperbase, voire à Lexico.

>> Vers Synapse

Weblex

Weblex

Weblex Serge Heiden – ICAR UMR 5181-CNRS / ENS LSH Lyon

Serge Heiden – ICAR UMR 5181-CNRS / ENS LSH Lyon Outil lexicométrique évolué, accessible en ligne Weblex, offrait les fonctions suivantes. Fonctions documentaires (Concordances, contextes), et statistiques (spécificités, segments répétés, index…).Navigation hypertextuelle, et possibilité d’étudier différentes couches textuelles simultanément pour l’analyse des corpus étiquetés. Calcul des cooccurrences, lexicogrammes simples et récursifs, associés ou non à une forme pôle. Weblex n’est plus maintenu désormais mais l’on retrouvera probablement un grand nombre de ses fonctionnalités dans la plateforme TXM qui est actuellement en cours d développement. >> Vers Weblex

Alceste

Alceste

Conçu par Marx Reinert. Distribué par Image, Toulouse

Alceste : Conçu par Marx Reinert. Distribué par Image, Toulouse Alceste (Analyses des Lexèmes Cooccurents des Enoncés Simples d’un TExte). Conçu par Marx Reinert, commercialisé par la société Image, Alceste repose essentiellement sur l’algorithme de classification descendante. Sa particularité est que l’analyse ne repose plus sur une segmentation pré-établie du texte mais que des catégories sont établies de façon inductive, indépendamment des grandes divisions du corpus. L’analyse Alceste permet de faire émerger, pour un corpus donné, les grandes catégories thématiques qui structurent le texte. Sur le corpus présidentiel par exemple, Alceste identifie 5 classes que nous interprétons comme le rituel, la politique internationale, la politique intérieure, les valeurs. L’utilisation de mots étoilés, posés comme variables nous permet en outre de cernes des tendances : le rituel est plus particulièrement représentatif des énoncés produits par Giscard, la politique internationale est plus particulièrement constitutive des énoncés du général de Gaulle…

>> Plus sur Alceste

>> notice simplifiée

>> Vers le site Image

Hyperbase

Hyperbase

Etienne Brunet UMR « Bases, corpus et langage » (Institut de linguistique française, CNRS) Université de Nice

Conçu par Etienne Brunet, UMR « Bases, corpus et langage » (Institut de linguistique française, CNRS ) Université de Nice. Le logiciel Hyperbase a connu un grand nombre de développements et de versions. La différence essentielle avec le logiciel Lexico 3 réside dans l’approche beaucoup plus stylistique et littéraire qui fut à l’origine de cet outil. Ainsi, selon les versions Hyperbase est couplé à des lemmatiseurs tels que Cordial, Winbrill ou Treetager et permet ainsi de considérer le texte non plus sur le seul plan de la forme graphique mais du lemme ou de la catégorie morphosyntaxique. Parmi les fonctionnalités principales, nous mentionnerons, les contextes et concordances, recherche documentaire par lemmes, formes graphiques, structure du vocabulaire, connexion lexicale, analyses factorielles et arborées du dictionnaire ou portant sur des listes, spécificités endogènes ou exogènes (Frantext). Environnement thématique, corrélation chronologique, corrélats…

>> Savoir plus sur Hyperbase
>> Vers Hyperbase

Astartex

Astartex-Diatag

Jean-Marie VIPREY- Laboratoires ATST (EA 3183) /Laseldi (EA 2281)- Pôle Archive, Bases, Corpus de la Maison des Sciences de l’Homme de Franche-Comté (USR 3124)

Astartex, environnement d’exploration de corpus assisté par la statistique textuelle, conçu par Jean-Marie Viprey. Cette interface offre des fonctionnalités telles que la requête lexicale simple ou multiple en vue de la constitution de concordances et de contextes, le calcul statistique en temps réel sur les spécificités des contextes convoqués et sur la distribution, l’emploi de graphes d’Analyse Factorielle des Correspondances de relevés lexicaux (distribution massive dans les parties du corpus ; distribution fine dans la cooccurrence lexicale), la constitution de dictionnaires de corpus. Tous les résultats et ressources configurant le texte (tableaux, listes, nuages de points, dictionnaires) proposés par Astartex ont la particularité d’être organisés en hypertexte expert. DiaTag est un environnement d’établissement du texte numérisé (modules de normalisation graphique, d’étiquetage lexical et flexionnel, de balisage), alternant des phases automatiques et des phases ouvertes interactives et conviviales en vue d’un étiquetage fin et contrôlé.

(Notice: V. Lethier, Laseldi, Université de Franche Comté)

Lexico 3

Lexico 3

SYLED – CLA2T- Université de la Sorbonne nouvelle – Paris 3

Développé par André Salem, Serge Fleury, Cédric Lamalle, William Martinez, Lexico3 permet de mener des analyses contrastives et chronologiques et offre les fonctionnalités suivantes : Inventaire des segments répétés, concordances, décomptes portant sur les formes graphiques, spécificités par partie, spécificités chronologiques, analyses factorielles portant sur les formes, recherche de groupes de formes, graphiques de ventilation en fréquences absolues, relatives ou histogrammes de spécificités. Topographie textuelle et cooccurrences à partir des spécificités appliquées aux sections.

>> Savoir plus sur Lexico

>> Prise en main de Lexico 3 en 5 étapes (tutoriels interactifs)

>> Vers Lexico 3

outils

Outils

Les outils informatisés en linguistique de corpus sont aujourd’hui nombreux et diversifiés. Logiciels statistiques, étiqueteurs, taggeurs, analyseurs sémantiques. Ils peuvent être couplés pour construire des bases de comparaison méthodologiques permettant d’une part la formation des chercheurs, d’autre part la réalisation d’expertises lexicales ou de recherches approfondies, s’appuyant sur les concepts de l’analyse de discours, de la lexicométrie, des approches énonciatives et argumentatives.