Importer un corpus xml

TextObserver permet d’importer des corpus sous forme de fichiers texte partitionnés (un fichier par partition, le tout dans un dossier), des corpus balisés en xml (pour faciliter la tâche nous avons développé un utilitaire nommé TextEncoder. Celui-ci permet de transformer facilement un corpus étiqueté sous Cordial, Treetagger ou tout autre outil générant des données tabulées en fichier xml).

>> voir rubrique : Balisage xml sur la forme graphique

1. Import du fichier xml

Ce fichier dont l’extension doit impérativement être xml, doit être placé dans un dossier en racine de TextObserver.

Lancer TextObserver puis :

Menu Fichier>Importer>Répertoire de corpus>Format xml…

2-importer-xmlV2

Choisir le dossier contenant le fichier xml à importer et, si nécessaire, modifier le type d’encodage (*)

3-choix-dossier-xml

2. Création des tables lexicales

Une fois le calcul fait, TextObserver affiche la fenêtre ci-dessous proposant de choisir les partitions et les propriétés permettant de créer différentes tables lexicales. Ainsi, TextObserver, dans l’exemple ci-dessous, créera une table lexicale discours_date sur la propriété word et une table discours_loc sur la même propriété. Sur un corpus catégorisé, il n’est pas nécessaire de cocher les cases pos ou lemme pour effectuer des recherches portant sur toutes les dimensions du corpus. En revanche si l’on souhaite créer une analyse factorielle portant sur les pos ou les lemmes il faudra cocher ces options.

Remarque : Les propriétés dépendent de l’encodage choisi pour construire le fichier xml et ne sont pas limitées aux trois de cet exemple (>> voir rubrique création d’un corpus xml)

5-sellection-element-table-lexicale

Valider « Créer les tables lexicales » lance leur fabrication.

7-reussite-creation-table

3. Chargement des tables lexicales

Menu Fichier>Ouvrir>Table(s) lexicale(s) (.tab)…

8-import-table-lexcaleV2

Choisir la table que vous désirez charger…

9-choix-table lexicale

11-affichage-debut-AFC

* : Le type d’encodage d’un fichier peut facilement être vérifié ou modifié grâce au logiciel gratuit et libre Notepad++ (voir manuel Notepad++ sur Textopol) Il permet également de transformer rapidement un fichier balisé pour Lexico3 en fichier xml (idem)

Affichage simultané de 4 partitions d’un même corpus xml

4tables-issues-meme-corpus-xml