1. Encoder le fichier xml
Lors de la création du fichier xml choisir un encodage ANSI ou UTF-8 mais bien le préciser à l’entrée dans TextObserver afin que les accents se codent correctement. En enregistrant en texte brut avec word vous obtiendrez du ANSI.
Lors de cet enregistrement pensez à cocher « autoriser le replacement des caractères » pour éviter entre autre les problèmes d’encodage des guillemets.
Nb : le logiciel Notepad++ permet de convertir l’encodage proprement si nécessaire (menu Encodage>Convertir en …)
2. Baliser le corpus
Chaque division du corpus (partition) doit être encadrée par un balisage.
extrait du fichier balisé :
Les caractères interdits :
- Les textes ne doivent en aucun cas contenir des chevrons (‹ ou › ) car ces caractères perturbent le fonctionnement des balises xml.
- Ne pas laisser de & (esperluette) dans le texte.
- les ~ (tildes) posent également problème
- pas de tabulations
- Ne pas utiliser les codes html pour remplacer les caractères spéciaux ou accentués dans le texte.
- la balise (en anglais) est une balise réservée… ne pas l’utiliser pour encadrer les divisions du corpus.
NB : Le fichier ne doit en aucun cas comporter de balise vide (partition ou W)
exemple de balise vide :
(un mot doit figurer entre la balise ouvrante et la balise fermante )
Une fois le corpus balisé, enregistrer en txt puis changer l’extension .txt pour .xml
Copier ce fichier dans un dossier en racine de TextObserver.