Examinons donc pour un instant la distance sur V de la partition locuteur afin d’illustrer le calcul. Sur cinq parties les sorties résultats font figurer les détails, ce qui n’est plus possible sur la partition en textes qui représente 43 parties. La distance séparant les textes du général de Gaulle de ceux de Pompidou devrait donc se calculer comme suit, sachant que les occurrences et les vocables se répartissent ainsi :
Occurrences et vocables par partie, données produites par Hyperbase
On ne s’étonnera pas que les données soient quelque peu différentes de celles affichées en début de chapitre, qui étaient établies par Lexico 3. Les normes de segmentation, les décomptes sont parfois différents. Disposant d’un dictionnaire, Hyperbase est insensible à la casse. L’usage est donc d’y intégrer des textes en respectant leur casse originale, c’est même préférable si l’on souhaite considérer les noms propres. Nous avons donc intégré notre corpus en respectant cette convention. Sous Lexico, on préfèrera souvent intégrer un corpus dont la casse serait réduite aux minuscules, dans un souci d’homogénéité. Sans cette précaution les formes sont comptabilisées autant de fois qu’elles présentent de graphies différentes, engendrant une distorsion des décomptes généraux, même si lors d’examens plus ponctuels, les groupes de formes, types généralisés, recherches de motifs au moyen d’expressions rationnelles permettent de contourner en partie cette difficulté. Sauf indications contraires, le corpus soumis à Lexico 3 sera réduit à sa casse minuscule, les caractères accentués minutieusement vérifiés. Deux états d’un même corpus, deux normes de segmentation différentes, d’éventuelles différences de délimiteurs, voilà qui peut expliquer ces variations quantitatives. On ne s’étonnera pas non plus de la terminologie: vocables sous Hyperbase, formes sous Lexico, les deux termes désignant le vocabulaire, c’est-à-dire le nombre de mots différents, par opposition aux occurrences qui se rapportent à la taille des corpus.
Effectifs des formes communes
Nombre de formes privatives
La taille du vocabulaire de a (De Gaulle) est donc de 2389, le vocabulaire de b (Pompidou) de 886. L’effectif des formes communes (ab) étant de 514. Ces données posées, la distance se calcule comme suit :
d= ((2389 – 514)/2389 + (886 – 514) / 886)
d= 1875 / 2389 + 372 / 886
La distance d sera donc égale à la somme des quotients soit d = 0.784 + 0.419 = 1.203