Corpus issus du web : enjeux, méthodes et outils

Séminaire du CEDITEC, vendredi 21 mars 2014, 14h-17h30

Séminaire organisé par Christine Barats, maître de conférences en sciences de l’information et de la communication et Jean-Marc Leblanc, maître de conférences en sciences du langage à l’UPEC, membres du Céditec.

Cette séance se propose d’examiner les enjeux méthodologiques liés à la constitution de corpus issus du web. L’accent portera sur ce que change le web par rapport aux méthodes de collecte de corpus propres aux analyses textométriques. Il s’agira d’examiner en quoi le web contribue à renouveler le questionnement sur ce moment privilégié d’une recherche que constitue la définition des critères de sélection d’un corpus et le choix des outils d’analyse. Les particularités des corpus issus du web exigent-elles une documentation spécifique des corpus ? Comment définir des critères de clôture et tenir compte des spécificités du dispositif (liens hypertextes, images, émoticon, flux…) ? Il s’agira également de mieux appréhender les outils de traitement et la nécessité d’articuler des approches quantitatives avec des approches qualitatives. Des exemples illustreront les interventions.

Intervants :

– « Collecte et analyse de corpus issus du web : une introduction »
Christine Barats, enseignante-chercheuse en SIC et membre du Céditec
Jean-Marc Leblanc, maître de conférence en Sciences du langage à l’UPEC, membre du Céditec, UPEC.

– « Le métalangage XML et les langages dérivés utilisés en sciences humaines, tels que Text Encoding Initiative (TEI) : quels apports pour le traitement, l’annotation, l’enrichissement de corpus textuels et multimodaux ? »
Florence Clavaud, conservateur en chef du patrimoine, responsable des référentiels documentaires aux Archives nationales, membre de l’EA 3624 (Centre Jean-Mabillon) de l’École nationale des chartes.

– « Les corpus web et l’approche textométrique: conditions de collecte et nécessaire combinaison d’approches quantitatives et qualitatives. »
Valérie Beaudoin, Enseignante-chercheuse en sciences sociales, Télécom ParisTech.

>> télécharger le diaporama de V. Beaudouin

>> télécharger le diaporama de la présentation de C. Barats et JM. Leblanc