Article publié dans:
Enjeux, aspects juridiques et sociaux, évolution des métiers, formation continue...
le mercredi 29 novembre 2006 à 19:30
par
Maud
Lu 440 fois
| 1 commentaire(s)
Sur le web : site accueilli provisoirement sur les pages de Gérard Sabah
"Dans la plupart des disciplines des SHS, la notion de corpus informatisés prend une place de plus en plus importante comme support de la recherche, pour au moins trois raisons essentielles :
la relation au réel, permettant de déterminer, avec un point de vue objectif, les problèmes qui se posent réellement, leur incidence effective et leur généralité, et permettant également une évaluation, elle aussi objective ;
la normalisation, permettant une meilleure communication au sein de communautés connexes, ainsi qu’une réutilisabilité plus efficace ;
la possession de données, cruciale dans la concurrence mondiale actuelle, en particulier pour la survie du français.
Souvent, ces corpus sont produits selon les besoins spécifiques et par des moyens artisanaux. Cela prend généralement beaucoup de temps et, fréquemment, ces corpus sont ensuite perdus ou oubliés. La mise à disposition de ressources normalisées est donc un élément essentiel pour faciliter les recherches, faire progresser les connaissances et tester des résultats. Il est important d’une part de savoir pérenniser et réutiliser les différents corpus qui ont été recueillis au fil des années et de les distribuer largement et, d’autre part, de définir des directives minimales permettant à un réseau d’équipes de travailler sur les mêmes bases à la production de nouvelles ressources (prise en considération des normes internationales, formats compatibles...). Dans un premier temps, il s’agit de réaliser des opérations de recensement des corpus existants au sein de la francophonie et des outils informatiques disponibles pour les traiter, d’étudier les articulations possibles avec des projets existants, de conserver ces corpus, de les mettre à disposition de la communauté et d’en faciliter l’accès dans des conditions juridiques correctes.
Dans ce cadre, et en collaboration avec le département Sciences de l’Homme et de la Société, un appel à projets a été lancé en juillet 2005, puis, cinq CRN ont été labellisés courant fevrier 2006 :
CRDO : Centre de ressources pour la description de l’oral
CNRTL : Centre National de Ressources Textuelles et Lexicales
TELMA : Traitement ÉLectronique des Manuscrits et des Archives
M2ISA : Méthodologies de Modélisation de l’Information Spatiale Appliquées aux SHS
CN2SV : Centre National pour la Numérisation de Sources Visuelles "
Lu sur la page du Département SHS du CNRS