Article publié dans:
Numérisation
le mercredi 19 avril 2006 à 10:42
par
Maud
Lu 2647 fois
| 1 commentaire(s)
Sur le web : Numérisation et valorisation du patrimoine écrit
Inscription 60 euros
Voici une première partie de compte rendu. La suite au prochain numéro ...
La journée docForum était consacrée à la "numérisation et à la valorisation du patrimoine écrit" et aux initiatives existant en Rhône-Alpes sur cette problématique. Concrètement, la journée a été consacrée principalement à présenter les projets retenus dans l’axe "Numérisation et reconnaissance des documents" du Cluster 13.
Je tiens à votre disposition les documents papier suivants
Les papiers et/ou résumés des interventions.
La liste des participant-es avec mention de l’institution et de l’adresse électronique
Les brochures des entreprises qui sont venues faire leur publicité dans la Journée (Getronics, Spigraph...)
A côté de cela, pour faire un résumé synthétique, je dirais que les interventions ont été de 3 ordres :
1 Des présentations de projets en phase de démarrage
2 Des présentations de projets terminés ou en phase de production ;
3 Des exposés techniques ou théoriques généraux (non liés à un projet spécifique)
Dans la première catégorie, on trouve :
La Gazette de Leyde
Les manuscrits de Montesquieu
Le projet Florus (manuscrits mérovingiens et carolingiens de la BM de Lyon)
...
Dans la seconde, les retours d’expérience de :
La numérisation à la Bibliothèque Lyon 3
L’expérience des Archives départementales de la Loire
Le projet Louis Dupasquier la BM de Bourg en Bresse
Le projet NUMDAM
Les Dictionnaires de Trévoux
...
Dans la troisième, des exposés sur :
Bibliothèques numériques et développement durable
Des alternatives à l’OCR
La numérisation de la presse, quel avenir
Contribution à la restauration de documents anciens dégradés
...
Cet exposé expliquait les principes de fonctionnement de l’OCR, les limites tant techniques que principielles de ces outils, et exposait des méthodes alternatives pour la reconnaissance de signes.
Fonctionnement : pour analyser l’image d’un signe, les logiciels d’OCR mixent de nombreux descripteurs : descripteurs de forme, de concavité, projections, etc. Chacun pris seul pose de gros problèmes et donne des résultats très mauvais. La qualité d’un OCR dépend donc des algorithmes qui pondèrent ces différents résultats, des "apprentissages" et des algos de correction syntaxique, qui vont permettre à un OCR de trancher.
Mais il reste toujours des cas difficilement décidables pour un logiciel. Il y a donc derrière cela un problème principiel : c’est justement que reconnaître c’est décider, et depuis 50 ans tous les articles scientifiques de la recherche en OCR butent sur ce même point : comment tracer des frontières de décision pertinentes pour les logiciels d’OCR ? Statistiques ? Voisinage ?
En fait, l’OCR est adapté s’il y a une grande similitude entre les documents à numériser et les documents ayant servi à l’apprentissage du logiciel, et une grande similitude des documents à numériser entre eux.
Dans tous les autres cas (écriture manuscrite, polices anciennes, bruit...) il existe une autre piste : utiliser les similitudes existant A L’INTERIEUR DU DOCUMENT A NUMERISER. C’est la la transcription assistée par ordinateur (TAO). Dans un manuscrit par exemple, s’il n’est pas possible de se baser sur la similitude entre caractères, car la variation de forme est trop grande (la lettre peut être liée à la lettre précédente, à la lettre suivante, aux deux, à aucune des deux, etc.), on constate en revanche une grande similitude au niveau du mot (sauf pour les mots trop courts) : dans une lettre manuscrite, toutes les occurrences d’un mot suffisamment long vont tendre à se ressembler beaucoup (alors que les petits mots "au", "du", "ou" par exemple, seront peu distinguables par un logiciel)
Une autre piste serait dans un OCR qui "ne décide pas" (qui me pose la question pour les cas indécidables, et qui poursuive son apprentissage sur la base de mes réponses. Mais cela implique de travailler sur un OCR open source qu’on peut "débrider".
De nombreuses contributions sont revenues sur la question de l’accès aux documents numérisés. Quelles entrées proposer dans un corpus numérisé ? Y a t il d’autres choix entre la recherche en plein texte (qui suppose OCR, etc.) et le mode image avec métadonnées minimales. Il en ressort les réflexions suivantes.
Numériser c’est publier
Toute indexation thématique est "dangereuse" au sens où elle risque d’orienter la présentation du corpus vers une seule communauté de lecteurs (ceux de la discipline où sera choisi le référentiel d’indexation), alors que la publication en ligne offre justement la perspective qu’un même corpus puisse être exploité par de nombreuses disciplines. Une piste est peut être alors de baser au maximum l’indexation sur les informations que le document met lui-même en valeur (par exemple, dans la Gazette de Leyde, les mots qui dans les articles sont imprimés en italique, et qui renvoient à des lieux, des personnes, des institutions...)
Beaucoup au cours de la journée sont revenus sur le potentiel de Rhône-Alpes en matière de numérisation, tant en termes de sources à valoriser (fonds anciens, etc.) que de potentiel technique et d’expertise. Beaucoup sont revenus sur les nécessités de rassemblement et de mutualisation de tout ce potentiel, "pour arrêter de bricoler".
Les problématiques techniques de la numérisation sont de trois ordres : Captation (acquisition de l’image), segmentation et/ou transcription, gestion de documents. Les problèmes se posent quand l’acquisition se fait dans de mauvaises conditions (document original dégradé, bruit), quand l’information sémantique, ou même sémiotique, n’est pas directement transcriptible (exemple du calligramme d’Apollinaire où le texte dessine un visage. Exemple des polices anciennes que les logiciels d’OCR appréhendent très mal, etc.), ou quand on a pas d’outil de GED adapté au corpus que l’on construit, ou qu’on ne parvient pas à penser correctement son système d’indexation.
Le coeur du problème dans tout projet de numérisation, ce sont les métadonnées. Il faut distinguer les métadonnées formelles des métadonnées de contenus (que l’on extrait dans les documents récent, mais que l’on doit RETABLIR dans les documents anciens). On en est finalement toujours à la problématique bien connue des bibliothécaires : catalogage descriptif / catalogage analytique.