Conseils des ministres

Recueils des circulaires du Ministère de la Justice

Annuaire statistique de la Belgique et du Congo Belge

Quels mots-clés utiliser?


L'OCR (Optical character recognition) ou reconnaissance optique de caractères offre de nombreuses nouvelles possibilités pour la consultation des documents d'archives. En effet, par le biais d'un moteur de recherche simple, vous pouvez rechercher directement les mots en plein texte sans nécessairement utiliser la description archivistique. Le choix des mots-clés est dès lors crucial. Des mots-clés trop généraux donneront un trop grand nombre de réponses, tandis que des mots-clés trop spécialisés peuvent donner la fausse impression qu'un thème n'est pas traité dans les documents cibles. Idéalement, il faudrait en premier lieu extraire un certain nombre de textes du fonds d'archives afin de rédiger sa propre terminologie et de cette manière pouvoir cibler ses recherches.


Qualité de la reconnaissance optique


Durant ces dernières années, la technologie a évolué de manière significative, ainsi, des textes qui il y a quelques années ne donnaient pas de résultats satisfaisants, peuvent aujourd'hui être reconnus avec une grande précision. Tout dépend encore naturellement largement de la qualité des documents originaux et numérisés.

etsont par exemple correctement reconnu comme 'banques'


a également été reconnu comme 'émission'

n'est par contre pas reconnu.


Les Archives de l'État ont limité la reconnaissance aux textes imprimés et dactylographiés. Le processus de reconnaissance des textes manuscrits demande un travail trop intensif par rapport aux résultats. La reconnaissance est introduite automatiquement et n'est pas contrôlée systématiquement ou traitée manuellement vu le travail intensif que cela demande. La recherche en plein texte est un outil supplémentaire qui vous est proposé mais ne remplace aucunement le dépouillement systématique des archives.


Ce que vous voyez à l'écran. Pourquoi les mots ne sont-ils pas indiqués dans le texte?


Compte tenu des erreurs possibles dans l'OCR, une image numérique du document original est affichée à l'écran sous format pdf tandis que le texte est conservé dans une autre couche. Les documents pdf forment ensemble une unité : une cote d'archives, un compte-rendu de réunion, un fascicule d'une revue,…

En sélectionnant le document pdf, les mots recherchés seront indiqués. Cette option a cependant ses limites.

Lors de la réunion des couches, sont ajoutés dans le document pdf quelques espaces supplémentaires afin de faire coïncider les couches d'image et de texte. Les mots recherchés ne sont alors plus indiqués. Donc, si vous obtenez un message indiquant que le mot-clé n'a pas été trouvé, vous pouvez passer en revue l'ensemble du texte ou effectuer une recherche manuelle en introduisant un ou plusieurs espaces entre les lettres.