Reconnaissance optique de caractères

Un article de Wikipédia, l'encyclopédie libre.

Pour les articles homonymes, voir ROC et OCR.

La reconnaissance optique de caractères (ROC) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. Elle réalise beaucoup moins que l'être humain qui, lui, exécute, en plus de la reconnaissance, la compréhension du message, sa mémorisation, voire son analyse critique dans un seul temps.
Un ordinateur réclame pour l'exécution de cette tâche un logiciel de reconnaissance optique de caractères, ROC ou OCR (abréviation du terme anglais optical character recognition), Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou du moins, sur un support sûr et exploitable par un système informatique.

Sommaire

1 Brève histoire de la ROC
2 Apprentissage
3 Fonctionnement
4 Domaine de recherche
5 Principaux logiciels de reconnaissance optique de caractères
6 Voir aussi
- 6.1 Article connexe

[modifier] Brève histoire de la ROC

En 1950, Frank Rowlett, qui avait cassé le code diplomatique japonais PURPLE, demanda à David Shepard, un cryptanalyste de l'AFSA (prédécesseur de la NSA américaine), de travailler avec Louis Tordella pour faire à l'agence des propositions de procédures d'automatisation des données. La question incluait le problème de la conversion de messages imprimés en langage machine pour le traitement informatique. Shepard décida qu'il devait être possible de construire une machine pour le faire, et, avec l'aide de Harvey Cook, un ami, construisit « Gismo » dans son grenier pendant ses soirées et ses week-ends. Le fait fut rapporté dans le Washington Daily News du 27 avril 1951 et dans le New York Times du 26 décembre 1953 après le dépôt du brevet numéro 2 663 758. Shepard fonda alors Intelligent Machines Research Corporation (IMR), qui livra les premiers systèmes de ROC au monde exploités par des sociétés privées. Le premier système privé fut installé au Reader's Digest en 1955, et, de nombreuses années plus tard, fut offert par le Readers Digest au Smithsonian, où il fut mis en exposition. Les autres systèmes vendus par IMR à la fin des années 1950 comprenaient un lecteur de bordereau de facturation à l'Ohio Bell Telephone Company et un numériseur (scanner de documents) à l'US Air Force pour la lecture et la transmission par télex de messages dactylographiés. IBM et d'autres utilisèrent plus tard les brevets de Shepard.

Depuis 1965, la Poste des États-Unis utilise pour trier le courrier des machines ROC dont le principe de fonctionnement a été imaginé par Jacob Rabinow, un inventeur prolifique. La Poste canadienne utilise des systèmes ROC depuis 1971. Les systèmes ROC lisent le nom et l'adresse du destinataire au premier centre de tri automatisé, et impriment sur l'enveloppe un code-barres fondé sur le code postal. Les lettres n'ont plus qu'à être triées dans les centres suivants par des trieuses moins coûteuses qui n'ont qu'à lire le code-barres. Pour éviter toute interférence avec l'adresse lisible qui peut se trouver n'importe où sur la lettre, une encre spéciale est utilisée, qui est clairement visible sous une lumière UV. Cette encre semble orange dans des conditions d'éclairage normales.

[modifier] Apprentissage

Les premiers systèmes avaient besoin d'un « apprentissage » (la collecte d'échantillons connus pour chaque caractère) pour lire une police de caractères donnée. Mais aujourd'hui, il est courant de trouver des systèmes « intelligents » qui peuvent reconnaître la plupart des polices avec un haut niveau de précision.

[modifier] Fonctionnement

On part de l'image numérique réalisée par un scanner optique d'une page (document imprimé, feuillet dactylographié, etc.) dont on veut récupérer le texte.
L'image doit être assez contrastée pour que le programme discerne facilement les caractères. Certains logiciels comportent, en outre, une interface pour l'acquisition numérique de l'image.
Le principe du programme est de lire le document et, grâce à des bibliothèques de formes, détecter les caractères afin d'en faire correspondre la forme au caractère attendu.
Des dictionnaires permettent de récupérer certaines erreurs puisque le logiciel se basera alors sur des mots existants pour faire ses comparaisons.
Certains logiciels vont même tenter de conserver l'enrichissement du texte (corps, graisse et police) ainsi que la mise en page, voire rebâtir les tableaux.

[modifier] Domaine de recherche

Un problème particulièrement ardu pour les ordinateurs et les humains est celui des anciens registres religieux des baptêmes et des mariages, qui contiennent surtout des noms, où les pages peuvent être endommagées par le temps, l'eau ou le feu, et les noms peuvent être obsolètes ou écrits selon d'anciennes graphies. Les techniques informatiques de traitement de l'image peuvent aider les humains dans la lecture de textes extrêmement difficiles, comme le palimpseste d'Archimède ou les manuscrits de Qumrân. Des approches coopératives où les ordinateurs assistent les humains et vice-versa constituent un domaine de recherche intéressant.

La reconnaissance de caractère est un domaine actif de recherche pour la science informatique depuis la fin des années 1950. Au début, on pensait qu'il s'agissait d'un problème facile, mais il apparut qu'il s'agissait d'un sujet beaucoup plus intéressant. Il faudra encore de nombreuses décennies aux ordinateurs, s'ils y parviennent un jour, pour lire tous les documents avec la même précision que les êtres humains.