reCAPTCHA

Un article de Wikipédia, l'encyclopédie libre.

Un exemple de reCAPTCHA : les mots à reconnaître sont « following » et « finding ».
Un exemple de reCAPTCHA : les mots à reconnaître sont « following » et « finding ».

reCAPTCHA est un système mettant à profit les capacités de reconnaissance des utilisateurs humains mobilisées par les tests Captcha, pour améliorer par la même occasion le processus de numérisation de livres, là où échouent les systèmes de reconnaissance optique de caractères (OCR).

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, par rapport à un processus habituel d'authentification par Captcha, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un Captcha habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.

Le système part du principe que si les utilisateurs résolvent correctement le Captcha habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site Web du projet reCAPTCHA[1], issu du projet CAPTCHA originel, tous deux mis en place par l'école d'informatique de l'Université Carnegie Mellon, dans la ville américaine de Pittsburgh. Ceci est réalisé au moyen d'une API écrite en JavaScript, dans laquelle le serveur rappelle reCAPTCHA après que la requête ait été soumise. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.

Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours aux Captchas.

Sommaire

[modifier] Voir aussi

[modifier] Articles connexes

[modifier] Liens externes

[modifier] Références

  1. (en) recaptcha.net, site du projet reCAPTCHA.