Moteur de traduction automatique Google

Un article de Wikipédia, l'encyclopédie libre.

En 2007 le moteur de traduction automatique Google a révolutionné le domaine où il pénétrait en s'appuyant sur des principes absolument nouveaux. Le système Systran qu'il utilisait jusqu'alors était conçu pour des ordinateurs individuels et était soumis à leurs limitations : il gérait des centaines de milliers de mots et d'expressions avec des traductions possibles en appliquant des règles de grammaire qu'on lui avait inculquées. Le système Google, qui travaille à partir d'un centre serveur, est capable de jongler avec des milliards de mots et d'expressions, « provenant de textes monolingues dans la langue cible et de textes mettant en parallèle les deux langues »[1]. La grammaire est laissée de côté : ce qu'on recherche, ce sont les équivalences les plus rapprochées.

On aura un exemple en demandant à Systran et à Promt de traduire en ligne : « The monks prayed for the redemption of sinners and worked for the redemption of captives » ; le premier nous dira : « Les moines ont prié pour le rachat des pécheurs et ont travaillé pour le rachat des captifs » et le second : « Les moines ont prié pour le remboursement de pécheurs et ont travaillé pour le remboursement de captifs ». Au contraire Google[2] distinguera tout de suite entre les deux sens de « redemption » et traduira : « Les moines ont prié pour la rédemption des pécheurs et a travaillé pour le rachat des captifs » ; c'est que, dans la base démesurée des expressions qu'il possède, il trouve facilement « rédemption des péchés » et « rachat des captifs » ; en revanche, comme « worked » n'est pas placé immédiatement derrière « monks » il emploie sans réfléchir (c'est une simple machine) le singulier.

Ce n'est pas que Systran et Promt soient incapables de se corriger. Celui qui possède les logiciels n'a qu'à introduire dans leur vocabulaire le sens de « redemption of sinners » et de « redemption of captives » et tous les deux traduiront sans problèmes : « Les moines ont prié pour la rédemption des pécheurs et ont travaillé pour le rachat des captifs ». Mais l'accroissement des dictionnaires personnels ralentit le travail et le nombre des mots qu'il est possible d'y mettre n'est parfois pas illimité.

Du fait de son immense vocabulaire, Google est donc avantagé dans le cas de sujets modérément techniques. Pour traduire, par exemple, « Erbkrankheit » Promt et Systran décomposeront le mot en ses deux éléments et donneront « maladie héréditaire », en face de « maladie génétique », plus précis et plus professionnel de Google. En revanche, si nous proposons « erbliche Belastung » (tare héréditaire), aucun des trois ne connaît « Belastung » dans ce sens et ils rendront le mot par son sens habituel de charge : « charge héréditaire » pour Google et « erbliche charge » pour Promt et Systran qui ignorent même l'adjectif. Avec ces deux derniers cependant, un médecin qui aura entré l'expression dans un dictionnaire utilisateur obtiendra désormais toujours « tare héréditaire », tandis qu'il n'a aucun pouvoir pour imposer cette traduction à Google.

Google en vient même à ne pas traduire ce qu'il ne comprend pas, ne le laissant même pas dans la langue originale. Avons-nous : « Many Jews now made a living by providing lodging and food for the masses of Hasidim who visited the Admor »[3] et la traduction sera : « Beaucoup de Juifs vivant aujourd'hui en offrant un hébergement et de nourriture pour les masses de Hasidim qui ont visité le Admor », « made a » est mis de côté comme s'il n'existait pas. On peut le vérifier en soumettant la même phrase débarrassée de ces deux mots : le résultat sera le même.

On doit pourtant reconnaître que Google est parfois fort élégant. « Looking for a home? » est rendu par : « Vous cherchez une maison ? » formule qu'il est possible d'apprendre à Promt et à Systran mais qu'ils ne produisent pas spontanément, le premier disant de lui-même : « Le fait de chercher une maison ? » et le second : « Recherche d'une maison ? » Malheureusement l'adjonction d'un mot suffit à tout changer pour Google et « Looking for a new home? » deviendra « La recherche d'une nouvelle maison ? » Mieux encore, si « Looking for a wife? » c'est « Cherchez-vous une femme ? », « Looking for a husband? » est traduit par « La recherche d'un mari ? » On voit par là qu'on ne peut même plus parler d'intelligence artificielle mais de passage en force ; le logiciel recherche dans une base de données colossales et propose une solution selon les équivalences dont il dispose, tant pis si elles se contredisent. C'est ce qui explique peut-être des étrangetés comme « I had an ape » rendu correctement par « J'avais un singe », tandis que « I had a very intelligent ape » se transforme mystérieusement en « J'ai eu une très intelligent singes » avec deux fautes d'orthographes assez grossières. Quand une phrase est correctement traduite, on ne peut jamais être sûr qu'une autre, presque analogue, le sera aussi.

Dans le cas de textes très techniques, l'étendue du vocabulaire dont dispose Google ne peut tout de même pas réaliser des miracles. Si nous lisons dans un article en allemand sur une espèce d'araignées la Brachypelma smithi :

« Oft richtet das Weibchen den Vorderkörper auf, um dem Männchen das Einhaken seiner Schienbeinhaken in ihre Beißklauen zu ermöglichen[4] », Google nous donne : « Souvent, la chienne vise les Vorderkörper, pour le mâle, le Einhaken son tibia Beißklauen crochet dans leur permettre », c'est-à-dire qu'elle traduit « Weibchen » par « chienne » (c'est assez souvent le cas) et, devant des mots inconnus, n'essaie même pas de les analyser comme Systran le fait dans les deux cas (« Souvent, la femelle redresse le corps d'avant, pour permettre accrocher de ses crochets de jambe sembler dans ses griffes mordre au mâle ») et Promt dans un seul (« La femelle dresse souvent le corps avant pour permettre le fait d'accrocher ses crochets de tibia dans ses Beißklauen au mâle »).

Précisons tout de même qu'il est difficile de parler d'un tel moteur puisqu'entre le moment où ces lignes ont été écrites et le moment où on les lira, la situation pourra être très différente. Au 26 octobre 2007 la phrase : « Preußen (lat.: Borussia, Prussia oder Prutenia; poln. Prusy; russ.: Prussija) war ursprünglich das Gebiet des baltischen Volksstamms der Pruzzen, später eines der Länder des Deutschen Ordens und seit dem 16. Jahrhundert ein Herzogtum der Hohenzollern unter polnisch-litauischer Lehenshoheit, das seit 1618 in Personalunion mit der Mark Brandenburg verbunden war[5] » était traduite par « Prusse (en latin: Borussia, Prussia ou Prutenia; Polonais ancienne; Russe: Prussija) était à l'origine le territoire du pays baltes Chinoise de l'exilé, plus tard, l'un des pays de l'ordre et les Allemands depuis le 16 Un siècle, le duché de Hohenzollern sous polnisch-litauischer fief de la souveraineté, qui, depuis 1618 en union personnelle avec le Mark Brandenburg connecté » mais la traduction était devenue au début de 2008 : « Prusse (en latin: Borussia, Prussia ou Prutenia; polonais Prusy; russe: Prussija) était à l'origine le territoire du pays baltes Volksstamms la Pruzzen, plus tard, l'un des pays de l'ordre et les Allemands depuis le 16 Un siècle de la Duché de Hohenzollern sous polnisch-litauischer fief de la souveraineté, qui, depuis 1618 en union personnelle avec le Mark Brandebourg était associé », tout de même moins ridicule.

Du fait de sa gratuité, Google représente-t-il un danger pour les traducteurs d'une part, et d'autre part pour Promt et Systran qui pourraient voir baisser leurs ventes ? Pour les premiers il suffit de faire l'expérience pour constater que de telles traductions automatiques ne sont toujours pas exploitables directement ; « l'expérience montre que le temps que le traducteur passe à effectuer la correction de la traduction automatique est souvent supérieur au temps qui lui est nécessaire pour effectuer sa propre traduction »[6] ; pour les seconds, on ne pense pas qu'une entreprise sérieuse pourrait faire traduire un mode d'emploi de cette façon en pensant faire des économies ; mais celles qui le font avec des logiciels sans les faire paramétrer soigneusement (ce qui exige des spécialistes compétents et donc bien payés) pourraient bien y avoir recours.

Mais que réserve l'avenir plus lointain à cette innovation ? Sur un forum réservé aux traducteurs[7] on peut seulement remarquer que leurs jugements sont très différents ; les uns sont effrayés : « Les essais que j'ai effectués font froid dans le dos : les progrès sont impressionnants. Des pans entiers de la traduction professionnelle vont sans doute disparaître d'ici une dizaine d'années (à commencer par la traduction "pour information"). » D'autres sont plus optimistes : « Je pense qu'il est difficile d'imaginer qu'un jour proche ou lointain tout ce que le cerveau humain peut produire comme textes trouvera son équivalent en appuyant sur le bouton d'un moteur de recherche. » Il est encore trop tôt pour juger.

[modifier] Notes

  1. Foire aux questions de Google Traduction
  2. On peut lui soumettre des passages à traduire sur une page spéciale
  3. « Beaucoup de Juifs alors gagnaient leur vie en offrant hébergement et restauration aux foules hassidiques qui venaient rendre visite à l'Admor »
  4. La femelle redresse souvent le céphalothorax pour permettre au mâle de fixer les crochets de ses tibias dans ses chélicères
  5. À l'origine la Prusse (latin: Borussia, Prussia ou Prutenia; polonais: Prusy; russe: Prussija) était un territoire habité par une population balte: les Vieux-Prussiens. Par la suite elle devint une des possessions des Chevaliers Teutoniques ; au XVIe siècle elle forma un duché vassal de l'État polono-lituanien et appartenant aux Hohenzollern, avant d'être liée en 1618 à la Marche de Brandebourg par une union personnelle.
  6. témoignage sur le site de a3t2s
  7. [1] Site de Proz