Linguistique informatique
Un article de Wikipédia, l'encyclopédie libre.
Avec l'évolution rapide des technologies informatiques, le besoin s'est rapidement fait sentir de s'appuyer sur les techniques linguistiques pour faciliter la communication homme-machine. Parallèlement, la linguistique a pu profiter de la puissance des ordinateurs pour acquérir une nouvelle dimension, et ouvrir la voie à de nouveaux domaines de recherche.
La linguistique informatique fait partie intégrante des techniques informatiques, et intervient également dans des sous-domaines de l'intelligence artificielle. Parmi les applications concrètes figurent :
- La conception de logiciels en langages informatiques pour l'analyse d'une langue naturelle : les travaux de Noam Chomsky ont établi la similitude entre les langues naturelles et les langages informatiques. Ainsi, un langage informatique est constitué d'un dictionnaire et d'une grammaire. L'interprétation d'un texte passe par son analyse lexicale, puis syntaxique, puis sémantique. C'est le travail qu'effectuent les interprètes et compilateurs.
- La traduction automatique : ce problème longtemps sous-estimé s'est en fait avéré l'un des plus délicats à effectuer pour un ordinateur. Aux phases lexicales et syntaxiques, à peu près maîtrisées, s'ajoutent une analyse sémantique, puis pragmatique, qui tentent de déterminer le sens particulier d'un mot, dans le contexte où il apparaît. Le contexte lui-même pouvant s'étendre à l'ensemble du texte traduit.
- L'analyse de requêtes en langage naturel : cette idée fut considérée un moment comme une solution satisfaisante au problème de communication entre l'homme et la machine. Quoi de mieux en effet pour un non-spécialiste que de pouvoir adresser ses commandes et ses questions à l'ordinateur, dans son propre langage? L'arrivée des interfaces graphiques, de la souris, et de la métaphore du bureau ont quelque peu éclipsé cette technique. Elle réapparaît sous d'autres formes, notamment comme composant nécessaire de l'analyse et de la reconnaissance vocale ou encore de la reconnaissance d'écriture, popularisée par certains assistants personnels (PDA).
Cette approche est celle de la linguistique générative (Chomsky), très répandue. Mais ce paradigme est efficace pour certaines tâches, soulignées dans cet article (en effet, les frais de traduction du Parlement européen justifient à eux seuls la recherche à ce sujet). Que l'on sache que cette théorie (en phonologie) peut retrouver une racine commune à des mots comme « grève » et « cadre », par exemple. La critique principale étant l'aspect ad hoc des règles décelées dans les langues. Une analyse formaliste pour un langage simplifié, c'est d'ailleurs ce en faveur de quoi plaident les dernières directives européennes. D'autres approches d'analyse textuelle, en particulier développées dans le cadre de la sémiologie, refusent cette générativité et vont même jusqu'à affirmer que le texte n'a qu'une surface (Géninasca).
[modifier] Voir aussi
- Lexical markup framework (LMF), travaux de normalisation ISO des lexiques du TAL
[modifier] Liens externes
- Cours de sémantique computationnelle (en anglais)
- Le cursus de Linguistique Informatique de Paris 7
- Le descriptif de la spécialité "TAL, Dictionnaires, Terminologies, Corpus" du Master "Arts, Lettres, Langues et Communication" mention "Sciences du Langage" de Lille 3
- Les cursus "TAL", "Ingénierie Multilingue" et "Traductique et Gestion de l'Information" de l'INALCO (Institut National des Langues et Civilisations Orientales, Paris).
- Le site du Master pluriTAL de Paris III Sorbonne nouvelle, Paris X Nanterre et INALCO
- Le descriptif de la spécialité "Industries de la langue" du Master "Sciences du langage" de l'université Stendhal Grenoble 3.