Fichier texte

Un article de Wikipédia, l'encyclopédie libre.

En informatique, un fichier texte ou fichier texte brut ou fichier texte simple ou (le plus souvent abusivement) fichier ASCII, est un fichier dont le contenu représente uniquement une suite de caractères informatiques. Il faut noter qu'en informatique, l'espace et le retour à la ligne sont considérés comme des caractères au même titre qu'une lettre, un chiffre ou un signe de ponctuation.

Un fichier « non texte » est appelé « fichier binaire », dans le sens où les bits contenus dans le fichier ne peuvent pas être représentés pas une simple suite de caractères.

La dénomination fichier ASCII est souvent abusivement utilisée à propos de fichiers texte n'utilisant pas le codage de caractères ASCII.

Sommaire

[modifier] Usage

Les fichiers texte sont utilisés par de nombreux logiciels pour conserver les données de configuration. Ils sont également utilisés pour contenir les textes écrits en langages de programmation. En outre, la plupart des langages de programmation offrent des fonctions prédéfinies pour manipuler du texte brut, ce qui rend la gestion des fichiers textes particulièrement accessible.

Le logiciel utilisé pour éditer un fichier texte est un éditeur de texte. Dans le cas général, un traitement de texte ne produit pas des fichiers texte. En effet, un traitement de texte n'a pas seulement besoin de manipuler du texte brut, mais également des informations sur la fonte de caractère utilisée, la disposition des caractères dans des pages, les styles typographiques, etc. Toutefois, les traitements de texte peuvent ouvrir ou sauvegarder un fichier texte, aucune information de mise en forme n'étant conservée, sauf le cas échéant les sauts de ligne.

[modifier] Structure

Un fichier texte peut simplement contenir du texte dans une quelconque langue. Dans ce cas il ne respecte aucune structure particulière.

Il était une fois une marchande de foie
qui vendait du foie dans la Ville de Foix.
Elle se dit «ma foi c'est la première fois
que je vends du foie dans la ville de Foix !»
you speak english ? 

Souvent un fichier texte contient en fait une donnée structurée qui peut être analysée par un logiciel et affichée sous une forme plus évoluée, par exemple une page web :

 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0//EN" "http://www.w3.org/TR/REC-html40/strict.dtd">
 <html lang="fr">
  <head><title>Page web d'exemple</title></head>
  <body>
   <p>Ceci est une page web d'exemple.</p>
  </body>
 </html>

Enfin, et de manière plus anecdotique, le propos d'un fichier texte peut être détourné pour contenir une image, c'est ce qu'on appelle l'art ASCII :

    __@   
   _`\<,_ 
  (*)/ (*)
 ~~~~~~~~~~

[modifier] Codage des caractères

Comme tous fichiers informatique, un fichier texte contient fondamentalement des octets (et donc des bits). La particularité d'un fichier texte est que l'ensemble du fichier respecte un codage de caractères standard.

Il existe de nombreux standards de codage de caractères, ce qui peut rendre problématique la compatibilité des fichiers texte. Dans les années 1960, il existait quasiment un jeu de caractères par type d'ordinateur. Aujourd'hui l'ISO 646 (souvent appelé ASCII) est sous-ensemble limité commun à ces nombreux codages. On peut cependant encore rencontrer le jeu de caractères EBCDIC des mainframes IBM, l'UTF-16 ou des jeux de caractères spécifiques à certains pays.

Les normes ASCII et ISO 646 ne couvrent que les caractères nécessaires pour écrire en anglais. Pour les autres langues, des standards différents et incompatibles sont utilisés pour les caractères accentués et les alphabets non latins utilisés par les autres langues. La norme Unicode a été conçue pour couvrir l'ensemble des caractères existants dans le monde et pour éviter les problèmes d'incompatibilité liés à l'utilisation de codages différents. Elle s'impose progressivement mais lentement.

De plus l'ASCII n'est pas universel, ainsi, en ASCII, tous comme dans l'iso-8859-15, le caractère 0x85 représente une nouvelle ligne, alors qu'en windows-1252, il représente 3 points de suspension[1].

Les fichiers en UTF-8 présentent la particularité d'être compatible avec l'ASCII, tout en offrant les nouvelles possibilités d'Unicode.

[modifier] Voir aussi

[modifier] Liens internes

[modifier] Références

  1. UAX #13: Unicode Newline Guidelines