Langage de balisage

Un article de Wikipédia, l'encyclopédie libre.

Les langages de balisage (sous-classe des langages de description) représentent une classe de langages spécialisés dans l'enrichissement d'information textuelle. Ils opèrent grâce aux balises, unités sémantiques délimitant chacune un ensemble à l'intérieur d'un fichier texte, souvent en unicode.

L'inclusion de balises permet de transférer à la fois la structure du document et son contenu. Cette structure est compréhensible par un programme informatique, ce qui autorise un affichage personnalisé selon des règles pré-établies ; la typographie (en premier lieu la fonte) et d'autres éléments de présentation peuvent changer. On peut de plus inclure des éléments non-textuels.

Sommaire

[modifier] Langages SGML

Les langages de balisage les plus utilisés sur le Web sont des langages dérivés de SGML.

[modifier] Langage HTML

Icône de détail Article détaillé : HTML.

Le langage à balises le plus couramment utilisé sur le World Wide Web est le HTML. En HTML, on utilise des balises pré-définies afin de préciser à l'intérieur d'un fichier texte des éléments tels les titres, les paragraphes, les acronymes, les citations.

[modifier] Les éléments de blocs et les éléments en-ligne

On distingue les balises définissant un bloc des balises en-ligne par :

le modèle de contenu 
les éléments de bloc peuvent contenir à la fois données, éléments de bloc et éléments en-ligne ; les éléments en-ligne ne peuvent contenir que des éléments en-ligne et des données. «L'idée inhérente à cette distinction structurelle, c'est que les éléments de bloc créent des structures « plus grandes » que les éléments en-ligne.»
le formatage 
«Par défaut, les éléments de bloc sont formatés différemment des éléments en-ligne. En général, les éléments de bloc commencent sur une nouvelle ligne, et non les éléments en-ligne.»

« Les feuilles de style fournissent les moyens de spécifier la restitution d'éléments arbitraires, y compris si l'élément est rendu comme étant de type bloc ou de type en-ligne. »

L'ensemble des citations est tiré de la spécification standard HTML. [1]

[modifier] Exemple

<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit.</p>

On délimite la phrase « Lorem ipsum dolor sit amet, consectetuer adipiscing elit. » par la balise p (définissant un paragraphe) au moyen d'une balise d'ouverture (<p>) et une balise de fermeture (</p>). Cette phrase est incluse dans l'élément p, lui-même obligatoirement contenu dans l'élément <body> (cet élément définit le début du corps du fichier HTML.)

[modifier] XML

Extrait d'un document XML
Extrait d'un document XML

Le XML pousse très loin la description sémantique d'un fichier, permettant de délimiter avec précision, par exemple dans une recette, les <ingrédients>, le <temps-de-cuisson>, les <plats-nécessaires>, etc. Afin d'exploiter un document XML écrit de cette façon, on utilise des feuilles XSLT permettant de transformer un document XML en un autre type de document XML.

Toutefois, cette liberté dans le choix des balises permet à un fichier d'être écrit en XML sans pour autant délimiter des informations sémantiques : hors-contexte, la balise <hy> ne signifie rien, à moins de définir sa signification à l'intérieur d'un fichier de définition, appelé Doctype, associé au fichier XML.

Microsoft et OpenOffice.org utilisent un format XML pour certains formats de fichier Office, par exemple le suffixe odt cache une arborescence de fichiers XML zippés.

[modifier] Introduction de métadonnées

Ces langages permettent d'introduire des métadonnées dans les documents électroniques, ou de façon plus générale dans les ressources informatiques. Par exemple, avec HTML ou XHTML, on introduit les métadonnées relatives au document directement à l'intérieur de l'en-tête (<head>), avec la marque <meta>. La syntaxe diffère selon que l'on utilise des raffinements ou pas.

[modifier] Voir aussi

wikt:

Voir « langage de balisage » sur le Wiktionnaire.