À propos du balisage de la présente édition

 

Après la sortie du premier état de la base sur les sites "Dictionnaires d'autrefois", il a été décidé de mettre à l'essai une deuxième version qui devait, pour être valable, apporter au moins les deux plus-values suivantes :

- Offrir en lien la version-image du Supplément manuscrit au Dictionnaire critique, car cet ensemble de données était considérable : 3 grands volumes folio représentant près de 700 pages d'une plume méthodique et très lisible.

- Mettre en oeuvre un balisage XML au moins partiel.

Cette deuxième tâche paraissait hors d'atteinte au premier abord. Philippe Caron avait d'ailleurs laissé entendre lors du colloque consacré à l'informatisation du TLF en 1995 qu'il paraissait quasiment impossible de relever informatiquement un texte structuralement trop couché. Or l'étude plus fine du texte a révélé qu'une fois passée la lettre A, où notre auteur rôde sa méthode, la syntaxe des objets se révélait plus régulière qu'on ne pouvait le penser. A la condition de ne pas vouloir baliser finement des objets trop textualisés, un balisage XML pouvait au moins remplir les missions suivantes :

- Repérer les types d'article en présence dans le Dictionnaire critique et en afficher la liste type par type : articles pleins, articles phonético-graphiques (en réalité majoritairement des articles de prosodie venus de la Prosodie françoise de l'abbé d'Olivet), articles vides faisant office de renvoi, articles du supplément manuscrit, articles du complément imprimé du tome III, articles atypiques.

- Décomposer chaque article en deux constituants :

le premier serait constant, quel que soit le type d'article ; il est balisé <form> et renferme les objets les mieux circonscrits : les entrées avec éventuellement leur variation flexionnelle, leurs variantes orthographiques ou morpho-phonologiques ; leur catégorisation grammaticale et, le cas échéant, leur composant phonético-graphique.

le second serait balisé différemment selon le type d'article : article plein ; article exclusivement centré sur la phonétique, la graphie ou la prosodie ; article vide hormis un renvoi à un autre article ; article de supplément

- Isoler les exemples, fabriqués ou non, en prose ou en vers, à l'intérieur des articles lexicographiques dits "pleins" et, par là, les mettre à part du reste du discours lexicographique proprement dit.

Ce balisage a semblé à l'usage apporter une plus-value telle que le projet a été mis en oeuvre. Pour plus de détails sur l'opération de balisage, on peut se reporter à la bibliographique suivante :

Philippe Caron & Pierrette Marchaudon : Vers un marquage XML du Dictionaire critique de la langue française , ou les aventures de Thésée dans le labyrinthe textuel. Cahiers de Lexicologie, volume 88, 2006-1 pp. 167-181

Philippe Caron : Computerizing Féraud's Dictionaire critique de la langue française from a full-text electronic version to a softly tagged release. Yesterday's words, Contemporary, current and future lexicography. Cambridge, Cambridge scholar publishing 2008 pp. 278-291.

 


Retour