Les cartulaires numérisés d'Ile-de-France, schéma de balisage

Ce schéma spécifie les particularités d'un corpus TEI des éditions électroniques de l'École des chartes (ELEC) : les cartulaires d'Île de France. Il importe plusieurs autres schémas partagés par d'autres corpus :

Statistiques de balisage (au 5 décembre 2009).
17 cartulaires, 23 Mo de TEI, 8,7 M caractères (avec notes et paratexte). Texte médiéval : 7 M caractères, 1 M de mots, 27 K phrases. 4900 actes (dont 311 en ancien français).
baliseeffectifDescription
persName + rs type="person" 37 844 + 14 150 = 51 994Personnes
placeName + rs type="place" 26 333 + 483 = 26 816Lieux
s27 234Phrases
div type="transcription" 4 909Actes avec transcription
note10 416Notes
TEI 17Nombre de cartulaires

La particularité d'un corpus de chartes concerne généralement :

Structure générale d’un acte

Pour un acte francilien de ce corpus, on trouvera une transcription de l'éditeur du XIXe ou XXe (pas de traduction, ni le texte original, avec les abréviations ou l'absence de ponctuation). Tout acte doit obligatoirement être identifié (@xml:id), numéroté (@n), et paginé (<pb>).

@xml:id
L'identifiant aura été inscrit manuellement ou avec un processus supervisé, il est pensé pour être au plus proche de la numérotation du cartulaire, afin que les URIs soient à la fois courtes et signifiantes.
@n
Le numéro d'acte pour affichage. Les pratiques de numérotation des éditions de cartulaires varient beaucoup (chiffres décimaux, romains, avec des bis et des ter…). Certaines éditions n'en comportent pas. L'imprimé ne permet pas toujours de garder une logique parfaitement séquentielle, suite à des insertions ultérieures, ou des suppléments. Cependant ce numéro garde une importance de référence, certains actes sont connus par le numéro d'ordre attribué par l'éditeur. Il est conservé dans un attribut obligatoire, afin d'assurer une désignation courte des items.
<pb>
La page où commence l'acte est d'abord conservée pour résoudre les liens depuis les index. Le corpus est destiné à poursuivre une existence purement électronique, le recours à l'image de la page imprimé ne devrait plus être nécessaire. Son utilisation pour la génération d'une référence bibliographique par item est en réflexion.

Analyse diplomatique

Les actes franciliens correspondent aux pratiques éditoriales de la fin du XIXe siècle et du début du XXe. Le cartouche commence à contenir une partie des informations attendues selon les normes actuelles de l'édition, mais la validation ne peut pas être très stricte. Des reprises manuelles doivent assurer la présence des champs obligatoires.

  • Numéro (tel qu'indiqué dans l'édition imprimée) <titlePart type="num"> | @n
  • Identifiant, obligatoire, @xml:id
  • Date, obligatoire, <docDate>
  • Nature du document, obligatoire, <index>
  • Titre ou analyse, obligatoire, <head>|<argument>
  • Tableau de la tradition des témoins, bientôt obligatoire, <div type="tradition">

nature act cens ter comp enq rjud pou del nec vis chr hag epi

Tableau de la tradition

Pour 2010, il est prévu de revoir les références aux témoins manuscrits des 5000 actes franciliens, afin de fournir des cotes modernes. Le balisage actuel est superficiel. Il conserve au moins la typographie originale (italique, Petites Capitales, exposant). Quand l'éditeur de l'imprimé a suivi une règle ferme, la typographie a été interprétée comme une fonction (ex : italique = titre). Cependant, ces références sont anciennes et n'ont pas été vérifiées, rien n'assure que tous les témoins comportent au moins le dépôt et une cote.

Transcription

Un acte francilien est essentiellement une suite de paragraphes (supposés une suite de « phrases »). Un gros travail a été effectué sur le texte de la transcription, afin que ce corpus serve à alimenter des ressources linguistiques (bases lexicales, onomastique...). L'objectif est d'assurer que le balisage distingue les seuls mots de la langue, en visant à terme que lieux et personnes puissent devenir éléments d'analyse syntaxique des phrases. Cet investissement initial pourrait être rentabilisé à l'avenir avec des procédures statistiques de reconnaissances de motifs.

Plusieurs balises sont insérées par des processus automatisés, assistés, et en partie corrigés :

<name>
Inférence automatique sur les mots en majuscules qui ne sont pas en début de phrase, du bruit, mais pas d'effet nuisible sur la typographie. On trouve des erreurs de diverses sortes, parfois symptôme d'erreur de balisage (actum), ou d'interprétation abusive de la majuscule (Abbas, Ecclesia). Retirer un <name> ne perd rien de la typographie imprimée.
<persName>
Inférence sur la typographie de certains éditeurs (souvent les petites capitales), excellent rendement. Les <persName> balisés répondent souvent à un besoin visuel adapté à l'imprimé, menant par exemple à ne pas distinguer le « dictus » d'un patronyme. Beaucoup de corrections sont nécessaires.
<placeName>
Inférence sur l'italique de certains éditeurs, plus d'erreurs que pour les <persName>, mais ces erreurs repèrent souvent d'autres segments à exclure de du texte latin.
<date>
(À ne pas confondre avec les dates en métadonnées) des formules de datation d'un acte, permet de distinguer des noms de saints qui indiquent une date (fête), et non un lieu (église).
<seg>
Balisage de formules standardisées, notamment religieuses, permettant d'isoler certains noms propres (« salutem in Domino ») ou des abréviations.
Texte de la transcription d'un acte, avec identification de la langue, considéré comme suite paragraphe contenant des phrases. transcription Les phrases d'un acte francilien mêlent de la typographie de base (surtout italique et petites capitales), des appels de notes, et différents segments reconnus après traitements linguistiques. Formule ayant pu être reconnue automatiquement. theo Formule de datation segmentée automatiquement, à vérifier.

Après l'acte

Contient essentiellement les notes, dont des remarques de l'éditeur qui ne sont pas des notes de bas de page. Les notes des actes franciliens sont généralement en bas de page. Toutefois, il arrive souvent que les notes aient une numérotation sur tout l'ouvrage. Parfois, sur une même personne ou un même lieu par exemple, le conteneur n'est pas répété, mais juste référencé. La note "145" peut n'avoir que (55) pour contenu (voir la note 55 dans les pages précédentes). Le corpus a été préparé pour faciliter la résolution de ces notes à l'affichage. notes

Un acte diplomatique en TEI

Ce schéma est conçu comme une bibliothèque de composants pour simplifier la définition d'un projet d'édition d'actes en TEI. Il ne sert à rien seul, il vaut importé par un autre schéma. Chaque projet doit pouvoir éviter de redéfinir les mêmes éléments, afin qu'une même chose soit nommée de la même manière (avec les mêmes balises). La tradition de l'édition critique accepte des variations nombreuses, avec cependant des structures communes qu'il vaut la peine de spécifier avec précision, cette définition facilitant l'exploitation plus large des corpus par leur normalisation.

Structure générale d'un recueil d'actes

La structure générale d'un recueil d'actes comportera obligatoire un avant-texte avec titre et résumé (<head>, <argument>) afin d'assurer la génération d'un site web. L'élément racine portera en attribut un identifiant de fichier, unique pour l'éditeur. ... Cartulaire ...

Petit texte pour page d'accueil

titre court acte 1 acte 2 Possibilité de sous section ... Index et autres tables

Une collection d'actes, par exemple un cartulaire, est considéré comme un groupe <group> de textes <text>. Les actes sont souvent groupés en série linéaire, il arrive cependant que des éditions (imprimées ou manuscrites) définissent une organisation hiérarchique de la collection. En ce cas ces sections peuvent être des groupes titrés <head>, titres conçus pour pouvoir être utilisés dans une table des matières.

tome

Notice d'acte

Par notice d'acte on entendra le cartouche d'entête établi par l'éditeur. L'information de ces nombreux champs est inégalement disponible selon la provenance du texte électronique (numérisation d'édition imprimée, base de données, édition sur l'original...). Il est par contre essentiel de choisir les mêmes balises pour la même information, afin de simplifier le traitement de différentes lots (exemple : rangement par date, table des actes, classement par type…). On distinguera deux groupes d'informations : ce qui concerne l'acte tel qu'il a eu lieu (analyse diplomatique), et ce qui concerne les témoins écrits de cet acte (codicologie).

Quant à l'analyse diplomatique, l'attention a d'abord porté sur les consignes d'encodage des dates. L'indication normalisée d'une langue est généralement portée par la transcription (quand il y en a une). Un vocabulaire qualifiant la nature d'un acte est en cours d'élaboration sur les cartulaires franciliens. Pour tout acte, l'indication d'un lieu (avec identifiant INSEE), serait largement souhaitée, mais l'effort n'est pas encore planifié. La définition de types d'action juridique est souhaitée, mais pose encore trop de problèmes entre historiens pour qu'une liste soit imposée.

Numéro de l'acte. Peut être sous la forme d'un nombre ou d'un nom de folio. Contient parfois des notes. Peut être répété. num

Balisage des parties du discours diplomatique

Identification des parties du discours.

Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

invocation intitulatio address salutatio notification preamble narratio corroboration witnessList dating apprecatio subscriptions esn

Le dispositif (dispositio) et ses sous-parties.

Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

dispositio

Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

  • beneficiary, No. 17
  • verb, pas de terme identifié dans le VID, mentionné pourtant dans la documentation du terme No. 198 (dispositif).
  • donatio, le terme donation existe en tant que type d'acte (No. 425) mais pas en tant que partie du discours.
  • clauses, No. 205

beneficiary verb corroboration donatio clauses

L'exposé (narratio) peut contenir un acte vidimé.
Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

narratio
vidime

Indexation des actes

Le motif nommé front.index définit la structure d'indexation par défaut.
Dans le schéma de corpus (corpus.rng), il faut l'appeler dans la définition du front.
On peut le surcharger dans corpus.rng pour contraindre ou non l'inscription d'éléments d'indexation spécifiques.

Indexation du type d'acte

auth_type

Indexation du type d'auteur, obligatoire, valeurs multiples possible. (cf OGJ : "l'accord passé au sujet d'un hommage entre l'abbé de Moissac et le comte de Toulouse est ainsi indexé à acte abbatial, acte princier, car les deux intervenants prennent la parole.")
NB: Dans les tableaux d'OGJ 2a (type d'auteurs) et 2b (type de documents) sont une même catégorie ; le 2b décrivant les documents qui ne sont pas des actes, on se limite pour l'instant qu'au 2a.

act_pontif act_episc act_abbat act_eccl act_eccl_grac act_souv act_princ act_laic_grac act_admin act_seig act_comm act_ech_grac chma not sc_aut sc_loc act_notr act_offepisc
actual_country Indexation du pays concerné par l'action et non le ressort de l'auteur de l'acte, valeur répétable ; on inscrit le nom contemporain et non historique.
Élément répétable pour les valeurs multiples.
La source des codes utilisée pour représenter les noms de pays est la norme ISO 3166.
BE CH CZ DE DK ES FR GB HR HU IE IT NL PT RO SE VA

Balisage général du texte

Schéma de l'entête de métadonnées

Tradition écrite de l'acte (témoins)

Schéma d'encodage des dates