Les cartulaires numérisés d'Ile-de-France, schéma de balisage

Ce schéma spécifie les particularités d'un corpus TEI des éditions électroniques de l'École des chartes (ELEC) : les cartulaires d'Île de France. Il importe plusieurs autres schémas partagés par d'autres corpus :

Statistiques de balisage (au 5 décembre 2009).
17 cartulaires, 23 Mo de TEI, 8,7 M caractères (avec notes et paratexte). Texte médiéval : 7 M caractères, 1 M de mots, 27 K phrases. 4900 actes (dont 311 en ancien français).
baliseeffectifDescription
persName + rs type="person" 37 844 + 14 150 = 51 994Personnes
placeName + rs type="place" 26 333 + 483 = 26 816Lieux
s27 234Phrases
div type="transcription" 4 909Actes avec transcription
note10 416Notes
TEI 17Nombre de cartulaires

La particularité d'un corpus de chartes concerne généralement :

<text>

Structure générale d’un acte

Pour un acte francilien de ce corpus, on trouvera une transcription de l'éditeur du XIXe ou XXe (pas de traduction, ni le texte original, avec les abréviations ou l'absence de ponctuation). Tout acte doit obligatoirement être identifié (@xml:id), numéroté (@n), et paginé (<pb>).

@xml:id
L'identifiant aura été inscrit manuellement ou avec un processus supervisé, il est pensé pour être au plus proche de la numérotation du cartulaire, afin que les URIs soient à la fois courtes et signifiantes.
@n
Le numéro d'acte pour affichage. Les pratiques de numérotation des éditions de cartulaires varient beaucoup (chiffres décimaux, romains, avec des bis et des ter…). Certaines éditions n'en comportent pas. L'imprimé ne permet pas toujours de garder une logique parfaitement séquentielle, suite à des insertions ultérieures, ou des suppléments. Cependant ce numéro garde une importance de référence, certains actes sont connus par le numéro d'ordre attribué par l'éditeur. Il est conservé dans un attribut obligatoire, afin d'assurer une désignation courte des items.
<pb>
La page où commence l'acte est d'abord conservée pour résoudre les liens depuis les index. Le corpus est destiné à poursuivre une existence purement électronique, le recours à l'image de la page imprimé ne devrait plus être nécessaire. Son utilisation pour la génération d'une référence bibliographique par item est en réflexion.
Attributs @xml:id @n
Contenufront, body, back?
Usage group
<body>
Contenu( div type="transcription" | p ),
Usage text
<p>
Contenuempty()
Usage body
<back>
Contenudiv type="notes"?
Usage text

Analyse diplomatique

<front>

Les actes franciliens correspondent aux pratiques éditoriales de la fin du XIXe siècle et du début du XXe. Le cartouche commence à contenir une partie des informations attendues selon les normes actuelles de l'édition, mais la validation ne peut pas être très stricte. Des reprises manuelles doivent assurer la présence des champs obligatoires.

  • Numéro (tel qu'indiqué dans l'édition imprimée) <titlePart type="num"> | @n
  • Identifiant, obligatoire, @xml:id
  • Date, obligatoire, <docDate>
  • Nature du document, obligatoire, <index>
  • Titre ou analyse, obligatoire, <head>|<argument>
  • Tableau de la tradition des témoins, bientôt obligatoire, <div type="tradition">

Contenuindex, ( )
Usage text
<index>
Contenuterm type="nature"
Usage front
<term type="nature">
Attributs@type="nature" @key
Contenuempty()
Usage index
@key
Valeur
  • "act" : Actes
  • "cens" : Documents de gestion domaniale — censiers
  • "ter" : Documents de gestion domaniale — terriers
  • "comp" : Documents comptables
  • "enq" : Documents propres à la justice — enquêtes
  • "rjud" : Documents propres à la justice — registres judiciaires
  • "pou" : Documents propres aux archives écclésiastiques — pouillés
  • "del" : Documents propres aux archives écclésiastiques — délibérations
  • "nec" : Documents propres aux archives écclésiastiques — documents nécrologiques
  • "vis" : Documents propres aux archives écclésiastiques — visites
  • "chr" : Documents narratifs — chroniques
  • "hag" : Documents narratifs — textes hagiographiques
  • "epi" : Documents épigraphiques

Tableau de la tradition

Pour 2010, il est prévu de revoir les références aux témoins manuscrits des 5000 actes franciliens, afin de fournir des cotes modernes. Le balisage actuel est superficiel. Il conserve au moins la typographie originale (italique, Petites Capitales, exposant). Quand l'éditeur de l'imprimé a suivi une règle ferme, la typographie a été interprétée comme une fonction (ex : italique = titre). Cependant, ces références sont anciennes et n'ont pas été vérifiées, rien n'assure que tous les témoins comportent au moins le dépôt et une cote.

Transcription

Un acte francilien est essentiellement une suite de paragraphes (supposés une suite de « phrases »). Un gros travail a été effectué sur le texte de la transcription, afin que ce corpus serve à alimenter des ressources linguistiques (bases lexicales, onomastique...). L'objectif est d'assurer que le balisage distingue les seuls mots de la langue, en visant à terme que lieux et personnes puissent devenir éléments d'analyse syntaxique des phrases. Cet investissement initial pourrait être rentabilisé à l'avenir avec des procédures statistiques de reconnaissances de motifs.

Plusieurs balises sont insérées par des processus automatisés, assistés, et en partie corrigés :

<name>
Inférence automatique sur les mots en majuscules qui ne sont pas en début de phrase, du bruit, mais pas d'effet nuisible sur la typographie. On trouve des erreurs de diverses sortes, parfois symptôme d'erreur de balisage (actum), ou d'interprétation abusive de la majuscule (Abbas, Ecclesia). Retirer un <name> ne perd rien de la typographie imprimée.
<persName>
Inférence sur la typographie de certains éditeurs (souvent les petites capitales), excellent rendement. Les <persName> balisés répondent souvent à un besoin visuel adapté à l'imprimé, menant par exemple à ne pas distinguer le « dictus » d'un patronyme. Beaucoup de corrections sont nécessaires.
<placeName>
Inférence sur l'italique de certains éditeurs, plus d'erreurs que pour les <persName>, mais ces erreurs repèrent souvent d'autres segments à exclure de du texte latin.
<date>
(À ne pas confondre avec les dates en métadonnées) des formules de datation d'un acte, permet de distinguer des noms de saints qui indiquent une date (fête), et non un lieu (église).
<seg>
Balisage de formules standardisées, notamment religieuses, permettant d'isoler certains noms propres (« salutem in Domino ») ou des abréviations.
<div type="transcription">
Texte de la transcription d'un acte, avec identification de la langue, considéré comme suite paragraphe contenant des phrases.
Attributs@type="transcription"
Contenu( p )+
Usage body
<p>
Contenu( s )*
Usage div type="transcription"
<s>
Les phrases d'un acte francilien mêlent de la typographie de base (surtout italique et petites capitales), des appels de notes, et différents segments reconnus après traitements linguistiques.
Contenu( text()  | seg | date | )*
Usage p
<seg>
Formule ayant pu être reconnue automatiquement.
Attributs@type
Contenu( text()  | )*
Usage s
<date>
Formule de datation segmentée automatiquement, à vérifier.
Contenu( text()  | )*
Usage s

Après l'acte

acte.back
Contient essentiellement les notes, dont des remarques de l'éditeur qui ne sont pas des notes de bas de page.
Contenudiv type="notes"?
Usage back
<div type="notes">
Les notes des actes franciliens sont généralement en bas de page. Toutefois, il arrive souvent que les notes aient une numérotation sur tout l'ouvrage. Parfois, sur une même personne ou un même lieu par exemple, le conteneur n'est pas répété, mais juste référencé. La note "145" peut n'avoir que (55) pour contenu (voir la note 55 dans les pages précédentes). Le corpus a été préparé pour faciliter la résolution de ces notes à l'affichage.
Attributs@type="notes"
Contenu
Usage back

Un acte diplomatique en TEI

Ce schéma est conçu comme une bibliothèque de composants pour simplifier la définition d'un projet d'édition d'actes en TEI. Il ne sert à rien seul, il vaut importé par un autre schéma. Chaque projet doit pouvoir éviter de redéfinir les mêmes éléments, afin qu'une même chose soit nommée de la même manière (avec les mêmes balises). La tradition de l'édition critique accepte des variations nombreuses, avec cependant des structures communes qu'il vaut la peine de spécifier avec précision, cette définition facilitant l'exploitation plus large des corpus par leur normalisation.

Structure générale d'un recueil d'actes

La structure générale d'un recueil d'actes comportera obligatoire un avant-texte avec titre et résumé (<head>, <argument>) afin d'assurer la génération d'un site web. L'élément racine portera en attribut un identifiant de fichier, unique pour l'éditeur.
<TEI>
Attributs@xml:id
Contenutext
UsageElément racine
<text>
Contenugroup,
Usage TEI
<TEI>
<teiHeader>...</teiHeader>
<text>
<front>
<head>Cartulaire ...</head>
<argument>
<p>Petit texte pour page d'accueil</p>
</argument>
</front>
<group>
<head>titre court</head>
<text>acte 1</text>
<text>acte 2</text>
<group>
<head>Possibilité de sous section</head>
<text>...</text>
</group>
</group>
<back>Index et autres tables</back>
</text>
</TEI>
<group>

Une collection d'actes, par exemple un cartulaire, est considéré comme un groupe <group> de textes <text>. Les actes sont souvent groupés en série linéaire, il arrive cependant que des éditions (imprimées ou manuscrites) définissent une organisation hiérarchique de la collection. En ce cas ces sections peuvent être des groupes titrés <head>, titres conçus pour pouvoir être utilisés dans une table des matières.

Attributs@type? @n? @xml:id?
Contenu( text | group | )*
Usage text group

Notice d'acte

Par notice d'acte on entendra le cartouche d'entête établi par l'éditeur. L'information de ces nombreux champs est inégalement disponible selon la provenance du texte électronique (numérisation d'édition imprimée, base de données, édition sur l'original...). Il est par contre essentiel de choisir les mêmes balises pour la même information, afin de simplifier le traitement de différentes lots (exemple : rangement par date, table des actes, classement par type…). On distinguera deux groupes d'informations : ce qui concerne l'acte tel qu'il a eu lieu (analyse diplomatique), et ce qui concerne les témoins écrits de cet acte (codicologie).

Quant à l'analyse diplomatique, l'attention a d'abord porté sur les consignes d'encodage des dates. L'indication normalisée d'une langue est généralement portée par la transcription (quand il y en a une). Un vocabulaire qualifiant la nature d'un acte est en cours d'élaboration sur les cartulaires franciliens. Pour tout acte, l'indication d'un lieu (avec identifiant INSEE), serait largement souhaitée, mais l'effort n'est pas encore planifié. La définition de types d'action juridique est souhaitée, mais pose encore trop de problèmes entre historiens pour qu'une liste soit imposée.

<titlePart type="num">
Numéro de l'acte. Peut être sous la forme d'un nombre ou d'un nom de folio. Contient parfois des notes. Peut être répété.
Attributs@type="num" @n?
Contenu( text()  | )*
UsageÉlément inutilisé.

Balisage des parties du discours diplomatique

diplomatique

Identification des parties du discours.

Contenu( seg | seg function="dispositio" | seg function="narratio" )+
Usage quote type="vidime"
<seg>
Attributs@function
Contenu
Usage quote type="vidime"
@function
Valeur
  • "invocation" : invocation, invocation verbale
  • "intitulatio" : suscription
  • "address" : adresse
  • "salutatio" : salut, salutation
  • "notification" : notification personnelle, notification universelle, notification
  • "preamble" : préambule
  • "narratio" : exposé
  • "corroboration" : clause de corroboration -- peut aussi se trouver dans le dispositif
  • "witnessList" : liste de témoins
  • "dating" : formule de date, date
  • "apprecatio" : apprécation
  • "subscriptions" : souscriptions
  • "esn" : mentions hors teneur, mentions de chancellerie

Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

<seg function="dispositio">

Le dispositif (dispositio) et ses sous-parties.

Attributs@function="dispositio"
Contenu( seg | )+
Usage quote type="vidime"
@function="dispositio"
Valeur
  • "dispositio" : dispositif
  • Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

    <seg>
    Attributs@function
    Contenu
    Usage seg function="dispositio"
    @function
    Valeur
    • "beneficiary" : bénéficiaire
    • "verb" : verbe
    • "corroboration" : corroboration
    • "donatio" : donation?
    • "clauses" : clause

    Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

    • beneficiary, No. 17
    • verb, pas de terme identifié dans le VID, mentionné pourtant dans la documentation du terme No. 198 (dispositif).
    • donatio, le terme donation existe en tant que type d'acte (No. 425) mais pas en tant que partie du discours.
    • clauses, No. 205

    <seg function="narratio">

    L'exposé (narratio) peut contenir un acte vidimé.
    Définitions des éléments du discours diplomatique, Vocabulaire international de Diplomatique (G. Vogeler), pour chaque valeur de @function :

    Attributs@function="narratio"
    Contenu( text()  | quote type="vidime"? )+
    Usage quote type="vidime"
    <quote type="vidime">
    Attributs@type="vidime"
    Contenudiplomatique  ( seg | seg function="dispositio" | seg function="narratio" )+
    Usage seg function="narratio"
    diplo.content
    Contenu( text()  | )+
    Usage seg

    Indexation des actes

    front.index

    Le motif nommé front.index définit la structure d'indexation par défaut.
    Dans le schéma de corpus (corpus.rng), il faut l'appeler dans la définition du front.
    On peut le surcharger dans corpus.rng pour contraindre ou non l'inscription d'éléments d'indexation spécifiques.

    Contenuindex
    UsageCette définition n'est pas encore utilisée.
    <index>
    Contenuterm type="auth_type"+, term type="actual_country"*
    UsageÉlément inutilisé.
    auth_type

    Indexation du type d'acte

    Contenuterm type="auth_type"
    Usage index
    <term type="auth_type">

    Indexation du type d'auteur, obligatoire, valeurs multiples possible. (cf OGJ : "l'accord passé au sujet d'un hommage entre l'abbé de Moissac et le comte de Toulouse est ainsi indexé à acte abbatial, acte princier, car les deux intervenants prennent la parole.")
    NB: Dans les tableaux d'OGJ 2a (type d'auteurs) et 2b (type de documents) sont une même catégorie ; le 2b décrivant les documents qui ne sont pas des actes, on se limite pour l'instant qu'au 2a.

    Attributs@type="auth_type" @key
    Contenu text() ?
    Usage index
    @key
    Valeur
    • "act_pontif" : Actes pontificaux
    • "act_episc" : Actes épiscopaux
    • "act_abbat" : Actes abbatiaux
    • "act_eccl" : Actes d'autres ecclésiastique
    • "act_eccl_grac" : Actes d'autre juridiction gracieuse ecclésiastique
    • "act_souv" : Actes de souverains
    • "act_princ" : Actes princiers
    • "act_laic_grac" : Actes de juridiction gracieuse laïque princière et royale
    • "act_admin" : Actes de l'administration locale (royale et princière)
    • "act_seig" : Actes seigneuriaux
    • "act_comm" : Actes communaux, consulaires et échevinaux [sauf juridiction gracieuse]
    • "act_ech_grac" : Actes d'échevinage et de consulat [juridiction gracieuse?]
    • "chma" : Chartes du haut Moyen Âge
    • "not" : Notices
    • "sc_aut" : Actes sous le sceau de l'auteur
    • "sc_loc" : Actes sous le sceau d'une autorité locale
    • "act_notr" : Actes de notaires publics
    • "act_offepisc" : Actes d'officialité épiscopale
    • "" : Valeur libre si aucune des valeurs enregistrées ne convient
    <term type="actual_country">
    Indexation du pays concerné par l'action et non le ressort de l'auteur de l'acte, valeur répétable ; on inscrit le nom contemporain et non historique.
    Élément répétable pour les valeurs multiples.
    La source des codes utilisée pour représenter les noms de pays est la norme ISO 3166.
    Attributs@type="actual_country" @key
    Contenu text()
    Usage index
    @key
    Valeur
    • "BE" : Belgique
    • "CH" : Suisse
    • "CZ" : République Tchèque
    • "DE" : Allemagne
    • "DK" : Danemark
    • "ES" : Espagne
    • "FR" : France
    • "GB" : Grande Bretagne
    • "HR" : Croatie
    • "HU" : Hongrie
    • "IE" : Irlande
    • "IT" : Italie
    • "NL" : Pays-Bas
    • "PT" : Portugal
    • "RO" : Roumanie
    • "SE" : Suède
    • "VA" : Vatican
    acte
    Contenu
    Usage group

    Balisage général du texte

    Schéma de l'entête de métadonnées

    Tradition écrite de l'acte (témoins)

    Schéma d'encodage des dates