[OGJ] Olivier Guyotjeannin (École nationale des chartes) conseil diplomatique
[OC] Olivier Canteaut (École nationale des chartes) : définition diplomatique
[FG] Frédéric Glorieux (École nationale des chartes) conception
[CD] Camille Desenclos (École nationale des chartes) : maintenance et contributions
[CH] Clément Hurel (École nationale des chartes) : contribution technique
Ce schéma spécifie les particularités d'un corpus TEI des éditions électroniques de l'École des chartes (ELEC) : les cartulaires d'Île de France.
Il importe plusieurs autres schémas partagés par d'autres corpus :
acte.rng — Les aspects requis pour tout acte ELEC.
texte.rng — Des modèles de contenus réutilisables pour des corpus autres que des chartes.
teiHeader.rng — Entête fixée de contenu pour tout fichier TEI.
Statistiques de balisage (au 5 décembre 2009).
17 cartulaires, 23 Mo de TEI, 8,7 M caractères (avec notes et paratexte).
Texte médiéval : 7 M caractères, 1 M de mots, 27 K phrases. 4900 actes (dont 311 en ancien français).
Pour un acte francilien de ce corpus, on trouvera une transcription de l'éditeur du XIXe ou XXe (pas de traduction, ni le texte original, avec les abréviations ou l'absence de ponctuation). Tout acte doit obligatoirement être identifié (@xml:id), numéroté (@n), et paginé (<pb>).
@xml:id
L'identifiant aura été inscrit manuellement ou avec un processus supervisé, il est pensé pour être au plus proche de la numérotation du cartulaire, afin que les URIs soient à la fois courtes et signifiantes.
@n
Le numéro d'acte pour affichage. Les pratiques de numérotation des éditions de cartulaires varient beaucoup (chiffres décimaux, romains, avec des bis et des ter…). Certaines éditions n'en comportent pas. L'imprimé ne permet pas toujours de garder une logique parfaitement séquentielle, suite à des insertions ultérieures, ou des suppléments. Cependant ce numéro garde une importance de référence, certains actes sont connus par le numéro d'ordre attribué par l'éditeur. Il est conservé dans un attribut obligatoire, afin d'assurer une désignation courte des items.
<pb>
La page où commence l'acte est d'abord conservée pour résoudre les liens depuis les index. Le corpus est destiné à poursuivre une existence purement électronique, le recours à l'image de la page imprimé ne devrait plus être nécessaire. Son utilisation pour la génération d'une référence bibliographique par item est en réflexion.
Les actes franciliens correspondent aux pratiques éditoriales de la fin du
XIXe siècle et du début du XXe. Le cartouche commence à contenir
une partie des informations attendues selon les normes actuelles de l'édition,
mais la validation ne peut pas être très stricte. Des reprises manuelles doivent assurer la présence des
champs obligatoires.
Numéro (tel qu'indiqué dans l'édition imprimée) <titlePart type="num"> | @n
Identifiant, obligatoire, @xml:id
Date, obligatoire, <docDate>
Nature du document, obligatoire, <index>
Titre ou analyse, obligatoire, <head>|<argument>
Tableau de la tradition des témoins, bientôt obligatoire, <div type="tradition">
Pour 2010, il est prévu de revoir les références aux témoins manuscrits des 5000 actes franciliens, afin de fournir des cotes modernes.
Le balisage actuel est superficiel. Il conserve au moins la typographie originale (italique,
Petites Capitales, exposant). Quand l'éditeur de l'imprimé a suivi une règle ferme,
la typographie a été interprétée comme une fonction (ex : italique = titre). Cependant, ces références sont anciennes et
n'ont pas été vérifiées, rien n'assure que tous les témoins comportent au moins le dépôt et une cote.
Transcription
Un acte francilien est essentiellement une suite de paragraphes (supposés une suite de « phrases »). Un gros travail a été effectué sur le texte de la transcription, afin que ce corpus serve à alimenter des ressources linguistiques (bases lexicales, onomastique...).
L'objectif est d'assurer que le balisage distingue les seuls mots de la langue, en visant à terme que lieux et personnes puissent devenir éléments d'analyse syntaxique des phrases. Cet investissement initial pourrait être rentabilisé à l'avenir avec des procédures statistiques de reconnaissances de motifs.
Plusieurs balises sont insérées par des processus automatisés, assistés, et en partie corrigés :
<name>
Inférence automatique sur les mots en majuscules qui ne sont pas en début de phrase, du bruit, mais pas d'effet nuisible sur la typographie. On trouve des erreurs de diverses sortes, parfois symptôme d'erreur de balisage (actum), ou d'interprétation abusive de la majuscule (Abbas, Ecclesia). Retirer un <name> ne perd rien de la typographie imprimée.
<persName>
Inférence sur la typographie de certains éditeurs (souvent les petites capitales), excellent rendement. Les <persName> balisés répondent souvent à un besoin visuel adapté à l'imprimé, menant par exemple à ne pas distinguer le « dictus » d'un patronyme. Beaucoup de corrections sont nécessaires.
<placeName>
Inférence sur l'italique de certains éditeurs, plus d'erreurs que pour les <persName>, mais ces erreurs repèrent souvent d'autres segments à exclure de du texte latin.
<date>
(À ne pas confondre avec les dates en métadonnées) des formules de datation d'un acte, permet de distinguer des noms de saints qui indiquent une date (fête), et non un lieu (église).
<seg>
Balisage de formules standardisées, notamment religieuses, permettant d'isoler certains noms propres (« salutem in Domino ») ou des abréviations.
Les phrases d'un acte francilien mêlent de la typographie de base
(surtout italique et petites capitales), des appels de notes, et différents segments
reconnus après traitements linguistiques.
Les notes des actes franciliens sont généralement en bas de page.
Toutefois, il arrive souvent que les notes aient une numérotation sur tout l'ouvrage.
Parfois, sur une même personne ou un même lieu par exemple,
le conteneur n'est pas répété, mais juste référencé.
La note "145" peut n'avoir que (55) pour contenu (voir la note 55 dans les pages précédentes).
Le corpus a été préparé pour faciliter la résolution de ces notes à l'affichage.
[CD] Camille Desenclos (École nationale des chartes) noms propres, apparat critique, parties du discours
[JC] Joana Casenave (École nationale des chartes) parties du discours
[RD] Richard Delaplace (Langues'O) tableau de la tradition (témoins, <witness>)
[CH] Clément Hurel (École nationale des chartes) contribution technique
Ce schéma est conçu comme une bibliothèque de composants pour simplifier la définition
d'un projet d'édition d'actes en TEI. Il ne sert à rien seul, il vaut importé par un autre
schéma. Chaque projet doit pouvoir éviter de redéfinir les mêmes éléments, afin qu'une même chose
soit nommée de la même manière (avec les mêmes balises). La tradition de l'édition critique accepte
des variations nombreuses, avec cependant des structures communes qu'il vaut la peine de spécifier
avec précision, cette définition facilitant l'exploitation plus large des corpus par leur normalisation.
Structure générale d'un recueil d'actes
La structure générale d'un recueil d'actes comportera obligatoire un avant-texte avec titre et résumé (<head>, <argument>) afin d'assurer la génération d'un site web. L'élément racine portera en attribut un identifiant de fichier, unique pour l'éditeur.
Une collection d'actes, par exemple un cartulaire, est considéré comme un groupe <group>
de textes <text>. Les actes sont souvent groupés en série linéaire,
il arrive cependant que des éditions (imprimées ou manuscrites)
définissent une organisation hiérarchique de la collection. En ce cas ces sections peuvent
être des groupes titrés <head>, titres conçus pour pouvoir être utilisés dans une table des matières.
Par notice d'acte on entendra le cartouche d'entête établi par l'éditeur.
L'information de ces nombreux champs est
inégalement disponible selon la provenance du texte électronique
(numérisation d'édition imprimée, base de données, édition sur l'original...).
Il est par contre essentiel de choisir les mêmes balises pour la même information, afin de simplifier
le traitement de différentes lots (exemple : rangement par date, table des actes, classement par type…).
On distinguera deux groupes d'informations : ce qui concerne l'acte tel qu'il a eu lieu (analyse diplomatique),
et ce qui concerne les témoins écrits de cet acte (codicologie).
Quant à l'analyse diplomatique, l'attention a d'abord porté sur les consignes d'encodage des dates.
L'indication normalisée d'une langue est généralement portée par la transcription (quand il y en a une).
Un vocabulaire qualifiant la nature d'un acte est en cours d'élaboration sur les cartulaires franciliens.
Pour tout acte, l'indication d'un lieu (avec identifiant INSEE), serait largement
souhaitée, mais l'effort n'est pas encore planifié.
La définition de types d'action juridique est souhaitée, mais pose encore trop de problèmes entre historiens
pour qu'une liste soit imposée.
Le motif nommé front.index définit la structure d'indexation par défaut.
Dans le schéma de corpus (corpus.rng), il faut l'appeler dans la définition du front.
On peut le surcharger dans corpus.rng pour contraindre ou non l'inscription d'éléments d'indexation spécifiques.
Indexation du type d'auteur, obligatoire, valeurs multiples possible. (cf OGJ : "l'accord passé au sujet d'un hommage entre l'abbé de Moissac et le comte de Toulouse est ainsi indexé à acte abbatial, acte princier, car les deux intervenants prennent la parole.")
NB: Dans les tableaux d'OGJ 2a (type d'auteurs) et 2b (type de documents) sont une même catégorie ; le 2b décrivant les documents qui ne sont pas des actes, on se limite pour l'instant qu'au 2a.
Indexation du pays concerné par l'action et non le ressort de l'auteur de l'acte, valeur répétable ; on inscrit le nom contemporain et non historique.
Élément répétable pour les valeurs multiples.
La source des codes utilisée pour représenter les noms de pays est la norme ISO 3166.