PAGE (XML)
PAGE (Page Analysis and Ground truth Elements) est un standard XML pour l'encodage de documents numérisés[1]. Comparable au format ALTO, il permet de rendre compte de l'organisation et de la structure d'une page et de ses contenus.
PAGE XML peut être utilisé afin de décrire :
- le contenu des pages (régions, lignes de texte, mots, glyphes, ordre de lecture, contenu du texte, ...)
- l'évaluation de l'analyse de la mise en page (profils d'évaluation, résultats d'évaluation, ...)
- le découpage de l'image du document (grilles de découpage)
Le format est développé par le Pattern Recognition & Image Analysis Lab (PRIMA), au sein de l'Université de Salford à Manchester.
Ce schéma a été conçu pour être utilisé conjointement de techniques de segmentation et de transcription automatique (OCR et HTR) : en effet, PAGE vise à prendre en charge chacune des différentes étapes de la chaîne de traitement pour l'analyse de documents images (de l'amélioration de l'image à l'analyse de la mise en page en passant par l'OCR).
Le schéma PAGE XML est notamment utilisé comme format d'export et d'import par logiciels de transcription automatique tels qu'eScriptorium[2] et Transkribus[3]. C'est également un format d'export utilisé par Kraken, un système OCR clé en main optimisé pour les documents en caractères historiques et non-latins[4].
Structure globale
Le format PAGE donne un cadre pour décrire les caractéristiques des images (bordures d'images, distorsions géométriques, corrections correspondantes, binarisation, etc.), ainsi que la mise en page et le contenu des pages[5] :
<?xml version="1.0" encoding="UTF-8"?>
<PcGts xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15
http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15/pagecontent.xsd">
<Metadata>…</Metadata>
<Page imageFilename="SimplePage.png" imageWidth="800" imageHeight="600">
<ReadingOrder>…</ReadingOrder>
<TextRegion>…</TextRegion>
…
</Page>
</PcGts>
Tous les formats sont définis par un schéma XML, hébergé officiellement sur primaresearch.org.
Liens externes
- (en) Documentation sur la structure du fichier XML PAGE
- (en) Exemple d'encodage simple de page
- (en) Documentation of the PAGE XML Format for Page Content sur le OCR-D project, initiative pour le développement de la reconnaissance optique de caractères financée par la Fondation allemande pour la recherche (Deutsche Forschungsgemeinschaft)
- (en) Documentation "Page Content - Ground Truth and Storage"
- (en) Documentation "Evaluation - Metadata, Profile and Results"
- (en) Documentation "Dewarping - Ground Truth and Storage"
Notes et références
- https://github.com/PRImA-Research-Lab/PAGE-XML Repository GitHub PAGE-XML
- https://ephenum.hypotheses.org/1412 eScriptorium : un outil pour la transcription automatique des documents
- https://transkribus.eu/wiki/images/b/bd/HowTo_Export_documents_from_Transkribus.pdf Documentation "How to export documents from Transkribus"
- (en) mittagessen, « Repository GitHub du projet Kraken », sur github.com (consulté le )
- S. Pletschacher, A. Antonacopoulos , "The PAGE (Page Analysis and Ground-Truth Elements) Format Framework", Proceedings of the 20th International Conference on Pattern Recognition (ICPR2010), Istanbul, Turkey, August 23-26, 2010, IEEE-CS Press, pp. 257-260