ALTO (XML)
ALTO (Analysed Layout and Text Object) est un standard XML permettant de rendre compte de la mise en page physique et de la structure logique d'un texte transcrit par reconnaissance optique de caractères (OCR). Le format est issu du projet européen METAe[1].
Ce schéma maintenu par la Bibliothèque du Congrès et la Bibliothèque nationale de France, est très utilisé pour la conversion en mode texte (OCR) en France et à l’étranger. Il est très adapté à la conservation à long terme des données issues de la conversion ; il permet une réutilisation ultérieure du mode texte, dans la mesure où il contient pour chaque boîte de texte :
- les coordonnées,
- le taux de confiance de reconnaissance
- des éléments de forme (police par ex.).
Le format s'adapte tout particulièrement aux politiques de numérisation actuelles, il permet la superposition de l’image et du texte (en PDF par ex.).
La Bibliothèque nationale de Finlande a développé un éditeur en ligne permettant aux utilisateurs de corriger le texte reconnu de façon logiciel et d'ainsi améliorer le résultat de façon collaborative[2].
Exemple
Partie décrivant la mise en page physique The Winchester news. (Winchester, Ky.)[3]
<alto>
<Description>
... <!-- Méta-données -->
</Description>
<Styles>
<TextStyle ID="ID3" FONTSIZE="10.0"/>
</Styles>
<Layout>
<Page ID="ID1" HEIGHT="25941" WIDTH="20463" PHYSICAL_IMG_NR="1" PRINTED_IMG_NR="[1]" PROCESSING="ID0">
<PrintSpace HEIGHT="24453.0" WIDTH="19500.0" HPOS="294.0" VPOS="954.0" PC="0.93230003">
<TextBlock ID="ID2" HEIGHT="1701" WIDTH="16026" HPOS="294" VPOS="972" type="simple" language="en">
<TextLine HEIGHT="90.0" WIDTH="3570.0" HPOS="3960.0" VPOS="972.0">
<String HEIGHT="81.0" WIDTH="36.0" HPOS="3960.0" VPOS="981.0" CONTENT="J" WC="0.8095238"/>
<SP WIDTH="36.0" HPOS="3996.0" VPOS="981.0"/>
<String HEIGHT="66.0" WIDTH="42.0" HPOS="4032.0" VPOS="993.0" CONTENT="a" WC="0.8095238"/>
<SP WIDTH="68.0" HPOS="4074.0" VPOS="993.0"/>
<String HEIGHT="81.0" WIDTH="228.0" HPOS="4143.0" VPOS="972.0" CONTENT="Ira" WC="0.95238096"/>
<SP WIDTH="447.0" HPOS="4371.0" VPOS="972.0"/>
<String HEIGHT="84.0" WIDTH="81.0" HPOS="4818.0" VPOS="975.0" CONTENT="mj" WC="0.8095238"/>
<SP WIDTH="687.0" HPOS="4899.0" VPOS="975.0"/>
<String HEIGHT="63.0" WIDTH="105.0" HPOS="5586.0" VPOS="984.0" CONTENT="iI" WC="0.8095238"/>
<SP WIDTH="416.0" HPOS="5691.0" VPOS="984.0"/>
<String HEIGHT="90.0" WIDTH="810.0" HPOS="6108.0" VPOS="972.0" CONTENT="tE1r" WC="0.8095238"/>
<SP WIDTH="585.0" HPOS="6918.0" VPOS="972.0"/>
<String HEIGHT="51.0" WIDTH="27.0" HPOS="7503.0" VPOS="1008.0" CONTENT="3" WC="0.8095238"/>
</TextLine>
<TextLine HEIGHT="39.0" WIDTH="24.0" HPOS="6792.0" VPOS="1065.0">
<String HEIGHT="39.0" WIDTH="24.0" HPOS="6792.0" VPOS="1065.0" CONTENT="i" WC="0.8095238"/>
</TextLine>
<TextLine HEIGHT="42.0" WIDTH="30.0" HPOS="2517.0" VPOS="1125.0">
<String STYLEREFS="ID3" HEIGHT="42.0" WIDTH="30.0" HPOS="2517.0" VPOS="1125.0" CONTENT="c" WC="0.8095238"/>
</TextLine>
<TextLine HEIGHT="1269.0" WIDTH="16026.0" HPOS="294.0" VPOS="1404.0">
<String HEIGHT="1269.0" WIDTH="2052.0" HPOS="294.0" VPOS="1404.0" CONTENT="JiLas" WC="0.8095238">
<ALTERNATIVE>Jails</ALTERNATIVE>
</String>
<SP WIDTH="272.0" HPOS="2346.0" VPOS="1404.0"/>
<String STYLEREFS="ID4" HEIGHT="219.0" WIDTH="1023.0" HPOS="2619.0" VPOS="2184.0" CONTENT="Edition" WC="0.95238096"/>
<SP WIDTH="677.0" HPOS="3642.0" VPOS="2184.0"/>
<String STYLEREFS="ID5" HEIGHT="771.0" WIDTH="1920.0" HPOS="4320.0" VPOS="1839.0" CONTENT="THE" WC="1.0">
<ALTERNATIVE>TIIE</ALTERNATIVE>
<ALTERNATIVE>TIE</ALTERNATIVE>
</String>
<SP WIDTH="503.0" HPOS="6240.0" VPOS="1839.0"/>
<String STYLEREFS="ID5" HEIGHT="792.0" WIDTH="6312.0" HPOS="6744.0" VPOS="1833.0" CONTENT="WINCHESTER" WC="1.0"/>
<SP WIDTH="527.0" HPOS="13056.0" VPOS="1833.0"/>
<String STYLEREFS="ID5" HEIGHT="771.0" WIDTH="2736.0" HPOS="13584.0" VPOS="1824.0" CONTENT="NEWS" WC="1.0"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
Liens externes
- (en) Site officiel du standard ALTO
- (en) altosearch : outils de recherche dans les documents ALTO avec contexte par la Bibliothèque nationale de Luxembourg
Articles connexes
Notes et références
- Projet Européen METAe
- « What is the point of an online interactive OCR text editor? | Fenno-Ugrica », sur blogs.helsinki.fi (consulté le )
- The Winchester news. (Winchester, Ky.)