ePADD
ePADD est un logiciel open source conçu pour aider les institutions mémorielles (bibliothèques, archives, musées, etc.) à sélectionner, traiter et communiquer des archives constituées de courriers électroniques.
Développé par | Stanford University Libraries Department of Special Collections and University Archives (d) et ePADD Program (d) |
---|---|
Dernière version | 10.0.5 ()[1] |
Version avancée | 7 beta2 ()[2] |
DĂ©pĂ´t | github.com/ePADD/epadd |
État du projet | développement actif |
Écrit en | Java et JavaScript |
Système d'exploitation | Ubuntu, Windows 10, macOS Mojave et macOS Catalina |
Environnement | Machine virtuelle Java |
Formats lus | Mbox |
Formats Ă©crits | BagIt (en) et Mbox |
Type | Archivage des courriels (en) |
Licence | Licence Apache version 2.0 |
Site web | library.stanford.edu/projects/epadd |
DĂ©veloppement
ePADD (pour : Email: Process, Appraise, Discover, Deliver) est développé par les bibliothèques de l’université Stanford sous licence libre, avec pour partenaires l’université de l’Illinois à Urbana-Champaign, le METRO (Metropolitan New York Library Council), l’université Harvard et l’université de Californie à Irvine. Il s’appuie notamment sur les technologies du traitement automatique du langage naturel pour explorer un corpus de courriers électroniques[3].
La première version d'ePADD date de 2015 ; son développement a donné lieu à plusieurs versions successives (en décembre 2018, la dernière version stable est la v. 6.1). Il fonctionne sous Windows, Mac OS et Ubuntu et son interface est accessible via les navigateurs Mozilla Firefox et Google Chrome. Le 29 novembre 2018, ePADD a reçu le prix « Digital Preservation Award 2018 » pour la recherche et l’innovation, décerné par la Digital Preservation Coalition (en)[4].
Les modules
Le logiciel propose quatre modules :
- Le module Sélection (« Appraisal ») permet au donateur et au représentant de l'institution de conservation d'explorer le contenu d'une messagerie électronique afin d'identifier quels messages doivent être conservés à long terme ;
- Le module Traitement (« Process ») permet à un agent de l'institution de conservation de réaliser des opérations préalables au versement de la collection de messages ;
- Le module Recherche (« Discovery ») permet à un chercheur, une fois la collection versée, d'obtenir une vue d'ensemble des contenus afin d'évaluer l'intérêt de la collection au regard de ses recherches ;
- Le module Communication (« Delivery ») permet au chercheur, une fois accrédité, de consulter dans l'enceinte de l'institution de conservation l'ensemble de la collection de messages.
Module SĂ©lection
Le module Sélection s’installe sur la machine du donateur ou celle de l’agent de l’institution de conservation. Il est conçu pour être utilisé par un binôme constitué du donateur et d’un archiviste ou bibliothécaire. Il traite des collections contenant jusqu’à 750 000 messages[5]. Il intègre des outils d’analyse et de recherche permettant
- d'importer tout ou partie d’une ou plusieurs messageries soit à partir de fichiers MBOX, soit en se connectant directement au serveur de messagerie via le protocole IMAP ;
- de détecter et d'ignorer les messages en doublons[6] ;
- d’effectuer une extraction d’entités nommées sur le corpus importé grâce à l’interrogation de la base DBpedia ;
- de rechercher des informations sensibles ou privées par lexiques prédéfinis ou par expressions régulières (pour repérer des numéros de sécurité sociale par exemple) ;
- d’explorer la collection par dossiers, entités repérées, destinataires et expéditeurs et pièces jointes images ;
- de réaliser une analyse du format des pièces jointes à l’aide de l’outil embarqué Apache Tika ;
- de réaliser une sélection d’e-mails à transférer à l’institution de conservation
- tout en définissant éventuellement pour certains messages des restrictions comme une durée d’incommunicabilité.
Lorsque les courriers électroniques à transférer à l’institution de conservation ont été sélectionnés, le module exporte le tout sous forme d’un fichier conteneur BagIt (en) au module suivant.
Module Traitement
Le module Traitement s’installe sur le poste de l’agent de l’institution de conservation. Il permet à celui-ci de :
- réaliser un second tri dans les messages ;
- éditer les correspondants du titulaire de la boîte de messagerie et les aligner avec des fichiers d’autorité ;
- annoter les messages.
A l'issue de cette étape, le fichier BagIt exporté par le module est prêt à être versé dans l'entrepôt de préservation numérique de l'institution.
Module Recherche
Les collections de courriers électroniques sont généralement diffusées exclusivement sur accréditation et dans l’enceinte de l’institution de conservation. En complément d’une description dans un instrument de recherche archivistique, le module optionnel Recherche est conçu pour fournir à distance au chercheur un aperçu des sujets abordés par la collection avant qu’il ne décide de se déplacer dans l’institution de conservation[7]. Il s’installe donc sur un serveur. Il permet au chercheur de :
- connaître tous les correspondants du titulaire de la boîte de messagerie ;
- visualiser l’ensemble des entités apparaissant dans les messages ;
- réaliser une recherche plein texte qui fournira le nombre de messages, ainsi qu’une vue expurgée des messages où seuls apparaissent les métadonnées du message, la chaîne de caractères recherchée et les entités repérées.
Module Communication
Le module Communication s’installe sur un poste professionnel en salle de lecture de l’institution de conservation. Il permet d’avoir accès à l’intégralité des contenus de la collection : contenu des messages, métadonnées et pièces jointes.
Notes
- « Release 10.0.5 », (consulté le )
- « Release v7 beta2 », (consulté le )
- (en) Council on Library and Information Resources, « The Future of Email Archives: a Report from the Task Force on Technical Approaches for Email Archives », (consulté le )
- (en) « Digital Preservation Awards 2018 – Winners Announced! », (consulté le )
- (en) Josh Schneider, Peter Chan, Glynn Edwards et Sudheendra Hangal, « ePADD: Computational Analysis Software Facilitating Screening, Browsing, and Access for Historically and Culturally Valuable Email Collections », D-Lib Magazine, vol. 23, nos 5/6,‎ (ISSN 1082-9873, DOI 10.1045/may2017-schneider, lire en ligne, consulté le )
- Sudheendra Hangal, Vihari Piratla, Chaiyasit Manovit et Peter Chan, « Historical Research Using Email Archives », Proceedings of the 33rd Annual ACM Conference Extended Abstracts on Human Factors in Computing Systems, ACM, cHI EA '15,‎ , p. 735–742 (ISBN 9781450331463, DOI 10.1145/2702613.2702976, lire en ligne, consulté le )
- On trouvera sur le site des bibliothèques de l'université de Stanford des exemples de collections de messages consultables via le module Recherche. Ainsi, celle de Robert Creeley est accessible sur https://epadd.stanford.edu/epadd/collection-detail?id=ePADD%20archive%20of%20Robert%20Creeley-Discovery
Liens externes
- (en) « ePADD », sur Stanford Libraries (consulté le )
- (en) « ePADD Installation and User Guide », (consulté le )