Accueil🇫🇷Chercher

ePADD

ePADD est un logiciel open source conçu pour aider les institutions mémorielles (bibliothèques, archives, musées, etc.) à sélectionner, traiter et communiquer des archives constituées de courriers électroniques.

EPADD

Informations
Développé par Stanford University Libraries Department of Special Collections and University Archives (d) et ePADD Program (d)
Dernière version 10.0.5 ()[1]
Version avancée 7 beta2 ()[2]
DĂ©pĂ´t github.com/ePADD/epadd
État du projet développement actif
Écrit en Java et JavaScript
Système d'exploitation Ubuntu, Windows 10, macOS Mojave et macOS Catalina
Environnement Machine virtuelle Java
Formats lus Mbox
Formats Ă©crits BagIt (en) et Mbox
Type Archivage des courriels (en)
Licence Licence Apache version 2.0
Site web library.stanford.edu/projects/epadd

DĂ©veloppement

ePADD (pour : Email: Process, Appraise, Discover, Deliver) est développé par les bibliothèques de l’université Stanford sous licence libre, avec pour partenaires l’université de l’Illinois à Urbana-Champaign, le METRO (Metropolitan New York Library Council), l’université Harvard et l’université de Californie à Irvine. Il s’appuie notamment sur les technologies du traitement automatique du langage naturel pour explorer un corpus de courriers électroniques[3].

La première version d'ePADD date de 2015 ; son développement a donné lieu à plusieurs versions successives (en décembre 2018, la dernière version stable est la v. 6.1). Il fonctionne sous Windows, Mac OS et Ubuntu et son interface est accessible via les navigateurs Mozilla Firefox et Google Chrome. Le 29 novembre 2018, ePADD a reçu le prix « Digital Preservation Award 2018 » pour la recherche et l’innovation, décerné par la Digital Preservation Coalition (en)[4].

Les modules

Le logiciel propose quatre modules :

  • Le module SĂ©lection (« Appraisal ») permet au donateur et au reprĂ©sentant de l'institution de conservation d'explorer le contenu d'une messagerie Ă©lectronique afin d'identifier quels messages doivent ĂŞtre conservĂ©s Ă  long terme ;
  • Le module Traitement (« Process ») permet Ă  un agent de l'institution de conservation de rĂ©aliser des opĂ©rations prĂ©alables au versement de la collection de messages ;
  • Le module Recherche (« Discovery ») permet Ă  un chercheur, une fois la collection versĂ©e, d'obtenir une vue d'ensemble des contenus afin d'Ă©valuer l'intĂ©rĂŞt de la collection au regard de ses recherches ;
  • Le module Communication (« Delivery ») permet au chercheur, une fois accrĂ©ditĂ©, de consulter dans l'enceinte de l'institution de conservation l'ensemble de la collection de messages.

Module SĂ©lection

Le module SĂ©lection s’installe sur la machine du donateur ou celle de l’agent de l’institution de conservation. Il est conçu pour ĂŞtre utilisĂ© par un binĂ´me constituĂ© du donateur et d’un archiviste ou bibliothĂ©caire. Il traite des collections contenant jusqu’à 750 000 messages[5]. Il intègre des outils d’analyse et de recherche permettant

  • d'importer tout ou partie d’une ou plusieurs messageries soit Ă  partir de fichiers MBOX, soit en se connectant directement au serveur de messagerie via le protocole IMAP ;
  • de dĂ©tecter et d'ignorer les messages en doublons[6] ;
  • d’effectuer une extraction d’entitĂ©s nommĂ©es sur le corpus importĂ© grâce Ă  l’interrogation de la base DBpedia ;
  • de rechercher des informations sensibles ou privĂ©es par lexiques prĂ©dĂ©finis ou par expressions rĂ©gulières (pour repĂ©rer des numĂ©ros de sĂ©curitĂ© sociale par exemple) ;
  • d’explorer la collection par dossiers, entitĂ©s repĂ©rĂ©es, destinataires et expĂ©diteurs et pièces jointes images ;
  • de rĂ©aliser une analyse du format des pièces jointes Ă  l’aide de l’outil embarquĂ© Apache Tika ;
  • de rĂ©aliser une sĂ©lection d’e-mails Ă  transfĂ©rer Ă  l’institution de conservation
  • tout en dĂ©finissant Ă©ventuellement pour certains messages des restrictions comme une durĂ©e d’incommunicabilitĂ©.

Lorsque les courriers électroniques à transférer à l’institution de conservation ont été sélectionnés, le module exporte le tout sous forme d’un fichier conteneur BagIt (en) au module suivant.

Module Traitement

Le module Traitement s’installe sur le poste de l’agent de l’institution de conservation. Il permet à celui-ci de :

  • rĂ©aliser un second tri dans les messages ;
  • Ă©diter les correspondants du titulaire de la boĂ®te de messagerie et les aligner avec des fichiers d’autoritĂ© ;
  • annoter les messages.

A l'issue de cette étape, le fichier BagIt exporté par le module est prêt à être versé dans l'entrepôt de préservation numérique de l'institution.

Module Recherche

Les collections de courriers électroniques sont généralement diffusées exclusivement sur accréditation et dans l’enceinte de l’institution de conservation. En complément d’une description dans un instrument de recherche archivistique, le module optionnel Recherche est conçu pour fournir à distance au chercheur un aperçu des sujets abordés par la collection avant qu’il ne décide de se déplacer dans l’institution de conservation[7]. Il s’installe donc sur un serveur. Il permet au chercheur de :

  • connaĂ®tre tous les correspondants du titulaire de la boĂ®te de messagerie ;
  • visualiser l’ensemble des entitĂ©s apparaissant dans les messages ;
  • rĂ©aliser une recherche plein texte qui fournira le nombre de messages, ainsi qu’une vue expurgĂ©e des messages oĂą seuls apparaissent les mĂ©tadonnĂ©es du message, la chaĂ®ne de caractères recherchĂ©e et les entitĂ©s repĂ©rĂ©es.

Module Communication

Le module Communication s’installe sur un poste professionnel en salle de lecture de l’institution de conservation. Il permet d’avoir accès à l’intégralité des contenus de la collection : contenu des messages, métadonnées et pièces jointes.

Notes

  1. « Release 10.0.5 », (consulté le )
  2. « Release v7 beta2 », (consulté le )
  3. (en) Council on Library and Information Resources, « The Future of Email Archives: a Report from the Task Force on Technical Approaches for Email Archives », (consulté le )
  4. (en) « Digital Preservation Awards 2018 – Winners Announced! », (consulté le )
  5. (en) Josh Schneider, Peter Chan, Glynn Edwards et Sudheendra Hangal, « ePADD: Computational Analysis Software Facilitating Screening, Browsing, and Access for Historically and Culturally Valuable Email Collections », D-Lib Magazine, vol. 23, nos 5/6,‎ (ISSN 1082-9873, DOI 10.1045/may2017-schneider, lire en ligne, consulté le )
  6. Sudheendra Hangal, Vihari Piratla, Chaiyasit Manovit et Peter Chan, « Historical Research Using Email Archives », Proceedings of the 33rd Annual ACM Conference Extended Abstracts on Human Factors in Computing Systems, ACM, cHI EA '15,‎ , p. 735–742 (ISBN 9781450331463, DOI 10.1145/2702613.2702976, lire en ligne, consulté le )
  7. On trouvera sur le site des bibliothèques de l'université de Stanford des exemples de collections de messages consultables via le module Recherche. Ainsi, celle de Robert Creeley est accessible sur https://epadd.stanford.edu/epadd/collection-detail?id=ePADD%20archive%20of%20Robert%20Creeley-Discovery

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.