Accueil🇫🇷Chercher

Lien mort

Un lien mort, lien brisé, lien cassé ou lien rompu est un lien hypertexte qui redirige vers un site web ou une page web n'existant plus. À l'échelle du Web, le phénomène correspond au pourrissement des liens, connu en anglais sous le nom de link rot.

Erreur 404 sur le site de la Maison-Blanche.

Causes

Un lien peut rompre pour plusieurs raisons. L'explication la plus simple et la plus courante est que la page web n'existe plus, ce qui mène, la plupart du temps, à une erreur HTTP 404, qui indique que le serveur a bien répondu mais que la page précise est introuvable. D'autres codes de retour sont possibles aussi, la page peut avoir été déplacée ou renommée sur le serveur, ou le serveur lui-même avoir été déplacé ou renommé[1].

Les autres raisons qui font qu'un lien est cassé incluent :

  • La restructuration d'un site internet qui entraĂ®ne un changement d'URL (par exemple domain.net/pine_tree peut devenir domain.net/tree/pine).
  • La relocalisation d'un contenu autrefois gratuit derrière un paywall.
  • Un changement dans l'architecture du serveur qui engendre un code tel que PHP ne fonctionne pas.
  • Le changement du design de contenus dynamiques d'une page, comme les rĂ©sultats de recherche.
  • La prĂ©sence dans le lien URL d'une information spĂ©cifique Ă  un utilisateur (comme le nom de connexion).
  • Un blocage intentionnel via des filtres de contenus ou des pare-feux.
  • La suppression des gTLD (generic top-level domain, ou domaine gĂ©nĂ©rique de premier niveau en français)[2].

Prévalence

Capture d'Ă©cran Page Not Found
Capture d'Ă©cran Page Not Found

Plusieurs études ont examiné la prévalence de liens rompus sur le Web, parmi la littérature académique et les bibliothèques numériques[3] - [4]. En 2003, l'expérience faite par Fetterly et al.[5] découvrit que chaque semaine environ un lien sur 200 cessait d'être valide. Nelson et Allen (2002)[6] examinèrent le pourrissement des liens dans les bibliothèques numériques et trouvèrent que 3 % d'objets ne furent plus accessibles après une année.

En 2004, une autre Ă©tude a montrĂ© que les sous-ensembles de liens internet (qui cible des types de fichiers spĂ©cifiques ou qui sont hĂ©bergĂ©s par des institutions acadĂ©miques) pourrait avoir des vies effectives radicalement diffĂ©rentes[7]. Les URL de publications paraissent avoir une longĂ©vitĂ© plus longue sur Internet que les autres URL. Une Ă©tude de 2015 menĂ©e par Weblock a analysĂ© plus de 180 000 liens de ressources dans le corpus de trois principaux Ă©diteurs en libre accès, et a conclu a une durĂ©e de vie moyenne de 14 ans, confirmant une Ă©tude de 2005 qui concluait que la moitiĂ© des URL trouvĂ©es dans les articles du Magazine D-Lib Ă©taient encore actives 10 ans après leur publication[8] - [9]. D'autres Ă©tudes ont trouvĂ© un taux de liens pourris plus Ă©levĂ© dans la littĂ©rature acadĂ©mique, mais montrent une espĂ©rance de vie d'au moins quatre ans[10] - [11] Une Ă©tude de la BMC Bioinformatics a analysĂ© près de 15 000 liens dans les rĂ©sumĂ©s de citations indexĂ©es de Thomson Reuteur Web of Science, et a conclu que la durĂ©e de vie mĂ©diane d'une page internet Ă©tait de 9,3 annĂ©es, et que seulement 62% des pages Ă©taient archivĂ©es[12].

Une étude menée en 2016-2017 sur les liens Yahoo! Directory (l'annuaire de Yahoo! qui a arrêté d'être mis à jour en 2014, après 21 ans de développement), a conclu que la durée de vie effective des liens était de deux ans[13].

Prévention et détection

Les stratégies pour prévenir des liens pourris peuvent se concentrer sur où situer le contenu afin que la probabilité qu'il y demeure est la plus élevée, ainsi qu'utiliser des liens d'autorité qui ont moins de probabilité d'être cassé, ou encore réparer les liens dont la cible a été supprimée ou relogée.

La création d'URLs qui ne changeront pas avec le temps est la méthode fondamentale afin de se prévenir de liens pourris. Tim Berners-Lee et d'autres pionniers d'Internet sont les champions de la planification préventive[14].

Les stratégies relatives à l'autorité des liens incluent :

  • Faire des liens vers des sources primaires plutĂ´t que secondaires, et prioriser les sites stables.
  • Eviter les liens qui pointent vers des ressources sur les pages personnelles des chercheurs[9].
  • Utiliser des URL propres, sinon avoir recours Ă  des URL normalisĂ©es ou des URL canoniques[15].
  • Avoir recours Ă  des liens permanents (permalink) et identificateurs persistants du type ARK, DOI, les rĂ©fĂ©rences Handle System, et les PURL.
  • Eviter les liens vers les documents autres que des pages web[15].
  • Eviter les liens profonds.
  • Faire des liens vers des sites Internet d'archives[16] comme Internet Archives, WebCite, Archive.is, Perma.cc, ou Amber[17] - [18] - [19] - [20] - [21].

Les stratégies relevant de la protection de liens existants incluent :

  • L'usage de mĂ©canisme de liaison du type HTTP 301, pour renvoyer les navigateurs et les crawlers vers le contenu dĂ©placĂ©.
  • L'usage de systèmes de management de contenu qui peuvent automatiquement mettre Ă  jour les liens lorsque le contenu du mĂŞme site est dĂ©placĂ©, ou automatiquement remplacer les liens vers une URL canonique.
  • IntĂ©grer des ressources de recherche dans les pages HTTP 404[22].

La détection de liens cassés peut être faite manuellement ou automatiquement. Les méthodes automatiques incluent des plug-ins pour systèmes de management, ainsi que des vérificateurs autonomes de liens cassés, tel que Xenu's Link Sleuth. La vérification automatique peut ne pas détecter des liens qui renvoie vers du 404, ou des liens qui retourne une réponse 202 OK mais pointent vers du contenu qui a changé[23].

Références

  1. (en) P. Habibzadeh, « Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals », Applied Clinical Informatics, vol. 4, no 4,‎ (DOI 10.4338/aci-2013-07-ra-0055, lire en ligne, consulté le )
  2. « The death of a TLD » [archive du ], sur blog.benjojo.co.uk (consulté le )
  3. P. Habibzadeh, « Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals », Applied Clinical Informatics, vol. 4, no 4,‎ , p. 455–464 (PMID 24454575, PMCID 3885908, DOI 10.4338/aci-2013-07-ra-0055)
  4. « Hiberlink » [archive du ], Hiberlink.org (consulté le )
  5. (en) Dennis Fetterly, Mark Manasse, Marc Najork et Janet Wiener, « A large-scale study of the evolution of web pages », WWW '03 Proceedings of the 12th international conference on World Wide Web,‎ , p. 669-678 (ISBN 1-58113-680-3, DOI 10.1145/775152.775246, lire en ligne)
  6. (en) Michael L. Nelson et B. Danette Allen, « Object Persistence and Availability in Digital Libraries », D-Lib Magazine, vol. 8, no 1,‎ (DOI 10.1045/january2002-nelson)
  7. Wallace Koehler, « A longitudinal study of web pages continued: a consideration of document persistence », Information Research, vol. 9, no 2,‎ (lire en ligne [archive du ], consulté le )
  8. « All-Time Weblock Report » [archive du ], (consulté le )
  9. Frank McCown, Sheffan Chan, Michael L. Nelson et Johan Bollen « The Availability and Persistence of Web References in D-Lib Magazine » () (lire en ligne, consulté le )
    — « (ibid.) », dans Proceedings of the 5th International Web Archiving Workshop and Digital Preservation (IWAW'05)
  10. Diomidis Spinellis, « The Decay and Failures of Web References », Communications of the ACM, vol. 46, no 1,‎ , p. 71–77 (DOI 10.1145/602421.602422, CiteSeerx 10.1.1.12.9599, lire en ligne)
  11. Steve Lawrence, David M. Pennock, Gary William Flake, Robert Krovetz, Frans M. Coetzee, Eric Glover, Finn Arup Nielsen, Andries Kruger et C. Lee Giles, « Persistence of Web References in Scientific Research », Computer, vol. 34, no 2,‎ , p. 26–31 (DOI 10.1109/2.901164, CiteSeerx 10.1.1.97.9695)
  12. Jason Hennessey et Steven Xijin Ge, « A Cross Disciplinary Study of Link Decay and the Effectiveness of Mitigation Techniques », BMC Bioinformatics, vol. 14,‎ , S5 (PMID 24266891, PMCID 3851533, DOI 10.1186/1471-2105-14-S14-S5)
  13. Hans van der Graaf, « The half-life of a link is two year » [archive du ], sur ZOMDir's blog (consulté le )
  14. Tim Berners-Lee, « Cool URIs Don't Change » [archive du ], (consulté le )
  15. Leighton Walter Kille, « The Growing Problem of Internet "Link Rot" and Best Practices for Media and Online Publishers » [archive du ], Journalist's Resource, Harvard Kennedy School, (consulté le )
  16. Les systèmes de conservation peuvent rencontrer des interruptions de leur service, rendant donc les URL temporairement indisponibles.
  17. Parham Habibzadeh, « Are current archiving systems reliable enough? », International Urogynecology Journal, vol. 26, no 10,‎ , p. 1553 (ISSN 0937-3462, PMID 26224384, DOI 10.1007/s00192-015-2805-7)
  18. « Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine » [archive du ], (consulté le )
  19. Gunther Eysenbach et Mathieu Trudel, « Going, going, still there: Using the WebCite service to permanently archive cited web pages », Journal of Medical Internet Research, vol. 7, no 5,‎ , e60 (PMID 16403724, PMCID 1550686, DOI 10.2196/jmir.7.5.e60)
  20. Jonathan Zittrain, Kendra Albert et Lawrence Lessig, « Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations », Legal Information Management, vol. 14, no 2,‎ , p. 88–99 (DOI 10.1017/S1472669614000255, lire en ligne)
  21. « Harvard University's Berkman Center Releases Amber, a "Mutual Aid" Tool for Bloggers & Website Owners to Help Keep the Web Available | Berkman Center » [archive du ], sur cyber.law.harvard.edu (consulté le )
  22. John Mueller, « FYI on Google Toolbar's Latest Features » [archive du ], Google Webmaster Central Blog, (consulté le )
  23. Ziv Bar-Yossef, Andrei Z. Broder, Ravi Kumar et Andrew Tomkins « Sic transit gloria telae: towards an understanding of the Web's decay » () (DOI 10.1145/988672.988716, CiteSeerx 10.1.1.1.9406)
    — « (ibid.) », dans Proceedings of the 13th international conference on World Wide Web – WWW '04 (ISBN 978-1581138443), p. 328–337

Voir aussi

Articles connexes

Bibliographie

  • (en) John Markwell et David W. Brooks, « Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks », Journal of Science Education and Technology, vol. 11, no 2,‎ , p. 105-108 (DOI 10.1023/A:1014627511641)
  • (en) Daniel Gomes et Mário J. Silva « Modelling Information Persistence on the Web » () (lire en ligne)
    —ICWE'06
  • (en) Robert P. Dellavalle, Eric J. Hester, Lauren F. Heilig, Amanda L. Drake, Jeff W. Kuntzman, Marla Graber et Lisa M. Schilling, « Going, Going, Gone: Lost Internet References », Science, vol. 302,‎ , p. 787–788 (PMID 14593153, DOI 10.1126/science.1088234, lire en ligne)
  • (en) Wallace Koehler, « An Analysis of Web Page and Web Site Constancy and Permanence », Journal of the American Society for Information Science, vol. 50, no 2,‎ , p. 162–180 (DOI 10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B)
  • (en) Carmine Sellitto, « The impact of impermanent Web-located citations: A study of 123 scholarly conference publications », Journal of the American Society for Information Science and Technology, vol. 56, no 7,‎ , p. 695–703 (DOI 10.1002/asi.20159, lire en ligne)
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.