AccueilđŸ‡«đŸ‡·Chercher

Google hacking

Le Google hacking est une technique consistant Ă  utiliser un moteur de recherche, gĂ©nĂ©ralement Google, en vue de chercher des vulnĂ©rabilitĂ©s ou de rĂ©cupĂ©rer des donnĂ©es sensibles. Cette technique s'appuie sur les rĂ©sultats de l'exploration et de l'indexation des sites web par le robot Googlebot. Elle est gĂ©nĂ©ralement utilisĂ©e par les hackers ou crackers. Ainsi, en entrant des requĂȘtes adĂ©quates, il est possible d'accĂ©der Ă  des pages qui ne sont pas une partie du site web normalement accessible au public. Certains sites web contiennent des informations sensibles telles que le nom d'utilisateur, mot de passe et autres donnĂ©es confidentielles. Une affaire connue de Google hacking est le cas des mots de passe et noms d'utilisateurs pour l'accĂšs au rĂ©seau Wi-Fi qui ont Ă©tĂ© exposĂ©s par des utilisateurs malveillants sur Google. Ces informations ont ensuite Ă©tĂ© utilisĂ©es pour accĂ©der aux rĂ©seaux sans fil et voler des donnĂ©es confidentielles.

RequĂȘtes spĂ©ciales

Dans la pratique, le Google hacking se fait en entrant des requĂȘtes spĂ©ciales dans le moteur de recherche, qui possĂšde de nombreuses fonctionnalitĂ©s souvent mĂ©connues, parmi lesquelles :

  • site:abc permet de chercher un site internet contenant le mot abc
  • cache:abc.com ira chercher le site abc.com dans le cache de Google
  • intext:abc permet de chercher une page web dont le texte contient le mot abc
  • intitle:abc permet de chercher une page web dont le titre contient le mot abc
  • inurl:abc permet de chercher une page web dont l'URL contient le mot abc
  • inanchor:abc permet de chercher une page web avec une ancre contenant le mot abc
  • filetype:docx abc permet de chercher un document Microsoft Word sur le thĂšme de abc.
  • related:abc.com permet de chercher des sites connexes du site abc.com
  • link:abc.com permet de chercher des sites liĂ©s au site abc.com
  • daterange:{date de dĂ©but}-{date de fin} permet de sĂ©lectionner uniquement les documents indexĂ©s par Google pendant une pĂ©riode donnĂ©e (spĂ©cificitĂ©, les dates doivent ĂȘtre des nombres entiers, au format jour Julien)
  • allinurl:abc def permet de chercher une page web dont l'URL contient les mots abc et def (les mots doivent ĂȘtre sĂ©parĂ©s par un espace)
  • allintitle:abc def permet de chercher une page web dont le titre contient les mots abc et def
  • allinanchor:abc def permet de chercher une page web avec une ancre (hyperlien) contenant les mots abc et def
  • allintext:abc def permet de chercher une page web dont le texte contient les mots abc et def
  • info:abc.com permet d'afficher l'information connue par Google sur le site abc.com.
  • link:fr.abc.com permet de chercher des pages pointant le site internet de abc en français
  • inhoud:abc permet de chercher les pages contenant le mot abc
  • site:nl abc permet de chercher les pages contenant le mot abc dans un site web nĂ©erlandais
  • site:fr abc permet de chercher les pages contenant le mot abc dans un site web français
  • site:br abc permet de chercher les pages contenant le mot abc dans un site web brĂ©silien
  • site:edu abc permet de chercher les pages contenant le mot abc dans un site web appartenant Ă  une universitĂ© ou Ă©cole

Exemples

  • Rechercher des fichiers sur le thĂšme de la SĂ©curitĂ© au format PDF : filetype:pdf sĂ©curitĂ©
  • Rechercher des pages pointant le site internet de WikipĂ©dia : link:fr.wikipedia.org
  • Rechercher des serveurs web autorisant le directory listing[1] : intitle:"index of /"
  • Rechercher de rĂ©pertoires prĂ©cis (exemple admin) des serveurs web autorisant le directory listing : intitle:"index of /*admin*"
  • Rechercher des pages contenant le mot de passe admin et situĂ©e dans un site en français : inurl:password admin site:fr
  • Rechercher des pages traitant d'informatique indexĂ©s par Google entre le 23 mai et le 6 juin 2010: informatique daterange:2455340-2455354
  • Rechercher des pages contenant le mot passwd et situĂ©e dans un site en nĂ©erlandais : inhoud:passwd site:nl
  • Rechercher des pages contenant le mot password et situĂ©e dans un site en français : inurl:password site:fr
  • Rechercher une page dont l'URL contient les mots-clĂ©s admin, login, et user : allinurl:"admin login user"
  • Rechercher une page dont le titre contient les mots-clĂ©s admin, login, et user : allintitle:"admin login user"
  • Rechercher une page dont le texte contient les mots-clĂ©s "admin", "login", et "user" : allintext:"admin login user"

Sécurité

Le Google hacking peut ĂȘtre utilisĂ© Ă  des fins malveillantes, telles que l'obtention d'informations confidentielles, l'accĂšs Ă  des donnĂ©es sensibles ou encore l'obtention de contrĂŽle d'un systĂšme informatique.

Pour lutter contre le Google hacking, il convient d'éviter d'exposer des informations sensibles dans les métadonnées, de ne pas afficher des messages d'erreur contenant des informations sensibles et de désactiver l'indexation de certaines pages par Google (notamment celles contenant des informations confidentielles) en ajoutant le tag META noindex[2]. Il consiste à insérer dans le code source HTML de la page à ne pas indexer la balise META suivante : <meta name="robots" content="noindex">

L'avantage du balisage META "noindex" est qu'il n'empĂȘche pas le robot d'explorer le site, de dĂ©tecter les liens et d'en suivre le contenu, ce qui est nĂ©cessaire pour l'indexation des pages. Ce balisage permet en effet de demander au robot de ne pas indexer la page, de ne pas suivre les liens contenus dans cette page et de ne pas afficher le contenu de cette page.

Aussi, il convient de vérifier réguliÚrement que les sites web ne contiennent pas d'informations sensibles. Pour cela, il est possible d'utiliser des outils comme par exemple :

  • Google Hacking Database[3]

DĂ©finitions

Information leakage est une expression désignant une faille de sécurité mettant à disposition des informations qui devraient, par la nature de leur contenu, rester confidentielles.

Information leakage through search engines est une expression dĂ©signant une faille de sĂ©curitĂ© permettant de retrouver, Ă  partir d'un moteur de recherche, des informations qui ne devraient pas ĂȘtre disponibles.

Crawling est l'Ă©tape de traitement d'un moteur de recherche consistant Ă  parcourir le World Wide Web en suivant des liens hypertextes Ă  partir d'une page web.

Indexing est l'étape de traitement d'un moteur de recherche consistant à stocker les informations collectées lors de la phase de crawling et à les traiter pour que celles-ci soient retrouvées rapidement.

Robot est un programme informatique qui effectue automatiquement des tùches répétitives.

Googlebot est le robot d'exploration et d'indexation de Google.

Directory listing est une fonctionnalité d'un serveur web qui permet de lister le contenu d'un répertoire.

Notes et références

  1. « Directory Listing - an overview | ScienceDirect Topics », sur www.sciencedirect.com (consulté le )
  2. « Bloquer l'indexation dans la recherche avec », sur Google Developers (consulté le )
  3. « Google Hacking Database (GHDB) - Hackers For Charity », sur www.hackersforcharity.org

Bibliographie

  • Johnny Long, Google hacking mettez vos donnĂ©es sensibles Ă  l'abri des moteurs de recherche, Dunod, 2005.
  • Matteo Meucci, Andrew Muller, OWASP Testing Guide.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.