dmoz Comment ça marche une recherche Google ? - Dmoz.fr | Actualité insolite
Aller au contenu

Comment ça marche une recherche Google ?

Tout le monde connaît Google… Ce nom est même devenu synonyme de recherche sur Internet. Pour beaucoup, la page d'accueil de Google est la porte d'entrée sur le monde du World Wide Web. L'aspect très dépouillé de cette page d'accueil n'est pas un hasard : elle symbolise la page blanche que Google va remplir avec les résultats de la recherche que vous allez lancer.

Le Web ressemble beaucoup à l'univers qui nous entoure : pratiquement infini et en constante expansion. Avec en son sein des galaxies de sites, de pages, de services et de contenus avec lesquels l'internaute interagit. Cette quasi-infinité de ressources a un défaut : personne n'est capable de concevoir une carte précise de cet univers en constante évolution. A défaut, Google met en oeuvre des technologies plutôt astucieuses pour vous servir de guide lors de votre navigation sur le Web. Préparez-vous au décollage…

Un internaute pense généralement que lorsqu'il tapent une requête sur Google, celui-ci effectue une recherche sur tout Internet. Ce qui n'est pas le cas. En fait, vous effectuez une recherche sur un index du Web créé par Google. Un index qui ne répertorie certes pas l'intégralité du Web – c'est mission impossible ! – mais en classe tout de même une partie non négligeable. Concrètement, l'index de Google est l'une des plus importantes bases de données au monde, recensant des centaines de milliards de pages Web et les stockant sur des milliers de serveurs de par le monde.

Comment Google construit-il cet index ? Comment fait-il en sorte qu'il permette de proposer des résultats pertinents aux internautes ? La technologie Google s'appuie sur des programmes connus sous le nom de robot d'indexation, les Googlebots – on parle aussi « d'araignée du Web », de l’anglais, « Web crawler ». Ces robots parcourent automatiquement Internet à la recherche de pages Web ou de toutes autres ressources disponibles sur le réseau (documents pdf, vidéos, photos, etc.), permettant au moteur de recherche de les indexer.

Dans la pratique, un robot démarre son exploration du Web à partir d'un mot de base, par exemple « marmite ». Il va probablement commencer par rechercher un site tel que www.marmite.com puis l'explorer. A partir de cette recherche de base, « l'araignée » va se mettre à « dévider la pelote », en parcourant les liens présents sur cette page, qu'ils dirigent vers des ressources du même site ou d'un autre site sur Internet, tissant une toile d'araignée de sites proposant des contenus similaires. Le robot construit ainsi un réseau de pages liées les unes aux autres. Ces liaisons sont régulièrement mises à jour par le biais de nouvelles recherches effectuées par ces robots.

Voyons maintenant comment Google agit dans la pratique à partir d'une recherche, par exemple « sandwich jambon beurre ». Tapez ces mots et appuyez sur Entrée.

Le gestionnaire de requêtes de Google se met alors au travail, parcourant ses index à la recherche des résultats pertinents. En premier lieu, il lui faut trouver comment éliminer ce qui ne concerne pas la recherche, par exemple les pages consacrées aux Îles Sandwich. Pour cela, il se « pose des questions », tentant d’opérer un tri dans les immenses masses de données auxquelles il est confronté selon une forme de logique humaine. Il commence par regarder si les mots-clés tapés par l'internaute apparaissent tous dans l'adresse ou le titre d’un site Web. Puis il regarde le nombre de fois où ces mots apparaissent dans l'ordre où ils ont été tapés. Il va également rechercher les pages contenant des synonymes de « sandwich jambon beurre » par exemple « sandwich mixte » ou « panini jambon ». Dans le même temps, il va également se charger d'écarter les sites reconnus comme étant des spams ou contenant virus ou autres logiciels malveillants.

La phase suivante est la classification des pages selon leur importance. Pour ce faire, une valeur est attribuée à chaque site Web, le « PageRank ». Elle est calculée selon un algorithme (méthode de calcul) propre à Google

Voyons comment cela se passerait pour un site imaginaire tel que jambon_beurre.com. Son PageRank est obtenu :

1. en comptabilisant le nombre de pages d'autres sites proposant un lien pointant vers jambon_beurre.com. Par exemple, 100 pages externes pourraient pointer jambon_beurre.com.

2. en regardant le PageRank de ces pages pointant vers jambon_beurre.com – plus le PageRank des pages pointant vers un site est élevé, plus la cible aura un PageRank élevé. Si Le Monde a écrit un billet sur jambon_beurre.com, il en résultera une note plus élevée que si le lien provient d’un site inconnu.

Cette opération de calcul du PageRank est réalisée en quelques dizièmes de seconde…

Et si Google était payé pour présenter en tête de liste des résultats le site jambon_beurre.com demandent parfois certains internautes ? En réalité, ce n'est pas le cas. Les résultats proposés par Google sont impartiaux.

Si une entreprise veut payer Google pour acquérir une meilleure visibilité, elle peut acheter des liens commerciaux (les Google Ads) qui lui permettront de figurer dans un espace délimité au-dessus de la liste de résultats ou dans la colonne de droite de cette page à chaque requête portant sur des mots-clés auxquels elle a associé ses pages (“sandwich jambon beurre” dans notre exemple).

Il ne vous reste plus qu'à parcourir la liste des résultats. Suffit-il de cliquer sur le premier résultat ? Ce n'est pas toujours la solution la plus efficace.

Il est préférable de lire le résumé de la page, sous le titre. Ce résumé est fourni par le site lui-même et il est utilisé par Google pour son indexation. Il fournit généralement une bonne idée du contenu de la page.

Juste sous ce résumé, vous pourrez utiliser le lien En cache si vous souhaitez comparer la version actuelle d'une page et celle conservée en mémoire par Google lors du dernier passage de son robot sur le site. Cette version est stockée sur des serveurs Google et c'est son contenu qui est utilisé par Google pour établir son classement. Si un site tarde à s'afficher lorsque vous cliquez sur son adresse dans la liste des résultats fournie par Google, vous pourrez toujours passer par cette version en cache pour accélérer le mouvement !

Pour sa part, le lien Pages similaires, comme son nom l'indique, propose des pages proches de celle sélectionnée. À la base, Google part du principe que, souvent, l'internaute ne sait ce qu'il cherche exactement qu'après l'avoir trouvé. Il met donc en œuvre des algorithmes spécifiques pour déterminer des mots-clés et des pages qui puissent correspondre à cette recherche.

Vous pouvez aller encore plus loin dans cette direction en utilisant les fonctions de Recherche avancée ou si vous tapez dans la zone de saisie “related:URL”, où URL sera l'adresse du site Web servant de base de comparaison, par exemple jambon_beurre.com.

Une fois familiarisé avec les options de recherche de Google, vous pouvez affiner vos recherches ou en modifier les paramètres, afin de privilégier les résultats apparaissant en français ou de bloquer les contenus pornographiques (via l'option SafeSearch). Il ne vous restera ensuite qu'à profiter au quotidien des résultats que Google vous proposera en réponse à vos requêtes.

 

Extrait du magazine Comment ça marche – n°5

-