dmoz Qu’est ce que le PageRank de Google ? - Dmoz.fr | Actualité insolite
Aller au contenu

Qu’est ce que le PageRank de Google ?

Qu’est-ce qu’une information utile aux yeux d’un internaute ? Comment savoir où elle se situe et comment trier le bon grain de l’ivraie ? Pour le comprendre, en 1996, l’étudiant Sergey Brin travaille longuement à comprendre la structure de liens du Web. Il en vient à la comparer à la façon dont les gens se recommandent mutuellement des informations.

Ensemble, Larry Page et un autre étudiant du nom de Sergey Brin développent diverses formules mathématiques complexes en vue de répondre à la question. Au fil des mois, ces formules vont prendre en compte de plus en plus de facteurs. L’équation porte un nom : PageRank (littéralement : le rang d’une page). Outre le fait qu’elle porte le nom de l’un de ses créateurs, elle fait référence à ce qu’effectue l’algorithme de ce projet de moteur de recherche : les pages se voient attribuées un rang et c’est en vertu d’un tel critère que le résultat d’une requête est affiché. En d’autres termes, la formule sur laquelle repose PageRank est fondée sur la pertinence. Toute l’astuce consiste à déterminer le plus intelligemment possible si une page Web se rapporte à ce qui est recherché ?

Les premiers essais relatifs à PageRank se concrétisent au début de l’année 1997 et paraissent fort satisfaisants. Lorsque l’on tape un mot-clé tel que « Sharon Stone », « football » ou « IBM », les pages proposées en premier sont bel et bien celles qui sont en rapport avec les individus, entreprises ou activités concernées. De ce fait, une requête soumise au filtre de PageRank s’avère extrêmement plus efficace que la même, tapée sur Alta Vista, Lycos ou HotBot.

Il reste à trouver un nom pour ce nouveau moteur de recherche conçu à l’université de Stanford. Les deux garçons ont d’abord pensé à BackRub (frottement à l’envers) , un terme lié au fait que la méthode de classement s’appuie en partie sur les « liens à l’envers » du Web, c’est à dire le nombre de liens qui pointent vers un site donné.

C’est un autre nom qui va pourtant sortir de la réflexion collective. Un nom qui évoque on ne peut mieux le caractère illimité de l’information qui est en train de se constituer sur Internet et qui donne ainsi la mesure du challenge consistant à en extraire une substantifique moelle sur un thème donné. Il s’agit de « googol », même si le terme sera bientôt transformé en « google ».

« Googol » correspond au nombre 10 élevé à la puissance 100, soit le nombre 1 suivi d’une centaine de zéros. Ce terme a été inventé au cours des années 20 par un garçon de neuf ans, Milton Sirotta, neveu du mathématicien Edward Kasner, sur la demande de ce dernier. Il est apparu pour la première fois en 1938 dans un livre rédigé par Kasner, « Les mathématiques et l’imagination. » Le mot googol a été utilisé depuis dans l’enseignement des mathématiques afin de désigner des quantités immenses et donc difficiles à appréhender, bien qu’elles soient différentes de l’infini, comme le nombre de particules sub atomiques présentes dans l’univers ou le nombre de parties qu’il serait possible de réaliser au jeu d’échec. Le mot « googol » a donné naissance à un autre terme, « googolplex » qui désigne une quantité plus grande encore, puisqu’il représente le nombre 10 à la puissance googol.

David Koller, l’un des chercheurs du département informatique de Stanford a raconté comment le nom Google a pris naissance à la suite de plusieurs discussions entre Larry, ses collèges Sean Anderson, Tamara Munzner et Lucas Pereira et d’autres étudiants, lors d’un brainstorming organisé en septembre 1977 :

« Sean et Larry se trouvaient dans le bureau, avec le tableau blanc, en train d’essayer de trouver un nom adéquat, quelque chose qui se réfèrerait à l’indexation d’une immense quantité de données. Sean a alors suggéré le terme ‘googolplex’ et Larry a répondu verbalement avec l’abréviation ‘googol’ (les deux mots font références à des nombres spécifiques extrêmement élevés). Sean était assis devant son ordinateur et il a donc effectué une recherche sur le registre des noms de domaine d’Internet afin de voir si le nom suggéré était encore disponible et s’il était donc possible de l’enregistrer. Or, Sean n’est pas un caïd de l’orthographe et il a commis l’erreur de rechercher le nom épelé ‘google.com’. Il a trouvé qu’il était disponible. Larry apprécié ce nom et dans les heures qui suivent, il l’a enregistré pour lui-même et pour Sergey ».

C’est le 15 septembre 1997 que le nom google.com a ainsi été officiellement enregistré.

 

Du 14 au 18 avril 1998, à Brisbane en Australie, se tient la septième conférence internationale sur le World Wide Web. Sergey Brin et Larry Page figurent parmi les chercheurs qui profitent d’une telle occasion pour présenter leurs travaux. Pour l’occasion, ils ont rédigé un document intitulé « L’anatomie d’un moteur de recherche Web à grande échelle » qu’a publié le département informatique de Stanford.

Sergey Brin et Lawrence Page décrivent le prototype du service qu’ils ont baptisé Google et qui couvre alors 24 millions de pages, soit 147 Go de données. Ils parlent notamment de l’algorithme PageRank, défini pour établir le rang correct d’une page, qui est inhérent à Google.

« Un page peut obtenir un PageRank élevé si de nombreuses pages pointent vers elle, ou bien encore si certaines des pages qui pointent vers elle ont un PageRank élevé. De manière intuitive, les pages couramment citées depuis divers emplacements sur le Web valent le coup d’être visitées. De même, des pages qui n’auraient qu’une seule citation venant de la page d’accueil d’un site tel que Yahoo! méritent généralement une visite. Si la page n’était pas de qualité, ou si le lien n’était plus bon, il est peu probable que Yahoo! y ferait référence. »

L’équation de PageRank prend toutefois en compte plusieurs facteurs tels ceux qui suivent :

« PageRank peut être considéré comme un modèle du comportement de l’utilisateur. Nous assumons ici qu’un surfeur se voit distribuer une page au hasard et qu’il continue de cliquer sur ses liens sans jamais revenir en arrière. Au bout d’un moment, il s’ennuie et démarre sur une autre page distribuée au hasard. La probabilité de visite d’une page par le surfeur est son PageRank. Nous prenons ici en compte un facteur « d », soit la probabilité de voir le surfeur s’ennuyer et demander une autre page au hasard. »

En raison de la piètre qualité des réponses fournies par les moteurs de recherches, certains spécialistes prétendent qu’il faudrait simplement amener les utilisateurs à spécifier de façon plus précise ce qu’ils recherchent, mais Page et Brin n’acceptent pas un tel point de vue : si un utilisateur tape « Bill Clinton », il doit pouvoir s’attendre à trouver une grande quantité de pages donnant des informations de qualité sur le président des Etats-Unis alors en exercice.

Après de longues dissertations sur les subtilités de leur robot qui balaye le Web et la façon dont ses résultats sont analysés, Page et Brin en viennent à décrire le résultats et la performance de Google. Sur ce moteur de recherche particulier, la requête « Bill Clinton » renvoie en premier lieu la page de la Maison Blanche, bien avant de présenter des pages comme « Bill Clinton – non officiel » ou « Bill Clinton – la face sombre ».

« À l’heure actuelle, » expliquent Brin et Page, « la plupart des moteurs de recherches commerciaux ne renvoient pas dans leurs résultats le site de la Maison Blanche, ou bien alors, ils retournent des résultats incorrects. »

« Tous les résultats [de Google] sont des pages de qualité raisonnablement élevée, et de plus, aucun d’entre eux ne correspond à des liens brisés. Cela vient de ce que chacune de ces pages a un PageRank élevé. Par ailleurs, il n’y a pas de résultat relatif à un Bill qui serait autre que Clinton ou à un Clinton qui ne serait pas prénommé Bill. Cela vient du fait que nous attribuons beaucoup d’importance à la proximité des mots recherchés. »

Page et Brin prennent en compte d’autres facteurs tels que la taille de la police utilisée ou le fait qu’un mot soit écrit en majuscules ou minuscules pour pondérer l’importance de sa mention. Les deux étudiants de Stanford ont même pensé à prendre en compte le cas des sites Web qui créent des mots-clés artificiels dans le simple but d’obtenir des visites, par exemple, un site pornographique qui utiliserait des termes tels que « philatélie » ou « régime » pour se faire référencer par le commun des moteurs de recherche. L’algorithme PageRank est conçu de manière à ne répertorier qu’un minimum de sites parasites de ce genre.

Dans leur document de présentation de Google, les deux ingénieurs en herbe expliquent qu’ils ambitionnent de pouvoir analyser efficacement sur un tel modèle 100 millions de pages Web.

Google Inc. ouvre finalement le 7 septembre 1998.

Dès la fin de l’année 2000, Google recense plus de 23 millions de requêtes par jour. Le service a déjà ses fans acharnés qui ne jurent plus que par cet outil de recherche, dont ils louent la qualité des résultats.

Le PageRank va dès lors imposer Google comme le n°1 des moteurs de recherche.

 

Daniel Ichbiah, auteur du livre Les nouvelles superpuissances

 

-
Étiquettes: