Dimanche 5 mai, une petite « bombe » a atterri dans la boîte mail de Rand Fishkin, co-fondateur de Moz : un individu prétendant avoir mis la main sur une fuite massive de documentation API provenant directement de la division Recherche de Google. Selon cet email, des ex-employés de Google ont confirmé l’authenticité de ces documents, et révèlent également des informations croustillantes sur les opérations de recherche de la firme, partagées en catimini.
Là où le bât blesse, c’est que ces révélations jettent un sérieux froid, en cela qu’ils contredisent frontalement plusieurs déclarations publiques des pontes de Google… Et parmi les affirmations démenties, citons l’utilisation de signaux basés sur les clics des utilisateurs, la gestion séparée des sous-domaines dans les classements, l’existence d’un « bac à sable » pour les nouveaux sites, ou encore la prise en compte de l’âge d’un domaine. Google, champion toutes catégories du déni, semble avoir été pris la main dans le sac…
Révélations chocs sur Google
Naturellement, Rand Fishkin était sceptique, et il est facile de comprendre pourquoi : les affirmations de ladite source (qui a préféré rester anonyme) étaient assez extraordinaires. Dans le détail, elle prétendait que durant leurs premières années, l’équipe de recherche de Google avait reconnu le besoin de collecter des données complètes de clickstream (chaque URL visitée par un navigateur) pour un large pourcentage d’utilisateurs du web afin d’améliorer la qualité des résultats de leur moteur de recherche. Un système appelé « NavBoost », mentionné par le VP de la recherche, Pandu Nayak, lors de son témoignage dans le cadre d’un procès du DOJ, avait initialement recueilli des données provenant du PageRank de la barre d’outils Google. Ce désir de collecter davantage de données de clickstream a été une motivation clé pour la création du navigateur Chrome, lancé en 2008.
NavBoost utilise le nombre de recherches pour un mot clé donné pour identifier la demande de recherche tendance, le nombre de clics sur un résultat de recherche (Rand a mené plusieurs expériences à ce sujet de 2013 à 2015), et les clics longs versus les clics courts. Google utilise également l’historique des cookies, les données de connexion de Chrome, et la détection de motifs (référencés dans la fuite comme des clics « non écrasés » versus « écrasés ») comme moyens efficaces pour lutter contre le spam de clics manuel et automatisé.
NavBoost évalue également les requêtes en fonction de l’intention de l’utilisateur. Par exemple, certains seuils d’attention et de clics sur des vidéos ou des images déclencheront des fonctionnalités de vidéo ou d’image pour cette requête et les requêtes associées à NavBoost. Google examine aussi les clics et l’engagement sur les recherches pendant et après la requête principale : par exemple, si de nombreux utilisateurs recherchent « Rand Fishkin », ne trouvent pas SparkToro, et modifient immédiatement leur requête pour « SparkToro » et cliquent sur SparkToro.com dans les résultats de recherche, SparkToro.com (et les sites mentionnant « SparkToro ») recevront un boost dans les résultats de recherche pour le mot-clé « Rand Fishkin ».
Les dessous de NavBoost : révélations sur l’algorithme secret de Google
NavBoost joue un rôle clé dans l’évaluation de la qualité globale d’un site au niveau de l’hôte, ce que l’informateur anonyme de Rand Fishkin associe peut-être au fameux « Panda » de Google et des experts SEO. Bien entendu, l’évaluation peut entraîner une amélioration ou une dégradation du classement d’un site. D’autres facteurs moins connus entrent également en jeu, comme les pénalités pour les noms de domaine correspondant exactement aux requêtes de recherche non marquées (par exemple, mens-luxury-watches.com ou milwaukee-homes-for-sale.net), un nouveau score « BabyPanda » et des signaux de spam qui sont pris en compte lors de l’évaluation de la qualité.
En outre, NavBoost utilise des données géolocalisées pour ses évaluations, prenant en compte les niveaux pays et état/province, ainsi que l’usage mobile par rapport au bureau. Cependant, en cas de manque de données pour certaines régions ou certains utilisateurs, Google pourrait appliquer universellement le processus aux résultats de recherche. Et pendant la pandémie de Covid-19, Google a utilisé des listes blanches pour les sites pouvant apparaître en haut des résultats pour les recherches liées au Covid. De manière similaire, lors des élections démocratiques, Google a également utilisé des listes blanches pour les sites devant être affichés (ou déclassés) pour des informations liées aux élections.
Ces révélations ne sont que la partie visible de l’iceberg, mais des affirmations extraordinaires nécessitent des preuves tout aussi extraordinaires. Alors que certaines de ces informations recoupent ce qui a été révélé lors de l’affaire Google/DOJ, beaucoup sont nouvelles et suggèrent une connaissance interne.