Google a annoncé aujourd’hui que son index Web s’élevait à plus de 3 milliards de documents, y compris une archive Usenet complète datant de 1981. Le moteur de recherche met également l’accent sur la fraîcheur, réindexant quotidiennement plusieurs millions de pages, comme ainsi que l’ajout de liens vers des articles d’actualité pertinents pour de nombreuses requêtes.
Sur les 3 milliards de documents interrogeables au total, 2 milliards sont des pages Web, avec plus de 75 % de ces pages entièrement indexées. 700 millions sont des publications Usenet et 330 millions sont des images. Pour rechercher manuellement dans notre collection de 3 milliards de documents, cela prendrait 5 707 ans, en cherchant vingt-quatre heures par jour, à raison d’une minute par document », a déclaré Larry Page, co-fondateur et président de Google Products. Avec Google, cela prend moins d’une seconde.
Nous avons augmenté la taille de l’index au-delà de ce que nous avons officiellement déclaré », a déclaré Urs HÖlzle, Google Fellow. HÖlzle a ajouté que l’augmentation de l’index de Google n’a pas nécessité de changements importants. Nous surveillons continuellement la qualité et n’avons pas eu autant de changements depuis l’annonce du milliard de pages.
Bien que l’index Web amélioré soit certainement une réalisation impressionnante, peut-être encore plus remarquable est l’index Usenet complet de Google de 700 millions de publications dans plus de 35 000 catégories thématiques, avec une archive complète remontant à 1981 – l’année où Usenet a commencé.
L’une des plus grandes plaintes de la communauté Usenet est que même Deja n’a jamais rien eu de proche d’une archive Usenet complète », a déclaré HÖlzle. Nous avons pu trouver toutes les archives Usenet et les indexer » avec l’aide d’un certain nombre de personnes qui ont conservé les archives et les ont mises à la disposition de Google, a expliqué HÖlzle.
L’archive Usenet de Google Groups révèle une vue détaillée de deux décennies d’histoire, c’est-à-dire dix ans de contenu qui existait avant la naissance du Web », a déclaré Sergey Brin, co-fondateur et président de la technologie de Google. L’archive Usenet de Google, appelée Google Groups, est sortie de la version bêta aujourd’hui.
Par ailleurs, Google a discrètement testé une fonctionnalité qui inclut des liens vers des articles d’actualité pertinents avec certains types de requêtes. Lors du test de ce nouveau service, il a été reçu avec beaucoup d’enthousiasme », a déclaré David Krane, directeur de la communication d’entreprise de Google.
Les liens d’actualités, lorsqu’ils sont trouvés, sont renvoyés en haut d’une page de résultats. Toutes les requêtes ne provoquent pas l’affichage de liens d’actualités. Nous essayons d’améliorer la couverture tout en ne diminuant pas la pertinence », a déclaré HÖlzle. Nous réduisons également le temps entre le moment où les nouvelles arrivent et nous les avons. »
HÖlzle a déclaré que le robot d’exploration de Google est adaptatif et peut réagir rapidement aux dernières nouvelles, le rendant disponible sur Google en aussi peu que 15 minutes après la publication d’une histoire.
Alors que HÖlzle a refusé de fournir des détails sur les sources d’information que Google explore, il a déclaré qu’il s’agissait de centaines, voire de milliers de sites. La plupart des sources sont identifiées automatiquement. S’il ressemble même à distance à un site d’actualités, il devrait faire partie de la recherche », a déclaré HÖlzle.
Les accros aux nouvelles salivent probablement à la perspective d’une nouvelle ressource de recherche. Cependant, ne vous attendez pas à une recherche d’actualités spécialisée ou à un onglet « actualités » ajouté à la page d’accueil de Google de sitôt. Les liens vers des articles d’actualité, lorsqu’ils sont diffusés, seront traités comme les autres résultats de recherche.
En plus d’ajouter des nouvelles en temps opportun, Google s’efforce désormais de rafraîchir son index. Une partie de l’index est actualisée chaque jour », a déclaré HÖlzle. Alors que les sites d’actualités, qui changent fréquemment, sont des candidats évidents pour une indexation quotidienne, d’autres sites sont également indexés quotidiennement. Ils sont choisis par algorithme, pas à la main. Nous nous concentrons sur les pages identifiées comme importantes et pertinentes pour la mise à jour », a déclaré HÖlzle.
Cette semaine, c’est de l’ordre de 3 millions, mais c’est un nombre qui devrait augmenter rapidement avec le temps dans un laps de temps relativement court. HÖlzle a noté que même si 3 millions de pages sont en fait réindexées chaque jour, le robot d’exploration de Google visite beaucoup plus que cela à la recherche de changements.
Nous prévoyons d’étendre cela assez rapidement au cours des prochains mois, avec notre objectif d’avoir incontestablement l’index le plus récent sur le Web », a déclaré HÖlzle.
Bien que les annonces aient été faites aujourd’hui, il faudra un certain temps pour que les changements prennent effet dans tous les centres de données de Google. Environ 50% des centres de données de Google sont actuellement mis à jour, le reste devrait être entièrement mis à jour d’ici vendredi.