Question d’un lecteur prisonnier du “sandbox” de Google… et ma/vos réponse(s)

par Michael Carpentier    |    30 janvier 2006 à 04:54

J’ai reçu aujourd’hui un courriel de Martin Pilote, lecteur régulier. Il éprouve de la difficulté à positionner son nouveau site sur les moteurs de recherche. Puisque la question et la réponse sont intéressantes pour les autres lecteurs, j’ai décidé de partager le tout.

Bonjour Michael,

Mise en contexte : nous nous sommes échangés quelques courriels avant noël et je suis un de tes lecteurs.

J’aurais une question au sujet du phénomène sandbox. J’ai publié un site (www.martinpilote.com) au début du mois de janvier et je n’apparais toujours pas dans les résultats que ce soit sur Google ou Yahoo! ou autre… Pourtant, je suis attentivement les critères d’indexation de façon à ce que mon code soit lisible pour les spider et autres…(titre sur la page, keywords qui représentent le contenu de mon site, etc.) J’ai aussi fait la soumission de mon site à plusieurs moteurs de recherche.

Je sais que tu as d’autres chats à fouetter que de t’occuper de mon problème. Néanmoins, j’aimerais avoir ton opinion à savoir si un site comme le mien peut être sandboxé et si tu as une suggestion de démarche à entreprendre pour sortir de là ou, si ce n’est pas le cas, pour mieux “sortir” sur les résultats…

Parce que pour l’instant, avec une recherche martin pilote sur google, je me serais attendu à me voir apparaître quelque part! :)
Merci et bonne journée


Martin Pilote
martin@martinpilote.com
http://www.martinpilote.com
http://www.profweb.qc.ca/mpilote

Hello Martin!

Je pense que tu es effectivement dans le “sandbox (?)“. Quand on fait une requête sur l’index de google avec ton URL, on se rend compte qu’il est existant mais sans aucune description, ni indexation des pages de 2ième niveau (même pas http://www.martinpilote.com/blog/).

Cela me laisse croire que le spider est passé te voir après ton inscription sur Google et s’est arrêté là, avant de revenir mais sans inscrire le contenu du site dans son index, ou sans le rendre disponible lors des requêtes.

Quelques trucs en vrac pour sortir de là au plus vite:

  • créer un sitemap.xml que tu inscriras sur l’index de Google ensuite (voir ici)
  • attention à ton redirect qui mène de ton root à ton /blog. Il est peut-être à l’origine du problème! Essaie un redirect de type 301 (voir ici)
  • Évidemment, recevoir des liens d’autres sites qui parlent des mêmes sujets que toi, idéalement, pour favoriser un meilleur classement. (les liens de cet article vers ton site ne nuiront pas…)
  • Sois patient. Le site date de janvier, donc de moins d’un mois au moment d’écrire ces lignes. Le délai “normal” d’inclusion complète dans Google peut aller jusqu’à 4-8 mois.

Une remarque un peu ironique sur Google: si vous écrivez “Google sandbox” comme recherche dans ce moteur, vous obtenez comme premier résultats la page de leur programme de publicité AdWords, souvent utilisé par les clients pour contrer les effets dudit “sandbox” et du mauvais positionnement résultant. Plutôt rigolo.

Et vous, que proposez-vous à Martin pour l’aider à sortir du carré de sable de Google plus rapidement?


7 commentaires en réponse à ce billet

Martin 31 janvier 2006 à 9:38

Merci Michael pour tes précieux conseils. Je les suivrai sans faute.

Je ne comprends pas cependant pourquoi Google n’émet pas de communiqué ou d’informations claires et concises sur le phénomène. En fait, si le sandbox est vraiment l’une de ses pratiques, ne serait-il pas plus transparent d’afficher clairement ce à quoi il sert, pourquoi, comment et qui vise-t-il? Pour l’instant, tout ce que l’on trouve sur le sujet provient de d’autres sites ou blogs.

Pour ce qui est de la question “pourquoi sandboxer un site comme le mien?”, c’est-à-dire non-commercial qui n’est pas boosté avec des back links et tout, je suppose que l’algorithme de Google n’y fait pas la différence.

Eric Baillargeon 31 janvier 2006 à 12:32

Effectivement son redirect ne semble pas “catho” ;-) Je ne sais pas comment il s’y est pris mais c’est la première fois qu’un view-source: est aussi redirigé !!!
Adresse IP dynamique ? Son adresse IP donne un BAD REQUEST (INVALID HOSTNAME). Pas bon ça.

Eric Baillargeon 31 janvier 2006 à 12:41

Le view-source: en commande url est aussi redirigé. Première fois que je vois ça !
L’adresse IP donne un : Bad Request (Invalid Hostname).
Il utilise un service d’IP dynamique ?

Antoine Hébert 31 janvier 2006 à 19:02

Bien que le phénomène du « google sandboxing » ne soit pas officiel, la théorie stipule que, par mesure de sécurité, tout nouveau site Web serait mis en sursis avant d’être ajouté à l’index. Ce qui est tout à fait légitime et logique à mon avis.

Il ne faut pas oublier que l’indexation et l’attribution d’un « page rank » sont effectuées par des robots qui ne sont pas, par définition, intelligents. Les algorithmes utilisés servent à traiter des données et en aucun cas ces robots ne sont conscients de ce qu’ils traitent. Il est donc impossible de penser qu’un site « non commercial » ne sera pas victime du phénomène du « sandboxing » de par sa nature.

Détrompez-vous je ne crois pas avoir « reverse engineerER » les algorithmes d’indexation de Google, je veux simplement illustrer le fait que les membres de Google eux-mêmes ne doivent pas être en mesure de savoir si un site sera « sandboxer » ou non, je crois qu’à ce niveau-ci ils sont littéralement victimes de leurs propres algos…

Pour ce qui est de la redirection, c’est moi-même qui aie proposé cette méthode à Martin, car il utilisait une méthode JavaScript qui ne retourne pas de code 301 dans l’entête de la requete retournée vers le fureteur.

Je ne vois donc pas en quoi la méthode utilisée présentement n’est pas « catho », je dirais même que c’est la façon de faire qui soit la plus légitime que je connaisse :

<%@ Language=VBScript %>
<%
Response.Status=”301 Moved Permanently”
Response.AddHeader “Location”, http://www.martinpilote.com/blog/
%>

La méthode de redirection n’est pas le problème en soit, je dirais même qu’elle est tout de ce qu’il y a de plus standard. Cependant, plusieurs internautes ont relevé le fait que le « Google Bot » puisse interpréter une redirection malsaine comme étant un « website highjacking » dans le but d’augmenter le « page rang » d’un site Web à l’insu d’un autre. Néanmoins, ce n’est pas le cas ici, alors j’aurais tendance à écarter cette hypothèse. Je suggérerais peut-être à Martin de tout simplement mettre son blog à la racine (sans redirection) et d’observer les résultats. Voici quelques liens intéressants :

Ref : http://www.ietf.org/rfc/rfc2616.txt (RFC 2616)

Ref : http://www.google.fr/intl/fr/webmasters/3.html (Point 2)

Ensuite, pour ce qui est du « Bad Request (Invalid Hostname) », ce n’est pas une question d’adresse IP dynamique, mais bien une adresse IP partagée. Il est donc tout à fait normal que cette adresse IP ne soit pas accessible directement, car elle propulse une multitude de sites Web. Mais là encore, je crois que vous ne cherchez pas dans la bonne direction. Du moins si une telle adresse IP « dynamique » était en cause, je ne crois pas que le site de Michael ou même celui de Burp ne puisse jouir d’une telle indexation/ « page rank ».

Mon conseil à ce niveau-ci serait de prendre mon mal en patience. Je crois que le proverbe « le temps arrange les choses » (sic) s’applique ici. On ne peut pas penser voir son indexation changer en une journée. C’est un processus long et pénible, croyez moi nous sommes justement en train de l’expérimenter pour notre propre site Web. Il a 1 mois nous avions 2 pages dans l’index de google, à ce jour si vous rechercher sur google.ca « Hébergement Web movable type » nous somme en première page. Qui l’aurait cru!

Martin 7 février 2006 à 18:50

Michael, j’ai réglé en partie mes problèmes. Tout d’abord, une de mes pages est maintenant indexé par google. Je remarque, cependant, que la propagation c’est faite sur google.com avant google.ca.

En gros, j’ai remis mon site à la racine et je crois que google préfère cela. Remarque je n’ai pas laissé le temps aux bot de crawler mon site avec une redirection “sur le sens du monde”.

Merci pour vos réponses et merci d’avoir publier sur le sujet Michael.

Michael Carpentier 7 février 2006 à 23:19

Martin, ton site est hébergé aux États-Unis, pas surprenant donc que Google.com soit le premier à t’indexer.

Pour le reste, le fait d’avoir mis ton site à la racine a probablement réglé une grande partie du problème en éliminant la redirection qui, peu importe la manière, est toujour un problème pour les robots d’indexation. Le reste, le temps devrait s’en occuper… :)

Sandbox 10 février 2008 à 4:47

Je ne suis pas sur que ce soit une sandbox : voir le lien en “Votre Site Web”.
C’est plutôt une pénalité ponctuelle, selon moi.

Laisser un commentaire