Aller au contenu

Sujets conseillés

Posté

Bonjour,

Je laisse quelques permissions à Google pour qu'il visite mon site en profondeur. Cependant, je remarque qu'il indexe (par centaines) des pages inutiles voire préjudiciables pour mes membres.

Le nom de ces pages est du type:

-www.ouetu.com/index.php?variable=valeur&variable1=valeur1&variable2=valeur2

Existe-t-il une méthode empêchant notre cher googlebot d'indexer ces pages ou, encore, une méthode pour pour qu'il ne suive pas certaines liens ?

D'avance merci ;) ,

Loïc.

Posté

Salut Cleden :wacko:

J'ai trouvé ceci sur la FAQ de google, ça permet d'empêcher Googlebot de visiter les pages dynamiques (avec variables). Il suffit de l'inclure dans ton robots.txt.

User-agent: Googlebot
Disallow: /*?

Puisque ton site est rewrité, ça ne devrait pas poser de problèmes, Googlebot continuera à indexer les pages rewritée. Quelqu'un peut confirmer ?

Bonne chance à toi,

Loïc.

Posté (modifié)

Salut Cleden,

Si on a lu la même FAQ, je cite GG:

Pour interdire l'accès de votre site aux robots-explorateurs, vous pouvez installer sur votre serveur le fichier robots.txt. Ce fichier empêche le robot-explorateur de Google (et tout autre robot ou « spider ») de visiter votre site. Le nom d'agent utilisateur (User-agent) de notre robot est « Googlebot ». Googlebot supporte certaines caractéristiques du standard robots.txt : les filtres d'interdiction/Disallow peuvent inclure le caractère * (toute séquence de caractères), et se terminer par le caractère $ (fin du nom). Exemple Pour empêcher Googlebot d'explorer les fichiers à extension « gif », insérez l'instruction suivante dans le fichier robots.txt :

      User-agent: Googlebot

      Disallow: /*.gif$

Donc si je comprends bien, cela sert juste à exclure les fichiers en tenant compte de leurs terminaisons; De plus je crois bien qu'il faut terminer dans tous les cas par: $

Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" .

Plus de details sur le fichier "robots.txt":

http://www.yooda.com/outils_referencement/robots_txt.php

Jeff, B)

Modifié par Jeff
Posté

Merci pour ta réponse,

Tout en bas de cette FAQ google, il y a:

12. Comment dois-je procéder pour demander à Googlebot de ne pas explorer les pages de mon site qui sont générées en mode dynamique ?

Utilisez le fichier robots.txt suivant :

    User-agent: Googlebot

    Disallow: /*?

Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" .

Moi non plus, toutefois, j'ai une confiance aveugle en tout ce qui est en rapport avec Google :D J'essaie cette manière, je vous signalerai si elle fonctionne.

Loïc.

Posté

Si tu ne veux pas qu'il indexe ton site, c'est effectivement la meilleure facon. Seulement, il ne va rien indexer du tout !

Si tu ne veux pas qu'il indexe certaines pages, alors il faut placer, dans l'entete de celles ci :

<meta name="robots" content="noindex, nofollow">

Ce qui signifie : ne pas indexer, ne pas suivre.

De manière générale, une page qui explique bien comment s'y prendre pour ce genre de méta, voire la rédaction d'un fichier 'robots.txt', sans exclure l'ensemble du site +>

http://www.toulouse-renaissance.net/c_outi..._robots_txt.htm

A.

Posté

Ok Anonymus,

J'ai opté pour :

<? 
if ($variable == 'valeur' or $variable1=='valeur1')
{
print '<meta name="robots" content="noindex, nofollow">';
}
?>

Merci pour tes précisions :up: ,

Loïc.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...