Aller au contenu

Sujets conseillés

Posté

Depuis 3 jours google a attaqué le "crawlage" de ma galerie media. D'un coup il se retrouve avec 600 pages à ratraper, jusque là rien de grave.

Mais voyant des 2000 à 3000 crawl/jour je me suis quand même posé la question :huh: de ce qui l'obsédait comme ça.

Et bien j'ai remarqué que le système de votation sous chaque image (Voir exemple) était sous forme de lien classique.

Le googlebot vote donc 6 fois, pour chaque gradation, sur chaque image (x600) à chaque fois qu'il passe (tous les jours).

Outre le faite que le bot influence le classement (qui n'intéresse que lui en passant), es ce bon ou mauvais pour mon référencement ?

Es-ce du duplicate content ?

Merci :)

Guillaume

Posté

Bonjour,

Si j'ai bien vu, cela donne la même page avec 7 URL différentes. C'est du duplicate content. En plus, cela te pompe de la bande passante pour rien. Les solutions : robots.txt ou nofollow sur ces liens.

Jean-Luc

Posté

Après réflexion, j'ai des doutes sur l'efficacité du nofollow pour résoudre ce problème. Comme maintenant Googlebot est déjà passé sur ces pages et qu'il a déjà enregistré ces liens, je ne suis pas sûr de ce qu'il va faire au prochain passage quand il verra les nofollow.

robots.txt devrait être plus clair pour Googlebot.

Jean-Luc

Posté

Comment je dois faire pour le robots.txt ?

Car je me vois pas me taper mes 600 pages et puis j'aimerai qu'il garde l'indexage des pages avec les images.

Si je supprime le système de vote, ça ne me pose pas de problème, ça serai radicale ?

Posté

Il y a la solution qui consisterait à supprimer toutes les adresses de type : -www.driverfr.com/index.php?option=com_zoom..... en utilisant le formulaire de suppression de page de Google.

Cela supprimera toutes tes pages de vote mais aussi celles avec les images.

Si tu veux pas que ca supprime les pages avec tes images il faudra saisir toutes les urls que tu veux supprimer. Pour éviter de saisir les adresses tu peux p-e passer par un logiciel qui scanne les @ de ton site comme Xenu ?

Ensuite tu empeches l'indexation avec un nofollow de tes pages de votes : -www.driverfr.com/index.php?option=com_zoom&Itemid=XXX&page=view&catid=YYY&key=0&vote=ZZZ

Posté

Je ne sais pas comment est fait ton site, mais sur le miens, tout le dynamic se trouve dans /php/.

Donc j'ai exclus ce repertoire dans robots.txt pour eviter ce genre de probleme.

Bye

Laurent

Posté

@ Nicolas :

Tu crois pas que ça soit dangereux de faire de la désindexation ?

GoogleGuy disait lui même qu'il déconseillait d'utiliser cette outil car l'on risquait d'être pénalisé.

@ destroyedlolo

Malheureusement c'est plus compliqué puisque je suis avec un cms et un URL rewriting.

Le problème c'est que ce module de galerie ne l'est que partiellement et donc je risque le duplicate content.

Merci de votre aide

J'ai mis par prévention du "nofollow" sur tout les liens non rewrité et j'ai supprimé le classement.

Je vais attendre de voir ce qu'il se passe...

Posté

Je relance la résolution de mon problème par une petite question :

dans le robot.txt si je fais "Disallow: index.php?"

Le bot passera t'il à coter de tous mes urls du style :

index.php?option=com_zoom&Itemid=19&page=view&catid=29&key=2&hit=1

Tout mon site est rewrité, ça ne devrai pas poser de problème ?

Merci

Posté

Bonjour guilcorp,

Oui. Comme robots.txt, je mettrais :

User-agent: *
Disallow: /index.php

Cela interdira l'accès à tout ce qui commence par index.php. Si tout est rewrité, les bonnes pages seront accessibles via d'autres URL. No problemo. ;)

Jean-Luc

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...