Aller au contenu

crawling d'url en boucle /init/mass_start_stop.cgi


Sujets conseillés

Posté

bonjour à tous,

Je ne sais pas si c'est la bonne section pour ce genre de problème, n'hésitez pas à déplacer le sujet au cas ou.

Depuis trois jour les bots crawler bloque tous sur la même url : h**p://domaine/init/mass_start_stop.cgi

il crawle en boucle toujours cette url. GGbot est même venu 172 fois hier...

Du coup il ne crawle plus les autres pages de mon site. Ce qui a terme va être plus qu'ennuyeux au niveau du référencement.

J'ai rediriger cette url qui sortait en 404 vers ma home histoire de voir ce qui se passait mais les bots continu a crawler cette page qui n'existe pas.

Je ne comprend pas pourquoi tous les bots cherche cette url qui n'existe pas sur le site. Et surtout pourquoi ils bouclent tous sur cette même recherche.

Quels sont vos avis et solutions.

Merci d'avance

Skrill

Posté

Si c'est bien le site que tu as en signature, cette URL n'est pas en 404, mais fait bien une redirection en 301 vers ta page d'accueil.

Dan

Posté

merci Dan,

Mon soucis n'est pas la redirection que je maîtrise a peu près

C'est que les robot crawleur ne s'intéressent qu'a une seule url qui n'est même pas sur le site.

A terme mes pages ne seront plus crawler et vont perdre des positions;

Mes nouvelles pages ne seront plus crawler non plus.

D'ou le soucis que faire pour que les robbots fonctionne normalement à nouveau

Posté

Le problème des redirections 301 utilisées en lieu et place des 404 est qu'elles peuvent générer pas mal de contenu dupliqué...

J'ai vu que tu as mis cette URL dans ton robots.txt. Les moteurs ont-ils lu ce fichier depuis ?

Lance un test de ce fichier dans Google Webmaster Tools... histoire d'être certain qu'il ne contient pas d'erreurs.

Je vois que tu as pas mal de répertoires en double dans ce fichier, avec et sans le / final.

Attention, un

Disallow : /rep/

et un

Disallow : /rep

ne veulent pas dire la même chose !

Le premier interdit l'indexation du répertoire rep alors que le second interdit l'indexation de tout fichier commençant par /rep (par exemple repetition, repertoire, reproduction ...)

Posté

Je suis d'accord avec toi dan. Cependant sur une page qui n'existe pas et de plus avec une extension en .cgi je ne m'en fait pas pour les contenus dupliqués.

g**gle lit mon robbots.txt le matin donc j'aurais la réponse demain pour voir si les crawler bots respectueux du robbots.txt arretent de crawler cette url extra terrestre.

J'ai testé mon robbots de le webmaster tool et il bloque normalement cette url.

Merci pour la précision au sujet des répertoires je vais pouvoir alléger le robbot.txt au vu de ces nouvelles informations qui m'avaient échappées.

Enfin ce qui m'inquiète vraiment c'est d'une part l'url avec un .cgi et d'autres part que les crawler bot qui d'habitude crawlent une 10aines de pages de mon site tous les jours se focalise sur cette url et ne crawlant plus rien d'autres.

Posté

A priori le blocage par le robot.txt fonctionne, mes pages sont de nouveaux crawler.

Cependant, tous les bots ne sont pas respectueux de ce fichier.

Cela va donc poser problème.

Comment me débarrasser définitivement de ce "script" qui "force" les robots à crawler cette url ?

Y-a-t-il un fichier log qui m'indiquerait les script qui sont exécutés quand il y a une requête sur mon domaine ?

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...