Urban Posté 16 Mars 2006 Posté 16 Mars 2006 Ceci n'est pas exactement un problème de référencement, mais de crawler. Depuis quelques jours, j'ai un internaute qui crawl certains sites chaque jour dans leur totalité avec l'user agent : Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Wanadoo 6.7; .NET CLR 1.1.4322; MSIECrawler) Je pense qu'il a choisi de rendre dispo offline les sites en question. Es-ce un fonctionement normal ? Chaque fois qu'il se connecte il crawl la totalité des sites ? Avez vous eu ce genre de problème ? Qu'avez-vous fait ? Rien ? Rewritecond sur l'UA ? robots.txt (j'ai cru comprendre que ce crawler respectait robots.txt) ?
Dudu Posté 16 Mars 2006 Posté 16 Mars 2006 Salut Il me semble, sans vouloir dire de sonnerie (avec un s comme crocodile ), qu'il s'agit d'un Internet Explorer 6 tout ce qu'il y a de plus normal.. sauf qu'il s'agit de sa fonctionnalité d'aspirateur pour une consultation hors-ligne Maintenant, s'il s'avère que çà te bouffe trop de bande passante, tu peux virer d'une ligne de .htaccess (en vérifiant la présence de "MSIECrawler" dans l'User-Agent)
Urban Posté 16 Mars 2006 Auteur Posté 16 Mars 2006 (modifié) Oui c'est bien l'aspi de msie, mais c'est normal qu'il ré-aspire tous les jours les sites dans leur totalité ? C'était surtout la le sens de ma question. Effectivement s'il continu tous les jours, je le bloquerais Modifié 16 Mars 2006 par Urban
Dudu Posté 16 Mars 2006 Posté 16 Mars 2006 Si c'est la même IP, c'est soit un petit malin, soit quelqu'un qui n'a rien compris. Quoiqu'il en soit, si ça te bouffe vraiment trop de bande passante il faut toujours se rappeler que ton site c'est comme chez toi: tu en es le propriétaire et tu invites qui tu veux. Si quelqu'un vient juste pour y mettre le bazar, il n'y a pas de remords à avoir, tu le rediriges autre part ou tu lui interdis purement et simplement l'accès. Une bonne technique dans ces cas-là consite à s'ouvrir un espace chez un hébergeur gratuit, ou bien d'utiliser les pages persos de son FAI; d'y mettre un message explicatif du type "vous utilisez vraisemblablement un aspirateur de site et çà ruine ma bande passante patati patata... Si vous tombez là par erreur, contactez-moi..."; et de rediriger tout ce qui ressemble à un aspirateur vers cette page. Dans le cas de l'aspirateur intégré à MSIE, ce code dans un .htaccess devrait faire l'affaire RewriteEngine onRewriteCond %{HTTP_USER_AGENT} ^Mozilla$MSIECrawler$RewriteRule ^.*$ http://autre-part.tld [L,R] Comme il est de bon ton de citer ses sources, je me suis inspiré pour ce code d'une discussion chez Invisionboard.fr intitulée Rediriger les aspirateurs de site. Cette discussion tire elle-même parti de la liste des aspirateurs de site de toulouse-renaissance.net (attention, un &$@^# de javascript modifie la taille de la fenêtre ) Quant à savoir si c'est normal que MSIECrawler se retape le site dans son intégralité à chaque passage, je ne saurais pas te répondre, ça fait bien longtemps que je n'ai plus aucune station de travail sous Windows Ce qui est sûr, c'est que MSIECrawler ne se lance pas tous les jours tout seul vers ton site: c'est forcément quelqu'un qui lance l'aspiration.
Urban Posté 17 Mars 2006 Auteur Posté 17 Mars 2006 (modifié) J'ai l'impression que chaque fois que la personne se connecte ça ré-aspire la totalité des sites. Je vais effectivement faire une redirection. Ce n'est pas toujours exactement la même ip mais toujours une adresse wanadoo à Marseille. Edit: J'ai choisi de faire comme ça finalement RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*MSIECrawlerRewriteRule ^(.*) - [F] Modifié 17 Mars 2006 par Urban
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant