babylon Posté 23 Septembre 2008 Posté 23 Septembre 2008 Bonjour à tous ! C'est mon premier message ici et ne sachant pas réellement où le placer je l'ai mis là , libre à un modo de le déplacer si il le souhaite. Je vous explique mon problème : Depuis quelques semaines dans les logs du site h**p://fermeturiste.fr je trouve des passages comme ceci : [05/Sep/2008:19:54:26 +0200] "GET /utilisateur-professionnel/utilisateur-professionnel.php HTTP/1.1" 200 10620 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:29 +0200] "GET /\" + gaJsHost + \"google-analytics.com/automatisme.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:29 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:29 +0200] "GET /\" + gaJsHost + \"google-analytics.com/conformite.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:29 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/depannage.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/devis.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/financement.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/garantie.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/nouveautes.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/particulier.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/plan.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/pop_up_commercial.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:31 +0200] "GET /\" + gaJsHost + \"google-analytics.com/pop_up_documentation.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:31 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:31 +0200] "GET /\" + gaJsHost + \"google-analytics.com/portail.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:31 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:31 +0200] "GET /\" + gaJsHost + \"google-analytics.com/votre-fermeturiste.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"[05/Sep/2008:19:54:31 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07" Ce genre de chose arrive de une à qques fois par jour depuis des adresses IP différentes mais récurrentes et depuis des pays différents (France-Allemagne-Hongrie-Espagne-Hollande). De quoi s'agit-il d'après vous ? Je n'ai pas changé le code analytics et la je vois pas du tout ce que ces trucs essayent de faire ... Merci pour votre aide !
Leonick Posté 25 Septembre 2008 Posté 25 Septembre 2008 ce sont des robots aspirateurs qui ne doivent pas savoir faire de filtrages d'url et crawlent dont aussi les liens js analytics
Dudu Posté 25 Septembre 2008 Posté 25 Septembre 2008 Salut Leonick a certainement raison, je ne vois que ça. Mais à mon avis, la question ne se pose même pas: regarde bien les date et heure en début de ligne, ces trucs là te bouffent plusieurs pages à la seconde !!! Imagine un peu s'il y en a plusieurs en même temps: ton hébergeur risque de te rappeler à l'ordre parce que "tu" auras consommé trop de bande passante. Alors quand en plus, le User-Agent est aussi peu explicite que "Java/1.6.0_07": pas de doute à avoir: tu bannis ces visiteurs de ton site sans remords. Il te suffit de repérer l'IP et d'écrire ceci dans ton .htaccess (ou ton httpd.conf si tu es sur serveur dédié): deny from 123.123.123.123 (en remplaçant bien sûr les 123 par la vraie IP. PS: tu dois avoir un problème avec ta gestion des pages non trouvées. Il n'est pas normal qu'une page non trouvée fasse une redirection 302 vers une page "404.php" qui, elle, renvoie un code 200
babylon Posté 25 Septembre 2008 Auteur Posté 25 Septembre 2008 (modifié) Salut, Merci pour vos réponses. Pour les robots aspirateurs je ne sais pas trop parce que en faisant un whois Ip sur certaine adresse je suis tombé par exemple sur une société en france qui avait l'air plus que normal. Je voulais mettre en place un filtrage pour ces adresses mais avant de le faire je voulais savoir si certain d'entre vous avait déjà eu ce type de "problèmes". En ce qui concerne la page 404.php c'était pour personnaliser les pages non trouvées (d'ou le 404.php ) avec petit message d'explication, plan du site et widget google pour faire une recherche sur le site ( en gros le maximum pour ne pas faire fuire et retenir mes cheres visiteurs ). je pensais avoir fais ça dans les règles mais avec ta remarque je me pose des questions , ma page ne devrait pas renvoyer un code 200 ? Modifié 25 Septembre 2008 par babylon
captain_torche Posté 25 Septembre 2008 Posté 25 Septembre 2008 Non, ton serveur doit générer un code 404 pour les pages qui n'existent pas, et ton htaccess doit avoir une ligne du genre ErrorDocument 404 /404.php
babylon Posté 25 Septembre 2008 Auteur Posté 25 Septembre 2008 c'est déjà le cas dans mon htaccess d'où la redirection des 404 vers ma page 404.php. J'ai fais ca comme ca # 401 et 405 : permission refuséeErrorDocument 401 h**p://fermeturiste.fr/particulier/404.phpErrorDocument 405 h**p://fermeturiste.fr/particulier/404.phpErrorDocument 404 h**p://fermeturiste.fr/particulier/404.phpErrorDocument 403 h**p://fermeturiste.fr/particulier/404.php Mais donc d'après vous ma page personnalisé devrait quand même renvoyer un code 404 ? et si oui comment faire au niveau serveur ?
Remi Posté 25 Septembre 2008 Posté 25 Septembre 2008 Ecrit comme cela, ton htaccess génère une redirection 302 vers ta page d'erreur. Il faut enlever la référence absolue vers le site, c'est à dire : ErrorDocument 404 /particulier/404.php
Dan Posté 25 Septembre 2008 Posté 25 Septembre 2008 Même pas une redirection 302... tout simplement une entête 200 ! C'est logique vu que tu mets l'URL complète. C'est donc une redirection "externe", et comme la page est trouvée tu as donc une entête 200 (ou 304 si elle est déjà en cache) Dan
babylon Posté 25 Septembre 2008 Auteur Posté 25 Septembre 2008 Oh ok je comprend. Merci pour vos réponses rapides et vos explications !
Jeanluc Posté 25 Septembre 2008 Posté 25 Septembre 2008 Pour les robots aspirateurs je ne sais pas trop parce que en faisant un whois Ip sur certaine adresse je suis tombé par exemple sur une société en france qui avait l'air plus que normal.Je voulais mettre en place un filtrage pour ces adresses mais avant de le faire je voulais savoir si certain d'entre vous avait déjà eu ce type de "problèmes". Il ne faut pas filtrer sur base des adresses car les plus agressifs de ces robots passent par un proxy, ce qui fait qu'ils changent tout le temps d'adresse. Il vaudrait mieux exclure tous les "visiteurs" qui utilisent un user-agent commençant par "Java/". RewriteCond %{HTTP_USER_AGENT} ^Java\/RewriteRule ^.*$ - [F] Ceci devrait faire l'affaire. Il y a aussi un article qui donne pas mal de détail à ce sujet dans les publications du Hub (voir lien en haut de la page). Jean-Luc
babylon Posté 25 Septembre 2008 Auteur Posté 25 Septembre 2008 (modifié) Merci Jean Luc pour l'info j'essaie ça de suite Modifié 25 Septembre 2008 par babylon
babylon Posté 29 Septembre 2008 Auteur Posté 29 Septembre 2008 Désolé de remonter ce topic mais je reviens vers vous parce que la réécriture a été mise en place et je continus à avoir ces visites de robots. Voila le code que j'ai mis dans mon htaccess RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^Java\/RewriteRule ^restriction.php$ - [F] Ce qui est presque un copier coller du code de Jeanluc ( seule la règle change et pointe sur une page spécifique). Est ce qu'il faut préciser la version de l'agent (style ici "Java/1.6.0_07")? le problème c'est que les versions changent selon les IP
Jeanluc Posté 29 Septembre 2008 Posté 29 Septembre 2008 Tu pourrais montrer une ligne du fichier log où on voit que le méchant robot visite cette page ? Jean-Luc
babylon Posté 30 Septembre 2008 Auteur Posté 30 Septembre 2008 (modifié) Ça ressemble en tout point à celle présentée dans le premier message voici donc une ligne du log d'hier [i]Ca commence comme ca [/i]e196025.upc-e.chello.nl fermeturiste.fr - [29/Sep/2008:05:02:09 +0200] "GET / HTTP/1.1" 301 240 "-" "Java/1.6.0_05"[i]puis[/i]e196025.upc-e.chello.nl fermeturiste.fr - [29/Sep/2008:05:02:12 +0200] "GET /utilisateur-professionnel/utilisateur-professionnel.php HTTP/1.1" 200 10620 "-" "Java/1.6.0_05"e196025.upc-e.chello.nl fermeturiste.fr - [29/Sep/2008:05:02:15 +0200] "GET /\" + gaJsHost + \"google-analytics.com/automatisme.php HTTP/1.1" 302 226 "-" "Java/1.6.0_05"[i]ou encore un peu plus tard[/i]84.***.139.102 www.fermeturiste.fr - [29/Sep/2008:19:57:15 +0200] "GET / HTTP/1.1" 301 240 "-" "Java/1.5.0_12"84.***.139.102 www.fermeturiste.fr - [29/Sep/2008:19:57:16 +0200] "GET /utilisateur-professionnel/utilisateur-professionnel.php HTTP/1.1" 200 10620 "-" "Java/1.5.0_12"84.***.139.102 www.fermeturiste.fr - [29/Sep/2008:19:57:19 +0200] "GET /\" + gaJsHost + \"google-analytics.com/automatisme.php HTTP/1.1" 302 226 "-" "Java/1.5.0_12" Modifié 30 Septembre 2008 par babylon
Jeanluc Posté 30 Septembre 2008 Posté 30 Septembre 2008 Voici ce que fait ton .htaccess : - ligne 2 : quand il y a une requête, ton .htaccess regarde le user-agent et il vérifie s'il commence par Java/. Si c'est le cas, la ligne 3 sera exécutée. - ligne 3 : si la requête concerne l'URL /restriction.php, elle est refusée. Dans ton extrait de fichier log, tu montres, d'autres URL pour lesquelles la visite est acceptée. Si tu veux refuser l'accès à n'importe quelle URL, prends le code que je t'avais proposé. Jean-Luc
babylon Posté 30 Septembre 2008 Auteur Posté 30 Septembre 2008 (modifié) Ok je comprend le principe, désolé c'est la 1ere fois que je met le nez dans l' url rewright. Donc si je veux rediriger sur une autre page je met ça mon htaccess nan ? RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^Java\/RewriteRule ^.*$ restriction.php [F] Modifié 30 Septembre 2008 par babylon
Jeanluc Posté 30 Septembre 2008 Posté 30 Septembre 2008 Consulte les publications du hub sur le sujet. C'est un excellent point de départ pour se lancer dans l'URL rewriting: - les bases sont ici : Le fichier .htaccess - ensuite, tu passes ici : Mod_rewrite, ou la réécriture des URL "à la volée" Jean-Luc
babylon Posté 30 Septembre 2008 Auteur Posté 30 Septembre 2008 Merci Jean Luc. Sur tes précédents conseils j'avais déjà été voir les publications, tu penses que mon htaccess comme ça ne marchera pas ?
Jeanluc Posté 30 Septembre 2008 Posté 30 Septembre 2008 [F] à la fin de la ligne interdit l'accès et ne fait pas de redirection. Si, à la place, tu veux faire une redirection (ce que je ne te conseille pas), essaie ceci: RewriteRule ^.*$ http://www.ton_domaine.com/restriction.php [L,R=301] Jean-Luc
babylon Posté 1 Octobre 2008 Auteur Posté 1 Octobre 2008 Ok !! Merci Jean-Luc ( et aux autres aussi ) pour tes réponses et ton aide !
Leonick Posté 1 Octobre 2008 Posté 1 Octobre 2008 Je ne comprend pas pourquoi tu veux rediriger un mauvais robot. Autant l'interdire non ? Ca évitera qu'il ne te prenne des ressources serveur pour rien
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant