Aller au contenu

Sujets conseillés

Posté

Bonjour à tous !

C'est mon premier message ici et ne sachant pas réellement où le placer je l'ai mis là , libre à un modo de le déplacer si il le souhaite.

Je vous explique mon problème :

Depuis quelques semaines dans les logs du site h**p://fermeturiste.fr je trouve des passages comme ceci :

[05/Sep/2008:19:54:26 +0200] "GET /utilisateur-professionnel/utilisateur-professionnel.php HTTP/1.1" 200 10620 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:29 +0200] "GET /\" + gaJsHost + \"google-analytics.com/automatisme.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:29 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:29 +0200] "GET /\" + gaJsHost + \"google-analytics.com/conformite.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:29 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/depannage.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/devis.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/financement.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/garantie.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/nouveautes.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/particulier.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/plan.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /\" + gaJsHost + \"google-analytics.com/pop_up_commercial.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:30 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:31 +0200] "GET /\" + gaJsHost + \"google-analytics.com/pop_up_documentation.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:31 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:31 +0200] "GET /\" + gaJsHost + \"google-analytics.com/portail.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:31 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:31 +0200] "GET /\" + gaJsHost + \"google-analytics.com/votre-fermeturiste.php HTTP/1.1" 302 226 "-" "Java/1.6.0_07"
[05/Sep/2008:19:54:31 +0200] "GET /particulier/404.php HTTP/1.1" 200 7348 "-" "Java/1.6.0_07"

Ce genre de chose arrive de une à qques fois par jour depuis des adresses IP différentes mais récurrentes et depuis des pays différents (France-Allemagne-Hongrie-Espagne-Hollande).

De quoi s'agit-il d'après vous ?

Je n'ai pas changé le code analytics et la je vois pas du tout ce que ces trucs essayent de faire ...

Merci pour votre aide ! ;)

Posté

ce sont des robots aspirateurs qui ne doivent pas savoir faire de filtrages d'url et crawlent dont aussi les liens js analytics

Posté

Salut

Leonick a certainement raison, je ne vois que ça.

Mais à mon avis, la question ne se pose même pas: regarde bien les date et heure en début de ligne, ces trucs là te bouffent plusieurs pages à la seconde !!!

Imagine un peu s'il y en a plusieurs en même temps: ton hébergeur risque de te rappeler à l'ordre parce que "tu" auras consommé trop de bande passante.

Alors quand en plus, le User-Agent est aussi peu explicite que "Java/1.6.0_07": pas de doute à avoir: tu bannis ces visiteurs de ton site sans remords.

Il te suffit de repérer l'IP et d'écrire ceci dans ton .htaccess (ou ton httpd.conf si tu es sur serveur dédié):

deny from 123.123.123.123

(en remplaçant bien sûr les 123 par la vraie IP.

PS: tu dois avoir un problème avec ta gestion des pages non trouvées. Il n'est pas normal qu'une page non trouvée fasse une redirection 302 vers une page "404.php" qui, elle, renvoie un code 200 ;)

Posté (modifié)

Salut,

Merci pour vos réponses.

Pour les robots aspirateurs je ne sais pas trop parce que en faisant un whois Ip sur certaine adresse je suis tombé par exemple sur une société en france qui avait l'air plus que normal.

Je voulais mettre en place un filtrage pour ces adresses mais avant de le faire je voulais savoir si certain d'entre vous avait déjà eu ce type de "problèmes".

En ce qui concerne la page 404.php c'était pour personnaliser les pages non trouvées (d'ou le 404.php :P ) avec petit message d'explication, plan du site et widget google pour faire une recherche sur le site ( en gros le maximum pour ne pas faire fuire et retenir mes cheres visiteurs ;) ). je pensais avoir fais ça dans les règles mais avec ta remarque je me pose des questions :rolleyes: , ma page ne devrait pas renvoyer un code 200 ?

Modifié par babylon
Posté

c'est déjà le cas dans mon htaccess d'où la redirection des 404 vers ma page 404.php. J'ai fais ca comme ca


# 401 et 405 : permission refusée
ErrorDocument 401 h**p://fermeturiste.fr/particulier/404.php
ErrorDocument 405 h**p://fermeturiste.fr/particulier/404.php
ErrorDocument 404 h**p://fermeturiste.fr/particulier/404.php
ErrorDocument 403 h**p://fermeturiste.fr/particulier/404.php

Mais donc d'après vous ma page personnalisé devrait quand même renvoyer un code 404 ? et si oui comment faire au niveau serveur ?

Posté

Ecrit comme cela, ton htaccess génère une redirection 302 vers ta page d'erreur.

Il faut enlever la référence absolue vers le site, c'est à dire :

ErrorDocument 404 /particulier/404.php

Posté

Même pas une redirection 302... tout simplement une entête 200 !

C'est logique vu que tu mets l'URL complète. C'est donc une redirection "externe", et comme la page est trouvée tu as donc une entête 200 (ou 304 si elle est déjà en cache)

Dan

Posté
Pour les robots aspirateurs je ne sais pas trop parce que en faisant un whois Ip sur certaine adresse je suis tombé par exemple sur une société en france qui avait l'air plus que normal.

Je voulais mettre en place un filtrage pour ces adresses mais avant de le faire je voulais savoir si certain d'entre vous avait déjà eu ce type de "problèmes".

Il ne faut pas filtrer sur base des adresses car les plus agressifs de ces robots passent par un proxy, ce qui fait qu'ils changent tout le temps d'adresse. Il vaudrait mieux exclure tous les "visiteurs" qui utilisent un user-agent commençant par "Java/".

RewriteCond %{HTTP_USER_AGENT}   ^Java\/
RewriteRule ^.*$ - [F]

Ceci devrait faire l'affaire. Il y a aussi un article qui donne pas mal de détail à ce sujet dans les publications du Hub (voir lien en haut de la page).

Jean-Luc

Posté

Désolé de remonter ce topic mais je reviens vers vous parce que la réécriture a été mise en place et je continus à avoir ces visites de robots. :whistling:

Voila le code que j'ai mis dans mon htaccess

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^Java\/
RewriteRule ^restriction.php$ - [F]

Ce qui est presque un copier coller du code de Jeanluc ( seule la règle change et pointe sur une page spécifique).

Est ce qu'il faut préciser la version de l'agent (style ici "Java/1.6.0_07")? le problème c'est que les versions changent selon les IP

Posté

Tu pourrais montrer une ligne du fichier log où on voit que le méchant robot visite cette page ?

Jean-Luc

Posté (modifié)

Ça ressemble en tout point à celle présentée dans le premier message voici donc une ligne du log d'hier


[i]Ca commence comme ca [/i]
e196025.upc-e.chello.nl fermeturiste.fr - [29/Sep/2008:05:02:09 +0200] "GET / HTTP/1.1" 301 240 "-" "Java/1.6.0_05"

[i]puis[/i]

e196025.upc-e.chello.nl fermeturiste.fr - [29/Sep/2008:05:02:12 +0200] "GET /utilisateur-professionnel/utilisateur-professionnel.php HTTP/1.1" 200 10620 "-" "Java/1.6.0_05"
e196025.upc-e.chello.nl fermeturiste.fr - [29/Sep/2008:05:02:15 +0200] "GET /\" + gaJsHost + \"google-analytics.com/automatisme.php HTTP/1.1" 302 226 "-" "Java/1.6.0_05"

[i]ou encore un peu plus tard[/i]

84.***.139.102 www.fermeturiste.fr - [29/Sep/2008:19:57:15 +0200] "GET / HTTP/1.1" 301 240 "-" "Java/1.5.0_12"

84.***.139.102 www.fermeturiste.fr - [29/Sep/2008:19:57:16 +0200] "GET /utilisateur-professionnel/utilisateur-professionnel.php HTTP/1.1" 200 10620 "-" "Java/1.5.0_12"
84.***.139.102 www.fermeturiste.fr - [29/Sep/2008:19:57:19 +0200] "GET /\" + gaJsHost + \"google-analytics.com/automatisme.php HTTP/1.1" 302 226 "-" "Java/1.5.0_12"

Modifié par babylon
Posté

Voici ce que fait ton .htaccess :

- ligne 2 : quand il y a une requête, ton .htaccess regarde le user-agent et il vérifie s'il commence par Java/. Si c'est le cas, la ligne 3 sera exécutée.

- ligne 3 : si la requête concerne l'URL /restriction.php, elle est refusée.

Dans ton extrait de fichier log, tu montres, d'autres URL pour lesquelles la visite est acceptée. Si tu veux refuser l'accès à n'importe quelle URL, prends le code que je t'avais proposé.

Jean-Luc

Posté (modifié)

Ok je comprend le principe, désolé c'est la 1ere fois que je met le nez dans l' url rewright.

Donc si je veux rediriger sur une autre page je met ça mon htaccess nan ?

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^Java\/
RewriteRule ^.*$ restriction.php [F]

Modifié par babylon
Posté

Merci Jean Luc. Sur tes précédents conseils j'avais déjà été voir les publications, tu penses que mon htaccess comme ça ne marchera pas ?

Posté

[F] à la fin de la ligne interdit l'accès et ne fait pas de redirection.

Si, à la place, tu veux faire une redirection (ce que je ne te conseille pas), essaie ceci:

RewriteRule ^.*$ http://www.ton_domaine.com/restriction.php [L,R=301]

Jean-Luc

Posté

Je ne comprend pas pourquoi tu veux rediriger un mauvais robot. Autant l'interdire non ? Ca évitera qu'il ne te prenne des ressources serveur pour rien

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...