diving-seller Posté 13 Mai 2008 Posté 13 Mai 2008 Bonjour a tous ! il y a des robots google et autres qui me crawlent mes pages en rajoutant : /mapage.php?PHPSESSID=d5f9a798eeedbff3b09a05a2553369af J'ai vérifié et mon site ne contient pas de lien qui pourrait être la cause. Je n'ouvre aucune session également . Jai trouvé des solutions, pouvez vous me donner vos avis : Dans le HTACCESS : <IfModule mod_php4.c>php_value session.use_trans_sid 0</IfModule> En PHP au début des pages : <?phpini_set('session.use_trans_sid','1'); // Le '0' ne marche pasini_set('url_rewriter.tags','form=fakeentry'); // trans_sid seulement pour les formsini_set('session.auto_start','0'); // La session ne demarre que lorsque celle ci est déclaréeini_set('session.use_cookies','1'); // Initialise le cookie de sessionini_set('session.use_only_cookies','0'); // ...mais pas forcément avec des cookiesini_set('session.name','OKSES'); // Mon identifiant de session?> PHP toujours mais plus léger : <?php ini_set('session.use_trans_sid', 0); ?> Vous en pensez quoi ?
Wolf18 Posté 14 Mai 2008 Posté 14 Mai 2008 Si tu es chez OVH j'ai ceci : ini_set("url_rewriter.tags","area=href,frame=src,iframe=src,input=src");ini_set("arg_separator.output","&"); J'avoue que je comprends pas très bien ce charabiat mais depuis que je l'ai installé sur mes pages je n'ai plus de problème.
diving-seller Posté 14 Mai 2008 Auteur Posté 14 Mai 2008 oui je suis chez OVH je met donc au début de toutes mes pages : <?phpini_set("url_rewriter.tags","area=href,frame=src,iframe=src,input=src");ini_set("arg_separator.output","&");?>
Keyser Posté 14 Mai 2008 Posté 14 Mai 2008 Salut, j'arrive peut être un peu tard mais personnellement chez ovh, j'ai juste rajouté cette ligne dans le htaccess : SetEnv SESSION_USE_TRANS_SID 0 et ça a marché.
diving-seller Posté 14 Mai 2008 Auteur Posté 14 Mai 2008 Encore mieux Je peux la mettre n'importe où dans le htaccess ? ( c'est qu'il est un peu chargé )
diving-seller Posté 15 Mai 2008 Auteur Posté 15 Mai 2008 Aille aille aille !! google continue !!!! malgres la ligne dans le htaccess ( SetEnv SESSION_USE_TRANS_SID 0 ) et au debut des pages : <?phpini_set('session.use_trans_sid','1'); // Le '0' ne marche pasini_set('url_rewriter.tags','form=fakeentry'); // trans_sid seulement pour les formsini_set('session.auto_start','0'); // La session ne demarre que lorsque celle ci est déclaréeini_set('session.use_cookies','1'); // Initialise le cookie de sessionini_set('session.use_only_cookies','0'); // ...mais pas forcément avec des cookiesini_set('session.name','OKSES'); // Mon identifiant de session?> .............
Dan Posté 15 Mai 2008 Posté 15 Mai 2008 J'avais posté un bout de code il y a 4 ans Voici le post : http://www.webmaster-hub.com/index.php?s=&...ost&p=30655
diving-seller Posté 15 Mai 2008 Auteur Posté 15 Mai 2008 je dois mettre ce code php au debut de chaque page ? <?php/* Ouverture de session conditionnelle, pas pour les robots identifies */// Spider/Bot pour référencement$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "xecho" );$from_spider = false;foreach($spiders as $Val) { if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) { $from_spider = true; break; }}// Session ini_set("session.use_trans_sid", "0");if(!$from_spider) { session_start();}?>
Dan Posté 15 Mai 2008 Posté 15 Mai 2008 Ou bien tu fais un include... Mais c'est sur toutes les pages où tu fais un session_start() Dan
diving-seller Posté 15 Mai 2008 Auteur Posté 15 Mai 2008 (modifié) voila je l'ai ajouté à toutes mes pages ! j'espere que cela va marcher car la je désespère ..... j'avais essayé : <?phpini_set('session.use_cookies', '1');ini_set('session.use_only_cookies', '1'); // PHP >= 4.3ini_set('session.use_trans_sid', '0');ini_set('url_rewriter.tags', '');?> ainsi que SetEnv SESSION_USE_TRANS_SID 0 Mais rien à faire .... Je te dirai ça dimanche à mon retour . je croise les doigts EDIT : Maintenant avec ton code , lorsque je navigue sur mon site les URL contiennent PHPSESSID ..... quand je me connecte dessus , la premiere page donc ne la pas mais des que je clique sur un lien ( cette 2eme page vue donc ) a le PHP sessid Et la 3eme page et le reste ne l'ont plus ..... Modifié 15 Mai 2008 par diving-seller
Sanguo Posté 16 Mai 2008 Posté 16 Mai 2008 Bonjour, SetEnv SESSION_USE_TRANS_SID 0 Je suis chez OVH et j'avais le même le problème. C'est en creusant dans les profondeurs du forum d'OVH que j'avais trouvé cet info. Ce bout de code placé dans le htaccess a porté ses fruits, par contre il a bien fallu 4 mois pour que toutes les pages avec le PHPSESSID disparaissent de l'index Google.
diving-seller Posté 19 Mai 2008 Auteur Posté 19 Mai 2008 Et bien moi javais dans mon robots.txt linterdiction pour le robot du style : Disallow: /mapage.php? Pour lui interdire de prendre phpsessid ... et ca marchais puis la je la'ai enlevé pour faire plus propre et donc jai mis la ligne : SetEnv SESSION_USE_TRANS_SID 0 dans le htaccess ainsi que le Code de DAN .... et rien a faire 2 jours après ces modifications il continue de prendre mes pages avec PHPSESSID ................
Wolf18 Posté 20 Mai 2008 Posté 20 Mai 2008 D'aprés mon expérience et ce qu'a dit Sanguo un peu plus haut il faut être patient pour voir enfin le PHPSESSID disparaitre de tes URLs sur Google. Donc pour le moment la seule chose à faire est de ne plus y penser, ca se fera tout seul
diving-seller Posté 20 Mai 2008 Auteur Posté 20 Mai 2008 Que cela disparaisse de l'index je comprend que cela mette du temps . Mais cela prend du temps pour que google comprenne de ne plus crawler avec PHPSESSID ?
diving-seller Posté 23 Mai 2008 Auteur Posté 23 Mai 2008 (modifié) Dan ! je fais appelle à toi !!! J'ai mis ton code de 4 ans , en ayant rajouté un truc : <?php/* Ouverture de session conditionnelle, pas pour les robots identifies */// Spider/Bot pour référencement$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "GoogleBot" );$from_spider = false;foreach($spiders as $Val) { if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) { $from_spider = true; break; }}// Session ini_set("session.use_trans_sid", "0");if(!$from_spider) { ini_set('session.use_trans_sid', 0); ini_set('session.use_cookies', 1); ini_set("session.use_only_cookies" , 1); ini_set('url_rewriter.tags',''); session_start();}?> Mais apparemment , dans les pages crawlées de la journée , il y a toujours au moins une page avec PHPSESSID . j'avoue que je n'y comprend plus rien. Edit : Peut etre comme il a commencé à crawler des pages avec PHPSESSID , il revient voir ces pages pour voir si elles existent ... ( j'espere qu'on me comprend ) . J'ai donc mis cela dans mon Htaccess : RewriteEngine onRewriteCond %{QUERY_STRING} ^(.*)PHPSESSID=([^&]+)&?(.*)$ [NC]RewriteRule ^(.*)$ http://www.pixel-plongee.fr/$1?%1%3 [L,R] Dois je mettre R=301 ? Modifié 23 Mai 2008 par diving-seller
diving-seller Posté 23 Mai 2008 Auteur Posté 23 Mai 2008 (modifié) je pense meme mettre : RewriteEngine onRewriteCond %{QUERY_STRING} ^(.*)PHPSESSID=([^&]+)&?(.*)$ [NC]RewriteRule ^.*$ [G,L] Modifié 23 Mai 2008 par diving-seller
jnj Posté 30 Juin 2008 Posté 30 Juin 2008 salut, je découvre ce fil un peu tard. voici ma modeste contribution le code de 4 ans de Dan est efficace. il en existe des variantes sur quelques autres forum mais le code de Dan est le + complet et le mieux écrit. MAIS : cela revient à fournir à Google une page avec une URL et laisser les internautes naviguer avec d'autres URL => dans un point de vue c'est du duplicate content potentiel mais le user agent ne voit qu'une URL donc non. => dans un autre point de vue c'est du cloaking : n URL pointent vers une même page physique. Mais les URL sont différentes puisque phpsessid les différencie. Donc on revient sur du duplicate content et de toute façon seule une page est visible de Google Google, en mode "vérification et lutte contre le cloaking" , en comparant le résultat d'une indexation pourra comparer le contenu de l'URL "propre" et celui des URL "enrichies" Question : soit une même URL , propre ou affectée de phpsessid et de passage de paramètres. Ces URL sont elles du cloaking ? C'est à dire N même URL présentées à Google ou à des internautes avec une seule page physique ? Ma réponse mais je suis ouvert à toute discussion : non. Google considère que ce sont des URL différentes, que les pages à URL enrichies ne sont pas indexées et même si il considère que non, si VOUS AVEZ A PEU PRES LE Même CONTENU, il ne considèrera pas cela comme du cloaking. il semble que la nuance pour lui porte sur l'existence dans son index d'une URL et que strictement la même URL ait un contenu différent quand son bot "officiel" accède à cette même URL. je suis preneur de tout avis
captain_torche Posté 30 Juin 2008 Posté 30 Juin 2008 Cela n'est pas du cloaking, mais éventuellement du duplicate content. Pour mémoire, le cloaking constitue à présenter un contenu différent aux utilisateurs et aux moteurs (ce qui n'est pas le cas ici) Le duplicate content est le fait d'avoir la même information accessible via plusieurs Urls (ce qui est le cas ici)
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant