Aller au contenu

Sujets conseillés

Posté

Bonjour a tous !

il y a des robots google et autres qui me crawlent mes pages en rajoutant :

/mapage.php?PHPSESSID=d5f9a798eeedbff3b09a05a2553369af

J'ai vérifié et mon site ne contient pas de lien qui pourrait être la cause.

Je n'ouvre aucune session également .

Jai trouvé des solutions, pouvez vous me donner vos avis :

Dans le HTACCESS :

<IfModule mod_php4.c>
php_value session.use_trans_sid 0
</IfModule>

En PHP au début des pages :

<?php
ini_set('session.use_trans_sid','1'); // Le '0' ne marche pas
ini_set('url_rewriter.tags','form=fakeentry'); // trans_sid seulement pour les forms
ini_set('session.auto_start','0'); // La session ne demarre que lorsque celle ci est déclarée
ini_set('session.use_cookies','1'); // Initialise le cookie de session
ini_set('session.use_only_cookies','0'); // ...mais pas forcément avec des cookies
ini_set('session.name','OKSES'); // Mon identifiant de session
?>

PHP toujours mais plus léger :

<?php ini_set('session.use_trans_sid', 0); ?>

Vous en pensez quoi ?

Posté

Si tu es chez OVH j'ai ceci :

ini_set("url_rewriter.tags","area=href,frame=src,iframe=src,input=src");
ini_set("arg_separator.output","&");

J'avoue que je comprends pas très bien ce charabiat mais depuis que je l'ai installé sur mes pages je n'ai plus de problème. :thumbsup:

Posté

oui je suis chez OVH

je met donc au début de toutes mes pages :

<?php
ini_set("url_rewriter.tags","area=href,frame=src,iframe=src,input=src");
ini_set("arg_separator.output","&");
?>

Posté

Salut,

j'arrive peut être un peu tard mais personnellement chez ovh, j'ai juste rajouté cette ligne dans le htaccess :

SetEnv SESSION_USE_TRANS_SID 0

et ça a marché. ^^

Posté

Aille aille aille !!

google continue !!!! malgres la ligne dans le htaccess ( SetEnv SESSION_USE_TRANS_SID 0 )

et au debut des pages :

<?php
ini_set('session.use_trans_sid','1'); // Le '0' ne marche pas
ini_set('url_rewriter.tags','form=fakeentry'); // trans_sid seulement pour les forms
ini_set('session.auto_start','0'); // La session ne demarre que lorsque celle ci est déclarée
ini_set('session.use_cookies','1'); // Initialise le cookie de session
ini_set('session.use_only_cookies','0'); // ...mais pas forcément avec des cookies
ini_set('session.name','OKSES'); // Mon identifiant de session
?>

.............

Posté

je dois mettre ce code php au debut de chaque page ?

<?php
/* Ouverture de session conditionnelle, pas pour les robots identifies */

// Spider/Bot pour référencement
$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "xecho" );
$from_spider = false;
foreach($spiders as $Val) {
if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) {
$from_spider = true;
break;
}
}
// Session ini_set("session.use_trans_sid", "0");
if(!$from_spider) {
session_start();
}

?>

Posté

Ou bien tu fais un include...

Mais c'est sur toutes les pages où tu fais un session_start()

Dan

Posté (modifié)

voila je l'ai ajouté à toutes mes pages !

j'espere que cela va marcher car la je désespère .....

j'avais essayé :

<?php
ini_set('session.use_cookies', '1');
ini_set('session.use_only_cookies', '1'); // PHP >= 4.3
ini_set('session.use_trans_sid', '0');
ini_set('url_rewriter.tags', '');
?>

ainsi que

SetEnv SESSION_USE_TRANS_SID 0

Mais rien à faire ....

Je te dirai ça dimanche à mon retour . je croise les doigts

EDIT :

Maintenant avec ton code , lorsque je navigue sur mon site les URL contiennent PHPSESSID ..... quand je me connecte dessus , la premiere page donc ne la pas mais des que je clique sur un lien ( cette 2eme page vue donc ) a le PHP sessid Et la 3eme page et le reste ne l'ont plus .....

Modifié par diving-seller
Posté

Bonjour,

SetEnv SESSION_USE_TRANS_SID 0

Je suis chez OVH et j'avais le même le problème. C'est en creusant dans les profondeurs du forum d'OVH que j'avais trouvé cet info.

Ce bout de code placé dans le htaccess a porté ses fruits, par contre il a bien fallu 4 mois pour que toutes les pages avec le PHPSESSID disparaissent de l'index Google.

Posté

Et bien moi javais dans mon robots.txt linterdiction pour le robot du style :

Disallow: /mapage.php?

Pour lui interdire de prendre phpsessid ... et ca marchais puis la je la'ai enlevé pour faire plus propre et donc jai mis la ligne :

SetEnv SESSION_USE_TRANS_SID 0

dans le htaccess

ainsi que le Code de DAN ....

et rien a faire 2 jours après ces modifications il continue de prendre mes pages avec PHPSESSID ................

Posté

D'aprés mon expérience et ce qu'a dit Sanguo un peu plus haut il faut être patient pour voir enfin le PHPSESSID disparaitre de tes URLs sur Google. Donc pour le moment la seule chose à faire est de ne plus y penser, ca se fera tout seul ;)

Posté

Que cela disparaisse de l'index je comprend que cela mette du temps .

Mais cela prend du temps pour que google comprenne de ne plus crawler avec PHPSESSID ?

Posté (modifié)

Dan ! je fais appelle à toi !!! :D

J'ai mis ton code de 4 ans , en ayant rajouté un truc :

<?php
/* Ouverture de session conditionnelle, pas pour les robots identifies */

// Spider/Bot pour référencement
$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "GoogleBot" );
$from_spider = false;
foreach($spiders as $Val) {
if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) {
$from_spider = true;
break;
}
}
// Session ini_set("session.use_trans_sid", "0");
if(!$from_spider) {
ini_set('session.use_trans_sid', 0);
ini_set('session.use_cookies', 1);
ini_set("session.use_only_cookies" , 1);
ini_set('url_rewriter.tags','');
session_start();
}

?>

Mais apparemment , dans les pages crawlées de la journée , il y a toujours au moins une page avec PHPSESSID . j'avoue que je n'y comprend plus rien.

Edit : Peut etre comme il a commencé à crawler des pages avec PHPSESSID , il revient voir ces pages pour voir si elles existent ... ( j'espere qu'on me comprend ) .

J'ai donc mis cela dans mon Htaccess :

RewriteEngine on

RewriteCond %{QUERY_STRING} ^(.*)PHPSESSID=([^&]+)&?(.*)$ [NC]
RewriteRule ^(.*)$ http://www.pixel-plongee.fr/$1?%1%3 [L,R]

:excl: Dois je mettre R=301 ?

Modifié par diving-seller
Posté (modifié)

je pense meme mettre :

RewriteEngine on
RewriteCond %{QUERY_STRING} ^(.*)PHPSESSID=([^&]+)&?(.*)$ [NC]
RewriteRule ^.*$ [G,L]

Modifié par diving-seller
  • 1 month later...
Posté

salut, je découvre ce fil un peu tard.

voici ma modeste contribution

le code de 4 ans de Dan est efficace.

il en existe des variantes sur quelques autres forum mais le code de Dan est le + complet et le mieux écrit.

MAIS :

cela revient à fournir à Google une page avec une URL

et laisser les internautes naviguer avec d'autres URL

=> dans un point de vue c'est du duplicate content potentiel mais le user agent ne voit qu'une URL donc non.

=> dans un autre point de vue c'est du cloaking : n URL pointent vers une même page physique. Mais les URL sont différentes puisque phpsessid les différencie. Donc on revient sur du duplicate content et de toute façon seule une page est visible de Google

Google, en mode "vérification et lutte contre le cloaking" , en comparant le résultat d'une indexation pourra comparer le contenu de l'URL "propre" et celui des URL "enrichies"

Question : soit une même URL , propre ou affectée de phpsessid et de passage de paramètres. Ces URL sont elles du cloaking ? C'est à dire N même URL présentées à Google ou à des internautes avec une seule page physique ?

Ma réponse mais je suis ouvert à toute discussion : non. Google considère que ce sont des URL différentes, que les pages à URL enrichies ne sont pas indexées et même si il considère que non, si VOUS AVEZ A PEU PRES LE Même CONTENU, il ne considèrera pas cela comme du cloaking.

il semble que la nuance pour lui porte sur l'existence dans son index d'une URL et que strictement la même URL ait un contenu différent quand son bot "officiel" accède à cette même URL.

je suis preneur de tout avis

Posté

Cela n'est pas du cloaking, mais éventuellement du duplicate content.

Pour mémoire, le cloaking constitue à présenter un contenu différent aux utilisateurs et aux moteurs (ce qui n'est pas le cas ici)

Le duplicate content est le fait d'avoir la même information accessible via plusieurs Urls (ce qui est le cas ici)

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...