Patotoche65 Posté 9 Juin 2004 Posté 9 Juin 2004 (modifié) Bonsoir à tous, Je viens de voir que google a indexé une page de mon forum (en prépa, donc vide) avec une url du type : www.monsite.com/ forum/forum2.html&sid=991b31c193309dd63630dd002c9a1d15 Il me semblait pourtant qu'il était imossible d'indexer ce type de pages car les sid vont à l'infini QQun a une idée dessus ? Modifié 9 Juin 2004 par Patotoche65
hervelaf Posté 10 Juin 2004 Posté 10 Juin 2004 Bonjour, La page est présente dans l'index de Google, ou tu as simple vu grâce à robotstats que google avait "lu" la page ?
Patotoche65 Posté 10 Juin 2004 Auteur Posté 10 Juin 2004 Slaut, La page est bien présente dans l'index de google : regarde le 4èmè lien ??? voilou
Patotoche65 Posté 10 Juin 2004 Auteur Posté 10 Juin 2004 Re, Sans en tirer de conclusions attives, est ce que qqun a observé ceci
Patotoche65 Posté 10 Juin 2004 Auteur Posté 10 Juin 2004 Tiens, de plus en plus étrange ..... Je viens de voir que google à indexé 4 fois la même page du forum et bien sur avec des "sid=" différentes ..... Il est pas rendu le gars la .... Y a t'il un Bug chez google ? Les exemples : Page 2, lien 8. Page 3, lien 3. Page 3, lien 4. Page 3, lien 6. Le titre (MIKROO-BOOTIK.com :: Voir le Forum - Votre avis nous interresse)
Anonymus Posté 10 Juin 2004 Posté 10 Juin 2004 Pour info, il y a près de 30 000 000 de pages avec sid dans l'url, et il y a plus de 200 000 000 d'url avec id dans l'url. Le probleme va se poser lorsqu'il va trouver une page pareil, avec un id différent. Anonymus.
Patotoche65 Posté 10 Juin 2004 Auteur Posté 10 Juin 2004 Salut Anonymus, C'est bien ce que je dis, la page est identique mais le sid est différent
Dan Posté 10 Juin 2004 Posté 10 Juin 2004 Les algorithmes de détection de "duplicate content" ne fonctionnent pas à la première indexation de la page, mais lors du calcul de PageRank. La grosse majorité des pages de l'index qui ont un identifiant de session dans l'URL disparaissent à court ou moyen terme (et sont remplacées par d'autres qui disparaîtront à leur tour) Dan
Patotoche65 Posté 10 Juin 2004 Auteur Posté 10 Juin 2004 Ok, Merci, donc si je comprends bien, il ne restera au final que mes url rewritées sans les sid à la fin, et une seule url par lien .... Je comprends mieux maintenant, merci .
Dan Posté 10 Juin 2004 Posté 10 Juin 2004 Ok, Merci, donc si je comprends bien, il ne restera au final que mes url rewritées sans les sid à la fin, et une seule url par lien .... Je comprends mieux maintenant, merci . Tout a fait, Google fera le ménage. Mais pour favoriser l'indexation, tu peux aussi ajouter un petit code qui détecte les robots et évite de l'utilisation de sessions dans leur cas. Tu auras une indexaton plus rapide à mon avis. Exemple de code: /* Ouverture de session conditionnelle, pas pour les robots identifies */// Spider/Bot pour référencement $spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "xecho" ); $from_spider = false; foreach($spiders as $Val) { if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) { $from_spider = true; break; } }// Session ini_set("session.use_trans_sid", "0");if(!$from_spider) { session_start();}
Patotoche65 Posté 10 Juin 2004 Auteur Posté 10 Juin 2004 Yop Dan, Euuuuhhhhh ...... comment dire ........ Je le mets où ce bout de code (aïe, pas sur la tête, pas peur, pas mal, non pas les dents.....argh ) Ps1 : j'utilise phpbb Ps2 : Je suis nul mais j'essaye de me soigner
Patotoche65 Posté 19 Juin 2004 Auteur Posté 19 Juin 2004 Salut à tous, Bon, le site est quasiment terminé ... plus que les produits à mettre dedans Je me tourne maintenant vers mon forum. Il est actuellement vide mais je pense à son indexation. Dan m'a filer un bout de code à insérer pour facilité la lecture des pages par les robots .... QQun sait ce que je dois en faire ???? je le met où le truc ???? Merci d'avance pour vos réponses
MonsieurArthur Posté 20 Juin 2004 Posté 20 Juin 2004 J'imagine que tu dois le mettre dans le head.php de ton forum. à l'endroit ou tu veux (sans tronquer un autre code) entre les balise <?php et ?>
Nicolas Posté 21 Juin 2004 Posté 21 Juin 2004 J'ai fait les modifications sur le fichier includes/sessions.php dans la fonction append_sid (en fin de fichier) en utilisant le morceau de code dan. Je suis sur une version 2.0.8 de Phpbb (en anglais) PS: Si quelqu'un pouvait completer la liste des spiders ;-) function append_sid($url, $non_html_amp = false){ global $SID; $spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "D*****", "xecho" ); $from_spider = false; foreach($spiders as $Val) { if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) { $from_spider = true; break; } } if ( !empty($SID) && !preg_match('#sid=#', $url) && !$from_spider) { $url .= ( ( strpos($url, '?') != false ) ? ( ( $non_html_amp ) ? '&' : '&' ) : '?' ) . $SID; } return $url; } J'ai testé sur http://www.webconfs.com/search-engine-spider-simulator.php et ça fonctionne.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant