Aller au contenu

Sujets conseillés

Posté

Bonjour, :)

Je planche toujours sur l'url rewriting et le fichier robots.txt.

J'ai suivi les conseils de Google pour interdire l'indexation des urls rewritées.

User-agent: Googlebot

Disallow: /*?

Il semble maintenant que l'accès soit impossible pour toutes les urls contenant un ?, même celles qui ne sont pas issues de mon site !? ce qui est carrément génant. J'ai donc renlevé le bout de code.

J'avais d'abord mis un code du type:

User-agent: *

Disallow:/page.php3

pour lui interdire l'accés à touts les pages de type: page.php3?valeur=$valeur

mais j'ai mis ce code là il y a des mois et les pages sont toujours présentes dans l'index.

Alors, est-ce quelqu'un sait si je peux retourner le code de Google et faire un mix cette façon:

User-agent: *

Disallow:/page.php3*

est-ce que vous pensez que ce code va marcher?

et est-ce qu'il va vraiment interdire l'indexation des pages de type: page.php3?valeur=$valeur

Merci ;)

Posté
Bonjour, :)
Bonjour. ;)

J'ai suivi les conseils de Google pour interdire l'indexation des urls rewritées.

User-agent: Googlebot

Disallow: /*?

C'est recommandé par Google, mais ce n'est pas standard. Ce code sera donc uniquement compris par Google.

Il semble maintenant que l'accès soit impossible pour toutes les urls contenant un ?, même celles qui ne sont pas issues de mon site !?
Là, je ne comprends pas ce que tu veux dire. Le robots.txt n'a aucun effet sur les URL des autres sites.

J'avais d'abord mis un code du type:

User-agent: *

Disallow:/page.php3

pour lui interdire l'accés à touts les pages de type: page.php3?valeur=$valeur

Ce code est correct. Il est conforme au standard et interdit bien aux robots de visiter les pages de type /page.php3?valeur=$valeur

mais j'ai mis ce code là il y a des mois et les pages sont toujours présentes dans l'index.
En théorie, ce n'est pas parce que Google ne peut plus visiter une page qu'il doit obligatoirement l'enlever de son index. En pratique, la page non visitée ne sortira probablement plus très souvent dans les résultats de recherche, mais on ne sait jamais...

User-agent: *

Disallow:/page.php3*

est-ce que vous pensez que ce code va marcher?

Ce code n'est pas standard et, même avec Google, il ne marchera pas mieux que le code standard que tu utilises actuellement.

et est-ce qu'il va vraiment interdire l'indexation des pages de type: page.php3?valeur=$valeur
Si la méthode du robots.txt ne donne pas des résultats satisfaisants, il reste :

- l'outil Google de désindexation forcée des pages (attention, bien tout lire avant d'utiiser cet outil dangereux)

- la possibilité de mettre des "nofollow" sur tous les liens pointant vers ces pages

- la possibilité de mettre, dans ces pages, une ligne <meta name="robots" content="noindex,nofollow">

Ce serait utile que tu donnes l'URL de ton site pour qu'on puisse vérifier que ton robots.txt est accessible et sans mauvaise surprise.

Jean-Luc

Posté

Ben... l'url is in my signature... :P

Sinon, en fait, oui, j'en oublie la moitié en route...

Je dis que les pages contenant un ? des autres sites ne sont plus indexés parce que j'ai testé un outil... que je n'arrive même pas à retrouver pour l'instant et ce module me dit que le lien vers la validation de ma page au w3c, tout en bas, est interdite par le robots.txt, et c'est bien la seule qui contient un

?

... :unsure:

C'est pas clair cette histoire, est-on certains que Google prendra en compte les url extérieures avec ce code exotique qui ne s'applique qu'à lui:

User-agent: Googlebot
Disallow: /*?

???

et si Google accepte cette écriture exotique, est-on certain qu'il n'accepterai pas un truc du genre:

User-agent: Googlebot
Disallow: /page.php3?*

???

en tous cas je ne me risque pas à faire supprimer des pages de l'index, et pas de nofollow sur ces pages sinon où est l'intérêt du rewriting :)

Posté
Ben... l'url is in my signature... :P
Il faudrait commencer par remplacer tous les
Disallow:/machin.php3

par des

Disallow: /machin.php3

(avec un espace). :smartass:

Je ne comprends toujours pas cette histoire d'URL extérieures. Pourrais-tu donner un exemple ?

Jean-Luc

Posté

merci prof pour la syntaxe... :blush:

pour l'exemple il faut que je retrouve le site... un validateur intéressant atteind au bout de 150 clics... que j'ai testé que j'ai fermé et que je ne retrouverai pas de suite... :whistling:

bref, dans le tas, un m'a dit: cette url est interdite d'accès par le robots.txt

et le lien, c'est celui-ci:

http://validator.w3.org/check?uri=http%3A%...-gratuit.com%2F

qui est effectivement le seul sur la page index à contenir un ? , ce n'est pas un lien interne, mais je préfèrerai l'avoir sur ma page et que celui-ci soit indexé normalement.

dans le doute, vais laisser comme ça, avec tes corrections :) , sans le code spécial Google.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...