Aller au contenu

Sujets conseillés

Posté

Salut,

J'ai fait mon sitemaps.xml il y a deux semaines et je viens de vérifier les "statistiques" sitemaps.

Je me fais engueuler car mon robots.txt a exclus certains fichiers.

La blague: ces fichiers ne sont pas dans mon fichier xml

c'est normal que sitemaps tente de référencer des page non demandées? Sachant qu'il n'index que 199 sur 800!!

A+

Guest Crazy
Posté (modifié)

Hi, hi (sorry)...

Ce PB (fichiers exclus par robots.txt) impacte effectivement les stats du Google Sitemaps.

Il y a plusieurs raisons à cela :

1) des pages faisant partie du (ou des) Sitemap(s) ont des liens vers des pages exclues par robots.txt,

2) des pages référencées dans le (ou les) Sitemap(s) ont une balise <meta name="robots" content="noindex, nofollow"> ou "noindex" seul,

3) des pages dont le référencement n'est plus voulu sont déjà référencées par Google,

4) des pages dont le référencement n'est pas demandé sont explicitement listées dans le Google Sitemap généré <re EDIT Crazy> je pense, dans ce cas, qu'un générateur automatique a pu être utilisé ? </EDIT> (XXXXX.xml dans la racine ou un sous répertoire)...

Faut dès lors tout contrôler...

A savoir : Google Sitemaps est efficace pour une centaine d'URLs... Au delà, il convient de créer plusieurs Google Sitemap et de les répartir dans les répertoires correspondants aux sous-sites (ou sous-domaines) ou sinon de fractionner (par ex : XXXXX.xml devient XXXXX-1.xml, XXXXX-2.xml.... XXXXX-n.xml) et de les soumettre séparément.

Bon courage... J'espère avoir répondu à la question ou, au moins, avoir apporté quelques éclaircissements <re re EDIT> à ce problème épineux </EDIT>.

;)

Alain

PS : Je ne vais tout de même pas mettre "Spécialiste Google Sitemaps" dans ma signature ! :lol:

<EDIT Crazy> Ce Post a été édité, par moi-même, pour correction orthographique et grammaticale, pas pour en modifier le contenu. (si, en fait, en <re EDIT> !)</EDIT>

Modifié par Crazy
Posté

OK,

donc en fait tu confirmes ce que je soupçonné,

google regarde les pages qu'on lui propose en référence une ou deux puis après il regarde le contenu des pages et tente de suivre les liens...

Au départ je pensais que pour un site contenant un site map, les bots google se seraient contenté de listé les pages dans le site map trié par priorité.

:rolleyes: doux rêve :wub:

Guest Crazy
Posté (modifié)

Hummm !

Il suffit de lire la doc du Google Sitemap (sans le s) pour tout savoir.

Ce n'est pas dit très clairement dans la doc, alors, je précise que :

- La Site Map (Sitemap) liste (en XML) toutes les URLs devant être crawlées par Google.

- Google est un "Moteur de Recherche" et son but est de trouver, de décortiquer et de suivre les liens de toutes les pages, qui sont explicitement référencées dans la page explorée, afin d'enrichir sa Base de Données (je dirais plutôt Base de Connaissances, à l'heure actuelle).

- Google prend donc les URLs de la Site Map une par une et suit les liens...

C'est tout !

<EDIT Crazy> Viré un paragraphe mal écrit et ambigü que je n'arrive pas à formuler correctement </EDIT>

;)

Alain

Modifié par Crazy
Posté

Donc on en gros, si je suis du genre qui n'aime pas les warnings, il faut que j'ajoute un nofollow partout sur les liens qui pointent vers des pages à ne pas référencer.

En fait, les warnings sont pas des warnings de sitemap mais du robot.

Et j'avais lu la doc de sitemap, mais pas clair!!!! -_-

Posté (modifié)
Donc on en gros, si je suis du genre qui n'aime pas les warnings, il faut que j'ajoute un nofollow partout sur les liens qui pointent vers des pages à ne pas référencer.

<{POST_SNAPBACK}>

Ben, encore une fois, c'est pas tout à fait ça...

Ce peut être très gênant de mettre un "nofollow" dans une page, tout comme tenter d'en référencer une qui est en "noindex"... Attention donc au robots.txt et aux balises <meta name="robots"... > ! Ils peuvent être sources d'erreurs...

Il faut simplement éviter de mettre (sinon, les enlever) dans le fichier Sitemap les URLs a ne pas suivre (pour raison quelconque, par ex : link vers une page en "noindex" ou interdite par robots.txt) et, surtout, éviter les doublons (dus à des références circulaires non détectées pendant la génération de la Sitemap par l'outil Yooda - ce bug semble être corrigé). Mais je crois bien qu'il y a aussi un bug (références circulaires) dans le crawl du Google Sitemaps ?!?

La méthode que j'ai employée pour que tout se passe bien est la suivante :

1) Génération de la Google Sitemap globale de mon site avec l'outil de Yooda.

2) Vérification sur le site Google Sitemaps et suppression (de la Sitemap) de toutes les pages effectivement listées provoquant des warnings ou conduisant à des pages provoquant des erreurs.

3) Fragmentation du fichier Sipemap en plusieurs fichiers répartis dans le répertoire racine et les sous-répertoire contenant beaucoup de pages à référencer (max 100) ; toutes les URLs dans la racine et dans les sous-répertoires à faible contenu restant dans le Sitemap principal (dans la racine donc).

Ceci marche très bien. Zero BUG et indexation de toutes les URLs listées effectuée.

Bon courage...

;)

Alain

PS : j'ai enfin réussi à exprimer pleinement et correctement ce que je voulais dire dans mon Post précédent !

Modifié par Crazy
Posté

C'est exactement ce que j'ai fait sauf pour le découpage du fichier sitemap!

Je vais essayer ça!

A+

Posté

Est-ce-qu'il est obligé de faire les sitemaps dans différents répertoire?

Moi, je les ai tous mis dans un répertoire sitemap (j'en ai 11 différents)

et ce répertoire ne contient que ça.

J'ai vu que google conseille de mettre à la racine, c'est vraiment nécessaire?

Quelqu'un sait si ça change quelque chose?

Si je fais ça, c'est parce que mon site est un site commercial contenant beaucoup de pages différentes dont seuls les paramètres de l'url sont différentes. Donc j'ai deux fichiers php qui font 99% des pages à crawler!!

Posté (modifié)
Est-ce-qu'il est obligé de faire les sitemaps dans différents répertoire?

Moi, je les ai tous mis dans un répertoire sitemap (j'en ai 11 différents)

et ce répertoire ne contient que ça.

J'ai vu que google conseille de mettre à la racine, c'est vraiment nécessaire?

Quelqu'un sait si ça change quelque chose?

Si je fais ça, c'est parce que  mon site est un site commercial contenant beaucoup de pages différentes dont seuls les paramètres de l'url sont différentes. Donc j'ai deux fichiers php qui font 99% des pages à crawler!!

<{POST_SNAPBACK}>

Tu peux très bien mettre tes sitemaps où tu veux ! Par exemple comme tu l'as fait, dans un répertoire dédié (ce me semble d'ailleurs une solution que je vais peut-être adopter - j'ai tendance à copier quand les idées sont bonnes).

Ce n'est pas obligatoire de mettre tes sitemaps dans la racine. C'est le fichier (vide, mais ASCII) GOOGLEhhhhhhhhhhhhhhhh.html (chaque hh étant un nombre hexadécimal - il y en a huit qui constituent le n° d'identification de ton compte Google SiteMaps) qui doit impérativement être placé à la racine de ton site web.

Fais tout de même super gaffe au nombre d'URLs (je ne le répèterai jamais assez) dans chaque fichier SitemapXX.xml un maximum de 100 est très bien (si tu en as 1000, il va en crawler 150 et s'arrêter...).

;)

Alain

Modifié par Crazy
Posté
Fais tout de même super gaffe au nombre d'URLs (je ne le répèterai jamais assez) dans chaque fichier SitemapXX.xml un maximum de 100 est très bien (si tu en as 1000, il va en crawler 150 et s'arrêter...).

oui, j'ai cru remarquer,

pour l'instant il m'en indexe 200

j'ai fait le split du sitemap cet après midi, je verrai bien ce que cela donne.

C'est sur ce forum que j'ai vu qu'il fallait découper.

a suivre

Posté

J'ai lu dans les tutos de Google qu'il fallait faire un XML reprenant les url des différentes map créés et prealablement declarées.

As-tu testé la chose et son incidence ?

Posté (modifié)

Sur un compte Google Sitemaps, on déclare autant de fichiers Sitemap que l'on veut.

On donne simplement l'URL de chaque fichier Sitemap (avec http:// devant) :

www.SITE.ext/rep_où_on_veut/nom_sitemap.xml et c'est tout.

On peut en avoir 15.000, cela ne pose pas de PB. Il faut seulement avoir dans la racine du site un fichier GOOGLEhhhhhhhhhhhhhhhh.html vide qui valide le n° de compte Google Sitemaps (hhhhhhhhhhhhhhhh est un code en Hexadécimal).

Point besoin d'un Sitemap des Sitemaps !

Al

Modifié par Crazy
Posté
Tu peux très bien mettre tes sitemaps où tu veux ! Par exemple comme tu l'as fait, dans un répertoire dédié (ce me semble d'ailleurs une solution que je vais peut-être adopter - j'ai tendance à copier quand les idées sont bonnes).

En fait, faut surtout éviter de faire cela!

cf. https://www.google.com/webmasters/sitemaps/...sitemapLocation

en gros si tu mets un sitemap dans le répertoire toto, tu ne peux y indexer que les pages du répertoire toto.

La grosse looose!!

j'ai tout (re)changé!

Posté (modifié)

Je tiens a remercier Crazy pour toutes ses lumières je vais pouvoir améliorer mon contact avec les googles sitemap maintenant :)

Modifié par urban78killer
Posté

Je pense que s'il y a un délai, il est très court.

J'ai modifié mon site (entre autre la page de garde) et j'ai resoumis mes .xml (avec date de modif à jour)

J'ai 6 pages d'indexée le lendemain! (ce qui est plus que ma moyenne quotidienne)

Par contre, s'il s'agit d'une première soumission, je pense que c'est du même genre d'idée: très rapide!

A+

Posté (modifié)

J'ai soumis 80 map de 100 liens chacune il y a 5 jours, et j'ai pas grand chose d'indexé, genre une centaine de pages, et je sais meme pas si c'est du aux map ou si c'est le passage normal du bot de google...

Modifié par nicco
Posté

Ah bein ça je connais!

J'ai 200 pages sur plus de 1000 indexées. Et j'ai soumis mon xml mi septembre!

D'après ce que j'ai compris, plus ton site est bien positionné plus il sera parcouru souvent et profondément.

Si tu attends que certaines pages particulières soient indexées, tu n'as qu'a augmenter leur priorité dans le sitemap.

Sinon, si tu attends que toutes tes pages soient indexées va te faire référencer... :D

PS: t'as un page rank de combien?

Posté (modifié)

C'est une longue histoire...

Je fus PR5 sur le domaine staracademy-quatre.com mais apparement je faisais un peu trop de concurrence au site d'endemol sur le sujet et je me suis prit une injonction d'abandonner le domaine sous peine de poursuite par leurs avocats.

Du coup j'ai changé de domaine ce qui a foiré tout mon ref et m'a envoyé direct en sandbox sur le nouveau. Depuis ça remonte doucement. PR3 actuellement et un futur page rank à 4.

Modifié par nicco
Posté

Tu connais un article sur le futur pagerank? c'est calculé comment?

pr 4 et cent pages

moi, j'a un vieux pr 4 et 200 pages

j'pense pas que ce soit anormal

ça ne peut que monter

voila mon évolution depuis le 23 septembre (à peu près une mesure par jour)

186 188 188 181 181 181 181 181 181 181 181 181 201 199 199 201 201 201 201 201 201 202

en parrallèle, je m'inscris sur des moteurs (choisis avec soin)

Posté

Il y a un site que j'utilise qui fait des analyses de ref google et futur page rank mais je ne sais pas si je peux le poster ici, je t'envoi ça par MP.

Posté

Merci je connais, d'ailleurs je suis sur le point de lancer un post à ce sujet.

Mais sais-tu comment on calcul le future page rank?

Est-ce que ça prend en compte les modifs de ton site,

les nouveaux liens pointant sur ton site

ou autre...

A+

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...