kot Posté 7 Octobre 2005 Posté 7 Octobre 2005 Salut, J'ai fait mon sitemaps.xml il y a deux semaines et je viens de vérifier les "statistiques" sitemaps. Je me fais engueuler car mon robots.txt a exclus certains fichiers. La blague: ces fichiers ne sont pas dans mon fichier xml c'est normal que sitemaps tente de référencer des page non demandées? Sachant qu'il n'index que 199 sur 800!! A+
Guest Crazy Posté 7 Octobre 2005 Posté 7 Octobre 2005 (modifié) Hi, hi (sorry)... Ce PB (fichiers exclus par robots.txt) impacte effectivement les stats du Google Sitemaps. Il y a plusieurs raisons à cela : 1) des pages faisant partie du (ou des) Sitemap(s) ont des liens vers des pages exclues par robots.txt, 2) des pages référencées dans le (ou les) Sitemap(s) ont une balise <meta name="robots" content="noindex, nofollow"> ou "noindex" seul, 3) des pages dont le référencement n'est plus voulu sont déjà référencées par Google, 4) des pages dont le référencement n'est pas demandé sont explicitement listées dans le Google Sitemap généré <re EDIT Crazy> je pense, dans ce cas, qu'un générateur automatique a pu être utilisé ? </EDIT> (XXXXX.xml dans la racine ou un sous répertoire)... Faut dès lors tout contrôler... A savoir : Google Sitemaps est efficace pour une centaine d'URLs... Au delà, il convient de créer plusieurs Google Sitemap et de les répartir dans les répertoires correspondants aux sous-sites (ou sous-domaines) ou sinon de fractionner (par ex : XXXXX.xml devient XXXXX-1.xml, XXXXX-2.xml.... XXXXX-n.xml) et de les soumettre séparément. Bon courage... J'espère avoir répondu à la question ou, au moins, avoir apporté quelques éclaircissements <re re EDIT> à ce problème épineux </EDIT>. Alain PS : Je ne vais tout de même pas mettre "Spécialiste Google Sitemaps" dans ma signature ! <EDIT Crazy> Ce Post a été édité, par moi-même, pour correction orthographique et grammaticale, pas pour en modifier le contenu. (si, en fait, en <re EDIT> !)</EDIT> Modifié 7 Octobre 2005 par Crazy
kot Posté 7 Octobre 2005 Auteur Posté 7 Octobre 2005 OK, donc en fait tu confirmes ce que je soupçonné, google regarde les pages qu'on lui propose en référence une ou deux puis après il regarde le contenu des pages et tente de suivre les liens... Au départ je pensais que pour un site contenant un site map, les bots google se seraient contenté de listé les pages dans le site map trié par priorité. doux rêve
Guest Crazy Posté 7 Octobre 2005 Posté 7 Octobre 2005 (modifié) Hummm ! Il suffit de lire la doc du Google Sitemap (sans le s) pour tout savoir. Ce n'est pas dit très clairement dans la doc, alors, je précise que : - La Site Map (Sitemap) liste (en XML) toutes les URLs devant être crawlées par Google. - Google est un "Moteur de Recherche" et son but est de trouver, de décortiquer et de suivre les liens de toutes les pages, qui sont explicitement référencées dans la page explorée, afin d'enrichir sa Base de Données (je dirais plutôt Base de Connaissances, à l'heure actuelle). - Google prend donc les URLs de la Site Map une par une et suit les liens... C'est tout ! <EDIT Crazy> Viré un paragraphe mal écrit et ambigü que je n'arrive pas à formuler correctement </EDIT> Alain Modifié 8 Octobre 2005 par Crazy
kot Posté 10 Octobre 2005 Auteur Posté 10 Octobre 2005 Donc on en gros, si je suis du genre qui n'aime pas les warnings, il faut que j'ajoute un nofollow partout sur les liens qui pointent vers des pages à ne pas référencer. En fait, les warnings sont pas des warnings de sitemap mais du robot. Et j'avais lu la doc de sitemap, mais pas clair!!!!
Guest Crazy Posté 10 Octobre 2005 Posté 10 Octobre 2005 (modifié) Donc on en gros, si je suis du genre qui n'aime pas les warnings, il faut que j'ajoute un nofollow partout sur les liens qui pointent vers des pages à ne pas référencer. <{POST_SNAPBACK}> Ben, encore une fois, c'est pas tout à fait ça... Ce peut être très gênant de mettre un "nofollow" dans une page, tout comme tenter d'en référencer une qui est en "noindex"... Attention donc au robots.txt et aux balises <meta name="robots"... > ! Ils peuvent être sources d'erreurs... Il faut simplement éviter de mettre (sinon, les enlever) dans le fichier Sitemap les URLs a ne pas suivre (pour raison quelconque, par ex : link vers une page en "noindex" ou interdite par robots.txt) et, surtout, éviter les doublons (dus à des références circulaires non détectées pendant la génération de la Sitemap par l'outil Yooda - ce bug semble être corrigé). Mais je crois bien qu'il y a aussi un bug (références circulaires) dans le crawl du Google Sitemaps ?!? La méthode que j'ai employée pour que tout se passe bien est la suivante : 1) Génération de la Google Sitemap globale de mon site avec l'outil de Yooda. 2) Vérification sur le site Google Sitemaps et suppression (de la Sitemap) de toutes les pages effectivement listées provoquant des warnings ou conduisant à des pages provoquant des erreurs. 3) Fragmentation du fichier Sipemap en plusieurs fichiers répartis dans le répertoire racine et les sous-répertoire contenant beaucoup de pages à référencer (max 100) ; toutes les URLs dans la racine et dans les sous-répertoires à faible contenu restant dans le Sitemap principal (dans la racine donc). Ceci marche très bien. Zero BUG et indexation de toutes les URLs listées effectuée. Bon courage... Alain PS : j'ai enfin réussi à exprimer pleinement et correctement ce que je voulais dire dans mon Post précédent ! Modifié 10 Octobre 2005 par Crazy
kot Posté 11 Octobre 2005 Auteur Posté 11 Octobre 2005 C'est exactement ce que j'ai fait sauf pour le découpage du fichier sitemap! Je vais essayer ça! A+
kot Posté 12 Octobre 2005 Auteur Posté 12 Octobre 2005 Est-ce-qu'il est obligé de faire les sitemaps dans différents répertoire? Moi, je les ai tous mis dans un répertoire sitemap (j'en ai 11 différents) et ce répertoire ne contient que ça. J'ai vu que google conseille de mettre à la racine, c'est vraiment nécessaire? Quelqu'un sait si ça change quelque chose? Si je fais ça, c'est parce que mon site est un site commercial contenant beaucoup de pages différentes dont seuls les paramètres de l'url sont différentes. Donc j'ai deux fichiers php qui font 99% des pages à crawler!!
Guest Crazy Posté 12 Octobre 2005 Posté 12 Octobre 2005 (modifié) Est-ce-qu'il est obligé de faire les sitemaps dans différents répertoire?Moi, je les ai tous mis dans un répertoire sitemap (j'en ai 11 différents) et ce répertoire ne contient que ça. J'ai vu que google conseille de mettre à la racine, c'est vraiment nécessaire? Quelqu'un sait si ça change quelque chose? Si je fais ça, c'est parce que mon site est un site commercial contenant beaucoup de pages différentes dont seuls les paramètres de l'url sont différentes. Donc j'ai deux fichiers php qui font 99% des pages à crawler!! <{POST_SNAPBACK}> Tu peux très bien mettre tes sitemaps où tu veux ! Par exemple comme tu l'as fait, dans un répertoire dédié (ce me semble d'ailleurs une solution que je vais peut-être adopter - j'ai tendance à copier quand les idées sont bonnes). Ce n'est pas obligatoire de mettre tes sitemaps dans la racine. C'est le fichier (vide, mais ASCII) GOOGLEhhhhhhhhhhhhhhhh.html (chaque hh étant un nombre hexadécimal - il y en a huit qui constituent le n° d'identification de ton compte Google SiteMaps) qui doit impérativement être placé à la racine de ton site web. Fais tout de même super gaffe au nombre d'URLs (je ne le répèterai jamais assez) dans chaque fichier SitemapXX.xml un maximum de 100 est très bien (si tu en as 1000, il va en crawler 150 et s'arrêter...). Alain Modifié 12 Octobre 2005 par Crazy
kot Posté 12 Octobre 2005 Auteur Posté 12 Octobre 2005 Fais tout de même super gaffe au nombre d'URLs (je ne le répèterai jamais assez) dans chaque fichier SitemapXX.xml un maximum de 100 est très bien (si tu en as 1000, il va en crawler 150 et s'arrêter...). oui, j'ai cru remarquer, pour l'instant il m'en indexe 200 j'ai fait le split du sitemap cet après midi, je verrai bien ce que cela donne. C'est sur ce forum que j'ai vu qu'il fallait découper. a suivre
nicco Posté 12 Octobre 2005 Posté 12 Octobre 2005 J'ai lu dans les tutos de Google qu'il fallait faire un XML reprenant les url des différentes map créés et prealablement declarées. As-tu testé la chose et son incidence ?
Guest Crazy Posté 12 Octobre 2005 Posté 12 Octobre 2005 (modifié) Sur un compte Google Sitemaps, on déclare autant de fichiers Sitemap que l'on veut. On donne simplement l'URL de chaque fichier Sitemap (avec http:// devant) : www.SITE.ext/rep_où_on_veut/nom_sitemap.xml et c'est tout. On peut en avoir 15.000, cela ne pose pas de PB. Il faut seulement avoir dans la racine du site un fichier GOOGLEhhhhhhhhhhhhhhhh.html vide qui valide le n° de compte Google Sitemaps (hhhhhhhhhhhhhhhh est un code en Hexadécimal). Point besoin d'un Sitemap des Sitemaps ! Al Modifié 12 Octobre 2005 par Crazy
kot Posté 13 Octobre 2005 Auteur Posté 13 Octobre 2005 Tu peux très bien mettre tes sitemaps où tu veux ! Par exemple comme tu l'as fait, dans un répertoire dédié (ce me semble d'ailleurs une solution que je vais peut-être adopter - j'ai tendance à copier quand les idées sont bonnes). En fait, faut surtout éviter de faire cela! cf. https://www.google.com/webmasters/sitemaps/...sitemapLocation en gros si tu mets un sitemap dans le répertoire toto, tu ne peux y indexer que les pages du répertoire toto. La grosse looose!! j'ai tout (re)changé!
urban78killer Posté 13 Octobre 2005 Posté 13 Octobre 2005 (modifié) Je tiens a remercier Crazy pour toutes ses lumières je vais pouvoir améliorer mon contact avec les googles sitemap maintenant Modifié 13 Octobre 2005 par urban78killer
nicco Posté 17 Octobre 2005 Posté 17 Octobre 2005 Il y a un delai entre la declarartion de la map et le crawl des pages par le robot ?
kot Posté 17 Octobre 2005 Auteur Posté 17 Octobre 2005 Je pense que s'il y a un délai, il est très court. J'ai modifié mon site (entre autre la page de garde) et j'ai resoumis mes .xml (avec date de modif à jour) J'ai 6 pages d'indexée le lendemain! (ce qui est plus que ma moyenne quotidienne) Par contre, s'il s'agit d'une première soumission, je pense que c'est du même genre d'idée: très rapide! A+
nicco Posté 17 Octobre 2005 Posté 17 Octobre 2005 (modifié) J'ai soumis 80 map de 100 liens chacune il y a 5 jours, et j'ai pas grand chose d'indexé, genre une centaine de pages, et je sais meme pas si c'est du aux map ou si c'est le passage normal du bot de google... Modifié 17 Octobre 2005 par nicco
kot Posté 17 Octobre 2005 Auteur Posté 17 Octobre 2005 Ah bein ça je connais! J'ai 200 pages sur plus de 1000 indexées. Et j'ai soumis mon xml mi septembre! D'après ce que j'ai compris, plus ton site est bien positionné plus il sera parcouru souvent et profondément. Si tu attends que certaines pages particulières soient indexées, tu n'as qu'a augmenter leur priorité dans le sitemap. Sinon, si tu attends que toutes tes pages soient indexées va te faire référencer... PS: t'as un page rank de combien?
nicco Posté 17 Octobre 2005 Posté 17 Octobre 2005 (modifié) C'est une longue histoire... Je fus PR5 sur le domaine staracademy-quatre.com mais apparement je faisais un peu trop de concurrence au site d'endemol sur le sujet et je me suis prit une injonction d'abandonner le domaine sous peine de poursuite par leurs avocats. Du coup j'ai changé de domaine ce qui a foiré tout mon ref et m'a envoyé direct en sandbox sur le nouveau. Depuis ça remonte doucement. PR3 actuellement et un futur page rank à 4. Modifié 17 Octobre 2005 par nicco
kot Posté 17 Octobre 2005 Auteur Posté 17 Octobre 2005 Tu connais un article sur le futur pagerank? c'est calculé comment? pr 4 et cent pages moi, j'a un vieux pr 4 et 200 pages j'pense pas que ce soit anormal ça ne peut que monter voila mon évolution depuis le 23 septembre (à peu près une mesure par jour) 186 188 188 181 181 181 181 181 181 181 181 181 201 199 199 201 201 201 201 201 201 202 en parrallèle, je m'inscris sur des moteurs (choisis avec soin)
nicco Posté 17 Octobre 2005 Posté 17 Octobre 2005 Il y a un site que j'utilise qui fait des analyses de ref google et futur page rank mais je ne sais pas si je peux le poster ici, je t'envoi ça par MP.
kot Posté 17 Octobre 2005 Auteur Posté 17 Octobre 2005 Merci je connais, d'ailleurs je suis sur le point de lancer un post à ce sujet. Mais sais-tu comment on calcul le future page rank? Est-ce que ça prend en compte les modifs de ton site, les nouveaux liens pointant sur ton site ou autre... A+
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant