fbern Posté 18 Mai 2015 Posté 18 Mai 2015 bonjour dans GWT, j'ai ce message de Google : Le nombre d'URL détectées par Googlebot sur votre site est extrêmement élevé. Cela est du aux facettes de navigation - Google crawlant l'ensemble des facettes. Que faire, ces pages sont en noindex pour prévenir du duplicate mais cela ne protège pas du crawl quasi infini. Je ne veux pas mettre des nofollow ! Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible.... Est-ce que passe ces URL via un formulaire en post serait-une bonne solution ? merci
captain_torche Posté 18 Mai 2015 Posté 18 Mai 2015 Comment sont gérées tes facettes ? SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci.
fbern Posté 18 Mai 2015 Auteur Posté 18 Mai 2015 Comment sont gérées tes facettes ? SI ce sont des liens qui pointent tous vers une page de résultats de recherche, effectivement ça pose un souci. Traditionnellement gérées, je dirai : passage de paramètres....
fbern Posté 18 Mai 2015 Auteur Posté 18 Mai 2015 Via des urls, ou via un formulaire ? Justement via des URL classiques en get...
captain_torche Posté 18 Mai 2015 Posté 18 Mai 2015 Donc, c'est normal que ça foute la merde. Un formulaire qui se validerait en un seul clic peut effectivement corriger le problème, mais si tu peux le mixer avec des urls "en dur" pour certaines parties (Du moment que ces urls respectent le nommage des autres urls de ton site), c'est encore mieux.
fbern Posté 18 Mai 2015 Auteur Posté 18 Mai 2015 oui bien sûr c'est cela qui fout la m@ç!*de, je cherche la meilleure solution. Qu'entends tu par URL en dur ? Et comment passer des liens hypertexte en POST ?
captain_torche Posté 18 Mai 2015 Posté 18 Mai 2015 url "en dur" = url normale, pour les parties de tes facettes qui correspondent à des pages réelles de ton site. Pour le reste, pas d'url dans ton formulaire, mais simplement un traitement de formulaire normal : si je demande le produit1 en taille2 et couleur3, on n'affiche que des résultats correspondants.
fbern Posté 18 Mai 2015 Auteur Posté 18 Mai 2015 Merci beaucoup mais comment je fais pour les liens hypertextes ?
captain_torche Posté 18 Mai 2015 Posté 18 Mai 2015 Pour les liens hypertexte, tu ne changes rien, a priori, si les liens actuellement en place correspondent à des liens légitimes de ton site.
fbern Posté 18 Mai 2015 Auteur Posté 18 Mai 2015 non les liens peuvent emmener vers des filtres de listes : donc google rentre et crawl quasi infiniment.
captain_torche Posté 19 Mai 2015 Posté 19 Mai 2015 C'est justement pour ça que ces liens doivent être remplacés par un formulaire.
fbern Posté 19 Mai 2015 Auteur Posté 19 Mai 2015 C'est justement pour ça que ces liens doivent être remplacés par un formulaire. je suis débutant en html : on peux passer un lien hypertexte via un formulaire en Post ?
PieceMobile Posté 19 Mai 2015 Posté 19 Mai 2015 Bonjour, Petite précision : Nous avons tous les paramètre d'URL infinis bloqué et n'avons pas ce message. A mon avis il ne s'agit pas tout a fait de crawl, mais d'indexation. Que dit ton état de l'indexation ( nb page indexées ) vs Sitemap ( nb réel de page sur ton site ) ? A mon avis ton problème se situe plus dans les paramètre d'URL mal exclus de Robots.txt, a vu de nez
karnabal Posté 25 Août 2015 Posté 25 Août 2015 Hors je lis un peu partout que "l'obfuscation" des liens est devenu quasi impossible.... Tu le lis peut-être un peu partout, mais un brouillage de lien est toujours possible. Il suffit de l'appuyer sur un encodage suffisamment complexe pour que les bots soient incapables de déceler la présence d'un lien.
Message populaire. Cariboo Posté 26 Août 2015 Message populaire. Posté 26 Août 2015 Je donne une astuce testée sur pas mal de plateformes pour régler le pb du crawl des facettes. La façon 100% efficace d'empêcher le crawl d'urls, c'est d'utiliser le fichier robots.txt. Mais au départ on ne peut pas, parce que tantôt la syntaxe correspond à une url que l'on veut voir crawler et indexée, tantôt à une syntaxe que l'on veut bloquer... La solution c'est d'utiliser deux syntaxes d'urls selon les cas : - la syntaxe que l'on veut bloquer. En général c'est la syntaxe brute, genre url technique http://www.domaine.com/search.asp?cat=123&sku=458&taille=44 et on bloque tout se ce qui commence par search... - la syntaxe que l'on veut voir crawler et indexer : et pour cela on réécrit l'url : http://www.domaine.com/r/search.asp?cat=123&sku=458&taille=44mais on peut aussi en profiter pour avoir une url plus "pretty" A chaque fois que l'on affiche sur le site un lien que l'on veut voir crawler et indexer : on le présente avec la syntaxe réécrite. Pour les autres cas : la syntaxe brute. Et hop le tour est joué. C'est compatible avec l'astuce de captain_torche (qui est aussi une vraie bonne pratique que je recommande) : pour accéder aux pages filtrées, tu auras deux chemins : - le formulaire qui te fait atterrir sur la syntaxe brute. Comme cela, si un petit malin copie colle l'url de ta page filtrée par facettes sur un autre site, et Google découvre l'url, Google ne crawlera toujours pas cette syntaxe - les liens en dur présents dans la navigation (menus, suggestions etc...) qui utilisent la syntaxe réécrite Et pour info : le message sur le nombre anormalement élevé d'urls est bien lié aux urls crawlables, découvertes sur le site, et n'a rien à voir avec l'indexation. 1
fbern Posté 24 Septembre 2015 Auteur Posté 24 Septembre 2015 Merci pour toutes vos réponses, je pensai bien au robots.txt mais je pensais que s'en servir pouvoir modifier une arithmétique de type PageRank ?
fbern Posté 30 Mai 2016 Auteur Posté 30 Mai 2016 bonjour je reviens sur ce sujet, comment bloque t-on un paramètre en particulier dans le robots.txt par exemple "size=" merci de votre aide
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant