12.05.2006

Débuter en référencement ( N°1 Structure du site )


Structure du site

Hébergeur

Il est préférable que le serveur qui héberge le site soit localisé dans le même pays que les visiteurs ciblés dans les cas d'une extension non spécifique au pays : .com, .net, .biz etc.Il faut aussi éviter les serveurs lents ou qui tombent régulièrement en panne pour ne pas faire fuir les visiteurs.


Nom De Domaine

L'importance du mot-clef dans l'URL est de moins en moins décisive. Un terme mémotechnique ou un nom percutant est à privilégier à un nom de domaine à tiret du type www.ecole-ingenieur-paris.com. Le nom de domaine vous donnera un avantage certain sur un mot clef spécifique, mais la reconnaissance d'une marque est plus intéressante.Cependant, la présence de mots-clés dans le nom de domaine est un critère pris en compte par les moteurs de recherches. Il faut dans ce cas choisir essayer de coller au plus près avec le thème du site.Il ne faut pas que le nom soit trop long, ni trop compliqué à retenir. Il est préférable de ne pas dépasser les 3 mots dans le nom de domaine et si possible avoir une extension correspondant au pays ciblé (.fr pour la France), le .net, .org, .com, etc. sont aussi valables.
Sous-domaines Il est d'usage de séparer les thèmes distincts en sous-domaines portants le mot-clé du thème traité.Les sous-domaines sont presque considérés comme des sites indépendants les uns des autres.Ex : http://si.ece.fr/ - http://tr.ece.fr/ -http://se.ece.fr/

Répertoires

On procédera à l'organisation d'un thème en répertoires portants le mot-clé du sous-thème traitéEx : http://www.ece.fr/formations/mastere-specialise/
Nom de page
Tout comme le nom de domaine, le nom de pages est très important. Chaque nom de page doit évidemment être différent, mais doit surtout contenir des mots-clés (3 maximum) séparés par des tirets (-).Ex : http://www.ece.fr/formations/ecole-d-ingenieur/cursus-et-etudes/cycle-preparatoire-integre.php
Il faut faire attention aux variables transmises dans l'URL des pages dynamiques, elles peuvent parfois gêner leur indexation. C'est le cas des variables de session PHP qui empêchent l'indexation par de nombreux moteurs de recherche.C'est le principe des sessions : un identifiant de session est attribué automatiquement à chaque visiteur qui arrive sur un site utilisant les sessions, ce qui peut par exemple servir à spécifier une langue différente selon le visiteur et garder cette langue dans tout le site.
Si cet identifiant de session est transmis dans l'URL (sous forme de variable id ou sessionid), alors à chaque fois qu'un robot d'indexation viendra visiter un site, toutes les pages auront une nouvelle URL. Plus précisément, une même page aura à chaque visite une nouvelle URL.
Le crawler pourra alors interprété cela comme du duplicate content, c'est-à-dire un plagiat de pages, qui peut entrainer une baisse dans le classement des moteurs, voir même un blacklistage (suppression du site des index du moteur).
La solution est soit de se passer de sessions, soit de transmettre l'identifiant de session par cookies.
Nombre de pages Le nombre de page est un facteur relativement important. Tout d'abord, plus le nombre de pages (distinctes) est grand, plus la quantité d'informations est importante et donc plus les possibilités de trouver le site sont grandes.Un Wikipédia contenant des milliers de pages affichera bien plus de résultats sur de très nombreuses requêtes qu'une simple page perso ; ce qui ne veut pas dire que la page perso sortira forcement après dans l'ordre des résultats !
Sitemap Le sitemap ou plan de site permet d'accéder rapidement au contenu d'un site web. Les moteurs de recherche s'en servent pour indexer l'ensemble des URL proposées dans cette ressource web. Auparavant Yahoo! avait son propre sitemap, nommé "urllist.txt", qui proposait l'ensemble des URL du site sous forme d'un listing (une URL par ligne).Désormais, Google, Yahoo! et Live utilisent un fichier identique nommé "sitemap.xml" qui propose l'ensemble des URL du site formaté selon des règles XML.Le fichier XML standard comporte outre l'URL:Une périodicité pour scanner la page, la date de dernière mise à jour, l'importance relative de la page par rapport aux autres pages du site.Exemple simple de fichier Sitemap : http://www.ece.fr/formations/groupe-ece/demande-de-documentation.php http://www.ece.fr/espace/candidat/rencontrez-nous.php http://www.ece.fr/formations/groupe-ece/demande-de-documentation.php Il existe de nombreux script et outils qui permettent de générer automatiquement ce fichier Sitemap.Il suffit ensuite d'envoyer ce fichier sur le site de Google : https://www.google.com/webmasters/sitemaps.Il est conseillé, lorsqu'une modification est faite dans votre SiteMap, de le soumettre de nouveau à Google via l'url suivante : http://www.google.com/webmasters/sitemaps/ping?sitemap=URL_DU_SITEMAPIl aussi indispensable de créer un plan de son site manuellement afin de permettre aux moteurs de recenser tous les liens du site et aux visiteurs de se retrouver dans le site, en particulier si tous les liens ne sont pas accessible directement depuis la page d'accueil.http://www.ece.fr/formations/groupe-ece/plan-du-site.php
Robots.txt Le fichier Robots.txt est un standard reconnu par la plupart des moteurs de recherche qui permet de leur indiquer une liste de documents ou de répertoires à ne pas indexer.
Ce fichier peyt être utilie pour restreindre les points d’entrée vers le site depuis les pages de résultats des moteurs de recherche. En effet, dans certains cas, laisser indexables certaines pages internes d’un site ne sera pas judicieux pour des raisons de communication ou d’ergonomie de la navigation.
Il peut aussi permettre d'empêcher l’indexation de documents non-publics, mais laissés en accès libre. (par exemple, des fichiers logs).
Enfin, il est aussi utilisé pour empêcher l’indexation de pages dont le contenu ne présente pas d’intérêt du point de vue du référencement.Le fichier Robots.txt est toujours placé à la racine du site. (Ex : http://www.webrankinfo.com/robots.txt).La structure d'un fichier robots.txt est la suivante : # un dièse (#) sert de ligne de commentaire## La requête s'applique à tous les moteurs. Si un robot est spécifié à la place de l'étoile, alors seul ce robot n'aura pas accès aux pages et répertoires du sites énumérés.# Une liste des robots est disponible sur ce site : http://www.robotstxt.org/wc/active.htmlUser-agent: *# Le sous-répertoire sousrep contenu dans le répertoire rep ne sera pas visité par le crawlerDisallow: /rep/sousrep/# Le fichier.html directement sous la racine ne sera pas visité par le crawler.Disallow: /fichier.html# Le site complet ne sera pas visité par le crawler.Disallow: /# Autorise un accès sans restriction au site.Disallow:
Un site ne souhaitant cacher aucun fichier ni répértoire aux robots n'a pas besoin de fichier robots.txt.





Aucun commentaire: