Le référencement naturel

Le référencement (ou le SEO en anglais) est un ensemble de techniques visant à promouvoir son site web sur la Toile.

Il existe plusieurs techniques de référencement, qui seront vues en détails dans les autres cours. Ici, nous allons aborder spécifiquement deux techniques précises, le fichier robots.txt et le fichier sitemaps.xml.

Robots.txt

Le fichier robots.txt est un fichier spécial utilisé par les robots de référencement. Ce fichier doit être placé à la racine du site et contient des directives afin de préciser les pages qui peuvent être indexées. Tout moteur de recherche voulant indexer un site va commencer par analyser ce document. On va donc se servir de ce document pour interdire l’indexation de certaines parties du site web. C’est aussi dans ce fichier que l’on indiquera la présence du sitemap.

Règles d’écriture

Le fichier doit impérativement se nommer robots.txt (au pluriel et en minuscules !) et se situer à la racine du site. De plus, sa taille doit être de 62ko au maximum.

Le fichier ne doit contenir aucune ligne vide.

User-agent: *

Disallow: /folder/
Disallow: /perso.html
Disallow: /data
Disallow: /*.docx$
Sitemap: http://monsite.com/sitemap.xml
#Spécifique pour Googlebot

User-agent: Googlebot
Allow:/folder/page1.html

Disallow: /folder/
  • L’instruction User-agent: * signifie que la ou les instruction(s) qui suivent s’applique pour tous les robots.

  • L’instruction User-agent: Googlebot signifie que les instructions suivantes s’appliquent qu’au crawler Googlebot.

  • L’instruction Disallow: /folder/ signifie que le moteur ne peut parcourir le contenu du dossier /folder.

  • L’instruction Disallow: /perso.html signifie que seule la page ne peut pas être parcourue.

  • L’instruction Disallow: /data signifie que le dossier et les pages commençant par data seront ignorées.

  • L’instruction Disallow: /*.docx$ : l’utilisation de wildcards (*) permet de globaliser lis instructions. Dans cet exemple, on interdit l’analyse des fichiers finissant par docx. L’utilisation du $ indique la fin de l’URL.

  • Les commentaires dans le fichier robots.txt se fait en utilisant le dièse (#). les crawlers vont purement et simplement ignorer la ligne.

  • L’instruction Allow: va autoriser l’analyse du paramètre passé après. En général, on l’utilise pour autoriser l’analyse de certaines parties dans un dossier, tout en interdisant le reste. Cette instruction est souvent suivie de Disallow:.

  • L’instruction Sitemap: permet d’indiquer avec un chemin absolu le chemin du sitemap.

Pour plus d’informations : http://robots-txt.com/ .

Sitemap

Le sitemap est une représentation en XML de l’architecture d’un site web. Il liste les ressources sous forme hiérarchique. C’est aussi un protocole (sitemaps) développé par Google qui aide à indexer un site, en s’assurant que toutes les pages devant être indexées le soient.

Règles d’écriture

Un sitemap est un fichier XML qui liste les URL d’un site web. On y ajoutera aussi différentes méta-données, telles que :

  • la date de sa dernière mise à jour ;

  • la fréquence de modification de l’URL ;

  • son importance relativement aux autres URL du site.

<?xml version='1.0' encoding='UTF-8' ?>

<urlset xmlns="http://www.google.com/schemas/sitemap/0.90">

<url>

<loc>http://www.example.org</loc>

<lastmod>2013-04-07</lastmod>

<changefreq>weekly</changefreq>

<priority>1.0</priority>

</url>

<url>

<loc>http://www.example.org/page-web.html</loc>

<lastmod>2013-04-15</lastmod>

<changefreq>monthly</changefreq>

<priority>0.1</priority>

</url>

<url>

<loc>http://www.example.org/page-web2.php</loc>

<lastmod>2013-04-06</lastmod>

<changefreq>daily</changefreq>

<priority>0.1</priority>

</url>

...

</urlset>

Les balises

Tag

Statut

Explication

urlset

obligatoire

Le tag urlset précise la version du standard XML sitemap utilisée. La valeur renvoie à une URL qui décrit le format utilisé dans le fichier courant. Dans la mesure où le standard peut évoluer, ce tag permet de faire cohabiter des anciennes versions du standard avec la dernière sans que cela ne pose problème.

url

obligatoire

Le tag url regroupe l’ensemble des informations concernant une unique URL ou page web.

loc

obligatoire

<loc><a href= »http://www.example.org »><a href= »http://www.example.org »>http://www.example.org</a></a></loc>


Le tag loc précise l’URL courante, ici http://www.example.org/.

lastmod

optionnel

<lastmod>2013-06-04</lastmod>


Le tag lastmod précise la date de dernière mise à jour de l’URL courante. Cette date doit nécessairement être au format AAAA-MM-JJ

changefreq

optionnel

<changefreq>weekly</changefreq>


Le tag changefreq précise avec quelle fréquence change l’URL courante. Il peut prendre les valeurs always, hourly, dayly, weekly, monthly, yearly, never

priority

optionnel

<priority>1.0</priority>

Le tag priority précise l’importance de l’URL courante relativement aux autres URL du même site (priority = 0.1, 1.0, etc.). Sa valeur varie de 0.0 (priorité faible) à 1.0 (priorité forte). S’il est absent, alors la valeur par défaut est 0.5.

Pour attacher un sitemap, on ajoute la ligne suivante dans le robots.txt :

Sitemap: <lien url= »http://www.example.org/sitemap.xml »>http://www.example.org/sitemap.xml</lien>

Pour plus d’infos : http://www.sitemaps.org/fr/index.html

[sb_sibling_prev][sb_sibling_next]

Print Friendly, PDF & Email