--Téléchargez Le référencement naturel en PDF --
Le référencement (ou le SEO en anglais) est un ensemble de techniques visant à promouvoir son site web sur la Toile.
Il existe plusieurs techniques de référencement, qui seront vues en détails dans les autres cours. Ici, nous allons aborder spécifiquement deux techniques précises, le fichier robots.txt et le fichier sitemaps.xml.
Robots.txt
Le fichier robots.txt est un fichier spécial utilisé par les robots de référencement. Ce fichier doit être placé à la racine du site et contient des directives afin de préciser les pages qui peuvent être indexées. Tout moteur de recherche voulant indexer un site va commencer par analyser ce document. On va donc se servir de ce document pour interdire l’indexation de certaines parties du site web. C’est aussi dans ce fichier que l’on indiquera la présence du sitemap.
Règles d’écriture
Le fichier doit impérativement se nommer robots.txt (au pluriel et en minuscules !) et se situer à la racine du site. De plus, sa taille doit être de 62ko au maximum.
Le fichier ne doit contenir aucune ligne vide.
1 2 3 4 5 6 7 8 9 10 11 12 13 |
User-agent: * Disallow: /folder/ Disallow: /perso.html Disallow: /data Disallow: /*.docx$ Sitemap: http://monsite.com/sitemap.xml #Spécifique pour Googlebot User-agent: Googlebot Allow:/folder/page1.html Disallow: /folder/ |
-
L’instruction User-agent: * signifie que la ou les instruction(s) qui suivent s’applique pour tous les robots.
-
L’instruction User-agent: Googlebot signifie que les instructions suivantes s’appliquent qu’au crawler Googlebot.
-
L’instruction Disallow: /folder/ signifie que le moteur ne peut parcourir le contenu du dossier /folder.
-
L’instruction Disallow: /perso.html signifie que seule la page ne peut pas être parcourue.
-
L’instruction Disallow: /data signifie que le dossier et les pages commençant par data seront ignorées.
-
L’instruction Disallow: /*.docx$ : l’utilisation de wildcards (*) permet de globaliser lis instructions. Dans cet exemple, on interdit l’analyse des fichiers finissant par docx. L’utilisation du $ indique la fin de l’URL.
-
Les commentaires dans le fichier robots.txt se fait en utilisant le dièse (#). les crawlers vont purement et simplement ignorer la ligne.
-
L’instruction Allow: va autoriser l’analyse du paramètre passé après. En général, on l’utilise pour autoriser l’analyse de certaines parties dans un dossier, tout en interdisant le reste. Cette instruction est souvent suivie de Disallow:.
-
L’instruction Sitemap: permet d’indiquer avec un chemin absolu le chemin du sitemap.
Pour plus d’informations : http://robots-txt.com/ .
Sitemap
Le sitemap est une représentation en XML de l’architecture d’un site web. Il liste les ressources sous forme hiérarchique. C’est aussi un protocole (sitemaps) développé par Google qui aide à indexer un site, en s’assurant que toutes les pages devant être indexées le soient.
Règles d’écriture
Un sitemap est un fichier XML qui liste les URL d’un site web. On y ajoutera aussi différentes méta-données, telles que :
-
la date de sa dernière mise à jour ;
-
la fréquence de modification de l’URL ;
-
son importance relativement aux autres URL du site.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
<?xml version='1.0' encoding='UTF-8' ?> <urlset xmlns="http://www.google.com/schemas/sitemap/0.90"> <url> <loc>http://www.example.org</loc> <lastmod>2013-04-07</lastmod> <changefreq>weekly</changefreq> <priority>1.0</priority> </url> <url> <loc>http://www.example.org/page-web.html</loc> <lastmod>2013-04-15</lastmod> <changefreq>monthly</changefreq> <priority>0.1</priority> </url> <url> <loc>http://www.example.org/page-web2.php</loc> <lastmod>2013-04-06</lastmod> <changefreq>daily</changefreq> <priority>0.1</priority> </url> ... </urlset> |
Les balises
Pour attacher un sitemap, on ajoute la ligne suivante dans le robots.txt :
Sitemap: <lien url="http://www.example.org/sitemap.xml">http://www.example.org/sitemap.xml</lien>
Pour plus d’infos : http://www.sitemaps.org/fr/index.html