Le spamdexing : attention, jeu dangereux...
Par netking,
samedi 4 février 2006 à 01:05
::
Searching
:: Permalink
Le spamdexing est une activité qui consiste à tromper les moteurs de recherche afin d'améliorer le référencement naturel d'un site.
Le principe est simple : arriver à faire figurer abusivement un site en première position, en détournant les règles de classement des moteurs.
De nombreuses techniques de spamdexing existent :
Le spamdexing "Ã l'ancienne"
Cette catégorie regroupe toutes les vieilles astuces consistant à truffer les pages d'un site de mots clés invisibles pour le visiteur :
Le spamdexing par le NO
Ce type de spamdexing utilise les balises d'accessibilité (NO FRAME, NO SCRIPT, NO EMBED, etc.). Il s'agit de balises HTML utilisées par les navigateurs qui ne gèrent pas certaines fonctions comme les frames ou le javascript (ce qui est le cas des robots). Ainsi, tout lien mis entre ces balises est visité par le robot (tout en restant invisible pour le visiteur lambda, équipé d'un navigateur moderne).
Si ce types de balises peut avoir un sens (dans le cas d'un site avec cadres, pour le rendre crawlable), leur utilisation doit être raisonnée. S'il s'agit de fermes de liens masqués, les conséquences peuvent être funestes. A utiliser avec discernement donc.
Le cloacking
Le cloacking consiste à délivrer une version spécifique d'un site pour un moteur de recherche. La détection du robot peut se faire en récupérant le User-agent dans les en-têtes HTTP, mais cette méthode présente des risques et peut amener à un blacklistage très rapidement. Voici un exemple de script php très simple cloackant une page pour Googlebot.
La méthode la plus fiable consiste à identifier le robot par son adress IP. On parle alors d'IP Cloacking. Mais maintenir la liste des nombreuses IP utilisées par les robots est une tâche fastidieuse.
Le cloacking est véritablement de la triche, puisque le moteur référence des pages pour un contenu différent de celui que verront les internautes. Il est d'ailleurs souvent déceptif pour les visiteurs, qui ne trouvent pas ce qu'ils cherchaient.
Le spamdexing par pages satellites
La création de pages satellites consiste à créer des dizaines, voire des milliers pages, afin d'augmenter le potentiel d'un site sur les moteurs de recherche. Cette pratique n'est pas à proprement parler du spam si elle est appliquée correctement : par exemple, faire des déclinaisons d'une page d'accueil par régions et grandes villes n'est pas condamnable, si toutefois la page reste cohérente avec le site.
On passe au vrai spamdexing lorsque ces pages satellites sont trompeuses (contenu illégitime) ou concues uniquement pour le référencement (listes de mots clés).
Le blog spamming
Dans la conquête de backlinks, les spameurs ont vite compris l'intérêt du phénomène des blogs. En effet, les plateformes de blog sont optimisées pour le référencement et toute personne qui poste un commentaire peut y joindre son url. Cette url, une fois publiée, devient un lien en dur, valable pour le référencement. Certains petits malins ont donc développé des scripts capables de poster des dizaines de commentaires inoffensifs ("Très intéressant", "Tout à fait d'accord avec toi") sur des milliers de blogs, générant ainsi des centaines de backlinks. En effet, un commentaire inoffensif n'a que peu de chance d'être supprimé par l'auteur du blog...
Le spamdexing de sitemap
Sur google sitemaps, il est possible de télécharger un fichier XML afin d'aider le robot de Google à indexer votre site en lui en indiquant l'arborescence de vos pages. Il est très simple d'enrichir ce fichier d'urls pas nécessairement accesibles pour vos visiteurs.
Le spamdexing reste une activité à haut risque, et doit inciter à la méfiance. Chaque décision doit être soigneusement pesée avec toujours en tête un souci de cohérence thématique. Certains sites très connu ont des centaines de milliers de pages satellites sans rencontrer de problème (essayez de taper rencontres loup dans Google et vous pourrez découvrir une page satellite d'un célèbre site de rencontres). C'est normal, car elles sont pertinentes : elles répondent à la question de l'internaute.
L'utilisation raisonnée de certaines de ces techniques peut donc apporter des résultats. Mais attention : en cas de blacklistage, vous n'aurez plus que vos yeux pour pleurer.
Le principe est simple : arriver à faire figurer abusivement un site en première position, en détournant les règles de classement des moteurs.
De nombreuses techniques de spamdexing existent :
Le spamdexing "Ã l'ancienne"
Cette catégorie regroupe toutes les vieilles astuces consistant à truffer les pages d'un site de mots clés invisibles pour le visiteur :
- balises meta remplies de mots-clés pas nécessairement pertinents
- listes de mots clés dissimulées en texte blanc sur fond blanc (texte invisible)
Le spamdexing par le NO
Ce type de spamdexing utilise les balises d'accessibilité (NO FRAME, NO SCRIPT, NO EMBED, etc.). Il s'agit de balises HTML utilisées par les navigateurs qui ne gèrent pas certaines fonctions comme les frames ou le javascript (ce qui est le cas des robots). Ainsi, tout lien mis entre ces balises est visité par le robot (tout en restant invisible pour le visiteur lambda, équipé d'un navigateur moderne).
Si ce types de balises peut avoir un sens (dans le cas d'un site avec cadres, pour le rendre crawlable), leur utilisation doit être raisonnée. S'il s'agit de fermes de liens masqués, les conséquences peuvent être funestes. A utiliser avec discernement donc.
Le cloacking
Le cloacking consiste à délivrer une version spécifique d'un site pour un moteur de recherche. La détection du robot peut se faire en récupérant le User-agent dans les en-têtes HTTP, mais cette méthode présente des risques et peut amener à un blacklistage très rapidement. Voici un exemple de script php très simple cloackant une page pour Googlebot.
[php] <php $trouve=strpos($_SERVER["HTTP_USER_AGENT"],"Googlebot");
if($trouve!==false){
// le visiteur est Googlebot, lui présenter la page cloakée
?>
<html>
... contenu de la page cloackée...
</html>
<?php
}
else{
// le visiteur n'est pas googlebot, lui présenter la page "standard"
?>
<html>
... page HTML "standard"...
</html>
<?php
}
?>
La méthode la plus fiable consiste à identifier le robot par son adress IP. On parle alors d'IP Cloacking. Mais maintenir la liste des nombreuses IP utilisées par les robots est une tâche fastidieuse.
Le cloacking est véritablement de la triche, puisque le moteur référence des pages pour un contenu différent de celui que verront les internautes. Il est d'ailleurs souvent déceptif pour les visiteurs, qui ne trouvent pas ce qu'ils cherchaient.
Le spamdexing par pages satellites
La création de pages satellites consiste à créer des dizaines, voire des milliers pages, afin d'augmenter le potentiel d'un site sur les moteurs de recherche. Cette pratique n'est pas à proprement parler du spam si elle est appliquée correctement : par exemple, faire des déclinaisons d'une page d'accueil par régions et grandes villes n'est pas condamnable, si toutefois la page reste cohérente avec le site.
On passe au vrai spamdexing lorsque ces pages satellites sont trompeuses (contenu illégitime) ou concues uniquement pour le référencement (listes de mots clés).
Le blog spamming
Dans la conquête de backlinks, les spameurs ont vite compris l'intérêt du phénomène des blogs. En effet, les plateformes de blog sont optimisées pour le référencement et toute personne qui poste un commentaire peut y joindre son url. Cette url, une fois publiée, devient un lien en dur, valable pour le référencement. Certains petits malins ont donc développé des scripts capables de poster des dizaines de commentaires inoffensifs ("Très intéressant", "Tout à fait d'accord avec toi") sur des milliers de blogs, générant ainsi des centaines de backlinks. En effet, un commentaire inoffensif n'a que peu de chance d'être supprimé par l'auteur du blog...
Le spamdexing de sitemap
Sur google sitemaps, il est possible de télécharger un fichier XML afin d'aider le robot de Google à indexer votre site en lui en indiquant l'arborescence de vos pages. Il est très simple d'enrichir ce fichier d'urls pas nécessairement accesibles pour vos visiteurs.
Le spamdexing reste une activité à haut risque, et doit inciter à la méfiance. Chaque décision doit être soigneusement pesée avec toujours en tête un souci de cohérence thématique. Certains sites très connu ont des centaines de milliers de pages satellites sans rencontrer de problème (essayez de taper rencontres loup dans Google et vous pourrez découvrir une page satellite d'un célèbre site de rencontres). C'est normal, car elles sont pertinentes : elles répondent à la question de l'internaute.
L'utilisation raisonnée de certaines de ces techniques peut donc apporter des résultats. Mais attention : en cas de blacklistage, vous n'aurez plus que vos yeux pour pleurer.














Tutoriaux WI

Commentaires
1. Le mardi 7 février 2006 à 05:50, par Yvan
2. Le vendredi 17 février 2006 à 11:47, par quid
3. Le dimanche 19 février 2006 à 16:48, par netking
4. Le vendredi 3 mars 2006 à 21:00, par visiteur
5. Le samedi 4 mars 2006 à 12:30, par netking
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.