Calendrier

« juin 2007
lunmarmerjeuvensamdim
123
45678910
11121314151617
18192021222324
252627282930

l'actualité du web, des technologies et aussi quelques bons tutoriaux ;-)

Le spamdexing : attention, jeu dangereux...

Le spamdexing est une activité qui consiste à tromper les moteurs de recherche afin d'améliorer le référencement naturel d'un site.

Le principe est simple : arriver à faire figurer abusivement un site en première position, en détournant les règles de classement des moteurs.

De nombreuses techniques de spamdexing existent :

Le spamdexing "à l'ancienne"
Cette catégorie regroupe toutes les vieilles astuces consistant à truffer les pages d'un site de mots clés invisibles pour le visiteur :
  • balises meta remplies de mots-clés pas nécessairement pertinents
  • listes de mots clés dissimulées en texte blanc sur fond blanc (texte invisible)
Il faut savoir que pour les moteurs, les listes de mots clés sont désormais complètement inefficaces (elles ne passent pas le filtre des moteurs d'analyse sémantique), et vous font courir des risques de blacklistage. A éviter, donc.

Le spamdexing par le NO
Ce type de spamdexing utilise les balises d'accessibilité (NO FRAME, NO SCRIPT, NO EMBED, etc.). Il s'agit de balises HTML utilisées par les navigateurs qui ne gèrent pas certaines fonctions comme les frames ou le javascript (ce qui est le cas des robots). Ainsi, tout lien mis entre ces balises est visité par le robot (tout en restant invisible pour le visiteur lambda, équipé d'un navigateur moderne).

Si ce types de balises peut avoir un sens (dans le cas d'un site avec cadres, pour le rendre crawlable), leur utilisation doit être raisonnée. S'il s'agit de fermes de liens masqués, les conséquences peuvent être funestes. A utiliser avec discernement donc.

Le cloacking
Le cloacking consiste à délivrer une version spécifique d'un site pour un moteur de recherche. La détection du robot peut se faire en récupérant le User-agent dans les en-têtes HTTP, mais cette méthode présente des risques et peut amener à un blacklistage très rapidement. Voici un exemple de script php très simple cloackant une page pour Googlebot.

[php] <php $trouve=strpos($_SERVER["HTTP_USER_AGENT"],"Googlebot");
if($trouve!==false){
// le visiteur est Googlebot, lui présenter la page cloakée
?>
<html>
... contenu de la page cloackée...
</html>
<?php
}
else{
// le visiteur n'est pas googlebot, lui présenter la page "standard"
?>
<html>
... page HTML "standard"...
</html>
<?php
}
?>

La méthode la plus fiable consiste à identifier le robot par son adress IP. On parle alors d'IP Cloacking. Mais maintenir la liste des nombreuses IP utilisées par les robots est une tâche fastidieuse.

Le cloacking est véritablement de la triche, puisque le moteur référence des pages pour un contenu différent de celui que verront les internautes. Il est d'ailleurs souvent déceptif pour les visiteurs, qui ne trouvent pas ce qu'ils cherchaient.

Le spamdexing par pages satellites
La création de pages satellites consiste à créer des dizaines, voire des milliers pages, afin d'augmenter le potentiel d'un site sur les moteurs de recherche. Cette pratique n'est pas à proprement parler du spam si elle est appliquée correctement : par exemple, faire des déclinaisons d'une page d'accueil par régions et grandes villes n'est pas condamnable, si toutefois la page reste cohérente avec le site.

On passe au vrai spamdexing lorsque ces pages satellites sont trompeuses (contenu illégitime) ou concues uniquement pour le référencement (listes de mots clés).

Le blog spamming
Dans la conquête de backlinks, les spameurs ont vite compris l'intérêt du phénomène des blogs. En effet, les plateformes de blog sont optimisées pour le référencement et toute personne qui poste un commentaire peut y joindre son url. Cette url, une fois publiée, devient un lien en dur, valable pour le référencement. Certains petits malins ont donc développé des scripts capables de poster des dizaines de commentaires inoffensifs ("Très intéressant", "Tout à fait d'accord avec toi") sur des milliers de blogs, générant ainsi des centaines de backlinks. En effet, un commentaire inoffensif n'a que peu de chance d'être supprimé par l'auteur du blog...

Le spamdexing de sitemap
Sur google sitemaps, il est possible de télécharger un fichier XML afin d'aider le robot de Google à indexer votre site en lui en indiquant l'arborescence de vos pages. Il est très simple d'enrichir ce fichier d'urls pas nécessairement accesibles pour vos visiteurs.

Le spamdexing reste une activité à haut risque, et doit inciter à la méfiance. Chaque décision doit être soigneusement pesée avec toujours en tête un souci de cohérence thématique. Certains sites très connu ont des centaines de milliers de pages satellites sans rencontrer de problème (essayez de taper rencontres loup dans Google et vous pourrez découvrir une page satellite d'un célèbre site de rencontres). C'est normal, car elles sont pertinentes : elles répondent à la question de l'internaute.

L'utilisation raisonnée de certaines de ces techniques peut donc apporter des résultats. Mais attention : en cas de blacklistage, vous n'aurez plus que vos yeux pour pleurer.

Viiv : Intel veut faire entrer le PC au salon...

Les technologies "Media Center" consistent à proposer une interface utilisable à la télécommande, afin de permettre de piloter tous ses contenus numériques (fichiers, images, programmes télés...) sur un téléviseur. Au premier rang de ces technologies figure l'édition spéciale de Windows XP : Windows Media Center.

Cette version de Windows n'a pourtant jamais décollé malgrè ses indéniables qualités. La raison en est simple : seuls quelques PC haut de gamme avec des équipement hardware spécifiques peuvent le faire tourner.

Il y a bien quelques passionnés qui ont sauté le pas en s'offrant des PC dédiés, comme le HP Digital Entertainment Center (photo ci-dessous), mais ils sont rares. D'ailleurs, ce type de produit n'est pas évident à trouver.

HP Digital Entertainment Center

Afin de relancer l'intérêt du public pour le "PC de salon", Intel vient de dévoiler au CES de Las Vegas une nouvelle technologie : Viiv.

En y regardant de plus près, on voit qu'Intel est en passe de réitérer l'excellent coup marketing déjà réalisé avec la norme Centrino pour les portables : proposer un ensemble de technologies "certifiées", largement pourvues en hardware Intel.

En gros, un PC Viiv, c'est un PC avec un processeur de portable double coeur (obligatoire, Pentium D ou Core Duo), clavier et souris sans fils, une télécommande, un circuit audio 5.1 (voire 7.1), un circuit graphique compatible TV HD et, bien sûr, une carte (ou un circuit) TV. L'utilisation de circuits plutôt réservés aux portables permet un net gain de bruit, essentiel dans un contexte de salon.

Voilà pour le minimum. Après, plusieurs possibilités sont offertes aux constructeurs pour améliorer la performance de leur stations. Le plus intéressant est le "quick resume". Ce système, basé sur de la mémoire flash intégrée à la carte mère, permet d'allumer et d'éteindre le Media Center aussi rapidement qu'un vulgaire lecteur DVD.

Le CES a été l'occasion pour les constructeurs de présenter leurs premiers ordinateurs labellisés Viiv, comme Sony avec son XL100 (voir ci-dessous).


Sony XL 100

Cet ordinateur de rêve est d'ailleurs le premier à intégrer une sortie HDMI.

Le Viiv, en normalisant un ensemble de fonctions déjà existantes par ailleurs, devrait simplifier l'accès du PC au salon. Déjà, Dell propose sur son site des configurations Viiv.

D'ailleurs, AMD n'a pas tardé à réagir en annoncant son propre format Media Center : Live.

La guerre du PC de salon ne fait que commencer...

Introduction aux techniques de référencement naturel

Avant d'aborder en détails tous les aspects du référencement naturel sur les moteurs de recherche, il est important de faire un point sur les principaux aspects techniques et rédactionnels à prendre en compte. Le comportement de robots des moteurs de recherche (au premier rang dequels Googlebot et Inktomi Slurp) n'a cessé d'évoluer ces dernières années, notament pour lutter contre le spamdexing.

Car les spamers n'ont cessé d'améliorer leurs techniques (que nous évoqueront dans d'autres articles) : pages satellites, balises cachées, etc.

Pour contrer ces pratiques, les moteurs ont tout simplement révisé leur façon d'indexer les pages en donnant toujours plus d'importance au contenu.

Ainsi, aujourd'hui il est quasiment inutile de remplir ses balises meta-keywords, elles ne sont plus prises en compte par les principaux robots...

Voici les grands critères retenus aujourd'hui :

La pertinence du contenu
Les moteurs ont toujours axé leur analyse des pages sur la sémantique, mais cette approche semble désormais constituer un élément essentiel. Ainsi, une liste de mots clés à la suite aura un indice bien moins important qu'une page avec les mêmes mots clés répartis dans du texte pertinent... En gros, faites des phrases !

Le balisage
Les moteurs accordent une importance fondamentale aux balises et arguments descriptif (title, alt...). Ainsi, vos images doivent reprendre leur légende en argument "alt=". Le header de la page doit avoir des liens vers les principales rubriques avec la balise "link".

De même, le titre de la page doit reprendre le titre principal de la page, associé au nom du site. Ceci est d'ailleurs essentiel, puisque c'est ce qui apparaitra en premier dans les résultats du moteur de recherche :

Exemples de résultats Google

L'url rewriting
L'url est désormais prise en compte de manière très forte par les moteurs. Ainsi, un lien de type index.php?id=xxx n'a aucune signification. L'url rewriting (opéré au niveau du serveur web par le biais d'un fichier .htaccess) permet de rendre les url plus complètes, en y ajoutant différents paramètres, comme le titre de la page par exemple. Ainsi, une url de type /index/xxx/titre_de_la_page sera retranscrite par le serveur en index.php?id=xxx, mais pour le moteur de recherche, la page prendra une toute autre signification.

Le backlinking
Le backlinking (liens externes pointant vers votre page) est le critère déterminant dans la détermination de votre PageRank. Cette notion vaut autant pour Yahoo et MSN que pour Google. L'échelle de valeur de vos backlinks prend en compte deux paramètres : le page rank de la page liant vers vous et la similarité des thématiques sur les deux pages (mots clés communs).

Il est très important de savoir que les moteurs ne raisonnent pas par site, mais bien par page. Par exemple, vous pouvez avoir un PR5 sur une page de votre site et un PR2 sur votre page d'accueil.

Pour les délais de mises à jour des index des moteurs, il faut distinguer le crawl quotidien des robots, qui alimentent l'index en permanence, et les périodes de mise à jour du PageRank (appellées Google Dance chez Google), qui interviennent tous les 100 jours environ. Cela signifie que votre site sera peut être indexé et visible tout de suite, alors que votre pagerank restera à 0 (c'est le cas pour Web Interdit, lancé mi-décembre, mais déjà premier sur un mot comme "Tyoogle" dans Google).

Ces différents paramètres sont très bien pris en compte par les plateformes de blog, et notament celle que nous utilisons : dotclear. Regardez la source de cette page et vous aurez une vue assez claire de ce qu'il faut faire pour rencontrer le succès en référencement naturel.

Votre site n'a pas de contenu rédactionnel ? Alors il faudra en créer : lexique de termes dans votre secteur d'activité, guide, blog annexe... Sans contenu, vous êtes nécessairement voué aux limbes des moteurs de recherche.

HDMI : La prise péritel du futur...

Vous avez peut être vu fleurir ce logo pendant que vous faisiez vos courses de Noël à la FNAC... Ce logo, qui signifie "High Definition Multimedia Interface" est une innovation majeure qui va permettre de relier entre eux vos écrans digitaux et vos différents lecteurs (DVD, Décodeurs...).

HDMI

Cette interface permet de diffuser du contenu vidéo 100% numérique, jusqu'à des résolutions élevées (et notamment la TVHD). Basé sur le standard DVI, avec lequel il reste compatible, le HDMI se caractérise par une approche proche de l'affichage informatique en proposant des résolutions (jusqu'à 1920x1080). Adieu Pal et Secam !

Un câble HDMI véhicule aussi le son en numérique. En fait, pour le son, il utilise le standard IEEE 1394, plus connu sous sa dénomination de Firewire. Cette norme a une bande passante suffisamment elevée pour qu'un cable véhicule plusieurs sources audio simultanément. On peut d'ailleurs imaginer que des appareils indépendants pourront former un mini réseau multimédia grâce au HDMI.

La HD étant promise à un bel avenir (il suffit de voir un extrait de King Kong en HD pour comprendre pourquoi), il est préférable de privilégier les équipements proposant d'ores et déjà cette prise magique.


Daemon Tools : un lecteur virtuel sur votre PC

Quand vous téléchargez ou que vous créez une image disque, vous récupérez une copie virtuelle d'un média physique. Si l'option la plus évidente est de graver l'image disque pour obtenir une copie de l'original, un autre possibilité existe : utiliser le fichier directement avec un lecteur virtuel.

Un lecteur virtuel va créer un (ou plusieurs) lecteur(s) sur votre système et vous permettre d'y "monter" des images disques. Ainsi, votre ordinateur pensera tout simplement que vous avez bien inséré le disque dans un lecteur.

Les lecteurs virtuels sont intéressants à plusieurs titres :
  • en accédant aux données directement sur le disque, ils sont plus rapides en lecture que n'importe quel CD
  • ils permettent d'émuler des protections
  • ils permettent de disposer de plusieurs images directement disponibles
Si Mac Os X intègre la gestion des images disques .dmg au niveau du système, sur PC il faut des logiciels spécifiques. Hormis Alcohol 120%, qui est payant et dépasse de loin le simple rôle de lecteur virtuel, le plus populaire d'entre tous est Daemon Tools.

Gratuit pour une utilisation personnelle, ce logiciel est une merveille de simplicité. De plus, il est capable d'émuler la plupart des protections anti-copie du marché (Safedisc, Securom et Laserlok).

Après avoir téléchargé le logiciel, nous pouvons lancer l'installeur. Attention, si vous avez une ancienne version de Daemon Tools sur votre PC, pensez à la supprimer avant d'installer la version 4.

L'installation commence et l'installeur vous indique qu'il va installer une couche logicielle pour emuler le SCSI. Acceptez.

Daemon Tools - Warning SCSI

Vous êtes ensuite invité à redémarrer votre machine.

Daemon Tools - Restart

Après le redémarrage, l'installation repart d'elle même. Suivez les étapes jusqu'à l'écran de sélection des composants. La Daemon Tools Search Bar est une petite toolbar pour votre bureau, vous pouvez vous en passer, elle n'apporte rien.

Daemon Tools - Installation

Le reste de l'installation est banal. A la fin, Daemon Tools se lance et apparait immédiatement dans votre barre des taches (l'icône rouge à gauche).

Daemon Tools - Icone

Un coup d'oeil dans votre gestionnaire de périphériques vous montrera qu'un nouveau lecteur de CD/DVD-ROM est présent. Il émule un lecteur SCSI (après tout, pourquoi s'en priver ?).

Daemon Tools - Gestionnaire de périphériques

Le lecteur porte un nom aléatoirement défini par le logiciel, mais vous pouvez entièrement paramétrer le lecteur dans les préférences.

Passons à l'utilisation du logiciel lui même. Pour la fonction de base (monter une image dans le lecteur virtuel), c'est très simple : il suffit de cliquer sur l'icône de la barre tes taches.

Daemon Tools - Monter une image

Sélectionnez ensuite "Device X [X:] No media". Une fenêtre s'ouvre pour vous permettre de sélectionner votre image disque. Sélectionnez la et validez. Votre CD est prêt à être utilisé. S'il comporte un autorun, celui-ci devrait démarrer...

Un clic gauche sur l'icône de Daemon Tools vous donne accès aux paramètres de l'application.

Daemon Tools - Préférences

Elles sont relativement simples à comprendre et normalement, il n'y a pas besoin d'y toucher. Sauf pour les férus de cracking, avec les émulations de protection et les réglages fins des paramètres du lecteur (l'aide du logiciel sur le site de l'éditeur est d'ailleurs particulièrement compléte sur ces sujets). C'est également là que vous pourrez créer de nouveaux lecteurs (jusqu'à 4).

Très léger, très fiable et compatible avec quasiment tous les formats d'images, Daemon Tools est sans consteste le meilleur lecteur virtuel disponible.

QuickPar : le réparateur de binaires

Les fichiers de parités qui accompagnent les archives binaires sur Usenet permettent de reconstituer d'éventuels fichiers manquants ou endommagés grâce au concept de parité.

Inspiré des technologies RAID, il permet de préparer un ensemble de fichiers de parité qui permettront de vérifier l'intégrité de chacun des segments de l'archive, et, au besoin, de les réparer.

QuickPar logiciel qui sert à créer et à utiliser ces fichiers est gratuit et peut se télécharger ici.

Il est très simple d'utilisation. Il vous faut au préalable disposer d'une archive téléchargée sur les newsgroup et des ses fichiers de parité (.PAR2).

Une fois le logiciel lancé, vous cliquez sur "Ouvrir" puis vous sélectionnez un des fichiers .PAR2 de votre archive. L'analyse commence immédiatement.

QickPar - Vérification

Si l'un des segments de l'archive est endommagé, il est indiqué en orange dans la liste.

QuickPar - Fichiers endommagés

Dans ce cas, après l'analyse de tous les segments, l'analyse des fichiers de parité commence, puis la réparation s'engage.

QuickPar - Réparation

Attention, cette phase va mettre votre disque dur à genoux. Essayez d'éviter que les fichiers concernés se trouvent sur votre disque système.

Après un (long) temps d'attente, vous pouvez espérer voir l'heureux résultat :

QuickPar - Réparation terminée

A ce stade, vous pouvez décompresser votre archive avec winrar.

Vous l'aurez compris en parcourant ce tutorial, QuickPar (dans ses fonctions de réparation) est extrêmement simple d'utilisation, tout est automatique.

Pour les utilisateurs de MacOs X, l'équivalent de QuickPar est MacPar.

Voir aussi :
- Tutorial Newsleecher/Supersearch
- Tutorial Giganews