l'actualité du web, des technologies et aussi quelques bons tutoriaux ;-)

Introduction aux techniques de référencement naturel

Avant d'aborder en détails tous les aspects du référencement naturel sur les moteurs de recherche, il est important de faire un point sur les principaux aspects techniques et rédactionnels à prendre en compte. Le comportement de robots des moteurs de recherche (au premier rang dequels Googlebot et Inktomi Slurp) n'a cessé d'évoluer ces dernières années, notament pour lutter contre le spamdexing.

Car les spamers n'ont cessé d'améliorer leurs techniques (que nous évoqueront dans d'autres articles) : pages satellites, balises cachées, etc.

Pour contrer ces pratiques, les moteurs ont tout simplement révisé leur façon d'indexer les pages en donnant toujours plus d'importance au contenu.

Ainsi, aujourd'hui il est quasiment inutile de remplir ses balises meta-keywords, elles ne sont plus prises en compte par les principaux robots...

Voici les grands critères retenus aujourd'hui :

La pertinence du contenu
Les moteurs ont toujours axé leur analyse des pages sur la sémantique, mais cette approche semble désormais constituer un élément essentiel. Ainsi, une liste de mots clés à la suite aura un indice bien moins important qu'une page avec les mêmes mots clés répartis dans du texte pertinent... En gros, faites des phrases !

Le balisage
Les moteurs accordent une importance fondamentale aux balises et arguments descriptif (title, alt...). Ainsi, vos images doivent reprendre leur légende en argument "alt=". Le header de la page doit avoir des liens vers les principales rubriques avec la balise "link".

De même, le titre de la page doit reprendre le titre principal de la page, associé au nom du site. Ceci est d'ailleurs essentiel, puisque c'est ce qui apparaitra en premier dans les résultats du moteur de recherche :

Exemples de résultats Google

L'url rewriting
L'url est désormais prise en compte de manière très forte par les moteurs. Ainsi, un lien de type index.php?id=xxx n'a aucune signification. L'url rewriting (opéré au niveau du serveur web par le biais d'un fichier .htaccess) permet de rendre les url plus complètes, en y ajoutant différents paramètres, comme le titre de la page par exemple. Ainsi, une url de type /index/xxx/titre_de_la_page sera retranscrite par le serveur en index.php?id=xxx, mais pour le moteur de recherche, la page prendra une toute autre signification.

Le backlinking
Le backlinking (liens externes pointant vers votre page) est le critère déterminant dans la détermination de votre PageRank. Cette notion vaut autant pour Yahoo et MSN que pour Google. L'échelle de valeur de vos backlinks prend en compte deux paramètres : le page rank de la page liant vers vous et la similarité des thématiques sur les deux pages (mots clés communs).

Il est très important de savoir que les moteurs ne raisonnent pas par site, mais bien par page. Par exemple, vous pouvez avoir un PR5 sur une page de votre site et un PR2 sur votre page d'accueil.

Pour les délais de mises à jour des index des moteurs, il faut distinguer le crawl quotidien des robots, qui alimentent l'index en permanence, et les périodes de mise à jour du PageRank (appellées Google Dance chez Google), qui interviennent tous les 100 jours environ. Cela signifie que votre site sera peut être indexé et visible tout de suite, alors que votre pagerank restera à 0 (c'est le cas pour Web Interdit, lancé mi-décembre, mais déjà premier sur un mot comme "Tyoogle" dans Google).

Ces différents paramètres sont très bien pris en compte par les plateformes de blog, et notament celle que nous utilisons : dotclear. Regardez la source de cette page et vous aurez une vue assez claire de ce qu'il faut faire pour rencontrer le succès en référencement naturel.

Votre site n'a pas de contenu rédactionnel ? Alors il faudra en créer : lexique de termes dans votre secteur d'activité, guide, blog annexe... Sans contenu, vous êtes nécessairement voué aux limbes des moteurs de recherche.

HDMI : La prise péritel du futur...

Vous avez peut être vu fleurir ce logo pendant que vous faisiez vos courses de Noël à la FNAC... Ce logo, qui signifie "High Definition Multimedia Interface" est une innovation majeure qui va permettre de relier entre eux vos écrans digitaux et vos différents lecteurs (DVD, Décodeurs...).

HDMI

Cette interface permet de diffuser du contenu vidéo 100% numérique, jusqu'à des résolutions élevées (et notamment la TVHD). Basé sur le standard DVI, avec lequel il reste compatible, le HDMI se caractérise par une approche proche de l'affichage informatique en proposant des résolutions (jusqu'à 1920x1080). Adieu Pal et Secam !

Un câble HDMI véhicule aussi le son en numérique. En fait, pour le son, il utilise le standard IEEE 1394, plus connu sous sa dénomination de Firewire. Cette norme a une bande passante suffisamment elevée pour qu'un cable véhicule plusieurs sources audio simultanément. On peut d'ailleurs imaginer que des appareils indépendants pourront former un mini réseau multimédia grâce au HDMI.

La HD étant promise à un bel avenir (il suffit de voir un extrait de King Kong en HD pour comprendre pourquoi), il est préférable de privilégier les équipements proposant d'ores et déjà cette prise magique.


Daemon Tools : un lecteur virtuel sur votre PC

Quand vous téléchargez ou que vous créez une image disque, vous récupérez une copie virtuelle d'un média physique. Si l'option la plus évidente est de graver l'image disque pour obtenir une copie de l'original, un autre possibilité existe : utiliser le fichier directement avec un lecteur virtuel.

Un lecteur virtuel va créer un (ou plusieurs) lecteur(s) sur votre système et vous permettre d'y "monter" des images disques. Ainsi, votre ordinateur pensera tout simplement que vous avez bien inséré le disque dans un lecteur.

Les lecteurs virtuels sont intéressants à plusieurs titres :
  • en accédant aux données directement sur le disque, ils sont plus rapides en lecture que n'importe quel CD
  • ils permettent d'émuler des protections
  • ils permettent de disposer de plusieurs images directement disponibles
Si Mac Os X intègre la gestion des images disques .dmg au niveau du système, sur PC il faut des logiciels spécifiques. Hormis Alcohol 120%, qui est payant et dépasse de loin le simple rôle de lecteur virtuel, le plus populaire d'entre tous est Daemon Tools.

Gratuit pour une utilisation personnelle, ce logiciel est une merveille de simplicité. De plus, il est capable d'émuler la plupart des protections anti-copie du marché (Safedisc, Securom et Laserlok).

Après avoir téléchargé le logiciel, nous pouvons lancer l'installeur. Attention, si vous avez une ancienne version de Daemon Tools sur votre PC, pensez à la supprimer avant d'installer la version 4.

L'installation commence et l'installeur vous indique qu'il va installer une couche logicielle pour emuler le SCSI. Acceptez.

Daemon Tools - Warning SCSI

Vous êtes ensuite invité à redémarrer votre machine.

Daemon Tools - Restart

Après le redémarrage, l'installation repart d'elle même. Suivez les étapes jusqu'à l'écran de sélection des composants. La Daemon Tools Search Bar est une petite toolbar pour votre bureau, vous pouvez vous en passer, elle n'apporte rien.

Daemon Tools - Installation

Le reste de l'installation est banal. A la fin, Daemon Tools se lance et apparait immédiatement dans votre barre des taches (l'icône rouge à gauche).

Daemon Tools - Icone

Un coup d'oeil dans votre gestionnaire de périphériques vous montrera qu'un nouveau lecteur de CD/DVD-ROM est présent. Il émule un lecteur SCSI (après tout, pourquoi s'en priver ?).

Daemon Tools - Gestionnaire de périphériques

Le lecteur porte un nom aléatoirement défini par le logiciel, mais vous pouvez entièrement paramétrer le lecteur dans les préférences.

Passons à l'utilisation du logiciel lui même. Pour la fonction de base (monter une image dans le lecteur virtuel), c'est très simple : il suffit de cliquer sur l'icône de la barre tes taches.

Daemon Tools - Monter une image

Sélectionnez ensuite "Device X [X:] No media". Une fenêtre s'ouvre pour vous permettre de sélectionner votre image disque. Sélectionnez la et validez. Votre CD est prêt à être utilisé. S'il comporte un autorun, celui-ci devrait démarrer...

Un clic gauche sur l'icône de Daemon Tools vous donne accès aux paramètres de l'application.

Daemon Tools - Préférences

Elles sont relativement simples à comprendre et normalement, il n'y a pas besoin d'y toucher. Sauf pour les férus de cracking, avec les émulations de protection et les réglages fins des paramètres du lecteur (l'aide du logiciel sur le site de l'éditeur est d'ailleurs particulièrement compléte sur ces sujets). C'est également là que vous pourrez créer de nouveaux lecteurs (jusqu'à 4).

Très léger, très fiable et compatible avec quasiment tous les formats d'images, Daemon Tools est sans consteste le meilleur lecteur virtuel disponible.

QuickPar : le réparateur de binaires

Les fichiers de parités qui accompagnent les archives binaires sur Usenet permettent de reconstituer d'éventuels fichiers manquants ou endommagés grâce au concept de parité.

Inspiré des technologies RAID, il permet de préparer un ensemble de fichiers de parité qui permettront de vérifier l'intégrité de chacun des segments de l'archive, et, au besoin, de les réparer.

QuickPar logiciel qui sert à créer et à utiliser ces fichiers est gratuit et peut se télécharger ici.

Il est très simple d'utilisation. Il vous faut au préalable disposer d'une archive téléchargée sur les newsgroup et des ses fichiers de parité (.PAR2).

Une fois le logiciel lancé, vous cliquez sur "Ouvrir" puis vous sélectionnez un des fichiers .PAR2 de votre archive. L'analyse commence immédiatement.

QickPar - Vérification

Si l'un des segments de l'archive est endommagé, il est indiqué en orange dans la liste.

QuickPar - Fichiers endommagés

Dans ce cas, après l'analyse de tous les segments, l'analyse des fichiers de parité commence, puis la réparation s'engage.

QuickPar - Réparation

Attention, cette phase va mettre votre disque dur à genoux. Essayez d'éviter que les fichiers concernés se trouvent sur votre disque système.

Après un (long) temps d'attente, vous pouvez espérer voir l'heureux résultat :

QuickPar - Réparation terminée

A ce stade, vous pouvez décompresser votre archive avec winrar.

Vous l'aurez compris en parcourant ce tutorial, QuickPar (dans ses fonctions de réparation) est extrêmement simple d'utilisation, tout est automatique.

Pour les utilisateurs de MacOs X, l'équivalent de QuickPar est MacPar.

Voir aussi :
- Tutorial Newsleecher/Supersearch
- Tutorial Giganews

Newsleecher : les binaires version luxe

Comme nous l'évoquions dans cet article, Usenet sert de banque à des dizaines de milliers d'archives, qui vont des films (en divx ou DVD complets) aux logiciels en passant par les jeux pour toutes les consoles du marché.

Mais il est vrai qu'Usenet conserve une part de geekitude qui peut effrayer l'utilisateur d'emule moyen, heureux de son sort (surtout si il a une high id). Entre les archives saucissonées, les fichiers de parité et les millions d'en-têtes à télécharger, il y a de quoi en décourager plus d'un.

Heureusement, Newsleecher a été inventé pour simplifier le processus, notamment à travers sa fonction supersearch, véritable google des binaires. Associé à un compte chez giganews, c'est un véritable jeu d'enfant de télécharger des fichiers sur usenet. Par contre, pour ceux qui sont déjà en train de le chercher sur emule, mauvaise nouvelle : pour bénéficier de supersearch, vous serez obligés d'acquérir le logiciel. Mais à 25€, vu les services rendus, c'est une affaire.

Pour vous le procurer, rendez vous sur le site de newsleecher et achetez une licence pour un an avec supersearch (29,95$ - soit 25€ environ). Vous pourrez alors télécharger le dernière version et la débloquer avec votre clé reçue par mail. D'autres alternatives existent, mais aucune n'arrive à la cheville de newsleecher en terme d'ergonomie et de rapport/qualité prix.

Une fois le logiciel installé, cliquez sur "Options" pour procéder à quelques réglages de base.

Newsleecher - Préférences

Dans la rubrique "Downloads", indiquez le dossier où vous voulez sauvegarder les fichiers téléchargés. Dans la mesure du possible, indiquez un autre disque que votre disque système. Sinon, vous serez très ralenti pendant les opération de vérification de parité et de décompression. Ne touchez pas aux autres réglages, sauf si vous en ressentez la nécessité.

Comme nous n'allons pas utiliser Newsleecher "à l'ancienne" et que nous n'allons même pas télécharger la moindre en-tête, c'est le seul point à régler dans les options. Simple, non ?

Passons à la configuration du compte de votre serveur news.

Newsleecher - Réglages Serveur

Nous avons pris dans cet exemple un compte sur giganews qui, bien entendu, nécessite un login et mot de passe. L'abonnement giganews permet d'ouvrir jusqu'à 10 connections. Si vous vous contentez du serveur de news (gratuit) de votre provider, renseignez vous sur le nombre de connections que vous pouvez ouvrir (jusqu'à 4 chez Free par exemple). Dans ce cas, vous n'aurez pas à fournir d'identifiants, puisque vous vous connectez depuis le réseau de votre FAI. Attention, en cas de non respect des règles de votre provider, vous pouvez vous faire blacklister de leurs serveurs de newsgroups.

Une fois le serveur réglé, passons directement à la vraie valeur ajoutée de newsleecher : supersearch.

Newsleecher - Supersearch

Cette fonction magique vous permet de chercher un fichier exactement comme vous le feriez sur emule. Il suffit de taper le nom de fichier dans "Search for" et de valider. Instantanément, la liste de tous les fichiers concernés apparait. Si vous êtes totalement débutant, sachez qu'une archive est scindée en dizaines de morceaux (r00, r01, etc), ce qui explique ces longues listes répétitives. Vous pouvez souvent trouver un fichier nfo associé à l'archive qui vous donnera des indications sur son contenu, ou bien vous aider de sites comme binnews, qui vous donnent les noms de fichier à chercher.

Le menu déroulant "Max days" concerne la date limite des fichiers que vous êtes prêt à télécharger. 45 jours est le meilleur réglage, qui correspond à la durée de vie moyenne des archives sur usenet.

Autre petit truc bon à savoir pour les films : des segments d'archives de 15 Mo indiquent un CD (divx généralement), 50 Mo un DVD5, et 100 Mo un DVD9 (double couche).

Une fois l'archive de vos rêves reperée, faites un clic-droit sur l'un des fichiers (n'importe lequel).

Newsleecher - Sélection automatique

Choisissez "Smart select". Tous les fichiers nécessaires sont automatiquement sélectionnés. Magique ! Vérifiez qu'il n'y a pas de ligne rouge. Cela signifie qu'un fichier est incomplet. Si c'est le cas, vous pouvez tenter le coup s'il y a également des fichiers de parité (.PAR). Ils sont destinés à la réparation des archives incomplètes avec un utilitaire gratuit comme QuickPar.

Pour lancer le téléchargement, faites Ctrl+D. Cliquez sur connect, si ce n'est déjà fait. Le téléchargement commence.

Newsleecher - Download en cours

Il ne vous reste plus qu'à attendre la fin du téléchargement. En attendant voici deux belles images pour patienter...

Newsleecher - Vitesse

Newsleecher à fond avec giganews et une freebox...

Newsleecher - Bots

Les 10 bots en action...

Voilà, votre fichier est arrivé. Reste à en vérifier l'intégrité avec Quickpar (qui fera l'objet d'un prochain tutorial) et à le décompresser avec Winrar.

Update : Newsleecher gère désormais lui-même la vérification et la décompression, comme expliqué dans ce billet.

Note : bien entendu, vous ne devez télécharger que des archives sur lesquelles vous possédez les droits, en ayant acheté le produit original.

Voir aussi :
- Tutorial Giganews
- Tutorial QuickPar

Comment ça marche : la haute disponibilité web

Pour gérer des milliers ou des millions d'utilisateurs, un site web se doit de mettre en place un certain nombre de technologies afin que les visites des utilisateurs soient garanties et agréables. En termes techniques, on parle de redondance et de répartition de charge (load balancing en anglais). L'association de ces deux paramètres permet d'atteindre ce qu'on appelle la haute disponibilité : en gros un service qui ne peut pas tomber en panne et qui peut facilement monter en charge.

Vous vous en doutez, aucun serveur n'est assez puissant pour gérer un gros site web, et, de toute façon, il pourrait tomber en panne.

Alors, comment font les éditeurs de sites web ?

Pour obtenir la redondance, les serveurs sont répliqués, c'est à dire qu'il coexiste plusieurs serveurs, au contenu identique. Ainsi, en cas de panne d'une machine, les autres assument la charge supplémentaire le temps de la réparation

Pour ce qui est de la charge, le principe est simple : le load balancer (qui peut être un serveur ou un dispositif hardware dédié) envoie toute requête entrante au serveur le plus disponible. Si tous les serveurs saturent, la solution est simple : on ajoute une machine.

Il y a des dizaines de configurations possibles, mais nous allons prendre un exemple assez commun, qui démontre bien la mise en oeuvre de ces principes à tous les niveaux de l'architecture d'un service web haute disponibilité sous linux.


Architecture web haute disponibilité

Premier niveau : l'arrivée des requêtes sur la tête de plateforme

Quand votre requête ("je veux telle page web") arrive sur l'architecture, elle passe d'abord par un firewall. Ce dernier vérifie qu'elle est bien autorisée par l'architecture. En gros, c'est la même chose que votre pare-feu Windows. Sous Linux, le programme chargé de ce travail se nomme IP Tables (anciennement IP Chains).

Ensuite, si la requête est autorisée, elle est passée au load balancer (LVS soit Linux Virtual Server) qui décide quel serveur va répondre (en principe le moins chargé, mais de nombreux réglages sont possibles). Le load balancer envoie la requête au serveur web. A votre niveau c'est transparent : vous n'avez aucun moyen de connaître la machine qui va vous répondre.

A ce niveau, les deux serveurs sont redondés : ils ont un clone qui attend sagement, prêt à prendre le relais. Chaque serveur est relié à son clone via un petit logiciel (Heartbeat) qui pingue régulièrement le serveur en ligne pour s'assurer de sa disponibilité. A la moindre défaillance, le clone prend le relais et emet une alerte à l'administrateur pour intervention.

Deuxième niveau : le traitement des requêtes sur les serveurs frontaux

Votre requête arrive finalement sur le serveur web (appellé "frontal", car c'est lui qui renvoie la page directement sur le web). Le serveur web (Apache en général sous Linux) exécute votre demande : il exécute le code php, interroge la base de donnée, insère les variables dans la mise en page HTML et vous renvoie le tout sous la forme d'une page statique.

D'ailleurs, la plupart des serveurs vous renvoient effectivement une page statique précalculée par un système de cache : les pages les plus fréquemment demandées sont stockées "en dur" (en html) et ne sont recalculées que périodiquement, soulageant ainsi le processeur des serveurs web et évitant l'accès à la base de donnée. Le recalcul de la page peut intervenir soit après un certain délai, soit après un certain nombre d'affichages. C'est notamment le cas pour les pages dont le contenu change peu fréquemment : pages de catalogue par exemple.

Dans notre exemple, ce sont également les serveurs frontaux qui vous renvoie les images associées à la page, mais le plus souvent celles-ci font l'objet d'un stockage séparé et partagé entre les frontaux. Ce stockage est effectué sur des périphériques dédiés (SAN) aux disques durs ultra-redondants (RAID 5). Il est également courant de faire appel à un CDN (Content Delivery Network). Ces réseaux (comme Akamai) disposent de milliers de serveurs répartis sur l'ensemble de la planète. En répartissant votre contenu statique (images, médias, html) sur leur réseaux, ils permettent de délivrer l'information au plus près de l'internaute, améliorant grandement les performances des sites à audience mondiale.

Troisième niveau : la base de données

La base de données pose un problème un peu différent. Il est très difficile de gérer des écritures et lectures sur plusieurs serveurs (sauf technologies de clustering, mais restons dans une architecture simple). En effet, une base de donnée qui doit se mettre à jour simultanément sur plusieurs serveurs pose des problèmes techniques hors du spectre de cet article. Mais comme la plupart des sites web ont un rapport lecture/écriture de l'ordre de 90/10, voire 95/5, une solution alternative très simple existe : l'architecture maître-esclave (aussi appellée replication).

Le principe est simple : un seul serveur (le maître) assure les opérations d'écriture (commandes SQL INSERT, UPDATE et DELETE), tandis que les esclaves assurent uniquement les opérations de lecture (commande SQL SELECT). La synchronisation entre le maître et les esclaves est quasi instantanée. Il est donc possible d'obtenir une information ancienne (avant la mise à jour par le maître) mais ce risque concerne un nombre très minime de requêtes et reste acceptable dans la plupart des cas.

La replication apporte également l'avantage de la redondance : en cas de défaillance du maître, il suffit d'activer les opérations d'écriture sur un esclave pour disposer d'un nouveau maître.

Bien d'autres dispositifs de sécurité existent au niveau hardware des serveurs eux-mêmes (double alimentation, redondance des disques en RAID, double cartes réseau...) et bien entendu du datacenter (sécurité incendie, alimentation electrique ondulée, générateurs de secours, connexions multi-opérateurs).

L'ensemble des ces dispositifs crée la haute-disponibilité, garante d'un accès permanent à vos sites web favoris.