Indexation du contenu web

le 23/11/2009 à 22:14
Indexation du contenu web
L'indexation du contenu web peut s'effectuer sous différentes manières. Entre autres en utilisant PHP et Swish-E comme un simple système Web d'indexation humain.

Avec cette technique, vous allez pouvoir effectuer une indexation efficace touchant les fichiers comme HTML, XML, PDF ou DOC.

Vikram Vaswani montre sous la forme d'un tutorial, l'utilisation de cette technique avec l'utilisation de l'extension PECL.

- Indexing Web Content with PHP and SWISH-E

A lire également

Note de l'auteur :

L'équipe des Google Webmaster Tools a publié l'année dernière un document PDF intitulé Making the Most of Your Content: A Publisher's Guide to the Web. Ne vous attendez pas à y trouver des révélations, mais autant le parcourir, ce n'est pas si souvent que ça que l'on trouve des conseils de Google sur l'optimisation du contenu d'un site web...

Voici le sommaire (en anglais donc...) :
- Introduction
- A brief overview of web search
- What’s new in Google web search ?
- Can Google find your site ?
- Can Google index your site ?
- Controlling what Google indexes
- Robots.txt vs. meta tags
- Controlling caching and snippets
- Does your site have unique and useful content?
- Increasing visibility: best practices
- Webmaster Central
- Sitemaps
- Frequently Asked Questions
- Glossary

Voici quelques points que j'ai relevés dans cet ebook :
- les auteurs prétendent que Google utilise plus de 200 facteurs dans son algorithme pour évaluer la pertinence (jusqu'à présent Google disait plutôt 100... cela dit personne ne peut le vérifier)
- les auteurs font encore la part belle au PageRank, ce qui ne va pas aider les débutants à comprendre comment fonctionne réellement Google de nos jours :-(
- les auteurs rappellent les 3 principales raisons qui font qu'une URL peut gêner l'indexation : les identifiants de session, un trop grand nombre de paramètres (il vaut donc mieux faire de la réécriture d'URL) et un enchainement de plusieurs redirections successives
- les auteurs indiquent clairement que l'inconvénient principal du contenu dupliqué est la dispersion des backlinks. Il s'agit donc le plus souvent d'un handicap et non d'une pénalité ; évidemment dans des cas extrêmes Google peut sanctionner (création de sites miroirs). Ceci peut sembler évident mais il ne se passe pas une seule journée de formation au référencement sans que je doive convaincre les participants qu'acheter 36 noms de domaine différents pour un même site (même contenu) n'est pas une bonne stratégie sur Google. Plutôt que de miser sur la présence de mots-clés dans le nom de domaine, quitte à créer de nombreux contenus dupliqués, il vaut mieux se concentrer à créer un seul site qui concentrera les backlinks et la notoriété...

- le document pdf : webmastertools.pdf
PHPCrawl est un groupe de classes écrites en PHP, pour réaliser un spider de site Web. On peut appeler cela une bibliothèque de spider en PHP.

Le robot passe en revue le site Web, et retourne des informations sur chaque page, lien, fichier, trouvé. En modifiant une méthode magique dans la classe principale, on peut décider de ce qui doit arriver au contenu chargé, et diriger les évolutions du robot sur le site.

Il y a aussi PHP snoopy, qui implémente un navigateur Web en PHP. Il existe toujours, mais commence à vieillir.

- PHP Crawl
- PHP Snoopy

Commentaires

Ecrire

Ecrire un message

Votre message vient d'être créé avec succès.
LoadingChargement en cours