Extraire les liens d'une page

le 08/10/2008 à 23:43

Pour extraire les liens d'une page (ou tout autre balise, en fait), vous avez trois approches :
- DOM, avec getElementsByTagName
- Xpath, avec query('//a')
- Les expressions rationnelles, avec moult solutions publiques et privées

Au final, les deux premières sont acceptables si les pages sont valides d'un point de vue XML, ce qui est encore loin d'être le cas de toutes les sites. La dernière est moins performante et élégante, mais c'est un tout-terrain. Pour le choix final, il faudra alors s'adapter.

- Get links with XPath

Auteur

LA GLOBULE
Origine

Nexen

Commentaires

Ecrire un message

Votre message vient d'être créé avec succès.

Extraire les liens d'une page

Commentaires

Ecrire un message

Pour insérer une URL clickable

Pour insérer une adresse E-mail

Pour annoter

Pour écrire du code

Pour faire un lien vers une fonction PHP

Pour écrire du texte préformaté

Pour écrire du texte en gras

Pour écrire du texte en italique

Pour écrire du texte souligné

Pour écrire du texte barré

Pour écrire un titre principal

Pour écrire un titre secondaire

Pour écrire une liste