Extraire les liens d'une page

le 08/10/2008 à 23:43
Extraire les liens d'une page
Pour extraire les liens d'une page (ou tout autre balise, en fait), vous avez trois approches :
- DOM, avec getElementsByTagName
- Xpath, avec query('//a')
- Les expressions rationnelles, avec moult solutions publiques et privées

Au final, les deux premières sont acceptables si les pages sont valides d'un point de vue XML, ce qui est encore loin d'être le cas de toutes les sites. La dernière est moins performante et élégante, mais c'est un tout-terrain. Pour le choix final, il faudra alors s'adapter.

- Get links with XPath

A lire également

En marge de la WWDC Apple a publié une nouvelle version de son navigateur Internet Safari. Cette dernière mouture serait 30% plus rapide que la précédente, 3% plus rapide que Chrome 5.0 et deux fois plus rapide que Firefox 3.6. Rappelons qu'Apple utilise le test SunSpider pour mesurer les performances du moteur de rendu WebKit.

L'une des nouveautés est la fonctionnalité Lecteur. En effet, l'application est en mesure de reconnaitre le type de sites Internet visités. Si vous vous trouvez sur un magazine de type Clubic, un petit bouton intitulé Lecteur apparaîtra à droite de la barre d'adresse. Il suffit de cliquer sur ce dernier pour extraire le contenu de l'article et masquer automatiquement les publicités contextuelles et autres liens connexes. La police, l'interligne et la mise en page sont alors optimisés pour améliorer la lecture à l'écran.

Selon Philips Schiller, vice-président chargé du département Marketing d'Apple, le navigateur serait installé sur 200 millions d'appareils autour du monde avec au total 500 millions d'installations du moteur open source WebKit. Outre une optimisation du moteur JavaScript Nitro, Safari améliore la gestion du cache afin de retourner encore plus rapidement les sites précédemment visités. Apple y a également implémenté de nouvelles spécificités du HTML5, notamment les API de géo-localisation, mais aussi le glisser-déposer natif, EventSource, WebSocket, Ruby et AJAX History.

Autre point intéressant : Safari devrait bientôt s'enrichir d'extensions. En effet, Apple a mis en place un programme invitant les développeurs à concocter de nouvelles fonctionnalités. Ces derniers pourront : "créer des boutons pour la barre d'outils ou leur propre barre. Changer l'affichage du contenu web. Ajouter des contrôles aux pages web". Ces extensions seront strictement basées sur les technologies web HTML5, CSS3 et JavaScript. En ce sens les efforts d'Apple s'apparentent à ceux de Mozilla avec Jetpack et Google Chrome. Pour garantir un maximum de sécurité, chacune de ces extensions recevra un certificat et bénéficiera d'un processus dédié. Les développeurs intéressés peuvent se rendre ici.

Commentaires

Ecrire

Ecrire un message

Votre message vient d'être créé avec succès.
LoadingChargement en cours