Wikipedia : un moteur de recherche en langage naturel

le 14/05/2008 à 21:56
Wikipedia : un moteur de recherche en langage naturel
Rêve de linguiste, la recherche en langage naturel peut désormais être testée par les internautes sur les contenus de Wikipedia par l'intermédiaire d'un outil conçu par la société Powerset. Reposant sur l'interprétation de phrases construites plutôt que sur une sélection de mots clé et d'opérateurs booléens, la recherche en langage naturel est censée permettre de s'adresser à un moteur de recherche comme on parlerait à un interlocuteur.

Soutenu par Tim Berners Lee, l'un des pères fondateurs du Web actuel, le principe de "recherche naturelle" consiste à analyser de façon sémantique et syntaxique la proposition entrée à l'internaute, voir comment les mots employés par l'internaute s'articulent, pour déterminer le sens exact de sa recherche. Plutôt que de saisir des mots disparates, on posera donc sa question sous la forme d'une phrase complète.

"Contrairement aux autres moteurs de recherche, qui indexent des mots clé, Powerset effectue une analyse linguistique des phrases qu'il est amené à lire", explique la firme dans un communiqué. Autrement dit : comprendre le sens des mots au lieu de simplement repérer leurs occurrences dans d'éventuelles pages de résultat.

En gestation depuis plus de deux ans, le projet de Powerset lui a valu l'attention des plus grands tels que Google ou Microsoft qui, selon la rumeur, aurait envisagé de racheter cette société fondée en 2005 et basée à San Francisco. Cantonné aux pages anglophones de Wikipedia, Powerset offre effectivement des résultats différents de ceux que retournent un moteur traditionnel, et se révèle très efficace sur certaines requêtes. En ira-t-il de même lorsque Powerset tentera d'indexer l'infinie variété des pages présentes sur le Web ?

A lire également

L'avenir de la recherche chez Microsoft ne passera peut-être pas par Yahoo, mais le numéro un mondial des éditeurs n'abandonne pas pour autant ses velléités en matière de croissance externe sur Internet. Microsoft a en effet confirmé mardi l'acquisition de la société Powerset, dévolue au développement de techniques de recherche en langage naturel. Le montant de la transaction n'a pas été dévoilé, mais les initiés évoquent une somme avoisinant cent millions de dollars.

Basée à San Francisco, Californie, Powerset a été fondée en 2005. La start-up a reçu, l'année suivante, le soutien des fonds Foundation Capital, Founders Fund et Paperboy Ventures. En mai 2008, elle a lancé son premier produit commercial, un outil de recherche sémantique pour Wikipedia, l'encyclopédie collaborative en ligne.

Rêve de linguiste, la recherche en langage naturel, ou recherche sémantique, repose sur l'interprétation de phrases construites plutôt que sur une sélection de mots clé et d'opérateurs booléens. Défendue par Tim Berners Lee, l'un des pères fondateurs du Web actuel, elle consiste donc à analyser de façon sémantique et syntaxique la proposition entrée à l'internaute, voir comment les mots s'articulent, pour déterminer le sens exact de la recherche. Plutôt que de saisir des mots disparates, on posera donc sa question sous la forme d'une phrase complète.

En proie à la montée en puissance de Google, notamment sur le marché américain ou ses parts sont passées de 7,6% en mai 2007 à 5,9% en mai 2008 (chiffres Hitwise), Microsoft tente un pari sur l'avenir, dans la mesure où l'intégration des technologies développées par Powerset à MSN Search - Live Search ne se fera vraisemblablement pas sans heurts et, surtout, pas avant plusieurs années.

Commentaires

Ecrire

Ecrire un message

Votre message vient d'être créé avec succès.
LoadingChargement en cours