C’est une bonne vingtaine de personnes qui ont bravé le froid et se dont réunies à la Galerie des Saveurs pour écouter Laurent Vuillon nous parler des limites de google et proposer une alternative innovante pour la recherche d’information : alhena.
La recherche par google
Lorsque l’on effectue une recherche sur un mot clé, google nous retourne une liste de résultat comprenant des sites ainsi que des images.
Google trends est un outil qui permet d’observer ce que les internautes ont cherchés, quelles requêtes, leur nombre ainsi que leur géolocalisation.
Google, à travers cet outil nous permet notamment de :
- voir les psychoses de la société (grippe aviaire / H1N1) : le nombre de recherche sur la grippe est connecté a l’étendu de l’épidémie
- prédire un chiffre d’affaire : le nombre de requêtes sur un film permet de connaitre son futur succès au box office
On note également plusieurs problèmes :
- les homonymies : plusieurs choses qui ont le même nom (Molière, la Molière)
- les mots polysémiques : mots qui ont plusieurs sens comme blanc, tuile, …
- les noms et surnoms : certains clubs de foot ont plusieurs noms différents
- le vocabulaire : il change en fonction des gens, de leur profession, de leur age, de leur région ou communauté – on trouve donc des documents de personne qui ont le même vocabulaire
Pour aider l’internaute dans sa recherche Google propose l’auto-complétion. Cette technique donne parfois des résultats douteux mais elle permet de mieux cibler le domaine sémantique de la recherche.
Reconstruire les domaines sémantique complet n’est pas envisageable, ce serait beaucoup trop long et trop coûteux.
La mesure de voisinage
Une solution serait de rapprocher les documents selon leur contenu pour créer des « constellations » de documents. Cette méthode permettrai de suivre l’évolution d’une information sur le net.
Pour créer des mesure de voisinage entre les textes, la technique est la suivante :
- on transforme chaque texte en « sacs de mots » en supprimant les « inutiles » du type la, le, du
- on passe tous les verbes à l’infinitif, tout les mots au singulier, c’est la lemmatisation
- pour chaque mot du texte 1 on regarde dans le texte 2 si le mot existe, s’il à des synonymes et s’il a des mots occurrents (mots très souvent employés ensemble comme pomme de terre)
On obtient ensuite différentes « constellations », regroupement de ces textes. A l’intérieur de ces constellations on trouve également des nucléus, ce sont les deux (ou plus) texte au centre de la constellation. En lisant ces textes, souvent les plus courts, on obtient une idées global du sujet de la constellation.
Il existe 5 principales applications à cette technique :
- la veille stratégique
- la recherche d’information
- la littérature
- la psychologie
- l’informatique
On note également des limites :
- c’est assez long et il n’y a pas encore d’optimisation, on ne peut pas l’utiliser sur le web
- il y a des problèmes d’encodage
- ce n’est pas un outil clé en main
- les résultats sont différents de la classification humaine
- il n’y a pas de recherche sémantique
- une seule langue est géré à la fois