Description du projet
LangLog et QueryTrans
Approches actuelles et défis
Chaque jour, des millions de requêtes sont transmises aux fournisseurs de contenu allant des sites d’information WEB (comme Google ou Yahoo!) aux sites des bibliothèques électroniques (comme Europeana ou TEL) en passant par les sites marchands (tels que Kelkoo ou PriceGrabber). Ces requêtes sont des ressources précieuses pour comprendre le comportement des utilisateurs, en relation avec le contenu des documents. A partir d’une analyse soigneuse de ces requêtes, les fournisseurs de contenus peuvent comprendre ce que les utilisateurs recherchent vraiment, ce que sont les meilleures stratégies pour trouver un objet numérique, ainsi que le degré de correspondance entre les besoins utilisateurs et le contenu offert par le site web. Il est donc tout à fait surprenant qu’aucun fournisseur d’analyse de logs n’ait jamais tenté d’aller au-delà du type de support fourni par Google analytics, pour ne mentionner que le plus populaire. Ces services fournissent des outils pour segmenter les requêtes utilisateurs en mots et fournissent des statistiques à propos du nombre d’occurrences d’un mot donné, mais cela est loin de satisfaire les besoins des fournisseurs de contenu:
- Les outils d’analyse existant ne considèrent les mots que comme des chaines de caractères. Toute généralisation sur des mots proches tels que mer et océean est simplement perdu. De plus, aucune ambigüité intrinsèque n’est levée, ce qui entraîne qu’un mot comme calcul qui signifie aussi bien une opération mathématique qu’un « caillou » dans l’organisme sera indexé indépendamment de son sens.
- Ils n’effectuent aucune correspondance entre les recherches des utilisateurs et la structure de l’agrégation, sans tenir compte donc que celle-ci soit un système de classification, des entêtes de sujet, des types de produit, ou une simple liste de catégories.
- Ils ne fournissent aucun indice sur une séquence de recherche. Chaque requête est vue comme un événement isolé sans qu’aucun examen ne soit conduit pour tenter d’extraire un quelconque motif au sein de ces séquences.
Les requêtes, telles qu’enregistrées dans les journaux de transaction, en plus d’être une ressource précieuse pour comprendre le comportement des utilisateurs, pourraient devenir une ressource clef pour enfin parvenir à un accès multilingue croisé de l’information, si nous pouvions seulement leur appliquer les algorithmes appropriés. En effet, on pourrait acquérir suffisamment de paires de requêtes où chaque terme est une traduction potentielle de l’autre, permettant de façon relativement simple de construire un système adapté à la traduction de requêtes. Il deviendrait désormais possible de mettre en place un système de traduction de requêtes simples que n’importe quel moteur de recherche monolingue pourrait utiliser pour acquérir des fonctionnalités multilingues.
En conclusion, GALATEAS va s’attaquer à deux défis importants : comprendre des requêtes simples dans n’importe quelle langue et les traduire.
But
GALATEAS offrira deux types de service aux fournisseurs d’accès :
- Le premier service, LangLog, se concentrera sur l’obtention du sens à partir des listes de requêtes. Il est destiné aux managers de bibliothèques/fédérateur/site.
- Le second service, QueryTrans, a comme but ambitieux et innovant de fournir le premier service de traduction web spécifiquement taillé sur mesure pour la traduction de requête.
Les langues couvertes par LangLog et QueryTrans sont : l’italien, le français, l’anglais, l’allemand, le néerlandais, l’arabe moderne et le polonais.

