WP2
Ressources langaugires
Cette tâche cherche à définir l’ensemble des ressources linguistiques devant être utilisés dans les autres tâches. L’idée à l’origine de ce projet est que les logiciels utilisés en Open Source soient développés selon le même modèle. Cependant certains logiciels de traitement linguistique ainsi que certaines ressources vont rester nécessairement propriétaires. Aussi se doivent-elles de rester cacher derrière une couche de service, de façon à ce qu’un revendeur puisse remplacer chacun des modules linguistiques ou chacune des ressources avec les siennes propres ou d’autres achetés à un tiers. Le consortium fournira des ressources pour l’italien, le français, l’anglais, l’allemand, le néerlandais, l’arabe et le polonais.
Dans le contexte de cette tâche, la Reconnaissance des Entités Nommés (NE)est ajusté pour permettre l’extraction de NE à partir des requêtes, un processus qui exige une approche différente lorsqu’on le compare avec les algorithmes qui s’appliquent à des textes bien formés dotés d’une syntaxique riche.
Main tasks include
NLP Service wrapping
NE extraction from query
Language identification component
Work package leader: XEROX
Deliverables:
D2.1 Wrapped services of NLP (m. 6)
D2.2 NE extraction service (m.18)
D2.3 Language identification component (m.6)

