Consulter le catalogue ELRA     

> Les projets > Projets clos  >  ARCADE 2
|

ARCADE 2 - Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation

-  Un gisement de textes électroniques multilingues

Avec le volume sans cesse croissant des corpus linguistiques disponibles sous format électronique, on a aujourd’hui accès à un véritable gisement d’information directement exploitable par les systèmes de traitement du langage.

Avec les traductions littéraires et techniques, les sites de l’Internet accessibles dans différentes versions, les textes et rapports internationaux rédigés en plusieurs langues officielles, on peut accéder à un gigantesque réservoir d’informations de nature contrastive.

De nombreux systèmes destinés aux traducteurs professionnels intègrent des mémoires de traduction destinées à enregistrer des traductions déjà faites, et de grands prestataires de services recourent à ce type d’outil. Les corpus multilingues se révèlent tout aussi utiles dans bien d’autres domaines : pour l’apprentissage des langues étrangères, la recherche d’information multilingue, la lexicographie bilingue, l’extraction de terminologie, voire même la reconnaissance de la parole.

-  La vie après ARCADE I

Les techniques d’alignement constituent un préalable à l’exploitation de ces corpus : qu’il s’agisse d’aligner au niveau des paragraphes, des phrases ou d’apparier des unités lexicales, la plupart des applications reposent sur la possibilité d’extraire des correspondances précises entre textes sources et cibles (traductions littérales, textes équivalents, ou seulement comparables).

La présente proposition, ARCADE II vise à lancer une nouvelle campagne d’évaluation dans le domaine de l’alignement multilingue : 4 ans après ARCADE I, cette action se propose d’identifier les évolutions récentes de l’état de l’art, mais également d’approfondir l’évaluation sur des axes qui n’avaient pas été traités ou qui avaient seulement été effleurés : identification des ruptures de parallélisme, alignement de tri-textes, élargissement à des langues distantes du français, identification des cognats, appariement lexical.

Contact :

-  Khalid Choukri

Lien :

-  http://aune.lpl.univ-aix.fr/projects/arcade/




|