|
ARCADE 2 - Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation
Un gisement de textes électroniques multilingues
Avec le volume sans cesse croissant des corpus linguistiques disponibles sous
format électronique, on a aujourd’hui accès à un véritable gisement d’information
directement exploitable par les systèmes de traitement du langage.
Avec les traductions littéraires et techniques, les sites de l’Internet
accessibles dans différentes versions, les textes et rapports internationaux
rédigés en plusieurs langues officielles, on peut accéder à un gigantesque
réservoir d’informations de nature contrastive.
De nombreux systèmes destinés aux traducteurs professionnels intègrent des
mémoires de traduction destinées à enregistrer des traductions déjà faites, et
de grands prestataires de services recourent à ce type d’outil. Les corpus
multilingues se révèlent tout aussi utiles dans bien d’autres domaines : pour
l’apprentissage des langues étrangères, la recherche d’information multilingue,
la lexicographie bilingue, l’extraction de terminologie, voire même la
reconnaissance de la parole.
La vie après ARCADE I
Les techniques d’alignement constituent un préalable à l’exploitation de ces
corpus : qu’il s’agisse d’aligner au niveau des paragraphes, des phrases ou
d’apparier des unités lexicales, la plupart des applications reposent sur la
possibilité d’extraire des correspondances précises entre textes sources et
cibles (traductions littérales, textes équivalents, ou seulement comparables).
La présente proposition, ARCADE II vise à lancer une nouvelle campagne
d’évaluation dans le domaine de l’alignement multilingue : 4 ans après ARCADE I,
cette action se propose d’identifier les évolutions récentes de l’état de l’art,
mais également d’approfondir l’évaluation sur des axes qui n’avaient pas été
traités ou qui avaient seulement été effleurés : identification des ruptures de
parallélisme, alignement de tri-textes, élargissement à des langues distantes du
français, identification des cognats, appariement lexical.
Contact :
Khalid Choukri
Lien :
http://aune.lpl.univ-aix.fr/projects/arcade/
|