|
Présentation
Une longue tradition de campagnes d’évaluation des
systèmes de traitement automatique du langage naturel existe aux États-Unis (campagnes DARPA sur la transcription et les détections d’entités, campagnes
NIST sur la reconnaissance du locuteur). Celle-ci a permis de faire progresser
l’état de l’art et de mettre à la disposition des acteurs du domaine des corpora de grande taille et des
métriques d’évaluation fiable.
En France, une première campagne d’évaluation pour
la langue française a été menée dans le cadre de l’initiative AUPELF. La
campagne ESTER s’inscrit dans la continuité de cette logique d’évaluation en
mettant en place des protocoles et en produisant des corpora.
La campagne d’évaluation ESTER vise à l’évaluation
des performances des systèmes de transcriptions d’émissions radiophoniques. Les
transcriptions seront enrichies par un ensemble d’informations annexes, comme
le découpage automatique en tours de paroles, le marquage des entités nommées,
etc. L’évaluation de la qualité des informations annexes en addition à
l’évaluation de la transcription orthographique permettra d’établir une
référence des niveaux de performances actuels de chacune des composantes d’un
système d’indexation, tout en donnant une idée des performances du système
complet.
Données réservées aux participants
Les données utiles pour la campagne sont disponibles dans la zone restreinte ESTER. Elles ne sont accessibles qu’aux participants.
Organisateurs & contacts
Cette campagne d’évaluation est menée conjointement par l’Association Francophone de la Communication
Parlée (AFCP), la Direction Générale de l’Armement (DGA) et ELDA (Agence pour l’évaluation et la distribution de ressources linguistiques).
Jean-François Bonastre (AFCP)
Guillaume Gravier (AFCP)
Edouard Geoffrois (DGA)
Djamel Mostefa (ELDA)
Site de la campagne ESTER
Participants
CLIPS : Communication Langagière et
Interaction Personne-Système
ECL : École Centrale de Lyon
ENST : École Nationale Supérieure des
Télécommunications
FT R&D : France Telecom
IRISA : Institut de Recherche en Informatique
et Systèmes Aléatoires
IRIT : Institut de Recherche en Informatique
de Toulouse
LIA : Laboratoire d’Informatique d’Avignon
LIMSI : Laboratoire d’Informatique pour la
Mécanique et les Sciences de l’Ingénieur
LISIF : Laboratoire des Systèmes et
Instruments Ile de France
LIUM : Laboratoire d’Informatique de
l’Université du Maine
LORIA Laboratoire Lorrain d’Intelligence
Artificielle
SIS : Systèmes Information Signal, Toulon
Thalès
Université de Balamand, Liban
Vecsys Research
Objectifs
L’organisation d’une campagne d’évaluation des systèmes de transcription enrichie d’émissions radiophoniques a pour buts principaux de promouvoir une dynamique de l’évaluation en France, autour du traitement de la parole de langue française, de mettre en place une structure pérenne d’évaluation et de diffuser le plus largement possible les informations et les ressources concernées par ces évaluations. L’axe prioritaire sera d’assurer un accès aux évaluations à un nombre aussi large que possible de participants.
Les résultats attendus sont bien évidemment de mesurer objectivement et de faire progresser les performances des systèmes de transcriptions enrichies en français, et d’inciter la fédération des efforts de recherche dans ce domaine.
L’objectif est également d’améliorer la visibilité du secteur de recherche concerné, par la mise en évidence du niveau de performance atteint par l’état de l’art, par la constitution d’un « club » d’acteurs identifiés (et pouvant prouver leur niveau de compétence) et par la publicité assurée au projet. Par ailleurs, cette première évaluation doit permettre le développement d’un corpus annoté conséquent pour la tâche visée. Ce corpus, ainsi que l’ensemble des ressources nécessaires à la l’évaluation, seront mis à la disposition des chercheurs via ELDA à un coût modéré à l’issu de la campagne d’évaluation, permettant ainsi de nombreuses activités de recherche dans ce domaine.
Tâches
La campagne Ester s’articule autour de trois classes de tâches :
- La transcription orthographique (TRS, TTR) : cette tâche consiste à produire une transcription orthographique de l’émission radio. L’évaluation des transcriptions sera calculée à partir du taux d’erreurs de mots (Word Error Rate). Plusieurs tâches visant à évaluer l’influence de la taille du vocabulaire, des données d’apprentissage ou du temps de calcul sont comprises dans cette catégorie.
- La segmentation en événements sonores : cette tâche consiste en la détection et regroupements d’événements sonores. Trois tâches sont définies :
- Le suivi d’événements sonores (SES)
- La segmentation et regroupement de locuteurs (SRL)
- Le suivi de locuteur (SVL)
- L’extraction d’informations inclut des tâches proches d’applications réelles permettant d’évaluer les systèmes à partir de métriques de plus haut niveau que le taux d’erreurs de mots. Quatre tâches ont été identifiées :
- La détection d’entités nommées (EN)
- La segmentation thématique du document
- Le suivi thématique
- Une tâche de Question-Réponse
Les tâches sont réparties comme décrit dans le tableau ci-après.
| Laboratoire |
Transcription |
Segmentation |
| | TRS | TTR |
SES | SRL | SVL |
| CLIPS, Grenoble | X | X | X | X | |
| ECL, Lyon | | | X | X | X |
| ENST, Paris | X | X | X | | |
| FT R&D, Lannion | | | | X | X |
| IRISA, Rennes | X | X | X | X | X |
| IRIT, Toulouse | X | | X | X | |
| LIA, Avignon | X | X | X | X | X |
| LIMSI, Orsay | X | | X | X | |
| LISIF, Ivry/Seine | | | | X | X |
| LIUM, Le Mans | X | | X | X | |
| LORIA, Nancy | X | | X | | |
| SIS, Toulon | X | | X | | |
| Thalès, Colombes | | | X | X | |
| Vecsys, Courtaboeuf | X | X | X | X | |
Planning de la campagne de test officiel
- 10 janvier 2005 : mise à disposition des 10 heures corpus de test
- 31 janvier 2005 : retour des résultats pour les taches TRS TTR SES SVL SRL
- 01 février 2005 : distribution des transcriptions de référence (sans annotations en entités nommées)
- 30-31 mars 2005 : atelier de clôture (Avignon)
Pour plus de détails, reportez-vous au plan d’évaluation.
Ressources
Les ressources créés et/ou distribuées dans le cadre de la campagne ESTER se regroupent en trois catégories, à savoir un corpus d’émissions radiophoniques transcrit, un large corpus d’émissions radiophoniques non transcrit et des ressources textuelles.
Le corpus audio transcrit se compose à terme de 100 heures d’émissions radiophoniques.
Ce corpus se décompose de la façon suivante :
- 25 heures de France Inter et 15 heures de RFI enregistrées entre 1998 et 2000
- 10 heures de France Inter enregistrées e en 2003
- 10 heures de Radio France Internationale enregistrées en 2003
- 20 heures de Radio Télévision du Maroc enregistrées en 2003
Le corpus de test qui sera enregistré en 2004 sera composé de 2 heures de chacune des radios précédentes et de 1 heure de France Culture et d’1 heure d’une radio « surprise ».
Le corpus d’émissions radiophoniques non transcrit consiste en 1700 heures d’émissions radiophoniques provenant de différentes radios et enregistrées en 2003 et 2004.
Les ressources textuelles distribuées dans le cadre de la campagne ESTER reposent essentiellement sur les archives du journal Le Monde et du corpus des débats du conseil européen (MLCC).
|