Consulter le catalogue ELRA     

> Les projets > D’Évaluation  >  ESTER
|

Présentation

Une longue tradition de campagnes d’évaluation des systèmes de traitement automatique du langage naturel existe aux États-Unis (campagnes DARPA sur la transcription et les détections d’entités, campagnes NIST sur la reconnaissance du locuteur). Celle-ci a permis de faire progresser l’état de l’art et de mettre à la disposition des acteurs du domaine des corpora de grande taille et des métriques d’évaluation fiable.

En France, une première campagne d’évaluation pour la langue française a été menée dans le cadre de l’initiative AUPELF. La campagne ESTER s’inscrit dans la continuité de cette logique d’évaluation en mettant en place des protocoles et en produisant des corpora.

La campagne d’évaluation ESTER vise à l’évaluation des performances des systèmes de transcriptions d’émissions radiophoniques. Les transcriptions seront enrichies par un ensemble d’informations annexes, comme le découpage automatique en tours de paroles, le marquage des entités nommées, etc. L’évaluation de la qualité des informations annexes en addition à l’évaluation de la transcription orthographique permettra d’établir une référence des niveaux de performances actuels de chacune des composantes d’un système d’indexation, tout en donnant une idée des performances du système complet.

Données réservées aux participants

Les données utiles pour la campagne sont disponibles dans la zone restreinte ESTER. Elles ne sont accessibles qu’aux participants.

Organisateurs & contacts

Cette campagne d’évaluation est menée conjointement par l’Association Francophone de la Communication Parlée (AFCP), la Direction Générale de l’Armement (DGA) et ELDA (Agence pour l’évaluation et la distribution de ressources linguistiques).

-   Jean-François Bonastre (AFCP)
-   Guillaume Gravier (AFCP)
-   Edouard Geoffrois (DGA)
-   Djamel Mostefa (ELDA)

Site de la campagne ESTER

Participants

- CLIPS : Communication Langagière et Interaction Personne-Système
-  ECL : École Centrale de Lyon
-  ENST : École Nationale Supérieure des Télécommunications
-  FT R&D : France Telecom
-  IRISA : Institut de Recherche en Informatique et Systèmes Aléatoires
-  IRIT : Institut de Recherche en Informatique de Toulouse
-  LIA : Laboratoire d’Informatique d’Avignon
-  LIMSI : Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur
-  LISIF : Laboratoire des Systèmes et Instruments Ile de France
-  LIUM : Laboratoire d’Informatique de l’Université du Maine
-  LORIA Laboratoire Lorrain d’Intelligence Artificielle
-  SIS : Systèmes Information Signal, Toulon
-  Thalès
-  Université de Balamand, Liban
-  Vecsys Research

Objectifs

L’organisation d’une campagne d’évaluation des systèmes de transcription enrichie d’émissions radiophoniques a pour buts principaux de promouvoir une dynamique de l’évaluation en France, autour du traitement de la parole de langue française, de mettre en place une structure pérenne d’évaluation et de diffuser le plus largement possible les informations et les ressources concernées par ces évaluations. L’axe prioritaire sera d’assurer un accès aux évaluations à un nombre aussi large que possible de participants.

Les résultats attendus sont bien évidemment de mesurer objectivement et de faire progresser les performances des systèmes de transcriptions enrichies en français, et d’inciter la fédération des efforts de recherche dans ce domaine.

L’objectif est également d’améliorer la visibilité du secteur de recherche concerné, par la mise en évidence du niveau de performance atteint par l’état de l’art, par la constitution d’un « club » d’acteurs identifiés (et pouvant prouver leur niveau de compétence) et par la publicité assurée au projet. Par ailleurs, cette première évaluation doit permettre le développement d’un corpus annoté conséquent pour la tâche visée. Ce corpus, ainsi que l’ensemble des ressources nécessaires à la l’évaluation, seront mis à la disposition des chercheurs via ELDA à un coût modéré à l’issu de la campagne d’évaluation, permettant ainsi de nombreuses activités de recherche dans ce domaine.

Tâches

La campagne Ester s’articule autour de trois classes de tâches :

  • La transcription orthographique (TRS, TTR) : cette tâche consiste à produire une transcription orthographique de l’émission radio. L’évaluation des transcriptions sera calculée à partir du taux d’erreurs de mots (Word Error Rate). Plusieurs tâches visant à évaluer l’influence de la taille du vocabulaire, des données d’apprentissage ou du temps de calcul sont comprises dans cette catégorie.
  • La segmentation en événements sonores : cette tâche consiste en la détection et regroupements d’événements sonores. Trois tâches sont définies :
    • Le suivi d’événements sonores (SES)
    • La segmentation et regroupement de locuteurs (SRL)
    • Le suivi de locuteur (SVL)
  • L’extraction d’informations inclut des tâches proches d’applications réelles permettant d’évaluer les systèmes à partir de métriques de plus haut niveau que le taux d’erreurs de mots. Quatre tâches ont été identifiées :
    • La détection d’entités nommées (EN)
    • La segmentation thématique du document
    • Le suivi thématique
    • Une tâche de Question-Réponse

Les tâches sont réparties comme décrit dans le tableau ci-après.

Laboratoire Transcription Segmentation
  TRS TTR SES SRL SVL
CLIPS, Grenoble X X X X  
ECL, Lyon     X X X
ENST, Paris X X X    
FT R&D, Lannion       X X
IRISA, Rennes X X X X X
IRIT, Toulouse X   X X  
LIA, Avignon X X X X X
LIMSI, Orsay X   X X  
LISIF, Ivry/Seine       X X
LIUM, Le Mans X   X X  
LORIA, Nancy X   X    
SIS, Toulon X   X    
Thalès, Colombes     X X  
Vecsys, Courtaboeuf X X X X  

Planning de la campagne de test officiel

  • 10 janvier 2005 : mise à disposition des 10 heures corpus de test
  • 31 janvier 2005 : retour des résultats pour les taches TRS TTR SES SVL SRL
  • 01 février 2005 : distribution des transcriptions de référence (sans annotations en entités nommées)
  • 30-31 mars 2005 : atelier de clôture (Avignon)

Pour plus de détails, reportez-vous au plan d’évaluation.

Ressources

Les ressources créés et/ou distribuées dans le cadre de la campagne ESTER se regroupent en trois catégories, à savoir un corpus d’émissions radiophoniques transcrit, un large corpus d’émissions radiophoniques non transcrit et des ressources textuelles.

Le corpus audio transcrit se compose à terme de 100 heures d’émissions radiophoniques.

Ce corpus se décompose de la façon suivante :

  • 25 heures de France Inter et 15 heures de RFI enregistrées entre 1998 et 2000
  • 10 heures de France Inter enregistrées e en 2003
  • 10 heures de Radio France Internationale enregistrées en 2003
  • 20 heures de Radio Télévision du Maroc enregistrées en 2003

Le corpus de test qui sera enregistré en 2004 sera composé de 2 heures de chacune des radios précédentes et de 1 heure de France Culture et d’1 heure d’une radio « surprise ».

Le corpus d’émissions radiophoniques non transcrit consiste en 1700 heures d’émissions radiophoniques provenant de différentes radios et enregistrées en 2003 et 2004.

Les ressources textuelles distribuées dans le cadre de la campagne ESTER reposent essentiellement sur les archives du journal Le Monde et du corpus des débats du conseil européen (MLCC).




|