Consulter le catalogue ELRA     

 >  Projets européens
|

La liste ci-dessous présente toutes les ressources produites par ELDA, ainsi que les ressources à la production desquelles ELDA a participé dans le cadre de projets financés par l’Union européenne (ressources classées par projet).

  • CHIL (Computers In the Human Interaction Loop - Les ordinateurs dans le cycle d’interaction humaine)
    • Annotation vidéo : les enregistrements vidéo consistent en des séminaires qui se sont déroulés à l’ISL, Université de Karlsruhe (Allemagne) d’octobre à décembre 2003. Le nombre total d’annotations se monte à 3 heures pour la campagne d’évaluation 2005 et à 6 heures pour la campagne d’évaluation 2006.
    • Transcriptions audio : 30 heures d’enregistrements audio des mêmes séminaires que ceux mentionnés ci-dessus (et le même nombre d’heures pour les campagnes d’évaluation 2005 et 2006).
    • Environ 60 questions pour la tâche de QR (Question-Réponse), ainsi que les résumés de 25 séminaires pour la tâche de résumé automatique.
  • INTERA (Integrated European language data Repository Area - Données intégrées de référence pour les langues européennes)
    • Corpus parallèles bilingues : les textes appartiennent aux domaines de l’éducation, de la santé, du droit, du tourisme et de l’environnement. Les textes parallèles ont été alignés et annotés aux niveaux structurel (phrase) et linguistique (étiquetage de la partie du discours et lemmatisation). Ce sont les corpus suivants :
      • Corpus parallèle bulgare - anglais
        1 million de mots par langue
      • Corpus parallèle grec - anglais
        2 millions de mots par langue
      • Corpus parallèle serbe - anglais
        1 million de mots par langue
      • Corpus parallèle slovène - anglais
        2 millions de mots par langue
    • Lexiques terminologiques : les termes ont été extraits automatiquement à partir des composants en anglais des corpus parallèles bilingues cités ci-dessus, avec une identification automatique des candidats-traductions dans les langues cibles. Ces lexiques sont :
      • Lexique grec de 4 163 termes
      • Lexique bulgare de 825 termes
      • Lexique serbe de 1 883 termes
      • Lexique slovène de 2 052 termes
      • Lexique anglais de 2 052 termes
      Ils sont répartis sous plusieurs domaines : droit, droit et politique, politique, éducation, environnement, santé, tourisme, finance.
  • LILA (Speech databases for ASR in the Asian Pacific area - Base de données orales pour la reconnaissance automatique dans la région Asie-Pacifique)
    • LILA hindi parlé en Inde en tant que langue maternelle (en cours)
      LILA hindi comprendra 2000 locuteurs de langue maternelle hindi du nord de l’Inde. Le matériel oral est conforme aux spécifications SALA et SpeechDat et a été enregistré uniquement à travers le réseau téléphonique mobile. Un ensemble de 59 occurrences est lu par chaque locuteur dans 5 environnements différents : bureau/maison, rue, lieu publique, véhicule en mouvement et kit voiture.
    • LILA coréen parlé en Corée (en cours)
      La base de données LILA coréen comprendra 1000 locuteurs de langue maternelle coréenne du sud de la Corée. Le matériel oral est conforme aux spécifications SALA et SpeechDat et a été enregistré uniquement à travers le réseau téléphonique mobile. Un ensemble de 59 occurrences est lu par chaque locuteur dans 5 environnements différents : bureau/maison, rue, lieu publique, véhicule en mouvement et kit voiture.



|