 |
ELDA participe activement à plusieurs projets financés par le gouvernement français. La liste des ressources produites dans le cadre de ces projets est présentée ci-dessous.
Corpus du français contemporain - financé par le ministère français de la recherche
- ELRA-W0032 Corpus du français contemporain - Corpus avec étiquetage des anaphores
- Corpus du français contemporain - Corpus Hermès
Ce corpus est stocké sur un CD et comprend environ 170 articles du magazine périodique Hermès disponible sous différents formats de fichiers : HTML, SGML et Word. Un étiquetage morpho-syntaxique (réalisé grâce à l’étiqueteur morpho-syntaxique WinBrill) est fourni avec la version SGML.
- Corpus du français contemporain - Corpus Syntsem
Le projet Syntsem consiste en un corpus partiellement étiqueté aux niveaux syntaxique et sémantique. Les corpus sources ont été sélectionnés afin de représenter un large échantillon de la langue française et sont regroupés sous 5 thèmes : journaux, sciences humaines, périodiques, textes littéraires et textes institutionnels européens.
Ressources produites dans le cadre de projets du Programme Technolangue, financé par le ministère français de la recherche
- ELRA-E0018 Package d’évaluation ARCADE II (Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation)
- Corpus aligné : corpus aligné de textes écrits extraits du Monde Diplomatique arabe-français (150 articles par langue), chinois-français (59 articles par langue), grec-français (50 articles par langue), japonais-français (52 articles par langue), persan-français (53 articles par langue), et russe-français (50 articles par langue).
- Corpus JOC (Journal Officiel des Communautés) : textes écrits extraits du corpus MULTEXT JOC, reformaté en XML et codé en UTF-8, en anglais, français, allemand, italien et espagnol, constitué d’un million de mots par langue.
- Sous-ensemble du corpus du Monde Diplomatique : 30 textes alignés arabe-français avec étiquetage des entités nommées.
- ELRA-E0020 Package d’évaluation CESTA (Campagne d’Evaluation de Systèmes de Traduction Automatique)
- Données de développement pour la traduction automatique en domaine restreint : données médicales comprenant environ 20 000 mots en arabe et en français pour la traduction de l’arabe vers le français.
- Données de développement pour la traduction automatique en domaine restreint : données médicales comprenant environ 20 000 mots en anglais et en français pour la traduction de l’anglais vers le français.
- Données de test pour la traduction automatique de la langue générale : vocabulaire général constitué d’environ 20 000 mots en anglais et en français pour la traduction de l’anglais vers le français, et environ 20 000 mots en arabe et en français pour la traduction de l’arabe vers le français.
- Données de test pour la traduction automatique en domaine restreint : données médicales constituées d’environ 20 000 mots et de 200 000 mots de masquage pour la direction de l’anglais vers le français et pour la direction de l’arabe vers le français.
- ELRA-E0022 Package d’évaluation EQueR (Evaluation en Question-Réponse)
- Corpus de questions en domaine ouvert : ce corpus comprend 500 questions regroupées comme suit : 407 questions de type “factuel simple” (“Qui est le Président du Chili ?”), 32 questions de type “définition” (“Qu’est-ce que l’OTAN ?” ), 31 questions de type “liste” (“Quelles sont les quatre religions principales pratiquées en Hongrie ?”) et 30 questions de type “oui/non” (“Existe-t-il une ligne de TGV Valenciennes-Paris ?”).
- Corpus de questions en domaine restreint (“domaine médical”) : ce corpus comprend 200 questions regroupées comme suit : 81 questions de type “factuel” (“Quel est le gène responsable de l’aniridie ?”), 70 questions de type “définition” (“Qu’est-ce qu’une maladie mentale ?”), 25 questions de type “liste” (“Quels sont les quatre symptômes majeurs du cancer ovarien”), et 24 questions de type “oui/non” (“Est-il possible qu’un enfant soit schizophrène ?”).
- Corpus d’actualités : ce corpus (1,5 Go) comprend plusieurs années des articles des journaux Le Monde et Le Monde Diplomatique (de 1992 à 2000), des publications en suisse romand de l’agence d’informations SDA (Schweizerischen Depeschenagentur) et des rapports du Sénat français sur divers thèmes. Le corpus complet contient près de 560 000 documents, soit environ 460 000 documents du Monde, 7 800 du Monde Diplomatique, 65 800 de SDA 1994-1995, et 570 documents des rapports du Sénat français.
- Corpus médical : ce corpus de textes médicaux (env. 140 Mo) est constitué d’articles scientifiques et de références diverses sur la “bonne pratique médicale”. Les fichiers d’origine des données médicales sont aux formats pdf et html. Les données sont présentées sous la forme de fichiers uniques avec étiquettes simples (numéro d’identifiant du document, titre et paragraphe).
- EASY (Evaluation des Analyseurs Syntaxiques du français)
- Corpus de questions (TREC, Amaryllis) constitué de 137 000 mots, dont 5 000 annotés au niveau syntaxique.
- Corpus de 150 emails pour 7 000 mots annotés au niveau syntaxique.
- Corpus Le Monde et Sénat annoté constitué d’environ 235 000 mots dont 9 000 mots annotés au niveau syntaxique.
- ELRA-E0021 Package d’évaluation ESTER (Evaluation des systèmes de transcription enrichie d’émissions radiophoniques)
- ELRA-S0241 Corpus ESTER
- 60 heures d’émissions transcrites orthographiquement et annotées en entités nommées.
- 1700 heures d’enregistrements d’émissions radiophoniques non transcrites.
- Les ressources textuelles distribuées dans le cadre de la campagne ESTER reposent essentiellement sur les archives du journal Le Monde 1987-2003 (ELRA-W0015) et du corpus des débats du Parlement européen (ELRA-W0023).
- Les outils d’évaluation permettant d’évaluer chacune des tâches définies ci-dessus.
- Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :
- Guide d’annotation en entités nommées
- Spécifications et protocole d’évaluations
- EURADIC (Dictionnaires et corpus pour l’arabe et les langues européennes)
- Dictionnaires génériques monolingues en français, allemand, anglais, espagnol et italien :
ELRA-L0049 SCIPER-FR-EURADIC Dictionnaire monolingue français
ELRA-L0050 SCIPER-AN-EURADIC Dictionnaire monolingue anglais
ELRA-L0051 SCIPER-AL-EURADIC Dictionnaire monolingue allemand
ELRA-L0052 SCIPER-ES-EURADIC Dictionnaire monolingue espagnol
ELRA-L0053 SCIPER-IT-EURADIC Dictionnaire monolingue italien
- Dictionnaires génériques bilingues en français-anglais, français-allemand, français-espagnol, français-italien :
ELRA-M0033 SCI-FRAN-EURADIC Dictionnaire bilingue français-anglais
ELRA-M0034 SCI-FRAL-EURADIC Dictionnaire bilingue français-allemand
ELRA-M0035 SCI-FRES-EURADIC Dictionnaire bilingue français-espagnol
ELRA-M0036 SCI-FRIT-EURADIC Dictionnaire bilingue français-italien
- Dictionnaire spécialisé : enrichissement d’un dictionnaire spécialisé dans le domaine des sports disponible en MS Access :
- base de données bilingue français-anglais (55 000 entrées),
- base de données trilingue français-anglais-arabe (37 000 entrées),
- base de données trilingue français-anglais-grec (37 000 entrées),
- base de données trilingue français-anglais-espagnol (28 000 entrées),
- base de données trilingue français-anglais-allemand (22 000 entrées),
- base de données trilingue français-anglais-portugais (10 000 entrées),
- base de données multilingue français, anglais, arabe, grec, espagnol, allemand, portugais (37 500 entries).
- Corpus parallèle français-arabe : corpus parallèle (non apparié) d’environ 2x100 000 mots en français-arabe, avec la partie arabe voyellée.
- ELRA-E0023 Package d’évaluation EvaSy (Evaluation des Synthétiseurs de parole en français)
- Module d’évaluation graphème-phonème : scripts, outils de notation et corpus d’articles/documents scientifiques de la campagne d’évaluation de l’Action de Recherche Concertée (ARC) B3 (évaluation des systèmes de synthèse de la parole).
- Corpus d’évaluation de la prosodie : corpus de noms propres constitué d’environ 8 000 entrées.
- Corpus d’évaluation globale : corpus développé pour les tests MoS (Mean Opinion Score) et ACR (Absolute Category Rating).
- Neologos (Nouvelles bases de données vocales téléphoniques pour la langue française)
- ELRA-S0226-01 IDIOLOGOS 1 “Bootstrap” (Projet NEOLOGOS)
Cette base de données contient les enregistrements de 1 000 locuteurs français adultes (470 hommes, 530 femmes) enregistrés à travers le réseau téléphonique fixe français. Les locuteurs ont prononcé 45 phrases phonétiquement riches. Ces 45 phrases sont identiques pour tous les locuteurs.
- ELRA-S0226-02 IDIOLOGOS 2 “Eingenspeakers” (Projet NEOLOGOS)
Cette base de données contient les enregistrements de 200 locuteurs français adultes (97 hommes, 103 femmes) enregistrés à travers le réseau téléphonique fixe français. Les locuteurs ont prononcé 45 phrases phonétiquement riches, avec 10 appels par locuteur. Les 450 phrases prononcées par locuteur sont identiques pour tous les locuteurs. Les locuteurs ont été sélectionnés à partir de la base IDIOLOGOS 1 “Bootstrap” (ELRA-S0226-01).
- ELRA-S0227 PAIDIALOGOS (Projet NEOLOGOS)
Cette base de données contient 37 364 occurrences de 1 010 locuteurs français enfants (510 hommes, 500 femmes) enregistrés à travers le réseau téléphonique fixe français.
Autres projets français
|
 |