M0015 : EUROWORDNET
A. Wordnets disponibles
B. LR(1) Composants communs
C. LR(2) Composants spécifiques à la langue
D. LR(3) Logiciels
E. Prix
F. Support technique
- Wordnets disponibles :
|
ELRA ref. |
Langue |
Synsets |
Sens des mots |
Relations internes à la langue |
Relations d'équivalence |
|
ELRA-M0015 |
Anglais: Addition au WordNet anglais |
16361 |
40588 |
42140 |
0 |
|
ELRA-M0016 |
Hollandais |
44015 |
70201 |
111639 |
53448 |
|
ELRA-M0017 |
Espagnol |
23370 |
50526 |
55163 |
21236 |
|
ELRA-M0018 |
Italien |
48529 |
48499 |
117068 |
71789 |
|
ELRA-M0019 |
Allemand |
15132 |
20453 |
34818 |
16347 |
|
ELRA-M0020 |
Français |
22745 |
32809 |
49494 |
22730 |
|
ELRA-M0021 |
Tchèque |
12824 |
19949 |
26259 |
12824 |
|
ELRA-M0022 |
Estonien |
9317 |
13839 |
16318 |
9004 |
- LR(1) Composants communs
Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent une rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent.
|
A. |
L'index inter-lingue, qui consiste en une liste d'enregistrements sous la forme de "synsets" (ensembles/réseaux sémantiques, principalement issus de WordNet5.1 ou créés manuellement), comprend :
A.1. un ensemble de synsets de mots ou phrases synonymiques (provenant pour la plupart de WordNet1.5) ;
A.2. une "partie-du-discours" ;
A.3. un ou plusieurs concepts supérieurs (optionnel) ;
A.4. un ou plusieurs étiquettes de domaine (optionnel) ;
A.5. un glossaire en anglais (provenant pour la plupart de WordNet1.5) ;
A.6. un code unique reliant le synset à sa source (provenant pour la plupart de WordNet1.5).
|
|
B. |
Ontologie supérieure : une ontologie de 63 classes sémantiques de base reposant sur des distinctions fondamentales. Grâce à l'ontologie supérieure, on accède à tous les wordnets en utilisant un schéma de classifiaction unique indépendant de la langue. Les concepts supérieurs sont également assignés aux enregistrements de l'index inter-lingue. |
|
C. |
Ontologie de domaine : une ontologie de domaines sujets assignés aux enregistrements de l'index inter-lingue |
|
D. |
Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent une rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. |
|
E. |
WordNet1.5 (91591 synsets; 168217 sens; 126520 mots d'entrée) au format EuroWordNet. |
- LR(2) Composants spécifiques à la langue
Wordnets produits dans le premier projet (LE2-4003) :
|
F. |
Wordnet hollandais |
|
G. |
Wordnet anglais (relations supplémentaires au WordNet1.5) |
|
H. |
Wordnet italien |
|
I. |
Wordnet espagnol |
Extension du projet (LE4-8328) :
|
J. |
Wordnet allemand |
|
K. |
Wordnet français |
|
L. |
Wordnet tchèque |
|
M. |
Wordnet estonien |
Les wordnets sont des structures internes spécifiques à la langue et contiennent au minimum :
- ensemble de variantes ou synonymes formant le synset
- "partie-du-discours"
- relations à d'autres synsets internes à la langue
- relations d'équivalence avec les enregistrements de l'index inter-lingue
- un code unique reliant le synset à sa source
Chaque wordnet est distribué avec LR1 et comprend une documentation sur LR1 et le wordnet distribué. Toutes les données sont distribuées en fichiers textes dans le format EuroWordNet et sous la forme de fichiers de base de données Polaris (voir LR3 ci-dessous). Le visualiseur EuroWordNet (Periscope, voir LR3) peut être utilisé pour accéder à la version base de données. Pour modifier et étendre la version de la base de données, il faut acquérir une licence Polaris.
Les wordnets ne contiennent pas de :
- glossaires
- étiquettes d'usage
- propriétés morpho-syntaxiques
- exemples
- traductions mot-à-mot
- LR(3) Logiciels
La base de données multilingue EUROWORDNET est composée de trois parties :
- Les wordnets au format base de données Flaim : un format Novell d'indexation et de compression.
- Polaris (Louw 1997): un éditeur pour la création, l'édition et l'exportation de wordnets.
- Periscope (Cuypers and Adriaens 1997) : un outil graphique pour la visualisation et l'exportation de wordnets.
Polaris peut importer de nouveaux wordnets ou des fragments de wordnets depuis des fichiers ASCII avec le format d'importation correct et crée une base de données indexée EUROWORDNET. De plus, il permet à un utilisateur d'éditer et d'ajouter des relations dans les wordnets et de formuler des requêtes. Polaris rend possible la visualisation de relations sémantiques sous la forme d'une structure arborescente qui peut être directement éditée. Ces arborescences peuvent être étendues et raccourcies en cliquant sur les sens du mot et en spécifiant des "TABs" qui indiquent le type et la profondeur des relations qui doivent être montrées. Les arbres étendus ou les sous-arbres peuvent être stockés sous un ensemble de synsets, qui peuvent être maniés, sauvegardés ou chargés. Il est également possible d'accéder à l'index inter-lingue ou aux ontologies, et de passer des wordnets aux ontologies via l'index inter-lingue. Enfin, il contient une interface permettant de projeter les ensembles de synsets à travers les wordnets.
Le logiciel Periscope est un visualiseur public qui peut être utilisé pour regarder les wordnets créés par Polaris et pour les comparer dans une interface graphique. Les sens des mots peuvent être visualisés et les arborescences étendues. Les sens individuels ou des branches entières peuvent être projetées sur un autre wordnet ou des structure de wordnets peuvent être comparées via les relations d'équivalence avec l'index inter-lingue. Les arbres sélectionnés peuvent être exportés vers des fichiers textes. Periscope ne peut pas importer ou changer les wordnets.
|
N. |
Le programme Polaris est la propriété de Vantage Research et est mis à disposition en tant que résultat d'EuroWordNet à Vantage Research (www.vantage.com). |
|
O. |
Le logiciel Periscope est la propriété de Vantage Research. |
- Prix
Les prix indiqués dans les tableaux ci-dessous sont basés sur le nombre de synsets pour chaque langue. Les membres bénéficient d'une remise de 50% sur le prix public. Chaque langue comprend un nombre fixe et indivisible de synsets.
Il y a 4 types différents d'usage :
VAR-C = Usage commercial
VAR-I = Usage interne pour une organisation commerciale
VAR-E = Licence d'évalutation (licence limitée à une durée de 3 mois)
End-User = Usage de recherche par une institution académique
|
Prix Membre d'ELRA (en EURO) |
|
Langue |
Nombre de synsets |
VAR-C |
VAR-I |
VAR-E |
END-USER |
|
ELRA-M0015 Anglais (complément) |
16 361 |
4090,25 |
2454,15 |
327,22 |
163,61 |
|
ELRA-M0016 Hollandais |
44 015 |
11003,75 |
6602,25 |
880,3 |
440,15 |
|
ELRA-M0017 Espagnol |
23 370 |
5842,5 |
3505,5 |
467,4 |
233,7 |
|
ELRA-M0018 Italien |
48 529 |
12132,25 |
7279,35 |
970,58 |
485,29 |
|
ELRA-M0019 Allemand |
15 132 |
3783 |
2269,8 |
302,64 |
151,32 |
|
ELRA-M0020 Français |
22 745 |
5686,25 |
3411,75 |
454,9 |
227,45 |
|
ELRA-M0021 Tchèque |
12 824 |
3206 |
1923,6 |
256,48 |
128,24 |
|
ELRA-M0022 Estonien |
9317 |
2329,25 |
1397,55 |
186,34 |
93,17 |
|
Prix Non Membre (en EURO) |
|
Langue |
Nombre de synsets |
VAR-C |
VAR-I |
VAR-E |
END-USER |
|
ELRA-M0015 Anglais (complément) |
16 361 |
8180,5 |
4908,3 |
654,44 |
327,22 |
|
ELRA-M0016 Hollandais |
44 015 |
22007,5 |
13204,5 |
1760,6 |
880,3 |
|
ELRA-M0017 Espagnol |
23 370 |
11685 |
7011 |
934,8 |
467,4 |
|
ELRA-M0018 Italien |
48 529 |
24264,5 |
14558,7 |
1941,16 |
970,58 |
|
ELRA-M0019 Allemand |
15 132 |
7566 |
4539,6 |
605,28 |
302,64 |
|
ELRA-M0020 Français |
22 745 |
11372,5 |
6823,5 |
909,8 |
454,9 |
|
ELRA-M0021 Tchèque |
12 824 |
6412 |
3847,2 |
512,96 |
256,48 |
|
ELRA-M0022 Estonien |
9 317 |
4658,5 |
2795,1 |
372,68 |
186,34 |
|
Remise*** |
|
Nombre de synsets |
Remise |
|
Au-delà de 60 000 synsets cumulés |
5 % |
|
Au-delà de 100 000 synsets cumulés |
10 % |
|
Au-delà de 160 000 synsets cumulés |
20 % |
***Une remise est offerte à la fois aux membres et aux non membres selon le nombre total (cumulé) de synsets faisant l'objet d'une même commande. Le nombre total de synsets est calculé en additionnant le nombre de synsets de chaque langue achetée. Par exemple, si vous commandez les wordnets anglais et hollandais, le montant total de synsets sera 16 361 synsets (anglais) + 44 015 synsets (hollandais) = 60 376 synsets. Dans ce cas, la remise correspondante de 5 % sera appliquée.
- Support technique
Un support technique peut être apporté par les membres du consortium, selon les termes de contrats bilatéraux à conclure entre l'utilisateur et le membre du consortium responsable des données acquises. A titre indicatif le contrat se fera sur une base annuelle et coûtera entre 10 et 20 KEURO/AN.
Pour plus d'informations sur le projet EuroWordNet: http://www.hum.uva.nl/~ewn
Copyright © 1996-2001 ELRA/ELDA - Webmaster
|