TermSuite - Extraction de termes d’un corpus

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service s’appuie sur l’outil TermSuite pour faire une extraction terminologique à partir d’un corpus de textes en anglais ou en français.
La liste des 500 termes extraits par défaut contient les termes les plus spécifiques au corpus correspondant à tous les fichiers textes.
Cela permet d’avoir une idée des sujets abordés par l’ensemble des fichiers.

L’extraction terminologique à partir d’un corpus spécialisé est une première étape à la constitution d’un vocabulaire contrôlé sur un domaine particulier.

Méthode

Le programme utilisé est TermSuite. Il effectue les traitements en 2 phases :

  • Analyses linguistiques : segmentation du texte en mots, lemmatisation et étiquetage morphosyntaxique
  • Extraction terminologique monolingue : détection d’occurrences de termes simples et complexes, normalisation et regroupement des termes en fonction de leurs variations, calcul de spécificité et filtrage statistique.

TermSuite calcule la spécificité (termhood) d’un candidat terme par rapport à un corpus de langue générale. Les termes ainsi sélectionnés sont renvoyés par spécificité décroissante.

L’entrée est un fichier .tar.gz contenant des fichiers .json en anglais ou en français (voir Variantes).

La sortie est une liste de 500 termes par défaut (voir Variantes). Chaque mot est précédé de son étiquette grammaticale (n pour nom, a pour adjectif, …). Chaque terme est associé à sa fréquence d’apparition dans le corpus.

Métriques

Précaution
Assurez-vous que la langue des textes corresponde à la variante retenue.

Variantes

Langues

  • anglais : https://data-termsuite.services.istex.fr/v1/en
  • français : https://data-termsuite.services.istex.fr/v1/fr

Nombre de termes

Le paramètre nb est à adapter en fonction des besoins. Par défaut, 500 termes sont renvoyés.

Pour obtenir 10 termes, il est nécessaire de rajouter ?nb=10 à la fin de l’URL :
https://data-termsuite.services.istex.fr/v1/en?nb=10

Références
  • TermSuite
  • Béatrice Daille.
    Term Variation in Specialised Corpora: Characterisation, automatic discovery and applications.
    Vol. 19. John Benjamins Publishing Company, 2017.
    Notice
  • Damien Cram and Béatrice Daille.
    Terminology Extraction with Term Variant Detection.
    Proceedings of ACL-2016 System Demonstrations.
    PDF
  • Jérôme Rocheteau and Béatrice Daille.
    TTC TermSuite: A UIMA Application for Multilingual Terminology Extraction from Comparable Corpora.
    Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011.
    PDF
Exemple textuel du traitement
Le format d'entrée :

Un fichier .tar.gz contenant des fichiers textes .json contenant :

  1. un champ id unique
  2. un champ value contenant un texte

Exemple d’un des fichiers textes en JSON :

{"id":"W2CeZqyNR","value":"Microbiology and Nitrogen Cycle in the Benthic Sediments of a Glacial Oligotrophic Deep Andean Lake as Analog of Ancient Martian Lake-Beds .  Potential benthic habitats of early Mars lakes, probably oligotrophic, could range from hydrothermal to cold sediments. Dynamic processes in the water column (such as turbidity or UV penetration) as well as in the benthic bed (temperature gradients, turbation, or sedimentation rate) contribute to supply nutrients to a potential microbial ecosystem. High altitude, oligotrophic, and deep Andean lakes with active deglaciation processes and recent or past volcanic activity are natural models to assess the feasibility of life in other planetary lake/ocean environments and to develop technology for their exploration. We sampled the benthic sediments (down to 269 m depth) of the oligotrophic lake Laguna Negra (Central Andes, Chile) to investigate its ecosystem through geochemical, biomarker profiling, and molecular ecology studies. The chemistry of the benthic water was similar to the rest of the water column, except for variable amounts of ammonium (up to 2.8 ppm) and nitrate (up to 0.13 ppm). A life detector chip with a 300-antibody microarray revealed the presence of biomass in the form of exopolysaccharides and other microbial markers associated to several phylogenetic groups and potential microaerobic and anaerobic metabolisms such as nitrate reduction. DNA analyses showed that 27% of the Archaea sequences corresponded to a group of ammonia-oxidizing archaea (AOA) similar (97%) to Nitrosopumilus spp. and Nitrosoarchaeum spp. (Thaumarchaeota), and 4% of Bacteria sequences to nitriteoxidizing bacteria from the Nitrospira genus, suggesting a coupling between ammonia and nitrite oxidation. Mesocosm experiments with the specific AOA inhibitor 2-Phenyl-4,4,5,5-tetramethylimidazoline-1-oxyl 3-oxide (PTIO) demonstrated an AOA-associated ammonia oxidation activity with the simultaneous accumulation of nitrate and sulfate. The results showed a rich benthic microbial community dominated by microaerobic and anaerobic metabolisms thriving under aphotic, low temperature (4 degrees C), and relatively high pressure, that might be a suitable terrestrial analog of other planetary settings."}
Le résultat :

Le résultat final visible dans nos outils Lodex et IA Factory.

[{
  "key": "n: sediment",
  "freq": 10
},
{
  "key": "nn: proto-paratethys sea",
  "freq": 9
},
{
  "key": "a: glacial",
  "freq": 7
},
{
  "key": "n: mmes",
  "freq": 7
},
{
  "key": "a: tropical",
  "freq": 7
},
{
  "key": "n: precipitation",
  "freq": 7
},
{
  "key": "n: genus",
  "freq": 7
},
{
  "key": "n: obliquiloculata",
  "freq": 7
},
{
  "key": "n: telescopus",
  "freq": 6
},
{
  "key": "nn: clay mineral",
  "freq": 6
}]

PS: Techniquement, le service renvoie un JSON dont le champ value est l’identifiant du traitement:

[ { "id": "termsuite-en", "value": "gp8QhnnGb" } ]

À partir de cet identifiant, on peut forger une requête vers https://data-termsuite.services.istex.fr/v1/retrieve-json pour récupérer le résultat.
Pour plus de détails, voir la démonstration.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres