ldaClass - Extraction de thématiques d’un corpus

Niveau d'utilisation : Avancé

Niveau de validation : Expérimental

Objectif

Ce web service traite non plus du texte mais des corpus de textes en anglais. En effet, le résultat obtenu pour chacun des documents dépend des autres.

Il extrait des thématiques d’un corpus : une thématique (ou topic) est caractérisée par dix mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s).

Méthode

Un LDA ou Allocation de Dirichlet latente est un algorithme non-supervisé de topic modeling. A l’aide de méthodes probabilistes, on construit aléatoirement des thématiques par des mots fréquemment rencontrés dans des textes. On réitère plusieurs fois cette attribution en modifiant les probabilités à chaque itération.

Ce web service prend en entrée un corpus au format .tar.gz. constitué d’un dossier compressé contenant un ensemble de fichiers json.
Chaque fichier json doit contenir à minima un champ value : c’est l’ensemble de ces champs du corpus qui est pris en entrée par ce service web.

Pour la sortie, le champ “value” de chaque document contient un champ “topics” constitué de 1 à 20 topics (généralement entre 1 et 3). Chaque topic contient un champ “words”, composé d’une liste de 10 mots (avec leur poids associé par rapport au topic) les plus caractéristiques du topic, ainsi qu’un champ “weight” qui correspond au poids associé au sujet dans le document. Seules les thématiques dont la probabilité est supérieure ou égale à 0.05 sont retournées.
Le champ “value” contient également un champ “best_topic” qui contient le topic possédant le plus grand poids. Voir l’exemple dans “Utilisation” pour une meilleure visualisation de cette sortie.

Quant au nombre total de topics présents dans le corpus :
– Pour un corpus contenant moins de 1 000 documents, le nombre de topics est de 10.
– Pour un corpus contenant entre 1 000 et 20 000 documents, le nombre de topics est de 15.
– Pour un corpus contenant plus de 20 000 documents, le nombre de topics est de 20.

Un document considéré comme du bruit ne sera pas pris en compte par le modèle et la valeur retournée sera n/a.

Métriques

Un modèle est créé à chaque utilisation : une optimisation des paramètres est incluse dans le code pour s’adapter à chaque corpus.
Cependant, la cohérence et l’exhaustivité des thématiques doivent être vérifiées à chaque utilisation.

Précaution
Le web service fonctionne uniquement sur des textes anglais.

Variantes

Résultats bruts

Pour obtenir les résultats bruts du traitement, l’URL à utiliser est :
https://data-computer.services.istex.fr/v1/lda

Représentations graphiques

L’URL suivante, à lancer depuis Lodex, permet la représentation graphique du traitement :
https://data-computer.services.istex.fr/v1/lda-segments

Références

Documentation de la bibliothèque python Gensim sur la constitution d’un LDA : https://radimrehurek.com/gensim/auto_examples/tutorials/run_lda.html#sphx-glr-auto-examples-tutorials-run-lda-py.

Ces web services qui peuvent vous intéresser

Extraction de termes d’un texte via Teeft

Extraction de termes via Teeft (nombres compris)

Extraction de termes d’un corpus

URL DU WEB SERVICE à renseigner dans LODEX est :

https://data-computer.services.istex.fr/v1/lda-segments

Exemple textuel du traitement

Le format d'entrée :

Ce service web ne traite pas des fichiers mais des corpus : ceci est un exemple de contenu d’un fichier d’un corpus.

[
{
"id":"83",
"value":"Abstract: Zinc (Zn), iron (Fe), magnesium (Mg), and calcium (Ca) in chickpea seed are important constituents in vegetarian diets. The aim was to investigate associations of these nutrients in different chickpea (Cicer arietinum L.) cultivars with phytic acid (PA), another naturally occurring constituent of grain that may influence the bioavailability of mineral micronutrients. Chickpea was grown at Saskatoon and Swift Current, SK, in 2002 and 2003, representing dryland production from high-yielding locations in western Canada. Minerals were measured by atomic absorption spectroscopy; PA was measured using high-performance anion-exchange conductivity detection methodology. Seed from 10 genotypes contained from 29 to 52 mg/kg Zn, 77–112 mg/kg Fe, 1,448–2,457 mg/kg Mg, 1,211–2,457 mg/kg Ca, to 3.8–9.0 mg/g PA. Phytic acid, Fe, Mg, and Ca decreased in 2003 from 2002 concentrations. Kabulis had greater Zn, the same Fe, but lower Mg and Ca concentrations than desi genotypes. Large-seeded genotypes had greater or the same Zn, the same Fe and Mg, but lower Ca than small-seeded genotypes. Iron and Ca concentrations positively correlated with PA concentration. Nutrients were affected by environment and genotype, which means that chickpea can be exploited by breeding, in addition to sourcing favorable nutritional profiles by environment, seed size, and market class."
}
]

Le résultat :

Voici la sortie brute du traitement, et non celle obtenue dans Lodex.

[
{ "id":"83", "value":{"topics":{"topic_5":{"words":[{"word":"diet","word_weight":"0.019629745"},{"word":"vegetarian","word_weight":"0.019507904"},{"word":"food","word_weight":"0.018134683"},{"word":"high","word_weight":"0.013123109"},{"word":"level","word_weight":"0.012224608"},{"word":"study","word_weight":"0.010436964"},{"word":"group","word_weight":"0.0094934795"},{"word":"age","word_weight":"0.007848243"},{"word":"animal","word_weight":"0.007548828"},{"word":"vitamin","word_weight":"0.006880563"}],"weight":"0.8183431"},"topic_8":{"words":[{"word":"study","word_weight":"0.016340619"},{"word":"vegetarian","word_weight":"0.011359757"},{"word":"diet","word_weight":"0.010793254"},{"word":"intake","word_weight":"0.010230334"},{"word":"animal","word_weight":"0.0094601605"},{"word":"food","word_weight":"0.009019849"},{"word":"high","word_weight":"0.0074704085"},{"word":"dietary","word_weight":"0.0072385743"},{"word":"cell","word_weight":"0.006655712"},{"word":"woman","word_weight":"0.0063149603"}],"weight":"0.1673574"}},"best_topic":{"topic_5":{"words":[{"word":"diet","word_weight":"0.019629745"},{"word":"vegetarian","word_weight":"0.019507904"},{"word":"food","word_weight":"0.018134683"},{"word":"high","word_weight":"0.013123109"},{"word":"level","word_weight":"0.012224608"},{"word":"study","word_weight":"0.010436964"},{"word":"group","word_weight":"0.0094934795"},{"word":"age","word_weight":"0.007848243"},{"word":"animal","word_weight":"0.007548828"},{"word":"vitamin","word_weight":"0.006880563"}],"weight":"0.8183431"}}} }
]

Démonstration

Code source

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant ldaClass (https://data-computer.services.istex.fr/v1/lda-segments) sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez entre 10 et 20 classes caractérisées par 10 mots-clés et des représentations graphiques liées.

Graphes issus d’une étude réalisée pour la Direction des Données Ouvertes de la Recherche (DDOR) (Comptes rendus annuels d’activité des chercheurs CNRS 2020-2021). Le web service a traité le texte intégral des publications scientifiques.