chemTag - Extraction d’entités nommées en chimie

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce web service détecte, dans un texte en anglais, les entités nommées en chimie et les désambiguïse.

Méthode

Les deux champs en sortie sont :
– chemical : correspond à l’entité nommée de chimie extraite.
– chemical_disambiguisate : correspond au nom IUPAC issu de PubChem (pour l’entité extraite).

Pour l’extraction, le modèle utilisé par ce web service, “bio-ner”, est disponible à ce lien huggingface.
Aucun fine-tuning n’a été opéré : nous mettons simplement le modèle à disposition via un web service.

Pour la désambiguisation, nous utilisons un référentiel issu de PubChem afin de récupérer le nom IUPAC associé à l’entité trouvée. Le référentiel complet peut être trouvé à ce lien.

Le code git pour fine-tuner le modèle est disponible à ce lien.

Métriques

Le modèle possède une f-mesure de 0.92 ± 0.02.
Quant à la désambiguïsation, nous utilisons une table de correspondance issue de la base PubChem : les résultats dépendent de l’exhaustivité des synonymes présents sur PubChem.

Précaution : Le web service fonctionne uniquement sur du texte anglais.

Références
Exemple textuel du traitement
Le format d'entrée :
[

{
"id": 1,
"value": "This is three chemical named entities: methanol, 2-propanol, or CO2."
},
{
"id": 2,
"value": "Single atoms of elements are not molecules. A single oxygen, O, is not a molecule. When oxygen bonds to itself (e.g., O3) or to another element (e.g., carbon dioxide or CO2), molecules are formed"
},
{
"id": 3,
"value": "This sentence does not contain any chemical named entities."
}

]
Le résultat :
[

{
"id": 1,
"value": {
"chemical": [
"methanol",
"2-propanol",
"CO2"
],
"chemical_disambiguisate": [
"methanol",
"propan-2-ol"
]
}
},
{
"id": 2,
"value": {
"chemical": [
"oxygen",
"O",
"O3",
"carbon dioxide",
"CO2"
],
"chemical_disambiguisate": [
"molecular oxygen",
"ozone"
]
}
},
{
"id": 3,
"value": {
"chemical": [],
"chemical_disambiguisate": []
}
}

]
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres