Extraction du texte à partir d’un pdf

Niveau d'utilisation : Débutant

Niveau de validation : Expérimental

Objectif

Ce web service transforme un pdf en texte en excluant les éléments qui perturberaient un traitement de fouille de texte ultérieur.

Le pdf ne doit pas être un pdf image.

Méthode

A partir d’un pdf texte, on extrait le texte brut en excluant la partie “références bibliographiques”, ainsi que les figures et tableaux ainsi que leur légende. Les pieds de pages et hauts de pages sont également ôtés. Les auteurs et leurs affiliations sont enlevés dans la mesure du possible.

Le texte généré est plus adapté aux traitements de TAL ou d’apprentissage automatique.

Les pdf peuvent être de formats variés, et cela peut impacter la qualité du résultat.

Il ne s’agit en aucun cas d’un programme d’OCRisation, le pdf ne doit pas être une image.

Attention ce service prend en entré l’url d’un pdf. La langue du document n’a pas d’importance si le texte est en alphabet latin.

Métriques

Le programme est en test.

Ces web services qui peuvent vous intéresser

Normalisation d’un texte ou d’un terme

Exemple textuel du traitement

Le format d'entrée :

[
{
“id”: 1,
“value”: “https://hal.science/hal-01990444v1/file/EGC_2019.pdf”
}
]

Le résultat :

[
{
“id”: 1,
“value”: “LODEX : des données structurées au web sémantique Stéphanie Collignon Parmentier , Nicolas Thouvenin Inist-CNRS, 2, Allée du Parc de Brabois, CS 10310, 54519 Vandœuvre-lès-Nancy prenom.nom@inist.fr est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique. Il propose, en plus de la création automatique d’ , la génération d’identifiants pérennes normalisés via le système des 1 Introduction Les bibliothèques produisent depuis longtemps dans leurs catalogues des données structurées et contrôlées, qu’elles exposent sur le web. Le web sémantique est présenté comme étant le web pour lequel les ordinateurs interprètent les métadonnées afin de mieux assister l’utilisateur dans sa recherche de l’information (Berners-Lee et al., 2001). L’Inist- a lancé une expérimentation visant à publier, selon les normes du web sémantique, des données extraites du fonds (plus de 20 millions de publications scientifiques). Cette expérience a eu comme incidence le développement de , outil permettant de mettre en ligne des jeux de données dans le respect des normes et standards du . Dans cet article nous présenterons brièvement l’archive puis nous développe- rons l’outil qui a pour but de publier des données extraites de cette archive et ainsi faciliter l’accès et la diffusion des données acquises et produites. Cette publica- tion est réalisée via un site dédié et un SPARQL endpoint contenant un graphe global des données 2 L’archive ISTEX Le projet a pour objectif de permettre à la communauté scientifique française d’accéder à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l’essentiel des publications scientifiques mondiales. Ce réservoir de publications scienti- fiques est bien entendu à destination des documentalistes et chercheurs ayant un besoin documentaire. C’est également une ressource unique pour tous les chercheurs gravitant autour des thématiques de la fouille de textes, du Traitement Automatique de la LODEX …”
}
]

Démonstration

Code source