Skip to content

Commit

Permalink
Browse files Browse the repository at this point in the history
  • Loading branch information
leogail committed Feb 25, 2025
1 parent a872de4 commit b8249df
Show file tree
Hide file tree
Showing 4 changed files with 5 additions and 5 deletions.
2 changes: 1 addition & 1 deletion services/text-summarize/README.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# ws-text-summarize@0.0.2
# ws-text-summarize@1.0.0

Génère un résumé d'un article scientifique.

Expand Down
2 changes: 1 addition & 1 deletion services/text-summarize/package.json
Original file line number Diff line number Diff line change
@@ -1,7 +1,7 @@
{
"private": true,
"name": "ws-text-summarize",
"version": "0.0.2",
"version": "1.0.0",
"description": "Génère un résumé d'un article scientifique.",
"repository": {
"type": "git",
Expand Down
2 changes: 1 addition & 1 deletion services/text-summarize/swagger.json
Original file line number Diff line number Diff line change
Expand Up @@ -3,7 +3,7 @@
"info": {
"title": "text-summarize - Génère un résumé d'un article scientifique.",
"description": "Utilise un LLM pour générer le résumé d'un article scientifique à partir du texte intégral. Si le texte est trop long, la fin du document n'est pas prise en compte (ce qui affecte peu les performances globales du modèle). L'utilisateur-rice veillera à utiliser route adaptée en fonction de la langue du document.",
"version": "0.0.2",
"version": "1.0.0",
"termsOfService": "https://services.istex.fr/",
"contact": {
"name": "Inist-CNRS",
Expand Down
4 changes: 2 additions & 2 deletions services/text-summarize/tests.hurl
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
POST {{host}}/v1/multilingual?indent=true
POST http://localhost:31976/v1/multilingual?indent=true
content-type: application/json
[
{"id": "1", "value": "LODEX est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique. Il propose, en plus de la création automatique d’identifiants, la génération d’identifiants pérennes normalisés via le système des ark. 1 Introduction Les bibliothèques produisent depuis longtemps dans leurs catalogues des données structurées et contrôlées, qu’elles exposent sur le web. Le web sémantique est présenté comme étant le web pour lequel les ordinateurs interprètent les métadonnées afin de mieux assister l’utilisateur dans sa recherche de l’information (Berners-Lee et al., 2001). L’Inist a lancé une expérimentation visant à publier, selon les normes du web sémantique, des données extraites du fonds Istex (plus de 20 millions de publications scientifiques). Cette expérience a eu comme incidence le développement de l'outil Lodex permettant de mettre en ligne des jeux de données dans le respect des normes et standards du web sémantique. Dans cet article nous présenterons brièvement l’archive puis nous développerons l’outil qui a pour but de publier des données extraites de cette archive et ainsi faciliter l’accès et la diffusion des données acquises et produites. Cette publication est réalisée via un site dédié et un SPARQL endpoint contenant un graphe global des données 2 L’archive ISTEX Le projet a pour objectif de permettre à la communauté scientifique française d’accéder à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l’essentiel des publications scientifiques mondiales. Ce réservoir de publications scientifiques est bien entendu à destination des documentalistes et chercheurs ayant un besoin documentaire. C’est également une ressource unique pour tous les chercheurs gravitant autour des thématiques de la fouille de textes, ... (des données structurées au web sémantique Stéphanie Collignon Parmentier , Nicolas Thouvenin Inist-CNRS, 2, Allée du Parc de Brabois, CS 10310, 54519 Vandœuvre-lès-Nancy [email protected])"}
Expand All @@ -10,7 +10,7 @@ HTTP 200
"value": "LODEX est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique. Il propose, en plus de la création automatique d’identifiants, la génération d’identifiants pérennes normalisés via le système des ark."
}]

POST {{host}}/v1/en?indent=true
POST http://localhost:31976/v1/en?indent=true
content-type: application/json
[
{"id": "1", "value": "Introduction In bibliographic databases, affiliations of authors are of paramount importance. Hence, they permit to the laboratories or institutes to get national and even international visibility, as well as they consequently provide authors with scientific caution. We cannot discuss the issue of affiliations without talking of ''Shanghai ranking'' which aims at evaluating universities. Our purpose here is not to feed up the controversy (Van Raan 2005; ), but to point out that the management of affiliation plays an important role in the calculation of universities ''performance''. reports some problems with author's names and also institutions: ''Authors from the same institution, or even from the same department, may not indicate their institutional affiliations in the same way''. Depending on the country, it is not always clear how to name a laboratory with respect to its supervisory authorities. The affiliation is also important information to disambiguate author names in bibliographic databases. In this context, Wang points out that: ''as the amount of available information increases, problem caused by misspelling, spelling difference, and name or affiliation change also become worse'' ( . A standardization of data in bibliographic databases is thus necessary to carry out informetrics studies, but it is not a trivial task: the practice, whatever it is intentional or not, of omitting institutional affiliations, or giving incomplete or wrong information is not uncommon . Each year, the CNRS (the French National Center of Scientific Research) has to spot its laboratories affiliations among the French ones. Many of them are easy to identify automatically thank to key words extraction but, at the issue of this process, it still remains unidentified affiliations . New methods for disambiguation could help the information analysts to be more efficient when labelling. This paper proposes an approach based on Naive Bayes (NB) learning method and overlapping clustering. It is structured as follows: ''State of the art and discussion'' section summarizes related works and identifies problems. Section 3 describes our approach firstly with supervised learning method and then with semi-supervised method. Next, section 4 reports experiments and results..."}
Expand Down

0 comments on commit b8249df

Please sign in to comment.