[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252

leogail · 2025-02-28T14:06:41Z

Pour l'ensemble des services pour l'instant, je prend comme affichage "nomCourt - Titre du service dans Istex TDM".
Pour la description je prend la description du service dans IA Factory (et essaye de l'adapter le moins possible).

Liste des services fait :

take doc from Istex TDM page. First one for data-computer/lda. Will update it for other services in IA Factory too

Update summaries (now using shortName - Title of service) and descriptions of services usable in IA Favtory

parmentf

👏 praise: ‏Merci pour cette initiative.

Je pense qu'on gagnerait à utiliser le script insert:description pour éviter les erreurs de syntaxe Markdown: on pourrait prévisualiser le résultat dans GitHub (ou même VSCode).

parmentf · 2025-02-28T16:05:17Z

services/biblio-ref/v1/validate-pdf.ini

-post.summary = Valide l'ensemble des références bibliographiques d'un PDF.
-post.description =  Trouve les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références bibliographiques^M- donner les DOIs s'ils existent^M- indiquer les éventuelles références rétractées.
+post.summary = bibCheck - Contrôle de référence bibliographique.
+post.description =  Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.


✒️ typo: ‏

Suggested change

post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.

post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M^M- valider les références,^M- donner les DOIs s'ils existent,^M- indiquer les éventuelles références rétractées. ^M^ML'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné.

parmentf · 2025-02-28T16:06:57Z

services/data-computer/v1/lda.ini

-post.summary = Extrait des thématiques d'un corpus.
-post.description = Crée à partir de l'ensemble des documents un champ `lda` constitué de plusieurs _topics_ eux-mêmes caractérisés par 10 mots.^M> **Note**: Le texte doit être en anglais.^M^M> **Note 2**: La qualité des résultats dépend du corpus et les _topics_ doivent être analysés par l'utilisateur avant d'être utilisés.
+post.summary = ldaClass - Extraction de thématiques d’un corpus.
+post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou topic) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".


✒️ typo: ‏

Suggested change

post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou topic) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou *topic*) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

parmentf · 2025-02-28T16:08:19Z

services/data-topcitation/v1/topcitation.ini

@@ -3,8 +3,8 @@ mimeType = application/json

 # OpenAPI Documentation - JSON format (dot notation)
 post.operationId = post-v1-topcitation
-post.summary = Extraction des références phares
-post.description = A partir d'une liste de DOI récupère les 10 références phares du corpus
+post.summary = topRefExtract - Extraction des références phares d’un corpus.


✒️ typo: ‏

Suggested change

post.summary = topRefExtract - Extraction des références phares d’un corpus.

post.summary = topRefExtract - Extraction des références phares d'un corpus.

parmentf · 2025-02-28T16:08:55Z

services/data-topcitation/v1/topcitation.ini

-post.summary = Extraction des références phares
-post.description = A partir d'une liste de DOI récupère les 10 références phares du corpus
+post.summary = topRefExtract - Extraction des références phares d’un corpus.
+post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter".


✒️ typo: ‏

Suggested change

post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter".

post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^ML'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans « nom du champ à exploiter ».

parmentf · 2025-02-28T16:15:11Z

services/data-workflow/v1/pdf-text.ini

+post.summary = textExtract - Extraction du texte à partir d’un PDF
+post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.


✒️ typo: ‏

Suggested change

post.summary = textExtract - Extraction du texte à partir d’un PDF

post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.

post.summary = textExtract - Extraction du texte à partir d'un PDF

post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné.

parmentf · 2025-02-28T16:16:10Z

services/data-workflow/v1/tag-cloud-en.ini

+post.summary = Teeft - Extraction de termes d’un corpus de textes en anglais.
+post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". 


✒️ typo: ‏

Suggested change

post.summary = Teeft - Extraction de termes d’un corpus de textes en anglais.

post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

post.summary = Teeft - Extraction de termes d'un corpus de textes en anglais.

post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

❓ question: ‏Euh... Wait. What?

L'entrée doit être un CSV

Euh... Non. Enfin... c'est possible dans IA Factory, mais dans OpenAPI, ça ne veut plus rien dire: c'est un fichier corpus qu'on prend en entrée!

parmentf · 2025-02-28T16:17:00Z

services/data-workflow/v1/tag-cloud-fr.ini

+post.summary = Teeft - Extraction de termes d’un corpus de textes en français.
+post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". 


✒️ typo: ‏

Suggested change

post.summary = Teeft - Extraction de termes d’un corpus de textes en français.

post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

post.summary = Teeft - Extraction de termes d'un corpus de textes en français.

post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ».

parmentf · 2025-02-28T16:22:04Z

services/sciencemetrix-classification/v1/classif.ini

-post.summary = Classification en domaines scientifiques Science-Metrix
-post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. Attention : si les résumés sont trop courts, le risque d'erreur est augmenté.
+post.summary = sciencemetrixClass - Classification en domaines scientifiques Science-Metrix.
+post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". 


✒️ typo: ‏

Suggested change

post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ».

Je mets 2 espaces avant le ^M quand ce n'est pas une liste, parce que sinon l'interpréteur Markdown risque de coller les deux lignes.

Et j'enlève l'espace après le ^M, car ça ne sert à rien en Markdown ni en HTML en début de ligne (à part à induire en erreur nous autres pauvres rédacteurs).

parmentf · 2025-02-28T16:24:46Z

services/text-clustering/v1/clustering.ini

+post.summary = textClustering - Extraction de clusters d’un corpus.
+post.description = L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". 


✒️ typo: ‏

Suggested change

post.summary = textClustering - Extraction de clusters d’un corpus.

post.description = L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

post.summary = textClustering - Extraction de clusters d'un corpus.

post.description = L'algorithme extrait plusieurs groupes (*clusters*) d'un corpus afin d'y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque *cluster* est caractérisé par maximum 20 termes. ^M> - Le nombre de *clusters* est déterminé de manière automatique.^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits *abstracts*) ou des listes de mots-clés.^M^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

parmentf · 2025-02-28T16:27:09Z

services/text-clustering/v1/noise.ini

+post.summary = noiseDetect - Détection de bruit d’un corpus.
+post.description = L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".


✒️ typo: ‏

Suggested change

post.summary = noiseDetect - Détection de bruit d’un corpus.

post.description = L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

post.summary = noiseDetect - Détection de bruit d'un corpus.

post.description = L'algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s'agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits *abstracts*) ou des listes de mots-clés. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

parmentf · 2025-02-28T16:38:18Z

❓ question: ‏Je ne sais pas quoi décider quant au champ description...

Ne perdons pas de vue que summary et description s'affichent dans OpenAPI (même si pour les services asynchrones, seuls les initiés vont s'en servir dans ce cas-là).

Je n'ai aucun problème avec summary, puisque dans IA Factory c'est mieux, et dans OpenAPI... aussi.

Par contre, la description expliquant les détails, elle peut expliquer un peu l'entrée attendue... et pour (presque) tous les services asynchrones, strictement parlant, c'est un fichier corpus (des .json dans un .tar.gz); ce dont les utilisateurs d'IA Factory n'ont rien à faire.
Par contre, dans OpenAPI... ça peut induire en erreur (si on y explique qu'on attend un CSV en entrée).
Je n'ai pas de solution toute faite, il faudrait qu'on en discute.

leogail added 2 commits February 28, 2025 15:02

docs(open-api): make doc coherent

c356ddb

take doc from Istex TDM page. First one for data-computer/lda. Will update it for other services in IA Factory too

docs(open-api): update IA Factory docs

41b05a2

Update summaries (now using shortName - Title of service) and descriptions of services usable in IA Favtory

parmentf requested changes Feb 28, 2025

View reviewed changes

parmentf added the documentation Improvements or additions to documentation label Feb 28, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252

[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252

leogail commented Feb 28, 2025 •

edited

Loading

parmentf left a comment

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf Feb 28, 2025

parmentf commented Feb 28, 2025

	post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.
	post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M^M- valider les références,^M- donner les DOIs s'ils existent,^M- indiquer les éventuelles références rétractées. ^M^ML'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné.

	post.summary = topRefExtract - Extraction des références phares d’un corpus.
	post.summary = topRefExtract - Extraction des références phares d'un corpus.

	post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter".
	post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^ML'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans « nom du champ à exploiter ».

		post.summary = textExtract - Extraction du texte à partir d’un PDF
		post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.

		post.summary = Teeft - Extraction de termes d’un corpus de textes en anglais.
		post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

	post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
	post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ».

		post.summary = textClustering - Extraction de clusters d’un corpus.
		post.description = L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

		post.summary = noiseDetect - Détection de bruit d’un corpus.
		post.description = L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".

[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252

Are you sure you want to change the base?

[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252

Conversation

leogail commented Feb 28, 2025 • edited Loading

parmentf left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

parmentf commented Feb 28, 2025

leogail commented Feb 28, 2025 •

edited

Loading