Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252

Open
wants to merge 2 commits into
base: main
Choose a base branch
from

Conversation

leogail
Copy link
Collaborator

@leogail leogail commented Feb 28, 2025

Pour l'ensemble des services pour l'instant, je prend comme affichage "nomCourt - Titre du service dans Istex TDM".
Pour la description je prend la description du service dans IA Factory (et essaye de l'adapter le moins possible).

Liste des services fait :

  • /v1/corpus-similarity: pas de page Istex TDM ?
  • /v1/group-by : à supprimer de IA Factory ?
  • /v1/lda
  • /v1/retrieve-statut : à supprimer de IA Factory ?
  • /v1/en : Ne garder qu'une route sur les deux pour Termsuite ? Ou non ?
  • /v1/fr : Ne garder qu'une route sur les deux pour Termsuite ? Ou non ?
  • /v1/en/minimal : Ne garder qu'une route sur les deux pour Termsuite ? Ou non ?
  • /v1/fr/minimal : Ne garder qu'une route sur les deux pour Termsuite ? Ou non ?
  • /v1/noise
  • /v1/clustering
  • /v1/topcitation
  • /v1/sudoc: à supprimer de IA Factory ?
  • /v1/baseline : à supprimer de IA Factory ?
  • /v1/rapido-algorithme : pas de fiche ISTEX TDM.
  • /v1/rapido-apprentissage : pas de fiche ISTEX TDM.
  • /v1/bibcheck-pdf
  • /v1/sciencemetrix-class
  • /v1/tag-cloud-en
  • /v1/tag-cloud-fr
  • /v1/pdf-text

take doc from Istex TDM page. First one for data-computer/lda. Will
update it for other services in IA Factory too
Update summaries (now using shortName - Title of service) and
descriptions of services usable in IA Favtory
Copy link
Contributor

@parmentf parmentf left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

👏 praise: ‏Merci pour cette initiative.

Je pense qu'on gagnerait à utiliser le script insert:description pour éviter les erreurs de syntaxe Markdown: on pourrait prévisualiser le résultat dans GitHub (ou même VSCode).

post.summary = Valide l'ensemble des références bibliographiques d'un PDF.
post.description = Trouve les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références bibliographiques^M- donner les DOIs s'ils existent^M- indiquer les éventuelles références rétractées.
post.summary = bibCheck - Contrôle de référence bibliographique.
post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.
post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M^M- valider les références,^M- donner les DOIs s'ils existent,^M- indiquer les éventuelles références rétractées. ^M^ML'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné.

post.summary = Extrait des thématiques d'un corpus.
post.description = Crée à partir de l'ensemble des documents un champ `lda` constitué de plusieurs _topics_ eux-mêmes caractérisés par 10 mots.^M> **Note**: Le texte doit être en anglais.^M^M> **Note 2**: La qualité des résultats dépend du corpus et les _topics_ doivent être analysés par l'utilisateur avant d'être utilisés.
post.summary = ldaClass - Extraction de thématiques dun corpus.
post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou topic) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou topic) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou *topic*) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

@@ -3,8 +3,8 @@ mimeType = application/json

# OpenAPI Documentation - JSON format (dot notation)
post.operationId = post-v1-topcitation
post.summary = Extraction des références phares
post.description = A partir d'une liste de DOI récupère les 10 références phares du corpus
post.summary = topRefExtract - Extraction des références phares d’un corpus.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.summary = topRefExtract - Extraction des références phares dun corpus.
post.summary = topRefExtract - Extraction des références phares d'un corpus.

post.summary = Extraction des références phares
post.description = A partir d'une liste de DOI récupère les 10 références phares du corpus
post.summary = topRefExtract - Extraction des références phares d’un corpus.
post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter".
post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^ML'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans « nom du champ à exploiter ».

Comment on lines +6 to +7
post.summary = textExtract - Extraction du texte à partir d’un PDF
post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.summary = textExtract - Extraction du texte à partir dun PDF
post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné.
post.summary = textExtract - Extraction du texte à partir d'un PDF
post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné.

Comment on lines +6 to +7
post.summary = Teeft - Extraction de termes d’un corpus de textes en anglais.
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.summary = Teeft - Extraction de termes dun corpus de textes en anglais.
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
post.summary = Teeft - Extraction de termes d'un corpus de textes en anglais.
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

question: ‏Euh... Wait. What?

L'entrée doit être un CSV

Euh... Non. Enfin... c'est possible dans IA Factory, mais dans OpenAPI, ça ne veut plus rien dire: c'est un fichier corpus qu'on prend en entrée!

Comment on lines +6 to +7
post.summary = Teeft - Extraction de termes d’un corpus de textes en français.
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.summary = Teeft - Extraction de termes dun corpus de textes en français.
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
post.summary = Teeft - Extraction de termes d'un corpus de textes en français.
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ».

post.summary = Classification en domaines scientifiques Science-Metrix
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. Attention : si les résumés sont trop courts, le risque d'erreur est augmenté.
post.summary = sciencemetrixClass - Classification en domaines scientifiques Science-Metrix.
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ».

Je mets 2 espaces avant le ^M quand ce n'est pas une liste, parce que sinon l'interpréteur Markdown risque de coller les deux lignes.

Et j'enlève l'espace après le ^M, car ça ne sert à rien en Markdown ni en HTML en début de ligne (à part à induire en erreur nous autres pauvres rédacteurs).

Comment on lines +6 to +7
post.summary = textClustering - Extraction de clusters d’un corpus.
post.description = L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.summary = textClustering - Extraction de clusters dun corpus.
post.description = Lalgorithme extrait plusieurs groupes (clusters) dun corpus afin dy classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
post.summary = textClustering - Extraction de clusters d'un corpus.
post.description = L'algorithme extrait plusieurs groupes (*clusters*) d'un corpus afin d'y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque *cluster* est caractérisé par maximum 20 termes. ^M> - Le nombre de *clusters* est déterminé de manière automatique.^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits *abstracts*) ou des listes de mots-clés.^M^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

Comment on lines +6 to +7
post.summary = noiseDetect - Détection de bruit d’un corpus.
post.description = L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✒️ typo:

Suggested change
post.summary = noiseDetect - Détection de bruit dun corpus.
post.description = Lalgorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il sagit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter".
post.summary = noiseDetect - Détection de bruit d'un corpus.
post.description = L'algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s'agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits *abstracts*) ou des listes de mots-clés. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ».

@parmentf parmentf added the documentation Improvements or additions to documentation label Feb 28, 2025
@parmentf
Copy link
Contributor

question: ‏Je ne sais pas quoi décider quant au champ description...

Ne perdons pas de vue que summary et description s'affichent dans OpenAPI (même si pour les services asynchrones, seuls les initiés vont s'en servir dans ce cas-là).

Je n'ai aucun problème avec summary, puisque dans IA Factory c'est mieux, et dans OpenAPI... aussi.

Par contre, la description expliquant les détails, elle peut expliquer un peu l'entrée attendue... et pour (presque) tous les services asynchrones, strictement parlant, c'est un fichier corpus (des .json dans un .tar.gz); ce dont les utilisateurs d'IA Factory n'ont rien à faire.
Par contre, dans OpenAPI... ça peut induire en erreur (si on y explique qu'on attend un CSV en entrée).
Je n'ai pas de solution toute faite, il faudrait qu'on en discute.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
documentation Improvements or additions to documentation
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants