-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Documentation IA Factory] : Homogénéisation des documentations des services dans IA Factory #252
base: main
Are you sure you want to change the base?
Conversation
take doc from Istex TDM page. First one for data-computer/lda. Will update it for other services in IA Factory too
Update summaries (now using shortName - Title of service) and descriptions of services usable in IA Favtory
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
👏 praise: Merci pour cette initiative.
Je pense qu'on gagnerait à utiliser le script insert:description
pour éviter les erreurs de syntaxe Markdown: on pourrait prévisualiser le résultat dans GitHub (ou même VSCode).
post.summary = Valide l'ensemble des références bibliographiques d'un PDF. | ||
post.description = Trouve les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références bibliographiques^M- donner les DOIs s'ils existent^M- indiquer les éventuelles références rétractées. | ||
post.summary = bibCheck - Contrôle de référence bibliographique. | ||
post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M- valider les références, ^M- donner les DOIs s'ils existent, ^M- indiquer les éventuelles références rétractées. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné. | |
post.description = Extrait les références bibliographiques d'un PDF puis utilise crossref pour:^M^M- valider les références,^M- donner les DOIs s'ils existent,^M- indiquer les éventuelles références rétractées. ^M^ML'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné. |
post.summary = Extrait des thématiques d'un corpus. | ||
post.description = Crée à partir de l'ensemble des documents un champ `lda` constitué de plusieurs _topics_ eux-mêmes caractérisés par 10 mots.^M> **Note**: Le texte doit être en anglais.^M^M> **Note 2**: La qualité des résultats dépend du corpus et les _topics_ doivent être analysés par l'utilisateur avant d'être utilisés. | ||
post.summary = ldaClass - Extraction de thématiques d’un corpus. | ||
post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou topic) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou topic) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.description = Extrait des thématiques d’un corpus de textes écrit en anglais. Une thématique (ou *topic*) est caractérisée par un ensemble de mots. Une fois les thématiques extraites, chaque document se voit attribuer une ou plusieurs thématique(s). ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ». |
@@ -3,8 +3,8 @@ mimeType = application/json | |||
|
|||
# OpenAPI Documentation - JSON format (dot notation) | |||
post.operationId = post-v1-topcitation | |||
post.summary = Extraction des références phares | |||
post.description = A partir d'une liste de DOI récupère les 10 références phares du corpus | |||
post.summary = topRefExtract - Extraction des références phares d’un corpus. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.summary = topRefExtract - Extraction des références phares d’un corpus. | |
post.summary = topRefExtract - Extraction des références phares d'un corpus. |
post.summary = Extraction des références phares | ||
post.description = A partir d'une liste de DOI récupère les 10 références phares du corpus | ||
post.summary = topRefExtract - Extraction des références phares d’un corpus. | ||
post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^M L'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.description = Ce web service identifie les 10 publications les plus citées dans un corpus donné. ^ML'entrée doit être un CSV et la colonne contenant les liste de DOIs à traiter doit être spécifiée dans « nom du champ à exploiter ». |
post.summary = textExtract - Extraction du texte à partir d’un PDF | ||
post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.summary = textExtract - Extraction du texte à partir d’un PDF | |
post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le "nom du champs à exploiter" ne doit pas être renseigné. | |
post.summary = textExtract - Extraction du texte à partir d'un PDF | |
post.description = Transforme un fichier type PDF en texte nettoyé. ^M L'entrée doit être un PDF et le « nom du champ à exploiter » ne doit pas être renseigné. |
post.summary = Teeft - Extraction de termes d’un corpus de textes en anglais. | ||
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.summary = Teeft - Extraction de termes d’un corpus de textes en anglais. | |
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.summary = Teeft - Extraction de termes d'un corpus de textes en anglais. | |
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en anglais. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ». |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
❓ question: Euh... Wait. What?
L'entrée doit être un CSV
Euh... Non. Enfin... c'est possible dans IA Factory, mais dans OpenAPI, ça ne veut plus rien dire: c'est un fichier corpus qu'on prend en entrée!
post.summary = Teeft - Extraction de termes d’un corpus de textes en français. | ||
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.summary = Teeft - Extraction de termes d’un corpus de textes en français. | |
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.summary = Teeft - Extraction de termes d'un corpus de textes en français. | |
post.description = Extrait les termes les plus spécifiques d’un ensemble de textes en français. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ». |
post.summary = Classification en domaines scientifiques Science-Metrix | ||
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. Attention : si les résumés sont trop courts, le risque d'erreur est augmenté. | ||
post.summary = sciencemetrixClass - Classification en domaines scientifiques Science-Metrix. | ||
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.description = Le web service classe automatiquement des documents scientifiques en anglais dans le troisième niveau de la classification Science-Metrix à partir de leur résumé. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champs à exploiter ». |
Je mets 2 espaces avant le ^M
quand ce n'est pas une liste, parce que sinon l'interpréteur Markdown risque de coller les deux lignes.
Et j'enlève l'espace après le ^M
, car ça ne sert à rien en Markdown ni en HTML en début de ligne (à part à induire en erreur nous autres pauvres rédacteurs).
post.summary = textClustering - Extraction de clusters d’un corpus. | ||
post.description = L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.summary = textClustering - Extraction de clusters d’un corpus. | |
post.description = L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque cluster est caractérisé par maximum 20 termes. ^M> - Le nombre de `cluster` est déterminé de manière automatique. ^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.summary = textClustering - Extraction de clusters d'un corpus. | |
post.description = L'algorithme extrait plusieurs groupes (*clusters*) d'un corpus afin d'y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe. Chaque *cluster* est caractérisé par maximum 20 termes. ^M> - Le nombre de *clusters* est déterminé de manière automatique.^M^M> - Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits *abstracts*) ou des listes de mots-clés.^M^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ». |
post.summary = noiseDetect - Détection de bruit d’un corpus. | ||
post.description = L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
✒️ typo:
post.summary = noiseDetect - Détection de bruit d’un corpus. | |
post.description = L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits abstracts) ou des listes de mots-clés. ^M L'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans "nom du champs à exploiter". | |
post.summary = noiseDetect - Détection de bruit d'un corpus. | |
post.description = L'algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s'agit de documents considérés comme non pertinents. Les objets à traiter doivent être en anglais et peuvent être des textes courts (type titres ou petits *abstracts*) ou des listes de mots-clés. ^ML'entrée doit être un CSV et la colonne contenant les textes à traiter doit être spécifiée dans « nom du champ à exploiter ». |
❓ question: Je ne sais pas quoi décider quant au champ Ne perdons pas de vue que Je n'ai aucun problème avec Par contre, la description expliquant les détails, elle peut expliquer un peu l'entrée attendue... et pour (presque) tous les services asynchrones, strictement parlant, c'est un fichier corpus (des |
Pour l'ensemble des services pour l'instant, je prend comme affichage "nomCourt - Titre du service dans Istex TDM".
Pour la description je prend la description du service dans IA Factory (et essaye de l'adapter le moins possible).
Liste des services fait :