Skip to content

Commit

Permalink
New CC IV methods for generating random surtokenized inner attributes
Browse files Browse the repository at this point in the history
Integration de developpement de Carine, marques par les balises // CH IV Surtokenisation

KWDataGridManager
- nouvelles methodes dediees a la surtokenisation
  - ExportDataGridWithRandomizedInnerAttributes
    - export d'une grille avec une surtokenisation des inner attributes
  - InitialiseVarPartAttributeWithNewInnerAttributes
    - initialisation d'un attribut VarPart avec une version surtokenisee des ses inner attributes
  - CreateRandomInnerAttributes
    - Creation d'attributs internes par ajout aleatoire de parties de variable dans chaque attribut
- methodes existantes impactees
  - InitialiseAttributeRandomParts, AddAttributeRandomParts
    - mise a jour incrementales de effectifs des parties dans le cas d'attribut internes
    - tri des parties dans les cas d'attributs internes
  - CheckAttributesConsistency
    - affinage des tests dans le cas des attributs internes

KWDataGridVNSOptimizer
- nouvelles methodes dediees a la surtokenisation
  - PROTOGenerateNeighbourSolution
    - prototype d'une variante de GenerateNeighbourSolution avec surtokenisation aleatoire
- methodes existantes impactees
  - OptimizeDataGrid
    - ajout de trace de type bDisplayGranularities
  - GenerateNeighbourSolution
    - test de la surtokenisation
    - ajout de la memorisation et de la resitution de la graine aleatoire initiale pour ne pas perturber les resultats

NEWKWDataGridVNSOptimizer
- reports des evolutions et corrections de KWDataGridVNSOptimizer
  • Loading branch information
marcboulle committed Dec 18, 2023
1 parent db99bef commit 2a826bb
Show file tree
Hide file tree
Showing 9 changed files with 710 additions and 22 deletions.
8 changes: 6 additions & 2 deletions src/Learning/KWData/KWCYac.cpp
Original file line number Diff line number Diff line change
@@ -1,3 +1,7 @@
// Copyright (c) 2023 Orange. All rights reserved.
// This software is distributed under the BSD 3-Clause-clear License, the text of which is available
// at https://spdx.org/licenses/BSD-3-Clause-Clear.html or see the "LICENSE" file for more details.

/* A Bison parser, made by GNU Bison 3.8.2. */

/* Bison implementation for Yacc-like parsers in C
Expand Down Expand Up @@ -112,8 +116,8 @@ static int nFileParsingErrorNumber = 0;
/* Debugging YAC */

/*
#define YYDEBUG 1
extern char *yyptok(int i);
#define YYDEBUG 1
extern char *yyptok(int i);
*/

#line 127 "KWCYac.cpp"
Expand Down
2 changes: 1 addition & 1 deletion src/Learning/KWDataPreparation/KWDataGrid.cpp
Original file line number Diff line number Diff line change
Expand Up @@ -4388,7 +4388,7 @@ boolean KWDGValueSet::Check() const
bOk = false;
break;
}
// Erreur si typivcalite incorrecte
// Erreur si typicalite incorrecte
else if (value->GetTypicality() < 0 or value->GetTypicality() > 1)
{
AddError(sTmp + value->GetClassLabel() + " " + value->GetObjectLabel() +
Expand Down
12 changes: 6 additions & 6 deletions src/Learning/KWDataPreparation/KWDataGrid.h
Original file line number Diff line number Diff line change
Expand Up @@ -51,13 +51,13 @@ class KWDGInnerAttributes;
// - un attribut de la grille peut etre soit numerique, soit categoriel, soit constitue de parties de variables
// - dans la these d'Aichetou
// - dedie au cas instances x variables
// - chaque variables descriptives est partitionnees en parties, intervalles ou groupes de valeurs
// - chaque variable descriptive est partitionnee en parties, intervalles ou groupes de valeurs
// - chaque partie de variable est l'analogue d'un mot
// - chaque instance est decrites par l'ensmeble des mots correspondant aux valeurs de ses variables
// - chaque instance est decrite par l'ensemble des mots correspondant aux valeurs de ses variables
// descriptives
// - on a une grille à deux dimension, analogue au cas d'une grille textes x mots
// - on a une grille à deux dimensions, analogue au cas d'une grille textes x mots
// - un attribut de la grille contient des groupes d'instances (textes), par leur identifiant
// - l'autre attribut de la grille contients des groupes de parties de variables (mots)
// - l'autre attribut de la grille contient des groupes de parties de variables (mots)
// - terminologie
// VarPart
// - nouveau type, pour un attribut de DataGrid
Expand Down Expand Up @@ -520,10 +520,11 @@ class KWDGAttribute : public Object
// Attribut continu : nombre total d'instances
// Attribut categoriel : nombre de valeurs distinctes (sans la StarValue)
// Attribut parties de variables : nombre de parties de variables distinctes
// CH IV Refactoring : le nombre de PV distinctes depend du niveau de tokenisation, pour les innerAttributes et pour l'attribut VarPart
void SetInitialValueNumber(int nValue);
int GetInitialValueNumber() const;

// Nomre de valeurs apres granularisation
// Nombre de valeurs apres granularisation
// Attribut continu : nombre theorique de partiles Ng=2^G
// Attribute categoriel : nombre de partiles obtenus suite a la granularisation Vg
void SetGranularizedValueNumber(int nValue);
Expand All @@ -540,7 +541,6 @@ class KWDGAttribute : public Object
// Initialisation des parties de l'attribut de type VarPart a partir des attributs internes initialises en
// creant une partie par partie de variable
void CreateVarPartsSet();
// CH IV End

////////////////////////////////////////////////
// Gestion des parties de l'attribut
Expand Down
Loading

0 comments on commit 2a826bb

Please sign in to comment.