mindee · sarjil77 · Dec 3, 2024 · Dec 6, 2024 · Dec 6, 2024 · Dec 4, 2024
diff --git a/doctr/datasets/vocabs.py b/doctr/datasets/vocabs.py
@@ -22,6 +22,13 @@
     "hindi_letters": "अआइईउऊऋॠऌॡएऐओऔअंअःकखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह",
     "hindi_digits": "०१२३४५६७८९",
     "hindi_punctuation": "।,?!:्ॐ॰॥॰",
+    "gujarati_vowels": "અઆઇઈઉઊઋએઐઓઔઅંઅઃ ",
+    "gujarati_digits":"૦૧૨૩૪૫૬૭૮૯",
+    "gujarati_diacritics_consonants":"""કકાકિકીકુકૂકૃકેકૈકોકૌકંકઃખખાખિખીખુખૂખૃખેખૈખોખૌખંખઃગગાગિગીગુગૂગૃગેગૈગોગૌગંગઃઘઘાઘિઘીઘુઘૂઘૃઘેઘૈઘોઘૌઘંઘઃઙઙાઙિઙીઙુઙૂઙૃઙેઙૈઙોઙૌઙંઙઃચચાચિચીચુચૂચૃચેચૈચોચૌચંચઃછછાછિછીછુછૂછૃછેછૈછોછૌછંછઃ
+    જજાજિજીજુજુજૃજેજૈજોજૌજંજઃઝઝાઝિઝીઝુઝૂઝૃઝેઝૈઝોઝૌઝંઝઃઞઞાઞિઞીઞુઞૂઞૃઞેઞૈઞોઞૌઞંઞઃટટાટિટીટુટૂટૃટેટૈટોટૌટંટઃઠઠાઠિઠીઠુઠૂઠૃઠેઠૈઠોઠૌઠંઠઃડડાડિડીડુડૂડૃડેડૈડોડૌડંડઃઢઢાઢિઢીઢુઢૂઢૃઢેઢૈઢોઢૌઢંઢઃણણાણિણીણુણૂણૃણેણૈણોણૌણંણઃતતાતિતીતુતૂતૃતેતૈતોતૌતંતઃથથાથિથીથુથૂથૃથીથૈથોથૌથંથઃ
+    દદાદિદીદુદૂદૃદેદૈદોદૌદંદઃધધાધિધીધુધૂધૃધેધૈધોધૌધંધઃનનાનિનીનુનૂનૃનેનૈનોનૌનંનઃપપાપિપીપુપૂપૃપેપૈપોપૌપંપઃફફાફિફીફુફૂફૃફેફૈફોફૌફંફઃબબાબિબીબુબૂબૃબેબૈબોબૌબંબઃભભાભિભીભુભૂભૃભેભૈભોભૌભંભઃમમામિમીમુમૂમૃમેમામોમાયમંમઃયયાયિયીયુયુયૃયેયૈયોયૌયંયઃરરારિરીરૂરૃરેરૈરોરૌરંરઃ
+    લલાલિલીલુલૂલૃલેલૈલોલૌલંલઃવવાવિવીવિવૂવૃવેવૈવોવૈવંવઃશશાશિશીશુશૂશૃશેશૈશોશૌશંશઃષષાષિષીષુષૂષૃષેષૈષોષૌષંષઃજ્ઞજ્ઞાજ્ઞિજ્ઞીજ્ઞુજ્ઞૂજ્ઞૃજ્ઞેજ્ઞૈજ્ઞોજ્ઞૌજ્ઞંજ્ઞઃ""",
+    "gujarati_punctuation": "૰◌્◌઼ઽ◌ઁ◌ંઃ॥ૐ" + "૱",
     "bangla_letters": "অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষসহ়ঽািীুূৃেৈোৌ্ৎংঃঁ",
     "bangla_digits": "০১২৩৪৫৬৭৮৯",
     "generic_cyrillic_letters": "абвгдежзийклмнопрстуфхцчшщьюяАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЮЯ",
@@ -58,6 +65,13 @@
 )
 VOCABS["hebrew"] = VOCABS["english"] + "אבגדהוזחטיכלמנסעפצקרשת" + "₪"
 VOCABS["hindi"] = VOCABS["hindi_letters"] + VOCABS["hindi_digits"] + VOCABS["hindi_punctuation"]
+VOCABS['gujarati'] = (
+    VOCABS['gujarati_diacritics_consonants']
+    + VOCABS['gujarati_vowels']
+    + VOCABS['gujarati_digits']
+    + VOCABS['gujarati_punctuation']
+    + VOCABS['punctuation']
+)
 VOCABS["bangla"] = VOCABS["bangla_letters"] + VOCABS["bangla_digits"]
 VOCABS["ukrainian"] = (
     VOCABS["generic_cyrillic_letters"] + VOCABS["digits"] + VOCABS["punctuation"] + VOCABS["currency"] + "ґіїєҐІЇЄ₴"