Drafts for introductory paragraphs are often less accurate due to their extended length (> 200 tokens) #626
Labels
enhancement
New feature or request
pipeline 6: infer
Issue related to using a trained model to translate.
Introductory paragraphs (\ip) often are longer texts, consisting of multiple sentences and extending beyond the 200 token limit for pre-trained and fine-tuned NLLB models. As a result, draft translations of these introductory paragraphs can have lower quality and require more revision on the part of the translation team.
For example, this introductory paragraph contains 4 sentences:
\ip कप्मो मर्कुसे़ल्ले़ ये़सुरे़ हुॽरुसिबा खाहुन्हाॽ नु निसाम्हाॽनुःल्ले़आङ् खुने़ॽ चोगुबा याःम्बक्किन् साॽरिक् निङ्वाॽ पिरुआङ् साप्तुआङ् पत्॥ बप्तिस्मा के़बिबा युहुन्नाःल्ले़ कुयाःम्बेओ हे़क्क्याङ् ये़सुन् बप्तिस्मा पोःक्खे़आङ् माफे़न्साम्मिल्ले़ कुनिङ्वाॽ साॽरुबा पाःन्हाॽरे़न् ताङ्सा निसुम् पिरुनुमे़ःन्ने मर्कुसे़ल्ले़ ये़सुरे़ मनाहाॽ वेःन्दुसिबा नु निसाम् हुॽरुसिबा याःम्बक्किल्ले़ कुयाःम्बेओ चे़क्खुरो॥ ये़म्हाॽ ले़क्ल पेःक्किल्ले़ ये़सुरे़ कुहुॽसाम्बाहाॽरे़ खुने़ॽ साॽरिक् नुरिक् कुसिङ् निःप्मा मे़हेःक्तु, कर खुने़ॽ के़अप्पाहाॽरे़ आल्लसाङ् साॽरिक् चिःप्मा मे़हेःक्तुरो॥ कन् साप्पन्निल्ले़ कुनुप्मो ये़सुरे़ कुहिङ्मन्निल्ले़ एगाङ्बा ये़त्नाम्मो पोःक्खे़बा पाःन्हाॽ नु खुने़ॽ सिलाम्साक्मा सिङ्सम्दाङ् मे़भोन्दु मे़से़रुबा, हे़क्क्याङ् स्ये़आङ् याम्मो हिङे़बा पाःन्हाॽरे़ कुयाःम्बेओ साप्ते़आङ् पत्लो॥
while the draft translation of this paragraph gets truncated in the midst of the 2nd sentence:
\ip कुम्बु मार्कुसङा येसुङा हुरुसिबा खाहुन्हाॽ नु निसाम्हाॽहाङ्साङ् खनेॽ चुगुबा याम्बक्इङ् चालिक् निवा पिउहाङ् साप्पुहाङ् वाॽ॥ बप्तिस्मा काबिबा युहन्नाङाइङ् कुयाम्बाओ हाक्ख्याङ् येसुइङ् बप्तिस्मा पुक्साहाङ् फे़न्साम्ङाइङ् कुनिवा साक्कुबा पाःन्हाॽङाइङ् कुनिवा साक्कुबा याम्बक्हाङाइङ् कुनुॽमा मुहिङ्हाङ् साक्केन्ङा खुन्छिङ्ङा मुहिङ्हाङ् साक्
The text was updated successfully, but these errors were encountered: