Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Drafts for introductory paragraphs are often less accurate due to their extended length (> 200 tokens) #626

Open
mmartin9684-sil opened this issue Jan 13, 2025 · 3 comments
Assignees
Labels
enhancement New feature or request pipeline 6: infer Issue related to using a trained model to translate.

Comments

@mmartin9684-sil
Copy link
Collaborator

Introductory paragraphs (\ip) often are longer texts, consisting of multiple sentences and extending beyond the 200 token limit for pre-trained and fine-tuned NLLB models. As a result, draft translations of these introductory paragraphs can have lower quality and require more revision on the part of the translation team.

For example, this introductory paragraph contains 4 sentences:
\ip कप्‍मो मर्कुसे़ल्‍ले़ ये़सुरे़ हुॽरुसिबा खाहुन्‍हाॽ नु निसाम्‍हाॽनुःल्‍ले़आङ् खुने़ॽ चोगुबा याःम्‍बक्‍किन् साॽरिक् निङ्‌वाॽ पिरुआङ् साप्‍तुआङ् पत्॥ बप्‍तिस्‍मा के़बिबा युहुन्‍नाःल्‍ले़ कुयाःम्‍बेओ हे़क्‍क्‍याङ् ये़सुन् बप्‍तिस्‍मा पोःक्‍खे़आङ् माफे़न्‍साम्‍मिल्‍ले़ कुनिङ्‌वाॽ साॽरुबा पाःन्‍हाॽरे़न् ताङ्‌सा निसुम् पिरुनुमे़ःन्‍ने मर्कुसे़ल्‍ले़ ये़सुरे़ मनाहाॽ वेःन्‍दुसिबा नु निसाम् हुॽरुसिबा याःम्‍बक्‍किल्‍ले़ कुयाःम्‍बेओ चे़क्‍खुरो॥ ये़म्‍हाॽ ले़क्‍ल पेःक्‍किल्‍ले़ ये़सुरे़ कुहुॽसाम्‍बाहाॽरे़ खुने़ॽ साॽरिक् नुरिक् कुसिङ् निःप्‍मा मे़हेःक्‍तु, कर खुने़ॽ के़अप्‍पाहाॽरे़ आल्‍लसाङ् साॽरिक् चिःप्‍मा मे़हेःक्‍तुरो॥ कन् साप्‍पन्‍निल्‍ले़ कुनुप्‍मो ये़सुरे़ कुहिङ्‌मन्‍निल्‍ले़ एगाङ्‌बा ये़त्‍नाम्‍मो पोःक्‍खे़बा पाःन्‍हाॽ नु खुने़ॽ सिलाम्‍साक्‍मा सिङ्‌सम्‍दाङ् मे़भोन्‍दु मे़से़रुबा, हे़क्‍क्‍याङ् स्‍ये़आङ् याम्‍मो हिङे़बा पाःन्‍हाॽरे़ कुयाःम्‍बेओ साप्‍ते़आङ् पत्‍लो॥

while the draft translation of this paragraph gets truncated in the midst of the 2nd sentence:

\ip कुम्‍बु मार्कुसङा येसुङा हुरुसिबा खाहुन्‍हाॽ नु निसाम्‍हाॽहाङ्साङ् खनेॽ चुगुबा याम्‍बक्‍इङ् चालिक् निवा पिउहाङ् साप्‍पुहाङ् वाॽ॥ बप्‍तिस्‍मा काबिबा युहन्‍नाङाइङ् कुयाम्‍बाओ हाक्‍ख्‍याङ् येसुइङ् बप्‍तिस्‍मा पुक्‍साहाङ् फे़न्‍साम्‍ङाइङ् कुनिवा साक्‍कुबा पाःन्‍हाॽङाइङ् कुनिवा साक्‍कुबा याम्‍बक्‍हाङाइङ् कुनुॽमा मुहिङ्‌हाङ् साक्‍केन्‍ङा खुन्छिङ्‌ङा मुहिङ्‌हाङ् साक्‍

@mmartin9684-sil mmartin9684-sil added enhancement New feature or request pipeline 6: infer Issue related to using a trained model to translate. labels Jan 13, 2025
@mmartin9684-sil
Copy link
Collaborator Author

A simple workaround of splitting an introductory paragraph into multiple sentences produces much better draft translations by avoiding the token length limit. For instance, splitting the intro paragraph shown above into multiple intro paragraphs, each with a single sentence, gives much better drafts.

Updated source translation:

\ip कप्‍मो मर्कुसे़ल्‍ले़ ये़सुरे़ हुॽरुसिबा खाहुन्‍हाॽ नु निसाम्‍हाॽनुःल्‍ले़आङ् खुने़ॽ चोगुबा याःम्‍बक्‍किन् साॽरिक् निङ्‌वाॽ पिरुआङ् साप्‍तुआङ् पत्॥
\ip बप्‍तिस्‍मा के़बिबा युहुन्‍नाःल्‍ले़ कुयाःम्‍बेओ हे़क्‍क्‍याङ् ये़सुन् बप्‍तिस्‍मा पोःक्‍खे़आङ् माफे़न्‍साम्‍मिल्‍ले़ कुनिङ्‌वाॽ साॽरुबा पाःन्‍हाॽरे़न् ताङ्‌सा निसुम् पिरुनुमे़ःन्‍ने मर्कुसे़ल्‍ले़ ये़सुरे़ मनाहाॽ वेःन्‍दुसिबा नु निसाम् हुॽरुसिबा याःम्‍बक्‍किल्‍ले़ कुयाःम्‍बेओ चे़क्‍खुरो॥
\ip ये़म्‍हाॽ ले़क्‍ल पेःक्‍किल्‍ले़ ये़सुरे़ कुहुॽसाम्‍बाहाॽरे़ खुने़ॽ साॽरिक् नुरिक् कुसिङ् निःप्‍मा मे़हेःक्‍तु, कर खुने़ॽ के़अप्‍पाहाॽरे़ आल्‍लसाङ् साॽरिक् चिःप्‍मा मे़हेःक्‍तुरो॥
\ip कन् साप्‍पन्‍निल्‍ले़ कुनुप्‍मो ये़सुरे़ कुहिङ्‌मन्‍निल्‍ले़ एगाङ्‌बा ये़त्‍नाम्‍मो पोःक्‍खे़बा पाःन्‍हाॽ नु खुने़ॽ सिलाम्‍साक्‍मा सिङ्‌सम्‍दाङ् मे़भोन्‍दु मे़से़रुबा, हे़क्‍क्‍याङ् स्‍ये़आङ् याम्‍मो हिङे़बा पाःन्‍हाॽरे़ कुयाःम्‍बेओ साप्‍ते़आङ् पत्‍लो॥

Updated draft translation:

\ip कुम्‍बु मरकुसङा येसुङा हुॽरुसिबा खाहुन्‍हाॽ नु निसाम्‍हाॽहाङ्साङ् खनेॽ चुगुबा याःम्‍बक्‍इङ् चालिक् निवा पिउहाङ् साप्‍पुहाङ् वाॽ॥
\ip बप्‍तिस्‍मा काबिबा युहन्‍नान्‍नाङाइङ् कुयाम्‍बाओ हाक्‍ख्‍याङ् येसुइङ् बप्‍तिस्‍मा पुक्‍साहाङ् माफे़न्‍साम्‍ङाइङ् कुनिवा साॽरुबा पाःन्‍हाङाइङ् ताङ्‌सा निहुम् पिउनुमानु मरकुसङा येसुङा नाॽमिहाॽ नुहुसिबा नु निसाम् हुरुसिबा याःम्‍बक्‍ङाइङ् कुयाम्‍बाओ चेक्‍सुरो॥
\ip येम्‍हाॽ ले़क्‍ल तिगाए येसुङाइङ् कुहुॽसाम्‍बाहाॽङा खनेॽ चालिक् नुरिक् कुसिङ् निःप्‍मा मुहिकु, कर खनेॽ काअप्‍पाहाङा आल्‍लसाङ् चालिक् चिःप्‍मा मुहिकुरो॥
\ip कुम्‍बा साप्‍पन्‍ङाइङ् कुलुक्‍माओ येसुङाइङ् कुहिङ्‌माङा इगाङ्‌बा ये़त्‍नाम्‍ओ पुक्‍साबा पाःन्‍हाॽ नु खनेॽ कुसिलाम्‍साक्‍मा सिङ्‌ओ मुभोन्‍दु मुसे़रुबा, हाक्‍ख्‍याङ् सियाहाङ् याङ्सि हिङाबा पाःन्‍हाॽङाइङ् कुयाम्‍बाओ साप्नाबा वारो॥

@mmartin9684-sil
Copy link
Collaborator Author

In addition to the "\ip" introductory paragraph marker, other markers that would also benefit from this enhancement include:

  • \ipi
  • \im
  • \imi
  • \ipr
  • \ili#

@ddaspit ddaspit moved this from 🆕 New to 📋 Backlog in SIL-NLP Research Jan 14, 2025
@ddaspit
Copy link
Collaborator

ddaspit commented Jan 14, 2025

There is an existing issue (#258) for sentence tokenization that is relevant.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request pipeline 6: infer Issue related to using a trained model to translate.
Projects
Status: 📋 Backlog
Development

No branches or pull requests

2 participants