Trend AnalysisLinguistics & NLP
Machine Translation for Low-Resource Languages: Closing the Digital Divide
Machine translation excels for high-resource language pairs but struggles dramatically with the majority of the world's languages. Recent strategies include synthetic pivoting, morphological modeling, and ancient language adaptation.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Modern neural machine translation (NMT) achieves near-human quality for well-resourced language pairs like English-German or English-Chinese, benefitting from billions of parallel sentences and years of engineering optimization. But this success is concentrated in approximately 100 of the world's 7,000+ languages. For the vast majority, including languages spoken by millions of people, translation quality ranges from mediocre to unusable. The fundamental bottleneck is data: NMT systems are hungry for parallel corpora (aligned translations in both languages), and most language pairs simply lack the millions of sentence pairs that high-quality translation requires. Solving this problem is both a technical challenge in NLP and a question of linguistic equity.
Why It Matters
Language barriers are information barriers. When machine translation fails for a language, its speakers are effectively locked out of the global digital information ecosystem. They cannot access medical information, educational resources, government services, or economic opportunities available in dominant languages. The UN Sustainable Development Goals emphasize information access as a driver of development, but without adequate translation technology, billions of people are underserved. For linguistics, the low-resource translation problem is deeply intertwined with language documentation: every advance in translation for under-resourced languages also generates linguistic resources, parallel texts, lexicons, and grammatical analyses, that serve documentation and preservation goals.
The Science
Synthetic Pivoting for Language Pairs with No Direct Data
Ahmed and Buys (2024) address the most extreme case: translation between two low-resource languages that share no direct parallel data. Traditional pivot-based approaches use a high-resource language (typically English) as an intermediary, but this introduces compounding errors and struggles when the languages are typologically distant from the pivot. Their synthetic pivoting method generates synthetic parallel data between the two target languages using the pivot as a bridge, then trains a direct translation model on this synthetic data. The approach significantly outperforms traditional pivoting, particularly for typologically similar language pairs where synthetic data quality is higher. The linguistic insight is that pivot-based methods lose information that is structurally encoded in the source but absent from the pivot language, and direct models, even when trained on imperfect synthetic data, can preserve this information.
Corpus Development and Human Evaluation
Lankford (2024) takes a holistic approach to low-resource NMT, examining the entire pipeline from corpus development through human evaluation to model architecture for English-Irish and English-Marathi translation. A critical contribution is the emphasis on human evaluation alongside automatic metrics. BLEU scores, the standard automatic metric, correlate poorly with human quality judgments for low-resource languages, particularly those with rich morphology or flexible word order. The study introduces explainable AI architectures that allow linguists to inspect what the translation model has learned, revealing systematic patterns in error types. Error patterns differ across language pairs, reflecting distinct typological challenges each language poses for English-centric NMT architectures.
Morphological Complexity as a Barrier
Aci et al. (2025) provide a focused analysis of how morphological complexity affects NMT performance, using English-Turkish as their test case. Turkish is highly agglutinative, encoding information through strings of suffixes that can create words equivalent to entire English sentences. Standard NMT tokenization schemes (BPE, SentencePiece) fragment these complex words in linguistically arbitrary ways, losing morphological structure that carries critical meaning. Their analysis demonstrates that NMT error rates correlate directly with morphological complexity: sentences with more agglutinated forms produce more translation errors. The implication is that morphology-aware architectures, not just larger datasets, are needed for typologically diverse languages.
Ancient Languages as an Extreme Case
Chaoui and Khoury (2025) push the low-resource problem to its logical extreme: machine translation for Coptic, an ancient language with a tiny corpus and no native speakers. Their systematic evaluation of translation strategies, comparing pivot versus direct translation, the impact of pre-training, and robustness to noise, provides a methodological template for any extremely low-resource language. Key findings include that pre-training on related languages (in this case, other Afroasiatic languages) provides measurable benefit, and that multi-version fine-tuning, using different editions and translations of the same texts, effectively multiplies the available training data. For historical linguistics, the ability to translate ancient languages computationally opens new possibilities for large-scale comparative analysis.
Translation Quality by Resource Level
<
| Resource Level | Example Languages | Parallel Data | Typical BLEU | Primary Strategy |
|---|
| High-resource | EN-DE, EN-ZH, EN-FR | >10M sentences | 35-45 | Standard NMT |
| Medium-resource | EN-TR, EN-HI, EN-AR | 1-10M sentences | 25-35 | Transfer learning + data augmentation |
| Low-resource | EN-GA, EN-MR, JV-MAD | 10K-1M sentences | 15-25 | Pivot, back-translation, multilingual |
| Extremely low-resource | Coptic, Irula, Suba | <10K sentences | 5-15 | Synthetic pivoting, related-language transfer |
What To Watch
The rise of massively multilingual LLMs (like NLLB-200 covering 200 languages) is beginning to establish a baseline for many previously untranslatable language pairs, but quality for truly low-resource languages remains well below usability thresholds. The most promising near-term advance is community-driven parallel corpus creation, where bilingual speakers contribute translations through mobile apps and crowdsourcing platforms. Morphology-aware tokenization and subword models designed for agglutinative and polysynthetic languages represent a necessary architectural evolution. Longer-term, the integration of translation with language documentation could create a virtuous cycle: translation tools help document languages, documented languages provide data for better translation tools.
Discover related work using ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ํ์ธํด์ผ ํ๋ค.
์ ์์ ์ธ์ด๋ฅผ ์ํ ๊ธฐ๊ณ ๋ฒ์ญ: ๋์งํธ ๊ฒฉ์ฐจ ํด์
ํ๋ ์ ๊ฒฝ ๊ธฐ๊ณ ๋ฒ์ญ(NMT)์ ์์ด-๋
์ผ์ด ๋๋ ์์ด-์ค๊ตญ์ด์ ๊ฐ์ด ์์์ด ํ๋ถํ ์ธ์ด ์์์ ์์ญ์ต ๊ฐ์ ๋ณ๋ ฌ ๋ฌธ์ฅ๊ณผ ์๋
๊ฐ์ ์์ง๋์ด๋ง ์ต์ ํ๋ฅผ ๋ฐํ์ผ๋ก ์ธ๊ฐ์ ๊ฐ๊น์ด ํ์ง์ ๋ฌ์ฑํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์ฑ๊ณต์ ์ ์ธ๊ณ 7,000๊ฐ ์ด์์ ์ธ์ด ์ค ์ฝ 100๊ฐ์ ์ง์ค๋์ด ์๋ค. ์๋ฐฑ๋ง ๋ช
์ด ์ฌ์ฉํ๋ ์ธ์ด๋ฅผ ํฌํจํ ๋๋ค์์ ์ธ์ด์์ ๋ฒ์ญ ํ์ง์ ํ๋ฒํ ์์ค์์ ์ฌ์ฉ ๋ถ๊ฐ๋ฅํ ์์ค๊น์ง ๋ค์ํ๋ค. ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ ํ์์ ๋ฐ์ดํฐ์ ์๋ค. NMT ์์คํ
์ ๋ณ๋ ฌ ๋ง๋ญ์น(๋ ์ธ์ด์ ์ ๋ ฌ๋ ๋ฒ์ญ)๋ฅผ ํ์๋ก ํ์ง๋ง, ๋๋ถ๋ถ์ ์ธ์ด ์์ ๊ณ ํ์ง ๋ฒ์ญ์ ํ์ํ ์๋ฐฑ๋ง ๊ฐ์ ๋ฌธ์ฅ ์์ ๋จ์ํ ๊ฐ์ถ์ง ๋ชปํ๊ณ ์๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ NLP์ ๊ธฐ์ ์ ๊ณผ์ ์ธ ๋์์ ์ธ์ด์ ํํ์ฑ์ ๋ฌธ์ ์ด๊ธฐ๋ ํ๋ค.
์ค์์ฑ
์ธ์ด ์ฅ๋ฒฝ์ ๊ณง ์ ๋ณด ์ฅ๋ฒฝ์ด๋ค. ํน์ ์ธ์ด์ ๋ํ ๊ธฐ๊ณ ๋ฒ์ญ์ด ์คํจํ๋ฉด, ํด๋น ์ธ์ด ์ฌ์ฉ์๋ค์ ์ฌ์ค์ ๊ธ๋ก๋ฒ ๋์งํธ ์ ๋ณด ์ํ๊ณ์์ ๋ฐฐ์ ๋๋ค. ์ด๋ค์ ์ง๋ฐฐ์ ์ธ์ด๋ก ์ ๊ณต๋๋ ์๋ฃ ์ ๋ณด, ๊ต์ก ์๋ฃ, ์ ๋ถ ์๋น์ค ๋๋ ๊ฒฝ์ ์ ๊ธฐํ์ ์ ๊ทผํ ์ ์๋ค. UN ์ง์๊ฐ๋ฅ๋ฐ์ ๋ชฉํ(SDG)๋ ์ ๋ณด ์ ๊ทผ์ฑ์ ๊ฐ๋ฐ์ ๋๋ ฅ์ผ๋ก ๊ฐ์กฐํ์ง๋ง, ์ ์ ํ ๋ฒ์ญ ๊ธฐ์ ์์ด๋ ์์ญ์ต ๋ช
์ ์ฌ๋๋ค์ด ์ ๋๋ก ๋ ์๋น์ค๋ฅผ ๋ฐ์ง ๋ชปํ๋ค. ์ธ์ดํ์ ๊ด์ ์์ ์ ์์ ๋ฒ์ญ ๋ฌธ์ ๋ ์ธ์ด ๊ธฐ๋ก๊ณผ ๊น์ด ์ฐ๊ฒฐ๋์ด ์๋ค. ์ ์์ ์ธ์ด ๋ฒ์ญ์ ๋ชจ๋ ๋ฐ์ ์ ์ธ์ด ์๋ฃ, ๋ณ๋ ฌ ํ
์คํธ, ์ดํ ๋ชฉ๋ก, ๋ฌธ๋ฒ ๋ถ์ ๋ฑ ์ธ์ด ๊ธฐ๋ก ๋ฐ ๋ณด์กด ๋ชฉ์ ์ ๊ธฐ์ฌํ๋ ์ธ์ด ์์์ ์์ฑํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ฐ๊ตฌ ๋ด์ฉ
์ง์ ๋ฐ์ดํฐ๊ฐ ์๋ ์ธ์ด ์์ ์ํ ํฉ์ฑ ํผ๋ฒ
Ahmed์ Buys(2024)๋ ๊ฐ์ฅ ๊ทน๋จ์ ์ธ ๊ฒฝ์ฐ, ์ฆ ์ง์ ์ ์ธ ๋ณ๋ ฌ ๋ฐ์ดํฐ๊ฐ ์ ํ ์๋ ๋ ์ ์์ ์ธ์ด ๊ฐ์ ๋ฒ์ญ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ์ ํต์ ์ธ ํผ๋ฒ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๊ณ ์์ ์ธ์ด(์ผ๋ฐ์ ์ผ๋ก ์์ด)๋ฅผ ์ค๊ฐ ๋งค๊ฐ์ด๋ก ์ฌ์ฉํ์ง๋ง, ์ด๋ ๋ณตํฉ์ ์ธ ์ค๋ฅ๋ฅผ ์ผ๊ธฐํ๋ฉฐ ๋ ์ธ์ด๊ฐ ํผ๋ฒ ์ธ์ด์ ์ ํ๋ก ์ ์ผ๋ก ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ ๊ฒฝ์ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ์ด๋ค์ ํฉ์ฑ ํผ๋ฒ ๋ฐฉ๋ฒ์ ํผ๋ฒ์ ๋ค๋ฆฌ๋ก ํ์ฉํ์ฌ ๋ ๋ชฉํ ์ธ์ด ๊ฐ์ ํฉ์ฑ ๋ณ๋ ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ๋ค, ์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ก ์ง์ ๋ฒ์ญ ๋ชจ๋ธ์ ํ๋ จํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ํนํ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ง์ด ๋ ๋์ ์ ํ๋ก ์ ์ผ๋ก ์ ์ฌํ ์ธ์ด ์์์ ์ ํต์ ์ธ ํผ๋ฒ ๋ฐฉ์์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ค. ์ธ์ดํ์ ๊ด์ ์์์ ํต์ฌ์, ํผ๋ฒ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ์์ด์๋ ๊ตฌ์กฐ์ ์ผ๋ก ์ธ์ฝ๋ฉ๋์ด ์์ง๋ง ํผ๋ฒ ์ธ์ด์๋ ์กด์ฌํ์ง ์๋ ์ ๋ณด๋ฅผ ์์คํ๋ ๋ฐ๋ฉด, ๋ถ์์ ํ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ๊ฒฝ์ฐ์๋ ์ง์ ๋ชจ๋ธ์ ์ด๋ฌํ ์ ๋ณด๋ฅผ ๋ณด์กดํ ์ ์๋ค๋ ์ ์ด๋ค.
๋ง๋ญ์น ๊ฐ๋ฐ ๋ฐ ์ธ๊ฐ ํ๊ฐ
Lankford(2024)๋ ์์ด-์์ผ๋๋์ด ๋ฐ ์์ด-๋ง๋ผํฐ์ด ๋ฒ์ญ์ ๋์์ผ๋ก ๋ง๋ญ์น ๊ฐ๋ฐ๋ถํฐ ์ธ๊ฐ ํ๊ฐ, ๋ชจ๋ธ ์ํคํ
์ฒ์ ์ด๋ฅด๋ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ๊ฒํ ํ๋ฉฐ ์ ์์ NMT์ ๋ํ ์ด์ฒด์ ์ ๊ทผ๋ฒ์ ์ทจํ๋ค. ํต์ฌ์ ์ธ ๊ธฐ์ฌ๋ ์๋ ํ๊ฐ ์งํ์ ํจ๊ป ์ธ๊ฐ ํ๊ฐ๋ฅผ ๊ฐ์กฐํ๋ค๋ ์ ์ด๋ค. ํ์ค ์๋ ํ๊ฐ ์งํ์ธ BLEU ์ ์๋ ํนํ ํ๋ถํ ํํ๋ก ์ด๋ ์ ์ฐํ ์ด์์ ๊ฐ์ง ์ ์์ ์ธ์ด์์ ์ธ๊ฐ์ ํ์ง ํ๋จ๊ณผ ๋ฎ์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค. ์ด ์ฐ๊ตฌ๋ ์ธ์ดํ์๋ค์ด ๋ฒ์ญ ๋ชจ๋ธ์ด ํ์ตํ ๋ด์ฉ์ ๊ฒ์ฌํ ์ ์๊ฒ ํ๋ ์ค๋ช
๊ฐ๋ฅํ AI ์ํคํ
์ฒ๋ฅผ ๋์
ํ์ฌ, ์ค๋ฅ ์ ํ์ ์ฒด๊ณ์ ์ธ ํจํด์ ๋ฐํ๋ธ๋ค. ์ค๋ฅ ํจํด์ ์ธ์ด ์๋ง๋ค ๋ค๋ฅด๊ฒ ๋ํ๋๋ฉฐ, ์ด๋ ๊ฐ ์ธ์ด๊ฐ ์์ด ์ค์ฌ์ NMT ์ํคํ
์ฒ์ ์ ๊ธฐํ๋ ๊ณ ์ ํ ์ ํ๋ก ์ ๊ณผ์ ๋ฅผ ๋ฐ์ํ๋ค.
ํํ๋ก ์ ๋ณต์ก์ฑ์ด๋ผ๋ ์ฅ๋ฒฝ
๊ทน๋จ์ ์ฌ๋ก๋ก์์ ๊ณ ๋ ์ธ์ด
Chaoui์ Khoury(2025)๋ ์ ์์ ๋ฌธ์ ๋ฅผ ๊ทธ ๋
ผ๋ฆฌ์ ๊ทน๋จ๊น์ง ๋ฐ์ด๋ถ์ธ๋ค. ๋ฐ๋ก ๊ทน์๋์ ๋ง๋ญ์น์ ์์ด๋ฏผ ํ์๊ฐ ์กด์ฌํ์ง ์๋ ๊ณ ๋ ์ธ์ด์ธ ์ฝฅํธ์ด(Coptic)์ ๋ํ ๊ธฐ๊ณ ๋ฒ์ญ์ด๋ค. ์ด๋ค์ ํผ๋ฒ(pivot) ๋ฒ์ญ๊ณผ ์ง์ ๋ฒ์ญ์ ๋น๊ต, ์ฌ์ ํ์ต(pre-training)์ ํจ๊ณผ, ๋
ธ์ด์ฆ์ ๋ํ ๊ฐ๊ฑด์ฑ ๋ฑ ๋ค์ํ ๋ฒ์ญ ์ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํจ์ผ๋ก์จ, ๊ทน๋จ์ ์ ์์ ์ธ์ด ์ ๋ฐ์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ๋ก ์ ํ์ ์ ์ํ๋ค. ์ฃผ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ก๋, ๊ด๋ จ ์ธ์ด(์ด ๊ฒฝ์ฐ ๋ค๋ฅธ ์ํ๋ก์์์์ด์กฑ ์ธ์ด๋ค)๋ฅผ ํ์ฉํ ์ฌ์ ํ์ต์ด ์ธก์ ๊ฐ๋ฅํ ์์ค์ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ ๋์ผ ํ
์คํธ์ ๋ค์ํ ํ๋ณธ๊ณผ ๋ฒ์ญ๋ณธ์ ํ์ฉํ๋ ๋ค์ค ๋ฒ์ ๋ฏธ์ธ ์กฐ์ (multi-version fine-tuning)์ด ๊ฐ์ฉ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฆ๊ฐ์ํจ๋ค๋ ์ ์ด ํฌํจ๋๋ค. ์ญ์ฌ ์ธ์ดํ์ ๊ด์ ์์, ๊ณ ๋ ์ธ์ด๋ฅผ ์ ์ฐ์ ์ผ๋ก ๋ฒ์ญํ ์ ์๋ ๋ฅ๋ ฅ์ ๋๊ท๋ชจ ๋น๊ต ๋ถ์์ ์ํ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค๋ค.
Aci ์ธ(2025)๋ ์์ด-ํฐํค์ด๋ฅผ ์คํ ๋์์ผ๋ก ์ผ์ ํํ๋ก ์ ๋ณต์ก์ฑ์ด NMT ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ง์ค์ ์ผ๋ก ๋ถ์ํ๋ค. ํฐํค์ด๋ ๊ณ ๋๋ก ๊ต์ฐฉ์ ์ธ ์ธ์ด๋ก, ์ผ๋ จ์ ์ ๋ฏธ์ฌ๋ฅผ ํตํด ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ฉฐ, ์ด๋ฅผ ํตํด ํ์ฑ๋ ๋จ์ด ํ๋๊ฐ ์์ด์ ๋ฌธ์ฅ ์ ์ฒด์ ํด๋นํ๋ ์๋ฏธ๋ฅผ ๋ด์ ์ ์๋ค. ํ์ค NMT ํ ํฌ๋์ด์ ์ด์
(tokenization) ๋ฐฉ์์ธ BPE๋ SentencePiece๋ ์ด๋ฌํ ๋ณต์กํ ๋จ์ด๋ฅผ ์ธ์ดํ์ ์ผ๋ก ์์์ ์ธ ๋ฐฉ์์ผ๋ก ๋ถ์ ํ์ฌ, ํต์ฌ ์๋ฏธ๋ฅผ ๋ด๊ณ ์๋ ํํ๋ก ์ ๊ตฌ์กฐ๋ฅผ ์์ค์ํจ๋ค. ์ด๋ค์ ๋ถ์์ NMT ์ค๋ฅ์จ์ด ํํ๋ก ์ ๋ณต์ก์ฑ๊ณผ ์ง์ ์ ์ธ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์์ ์ฆ๋ช
ํ๋ค. ์ฆ, ๊ต์ฐฉ ํํ๊ฐ ๋ ๋ง์ด ํฌํจ๋ ๋ฌธ์ฅ์ผ์๋ก ๋ ๋ง์ ๋ฒ์ญ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค. ์ด๋ ์ ํ๋ก ์ ์ผ๋ก ๋ค์ํ ์ธ์ด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด์๋ ๋จ์ํ ๋ ๋ง์ ๋ฐ์ดํฐ์
์ด ์๋๋ผ, ํํ๋ก ์ ์ธ์ํ๋ ์ํคํ
์ฒ(morphology-aware architecture)๊ฐ ํ์ํจ์ ์์ฌํ๋ค.
์์ ์์ค๋ณ ๋ฒ์ญ ํ์ง
<
| ์์ ์์ค | ์ธ์ด ์์ | ๋ณ๋ ฌ ๋ฐ์ดํฐ | ์ผ๋ฐ์ BLEU | ์ฃผ์ ์ ๋ต |
|---|
| ๊ณ ์์ | EN-DE, EN-ZH, EN-FR | >1,000๋ง ๋ฌธ์ฅ | 35-45 | ํ์ค NMT |
| ์ค์์ | EN-TR, EN-HI, EN-AR | 100๋ง-1,000๋ง ๋ฌธ์ฅ | 25-35 | ์ ์ด ํ์ต + ๋ฐ์ดํฐ ์ฆ๊ฐ |
| ์ ์์ | EN-GA, EN-MR, JV-MAD | 1๋ง-100๋ง ๋ฌธ์ฅ | 15-25 | ํผ๋ฒ, ์ญ๋ฒ์ญ, ๋ค๊ตญ์ด |
| ๊ทน๋จ์ ์ ์์ | Coptic, Irula, Suba | <1๋ง ๋ฌธ์ฅ | 5-15 | ํฉ์ฑ ํผ๋ฒ, ๊ด๋ จ ์ธ์ด ์ ์ด |
์ฃผ๋ชฉํ ๋ํฅ
200๊ฐ ์ธ์ด๋ฅผ ์ง์ํ๋ NLLB-200๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ค๊ตญ์ด LLM์ ๋ถ์์ ๊ธฐ์กด์ ๋ฒ์ญ์ด ๋ถ๊ฐ๋ฅํ๋ ๋ง์ ์ธ์ด ์์ ๋ํ ๊ธฐ์ค์ ์ ํ๋ฆฝํ๊ธฐ ์์ํ๊ณ ์์ผ๋, ์ง์ ํ ์ ์์ ์ธ์ด์ ๋ํ ํ์ง์ ์ค์ฉ์ ์์ค์ ์ฌ์ ํ ํฌ๊ฒ ๋ชป ๋ฏธ์น๋ค. ๊ฐ์ฅ ์ ๋งํ ๋จ๊ธฐ์ ์ง์ ์ ์ปค๋ฎค๋ํฐ ์ฃผ๋์ ๋ณ๋ ฌ ๋ง๋ญ์น ๊ตฌ์ถ์ผ๋ก, ์ด์ค ์ธ์ด ์ฌ์ฉ์๋ค์ด ๋ชจ๋ฐ์ผ ์ฑ๊ณผ ํฌ๋ผ์ฐ๋์์ฑ ํ๋ซํผ์ ํตํด ๋ฒ์ญ์ ๊ธฐ์ฌํ๋ ๋ฐฉ์์ด๋ค. ๊ต์ฐฉ์ด ๋ฐ ๋ค์ข
ํฉ์ด(polysynthetic language)๋ฅผ ์ํด ์ค๊ณ๋ ํํ๋ก ์ธ์ ํ ํฌ๋์ด์ ์ด์
๊ณผ ์๋ธ์๋(subword) ๋ชจ๋ธ์ ํ์์ ์ธ ์ํคํ
์ฒ์ ๋ฐ์ ์ ๋ํ๋ธ๋ค. ์ฅ๊ธฐ์ ์ผ๋ก๋, ๋ฒ์ญ๊ณผ ์ธ์ด ๊ธฐ๋ก(language documentation)์ ํตํฉ์ด ์ ์ํ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋ค. ๋ฒ์ญ ๋๊ตฌ๊ฐ ์ธ์ด ๊ธฐ๋ก์ ๋๊ณ , ๊ธฐ๋ก๋ ์ธ์ด๋ ๋ ๋์ ๋ฒ์ญ ๋๊ตฌ๋ฅผ ์ํ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (4)
[1] Ahmed, K. & Buys, J. (2024). Neural Machine Translation between Low-Resource Languages with Synthetic Pivoting.
[2] Lankford, S. (2024). Enhancing Neural Machine Translation of Low-Resource Languages: Corpus Development, Human Evaluation and Explainable AI Architectures.
[3] Aci, M., Sari, N., & Aci, C. (2025). Morphological and structural complexity analysis of low-resource English-Turkish language pair using neural machine translation models. PeerJ Computer Science, 11.
[4] Chaoui, N. & Khoury, R. (2025). Neural Machine Translation for Coptic-French: Strategies for Low-Resource Ancient Languages.