This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Of the approximately 7,000 languages spoken today, UNESCO estimates that roughly 40% are endangeredโspoken by shrinking communities, often without written traditions, and at risk of disappearing within a generation or two. Each language that vanishes takes with it a unique cognitive system, a body of oral literature, and an irreplaceable record of human experience. The question of whether AI and NLP tools can meaningfully contribute to documentation and revitalization efforts is both technically interesting and culturally urgent.
The honest answer, as the recent literature makes clear, is: partially, and less than the hype suggests. NLP tools can accelerate certain documentation tasks, but they face fundamental challenges with low-resource languages, and the gap between what is technically possible and what actually gets deployed in fieldwork settings remains wide.
The Theory-Practice Gap
Gessler and von der Wense (2024), with 4 citations, provide the most direct analysis of why NLP tools have not been widely adopted in language documentation, despite decades of expressed interest from both NLP researchers and field linguists. They identify two core reasons:
Reason 1: The data bootstrapping problem. NLP tools generally require annotated data to function. But for endangered languages, annotated data is precisely what documentation aims to create. This creates a circularity: you need NLP tools to create the data, and you need the data to train the NLP tools. Transfer learning from related high-resource languages can partially address this, but "related" is a strong requirementโmany endangered languages belong to families with no well-resourced relatives.
Reason 2: The workflow integration problem. Even when NLP tools exist for a given task (automatic transcription, morphological analysis, interlinear glossing), integrating them into existing documentation workflows is non-trivial. Field linguists typically work with tools like ELAN, FLEx, or SayMore. NLP tools that require command-line interfaces, Python environments, or cloud APIs do not fit naturally into these workflows. The result is that tools get published in NLP conferences and then are not used.
The observation is sobering but constructive: the bottleneck is not primarily algorithmic (better models) but sociotechnical (better integration with existing practices and genuine collaboration between NLP researchers and field linguists).
Case Studies: What Is Being Attempted
Nรผshu: Rescuing a Script from Extinction
Yang, Ma, and Gessler & von der Wense (2024), with 6 citations, present NushuRescue, an AI-assisted project for the Nรผshu scriptโa writing system historically used exclusively by women in Jiangyong County, Hunan Province, China. Nรผshu is unusual in multiple ways: it is the only known script used exclusively by one gender, its last fluent native writer died in 2004, and existing documentation is fragmentary.
The NushuRescue approach uses LLMs to address a core preservation challenge: translation between Nรผshu and Chinese with minimal training data. The framework includes:
- Parallel corpus creation: NCGold, a 500-sentence Nรผshu-Chinese parallel corpusโthe first publicly available dataset of its kind.
- Few-shot LLM translation: Using GPT-4-Turbo with only 35 short examples to achieve 48.69% translation accuracy on withheld test sentences.
- Corpus expansion: Generating NCSilver, a set of 98 newly translated modern Chinese sentences, expanding the available linguistic resources.
- Supporting models: FastText-based and Seq2Seq models developed to further support computational research on Nรผshu.
The results demonstrate that LLMs can make meaningful progress on endangered language translation with remarkably little dataโbut 48.69% accuracy also shows how far the technology remains from reliable translation. The framework is designed to be scalable and minimize the need for extensive human input, though human validation remains essential for quality assurance.
Comanche: Minimal-Cost Language Technologies
Alvarez, Karajeanes, and Yang et al. (2024), with 1 citation, introduce computational tools for Comanche, an Uto-Aztecan language spoken by fewer than 50 fluent speakers (some estimates as few as 10). Their approach is notable for its pragmatism: rather than attempting to build full NLP systems, they focus on "minimal-cost" interventionsโtools that require minimal data and computation while providing immediate utility.
Their specific contributions include a Comanche tokenizer, a basic morphological analyzer, and a Comanche-English glossary extraction tool. These are not sophisticated by NLP standards, but they address real needs in the documentation process: helping field linguists segment continuous speech, identify morpheme boundaries, and maintain consistent terminology.
The paper also raises an important ethical point: the Comanche Nation's cultural preservation office was involved in determining which tools were developed and how the resulting data would be stored and accessed. This is not a technicalityโfor many Indigenous communities, language data carries cultural and spiritual significance that requires community governance.
Manchu: NER and POS Tagging
Lee, Byun, and Seo (2024), with 2 citations, experiment with three model architecturesโBiLSTM-CRF, BERT, and mBERTโfor Named Entity Recognition (NER) and Part-of-Speech (POS) tagging in Manchu, an endangered Tungusic language with fewer than 20 fluent speakers. The Manchu script (a vertical alphabet adapted from Mongolian) poses additional challenges for standard NLP pipelines designed for horizontal left-to-right text.
Their results illustrate the trade-offs of different approaches. BERT, fine-tuned on a small Manchu corpus (~50,000 tokens), outperforms BiLSTM-CRF for POS tagging but performs comparably for NERโsuggesting that for tasks with limited training data, the advantage of pretrained models is reduced. mBERT, despite its multilingual pretraining, shows no advantage over monolingual BERT, likely because Manchu is absent from mBERT's training data and has no typologically close relatives in the model.
A Broader Framework
Fakhreldin (2025), with 1 citation, proposes a comprehensive NLP framework for Indigenous dialect documentation that attempts to address the full pipeline: data collection, preprocessing, annotation, model training, and community feedback. The framework includes provisions for dialectal variation (a challenge often overlooked when the "language" is actually a family of related dialects) and emphasizes iterative validation with speaker communities.
The framework's value is more conceptual than empiricalโit has not yet been fully implemented for any single language. But it articulates principles that the field increasingly recognizes: documentation NLP must be community-governed, dialect-aware, and designed for integration with existing fieldwork tools.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| NLP tools can accelerate endangered language documentation | NushuRescue, Comanche, Manchu case studies | โ
Supported โ for specific, well-defined tasks |
| The main barrier to NLP adoption is sociotechnical, not algorithmic | Gessler & von der Wense's fieldwork survey | โ
Supported |
| Transfer learning from high-resource languages helps low-resource NLP | Lee et al.'s mBERT experiment | โ ๏ธ Uncertain โ mBERT showed no advantage for Manchu |
| Community involvement is essential for validation | NushuRescue and Comanche ethical frameworks | โ
Supported โ computational outputs alone are unreliable |
Open Questions and Future Directions
Scaling community-driven NLP: The case studies reviewed here all involve close collaboration with speaker communities. Can this approach scale, or is it inherently bespoke?Oral languages: Many endangered languages have no written tradition. Speech recognition and audio analysis are critical, but acoustic models for low-resource languages remain poor.Data sovereignty: Who owns the digital artifacts produced by NLP tools applied to endangered languages? Community data governance frameworks are emerging but not yet standardized.Sustainability: Grant-funded NLP projects often produce tools that become unmaintained when funding ends. How do we build sustainable infrastructure for endangered language technologies?The "last speaker" problem: For languages with only a handful of elderly speakers, documentation is a race against time. Can NLP tools be deployed rapidly enough to make a difference, or do they require lead time that these situations do not allow?What This Means for Your Research
For NLP researchers interested in endangered languages, Gessler and von der Wense's analysis is essential reading: the gap between what you can build and what field linguists will use is real. Designing tools that integrate with existing workflows (ELAN, FLEx) is as important as improving model performance.
For field linguists, the Comanche and Manchu case studies demonstrate that useful NLP tools do not require massive resources. Even simple toolsโtokenizers, morphological analyzers, glossary extractorsโcan accelerate documentation work.
For policymakers and funders, the sustainability question is critical. One-off projects produce tools that decay; sustainable infrastructure requires ongoing support.
Discover related work through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ, ์ฃผ์ฅ์ ํ์ ์ ์๋ฌผ์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
AI๊ฐ ์๋ฉธ ์๊ธฐ ์ธ์ด๋ฅผ ๊ตฌํ ์ ์๋๊ฐ? ์๊ธฐ ์ธ์ด ๋ฌธ์ํ๋ฅผ ์ํ NLP ๋๊ตฌ๋ค
์ค๋๋ ์ฌ์ฉ๋๋ ์ฝ 7,000๊ฐ์ ์ธ์ด ์ค, UNESCO๋ ์ฝ 40%๊ฐ ์๊ธฐ์ ์ฒํด ์๋ค๊ณ ์ถ์ ํ๋คโ์ด ์ธ์ด๋ค์ ์ ์ ์ค์ด๋๋ ๊ณต๋์ฒด์์๋ง ์ฌ์ฉ๋๊ณ , ์ข
์ข
๋ฌธ์ ์ ํต๋ ์์ผ๋ฉฐ, ํ๋ ์ธ๋ ์์ ์ฌ๋ผ์ง ์ํ์ ๋์ฌ ์๋ค. ํ๋์ ์ธ์ด๊ฐ ์๋ฉธํ ๋๋ง๋ค ๊ณ ์ ํ ์ธ์ง ์ฒด๊ณ, ๊ตฌ์ ๋ฌธํ์ ์งํฉ์ฒด, ๊ทธ๋ฆฌ๊ณ ๋์ฒด ๋ถ๊ฐ๋ฅํ ์ธ๋ฅ ๊ฒฝํ์ ๊ธฐ๋ก์ด ํจ๊ป ์ฌ๋ผ์ง๋ค. AI์ NLP ๋๊ตฌ๊ฐ ๋ฌธ์ํ ๋ฐ ์ธ์ด ํ์ฑํ ๋
ธ๋ ฅ์ ์ค์ง์ ์ผ๋ก ๊ธฐ์ฌํ ์ ์๋๊ฐ ํ๋ ๋ฌธ์ ๋ ๊ธฐ์ ์ ์ผ๋ก๋ ํฅ๋ฏธ๋กญ๊ณ ๋ฌธํ์ ์ผ๋ก๋ ์๊ธํ ์ง๋ฌธ์ด๋ค.
์ต๊ทผ ๋ฌธํ์ด ๋ถ๋ช
ํ ํ๋ฏ, ์์งํ ๋ต๋ณ์ ๋ค์๊ณผ ๊ฐ๋ค: ๋ถ๋ถ์ ์ผ๋ก ๊ฐ๋ฅํ๋ฉฐ, ๊ณผ๋ ์ ์ ์ด ์์ฌํ๋ ๊ฒ๋ณด๋ค๋ ์ ์ ์์ค์ด๋ค. NLP ๋๊ตฌ๋ ํน์ ๋ฌธ์ํ ์์
์ ๊ฐ์ํํ ์ ์์ง๋ง, ์ ์์ ์ธ์ด์์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ์ ๋ถ๋ชํ๋ฉฐ, ๊ธฐ์ ์ ์ผ๋ก ๊ฐ๋ฅํ ๊ฒ๊ณผ ํ์ฅ ์์
ํ๊ฒฝ์์ ์ค์ ๋ก ๋ฐฐํฌ๋๋ ๊ฒ ์ฌ์ด์ ๊ฐ๊ทน์ ์ฌ์ ํ ๋๋ค.
์ด๋ก ๊ณผ ์ค์ฒ์ ๊ดด๋ฆฌ
Gessler์ von der Wense(2024)๋ 4ํ ์ธ์ฉ์ผ๋ก, NLP ์ฐ๊ตฌ์์ ํ์ฅ ์ธ์ดํ์ ์์ธก์์ ์์ญ ๋
๊ฐ ๊ด์ฌ์ ํ๋ช
ํด ์์์๋ ๋ถ๊ตฌํ๊ณ NLP ๋๊ตฌ๊ฐ ์ธ์ด ๋ฌธ์ํ์ ๋๋ฆฌ ์ฑํ๋์ง ์์ ์ด์ ์ ๋ํด ๊ฐ์ฅ ์ง์ ์ ์ธ ๋ถ์์ ์ ๊ณตํ๋ค. ์ด๋ค์ ๋ ๊ฐ์ง ํต์ฌ ์ด์ ๋ฅผ ์ ์ํ๋ค:
์ด์ 1: ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ ๋ฌธ์ . NLP ๋๊ตฌ๋ ์ผ๋ฐ์ ์ผ๋ก ์๋ํ๊ธฐ ์ํด ์ฃผ์์ด ๋ฌ๋ฆฐ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ค. ๊ทธ๋ฌ๋ ์๊ธฐ ์ธ์ด์ ๊ฒฝ์ฐ, ์ฃผ์์ด ๋ฌ๋ฆฐ ๋ฐ์ดํฐ์ผ๋ง๋ก ๋ฌธ์ํ๊ฐ ์์ฑํ๊ณ ์ ํ๋ ๋ฐ๋ก ๊ทธ๊ฒ์ด๋ค. ์ด๋ ์ํ ๋
ผ๋ฆฌ๋ฅผ ๋ง๋ค์ด ๋ธ๋ค: ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ค๋ฉด NLP ๋๊ตฌ๊ฐ ํ์ํ๊ณ , NLP ๋๊ตฌ๋ฅผ ํ๋ จํ๋ ค๋ฉด ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. ๊ด๋ จ๋ ๊ณ ์์ ์ธ์ด๋ก๋ถํฐ์ ์ ์ด ํ์ต์ด ์ด๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์ง๋ง, '๊ด๋ จ๋'์ด๋ผ๋ ์กฐ๊ฑด์ ๊ฐ๋ ฅํ ์๊ฑด์ด๋คโ๋ง์ ์๊ธฐ ์ธ์ด๋ค์ ์์์ด ํ๋ถํ ์น์กฑ ์ธ์ด๊ฐ ์๋ ์ด์กฑ์ ์ํ๋ค.
์ด์ 2: ์ํฌํ๋ก ํตํฉ ๋ฌธ์ . ํน์ ์์
(์๋ ์ ์ฌ, ํํ์ ๋ถ์, ์ธํฐ๋ฆฌ๋์ด ๊ธ๋ก์ฑ)์ ์ํ NLP ๋๊ตฌ๊ฐ ์กด์ฌํ๋๋ผ๋, ์ด๋ฅผ ๊ธฐ์กด ๋ฌธ์ํ ์ํฌํ๋ก์ ํตํฉํ๋ ๊ฒ์ ๊ฐ๋จํ์ง ์๋ค. ํ์ฅ ์ธ์ดํ์๋ค์ ์ผ๋ฐ์ ์ผ๋ก ELAN, FLEx, SayMore ๊ฐ์ ๋๊ตฌ๋ก ์์
ํ๋ค. ๋ช
๋ น์ค ์ธํฐํ์ด์ค, Python ํ๊ฒฝ, ๋๋ ํด๋ผ์ฐ๋ API๋ฅผ ํ์๋ก ํ๋ NLP ๋๊ตฌ๋ค์ ์ด๋ฌํ ์ํฌํ๋ก์ ์์ฐ์ค๋ฝ๊ฒ ๋ง์ง ์๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋๊ตฌ๋ค์ NLP ํ์ ๋ํ์์ ๋ฐํ๋ ํ ์ค์ ๋ก๋ ์ฌ์ฉ๋์ง ์๋๋ค.
์ด ๊ด์ฐฐ์ ๋์ ํ์ง๋ง ๊ฑด์ค์ ์ด๋ค: ๋ณ๋ชฉ ์ง์ ์ ์ฃผ๋ก ์๊ณ ๋ฆฌ์ฆ์ ์ธ ๊ฒ(๋ ๋์ ๋ชจ๋ธ)์ด ์๋๋ผ ์ฌํ๊ธฐ์ ์ ์ธ ๊ฒ(๊ธฐ์กด ์ค์ฒ๊ณผ์ ๋ ๋์ ํตํฉ, ๊ทธ๋ฆฌ๊ณ NLP ์ฐ๊ตฌ์์ ํ์ฅ ์ธ์ดํ์ ๊ฐ์ ์ง์ ํ ํ๋ ฅ)์ด๋ค.
์ฌ๋ก ์ฐ๊ตฌ: ์๋๋๊ณ ์๋ ๊ฒ๋ค
ๅฅณๆธ(Nรผshu): ์๋ฉธ ์๊ธฐ์ ๋ฌธ์ ๊ตฌ์
Yang, Ma, Gessler & von der Wense(2024)๋ 6ํ ์ธ์ฉ์ผ๋ก, ์ฌ์(ๅฅณๆธ) ๋ฌธ์๋ฅผ ์ํ AI ์ง์ ํ๋ก์ ํธ์ธ NushuRescue๋ฅผ ์ ์ํ๋คโ์ฌ์๋ ์ค๊ตญ ํ๋์ฑ ์ฅ์ตํ(Jiangyong County)์ ์ฌ์ฑ๋ค์ด ์ญ์ฌ์ ์ผ๋ก ๋
์ ์ฌ์ฉํด ์จ ๋ฌธ์ ์ฒด๊ณ์ด๋ค. ์ฌ์๋ ์ฌ๋ฌ ๋ฉด์์ ๋
ํนํ๋ค: ํ ์ฑ๋ณ๋ง ๋
์ ์ ์ผ๋ก ์ฌ์ฉํ ๊ฒ์ผ๋ก ์๋ ค์ง ์ ์ผํ ๋ฌธ์์ด๋ฉฐ, ๋ง์ง๋ง ์ ์ฐฝํ ์์ด๋ฏผ ์๊ฐ๊ฐ 2004๋
์ ์ฌ๋งํ์๊ณ , ํ์กดํ๋ ๋ฌธ์ํ๋ ๋จํธ์ ์ด๋ค.
NushuRescue ์ ๊ทผ๋ฒ์ ์ต์ํ์ ํ๋ จ ๋ฐ์ดํฐ๋ก ์ฌ์์ ์ค๊ตญ์ด ์ฌ์ด์ ๋ฒ์ญ์ด๋ผ๋ ํต์ฌ ๋ณด์กด ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LLM์ ํ์ฉํ๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ค์์ ํฌํจํ๋ค:
- ๋ณ๋ ฌ ๋ง๋ญ์น ๊ตฌ์ถ: NCGoldโ500๊ฐ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑ๋ ์ฌ์-์ค๊ตญ์ด ๋ณ๋ ฌ ๋ง๋ญ์น๋ก, ๋์ข
์ต์ด์ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ด๋ค.
- ํจ์ท LLM ๋ฒ์ญ: GPT-4-Turbo๋ฅผ 35๊ฐ์ ์งง์ ์์๋ง์ผ๋ก ์ฌ์ฉํ์ฌ ๋ณด๋ฅ๋ ํ
์คํธ ๋ฌธ์ฅ์์ 48.69%์ ๋ฒ์ญ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์๋ค.
- ๋ง๋ญ์น ํ์ฅ: NCSilver ๊ตฌ์ถโ์๋กญ๊ฒ ๋ฒ์ญ๋ ํ๋ ์ค๊ตญ์ด ๋ฌธ์ฅ 98๊ฐ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ด๋ฅผ ํตํด ํ์ฉ ๊ฐ๋ฅํ ์ธ์ด ์์์ ํ์ฅํ์๋ค.
- ์ง์ ๋ชจ๋ธ: ์ฌ์์ ๋ํ ๊ณ์ฐ ์ฐ๊ตฌ๋ฅผ ์ถ๊ฐ ์ง์ํ๊ธฐ ์ํด FastText ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ Seq2Seq ๋ชจ๋ธ์ ๊ฐ๋ฐํ์๋ค.
์ฝ๋ง์น์ด: ์ต์ ๋น์ฉ ์ธ์ด ๊ธฐ์
Alvarez, Karajeanes, Yang ๋ฑ(2024)์ ํผ์ธ์ฉ 1ํ๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์ ์ฐฝํ ํ์๊ฐ 50๋ช
๋ฏธ๋ง(์ผ๋ถ ์ถ์ ์น๋ก๋ 10๋ช
์ ๋ถ๊ณผ)์ธ Uto-Aztecan์ด์กฑ์ ์ฝ๋ง์น์ด๋ฅผ ์ํ ๊ณ์ฐ ๋๊ตฌ๋ฅผ ์๊ฐํ๋ค. ์ด๋ค์ ์ ๊ทผ ๋ฐฉ์์ ์ค์ฉ์ฃผ์์ ๋ฉด์์ ์ฃผ๋ชฉํ ๋งํ๋ค. ์์ ํ NLP ์์คํ
๊ตฌ์ถ์ ์๋ํ๋ ๋์ , "์ต์ ๋น์ฉ" ๊ฐ์
, ์ฆ ์ต์ํ์ ๋ฐ์ดํฐ์ ์ฐ์ฐ๋ง์ผ๋ก ์ฆ๊ฐ์ ์ธ ํจ์ฉ์ ์ ๊ณตํ๋ ๋๊ตฌ์ ์ง์คํ๋ค.
๊ตฌ์ฒด์ ์ธ ๊ธฐ์ฌ๋ก๋ ์ฝ๋ง์น์ด ํ ํฌ๋์ด์ , ๊ธฐ๋ณธ์ ์ธ ํํ์ ๋ถ์๊ธฐ, ๊ทธ๋ฆฌ๊ณ ์ฝ๋ง์น์ด-์์ด ์ฉ์ด์ง ์ถ์ถ ๋๊ตฌ๊ฐ ํฌํจ๋๋ค. ์ด๋ NLP ๊ธฐ์ค์์ ์ ๊ตํ ์์ค์ ์๋์ง๋ง, ์ฐ์ ๋ฐํ์ ๋ถ์ , ํํ์ ๊ฒฝ๊ณ ์๋ณ, ์ผ๊ด๋ ์ฉ์ด ์ ์ง ๋ฑ ๋ฌธ์ํ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ค์ง์ ์ธ ํ์๋ฅผ ์ถฉ์กฑํ๋ค.
ํด๋น ๋
ผ๋ฌธ์ ๋ํ ์ค์ํ ์ค๋ฆฌ์ ์์ ์ ์ ๊ธฐํ๋ค. ์ฝ๋ง์น ๋ค์ด์
(Comanche Nation)์ ๋ฌธํ ๋ณด์กด ์ฌ๋ฌด์๊ฐ ์ด๋ค ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ ์ง, ๊ทธ๋ฆฌ๊ณ ๋์ถ๋ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ์ ์ฅํ๊ณ ์ ๊ทผํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๊ณผ์ ์ ์ฐธ์ฌํ์๋ค. ์ด๋ ๋จ์ํ ์ ์ฐจ์ ํ์์ด ์๋๋ค. ๋ง์ ์์ฃผ๋ฏผ ๊ณต๋์ฒด์์ ์ธ์ด ๋ฐ์ดํฐ๋ ๊ณต๋์ฒด ์ฐจ์์ ๊ฑฐ๋ฒ๋์ค๋ฅผ ํ์๋ก ํ๋ ๋ฌธํ์ ยท์ ์ ์ ์๋ฏธ๋ฅผ ์ง๋๋ค.
๋ง์ฃผ์ด: NER ๋ฐ POS ํ๊น
Lee, Byun, Seo(2024)๋ ํผ์ธ์ฉ 2ํ๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์ ์ฐฝํ ํ์๊ฐ 20๋ช
๋ฏธ๋ง์ธ ์๊ธฐ Tungusic์ด์กฑ ์ธ์ด์ธ ๋ง์ฃผ์ด์ ๊ฐ์ฒด๋ช
์ธ์(NER) ๋ฐ ํ์ฌ(POS) ํ๊น
์ ์ํด BiLSTM-CRF, BERT, mBERT์ ์ธ ๊ฐ์ง ๋ชจ๋ธ ์ํคํ
์ฒ๋ฅผ ์คํํ๋ค. ๋ง์ฃผ์ด ๋ฌธ์(๋ชฝ๊ณจ ๋ฌธ์๋ฅผ ๋ณํํ ์ธ๋ก์ฐ๊ธฐ ์ํ๋ฒณ)๋ ๊ฐ๋ก ์ข-์ฐ ๋ฐฉํฅ ํ
์คํธ๋ฅผ ์ ์ ๋ก ์ค๊ณ๋ ํ์ค NLP ํ์ดํ๋ผ์ธ์ ์ถ๊ฐ์ ์ธ ๋์ ๋ฅผ ์ผ๊ธฐํ๋ค.
์ด๋ค์ ๊ฒฐ๊ณผ๋ ์ ๊ทผ ๋ฐฉ์๋ณ ์์ถฉ ๊ด๊ณ๋ฅผ ์ ๋ณด์ฌ ์ค๋ค. ์๊ท๋ชจ ๋ง์ฃผ์ด ๋ง๋ญ์น(์ฝ 5๋ง ํ ํฐ)๋ก ๋ฏธ์ธ ์กฐ์ ๋ BERT๋ POS ํ๊น
์์ BiLSTM-CRF๋ฅผ ๋ฅ๊ฐํ์ง๋ง, NER์์๋ ์ ์ฌํ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ์ ํ๋ ๊ณผ์ ์์๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ด์ ์ด ๊ฐ์ํจ์ ์์ฌํ๋ค. mBERT๋ ๋ค๊ตญ์ด ์ฌ์ ํ์ต์๋ ๋ถ๊ตฌํ๊ณ ๋จ์ผ ์ธ์ด BERT ๋๋น ์ด๋ ํ ์ด์ ๋ ๋ณด์ด์ง ์๋๋ฐ, ์ด๋ ๋ง์ฃผ์ด๊ฐ mBERT์ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์์ผ๋ฉฐ ํด๋น ๋ชจ๋ธ ๋ด์ ์ ํ๋ก ์ ์ผ๋ก ๊ทผ์ ํ ์น์กฑ ์ธ์ด๋ ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์ผ๋ก ๋ณด์ธ๋ค.
๋ณด๋ค ํญ๋์ ํ๋ ์์ํฌ
Fakhreldin(2025)์ ํผ์ธ์ฉ 1ํ๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์์ฃผ๋ฏผ ๋ฐฉ์ธ ๋ฌธ์ํ๋ฅผ ์ํ ํฌ๊ด์ ์ธ NLP ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ฐ์ดํฐ ์์ง, ์ ์ฒ๋ฆฌ, ์ฃผ์, ๋ชจ๋ธ ํ์ต, ๊ณต๋์ฒด ํผ๋๋ฐฑ์ ์ด๋ฅด๋ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ๋ค๋ฃจ๊ณ ์ ํ๋ค. ๋ํ ๋ฐฉ์ธ ๋ณ์ด(ํด๋น "์ธ์ด"๊ฐ ์ค์ ๋ก๋ ๊ด๋ จ ๋ฐฉ์ธ๋ค์ ์งํฉ์ผ ๋ ํํ ๊ฐ๊ณผ๋๋ ๋ฌธ์ )๋ฅผ ์ํ ์กฐํญ์ ํฌํจํ๋ฉฐ, ํ์ ๊ณต๋์ฒด์์ ๋ฐ๋ณต์ ๊ฒ์ฆ์ ๊ฐ์กฐํ๋ค.
์ด ํ๋ ์์ํฌ์ ๊ฐ์น๋ ๊ฒฝํ์ ์ด๊ธฐ๋ณด๋ค ๊ฐ๋
์ ์ธ ์ธก๋ฉด์์ ๋ ํฌ๋ค. ์์ง ์ด๋ค ๋จ์ผ ์ธ์ด์๋ ์์ ํ ๊ตฌํ๋ ๋ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋ ํ์ฅ์ด ์ ์ ๋ ์ธ์ํ๊ฒ ๋ ์์น๋ค์ ๋ช
ํํ ์ ์ํ๋ค. ๋ฌธ์ํ NLP๋ ๊ณต๋์ฒด๊ฐ ์ฃผ๋ํ๊ณ , ๋ฐฉ์ธ์ ๊ณ ๋ คํ๋ฉฐ, ๊ธฐ์กด ํ์ฅ ์กฐ์ฌ ๋๊ตฌ์์ ํตํฉ์ ์ ์ ๋ก ์ค๊ณ๋์ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
์ด ๊ฒฐ๊ณผ๋ค์ LLM์ด ๋๋ผ์ธ ์ ๋๋ก ์ ์ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ์๊ธฐ ์ธ์ด ๋ฒ์ญ์์ ์๋ฏธ ์๋ ์ง์ ์ ์ด๋ฃฐ ์ ์์์ ๋ณด์ฌ ์ฃผ์ง๋ง, 48.69%๋ผ๋ ์ ํ๋๋ ์ ๋ขฐํ ์ ์๋ ๋ฒ์ญ๊น์ง ๊ธฐ์ ์ด ์ผ๋ง๋ ๋จผ ๊ฑฐ๋ฆฌ์ ์๋์ง๋ ๋ํ๋ธ๋ค. ์ด ํ๋ ์์ํฌ๋ ํ์ฅ ๊ฐ๋ฅํ๊ณ ๊ด๋ฒ์ํ ์ธ์ ํฌ์
์ ํ์์ฑ์ ์ต์ํํ๋๋ก ์ค๊ณ๋์์ผ๋, ํ์ง ๋ณด์ฆ์ ์ํ ์ธ๊ฐ ๊ฒ์ฆ์ ์ฌ์ ํ ํ์์ ์ด๋ค.
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| NLP ๋๊ตฌ๋ ์๊ธฐ ์ธ์ด ๋ฌธ์ํ๋ฅผ ๊ฐ์ํํ ์ ์๋ค | NushuRescue, ์ฝ๋ง์น์ด, ๋ง์ฃผ์ด ์ฌ๋ก ์ฐ๊ตฌ | โ
์ง์ง๋จ โ ๊ตฌ์ฒด์ ์ด๊ณ ๋ช
ํํ ์ ์๋ ๊ณผ์ ์ ํํจ |
| NLP ๋์
์ ์ฃผ๋ ์ฅ๋ฒฝ์ ์๊ณ ๋ฆฌ์ฆ์ด ์๋ ์ฌํ๊ธฐ์ ์ ์ธก๋ฉด์ ์๋ค | Gessler & von der Wense์ ํ์ฅ ์กฐ์ฌ ์ฐ๊ตฌ | โ
์ง์ง๋จ |
| ๊ณ ์์ ์ธ์ด๋ก๋ถํฐ์ ์ ์ด ํ์ต์ ์ ์์ NLP์ ๋์์ด ๋๋ค | Lee ๋ฑ์ mBERT ์คํ | โ ๏ธ ๋ถํ์ค โ mBERT๋ ๋ง์ฃผ์ด์์ ์ด๋ ํ ์ด์ ๋ ๋ณด์ด์ง ์์ |
| ๊ฒ์ฆ์ ์ํ ์ปค๋ฎค๋ํฐ ์ฐธ์ฌ๋ ํ์์ ์ด๋ค | NushuRescue ๋ฐ Comanche ์ค๋ฆฌ์ ํ๋ ์์ํฌ | โ
์ง์ง๋จ โ ๊ณ์ฐ์ ์ถ๋ ฅ๋ง์ผ๋ก๋ ์ ๋ขฐํ ์ ์๋ค |
๋ฏธํด๊ฒฐ ์ง๋ฌธ๊ณผ ํฅํ ๋ฐฉํฅ
์ปค๋ฎค๋ํฐ ์ฃผ๋ NLP์ ํ์ฅ: ์ฌ๊ธฐ์ ๊ฒํ ๋ ์ฌ๋ก ์ฐ๊ตฌ๋ ๋ชจ๋ ํ์ ์ปค๋ฎค๋ํฐ์์ ๊ธด๋ฐํ ํ๋ ฅ์ ์๋ฐํ๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ด ํ์ฅ ๊ฐ๋ฅํ๊ฐ, ์๋๋ฉด ๋ณธ์ง์ ์ผ๋ก ๋ง์ถคํ์ ๊ทธ์น๋๊ฐ?๊ตฌ์ด ์ธ์ด: ๋ง์ ์๋ฉธ ์๊ธฐ ์ธ์ด๋ ๋ฌธ์ ์ ํต์ด ์๋ค. ์์ฑ ์ธ์๊ณผ ์ํฅ ๋ถ์์ด ์ค์ํ์ง๋ง, ์ ์์ ์ธ์ด๋ฅผ ์ํ ์ํฅ ๋ชจ๋ธ์ ์ฌ์ ํ ์ฑ๋ฅ์ด ๋ฎ๋ค.๋ฐ์ดํฐ ์ฃผ๊ถ: ์๋ฉธ ์๊ธฐ ์ธ์ด์ ์ ์ฉ๋ NLP ๋๊ตฌ๊ฐ ์์ฑํ ๋์งํธ ์ฐ์ถ๋ฌผ์ ๋๊ฐ ์์ ํ๋๊ฐ? ์ปค๋ฎค๋ํฐ ๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค ํ๋ ์์ํฌ๊ฐ ๋ฑ์ฅํ๊ณ ์์ง๋ง ์์ง ํ์คํ๋์ง ์์๋ค.์ง์ ๊ฐ๋ฅ์ฑ: ๋ณด์กฐ๊ธ์ผ๋ก ์ง์๋๋ NLP ํ๋ก์ ํธ๋ ์๊ธ์ด ์ข
๋ฃ๋๋ฉด ์ ์ง ๊ด๋ฆฌ๋์ง ์๋ ๋๊ตฌ๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์๋ฉธ ์๊ธฐ ์ธ์ด ๊ธฐ์ ์ ์ํ ์ง์ ๊ฐ๋ฅํ ์ธํ๋ผ๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ถํ ๊ฒ์ธ๊ฐ?"๋ง์ง๋ง ํ์" ๋ฌธ์ : ์์์ ๊ณ ๋ น ํ์๋ง ๋จ์ ์ธ์ด์ ๊ฒฝ์ฐ, ๋ฌธ์ํ๋ ์๊ฐ๊ณผ์ ์ธ์์ด๋ค. NLP ๋๊ตฌ๋ฅผ ์ถฉ๋ถํ ๋น ๋ฅด๊ฒ ๋ฐฐ์นํ์ฌ ์ค์ง์ ์ธ ์ฐจ์ด๋ฅผ ๋ง๋ค ์ ์๋๊ฐ, ์๋๋ฉด ์ด๋ฌํ ์ํฉ์ด ํ์ฉํ์ง ์๋ ์ค๋น ์๊ฐ์ด ํ์ํ๊ฐ?์ฐ๊ตฌ์ ๋ํ ์์ฌ์
์๋ฉธ ์๊ธฐ ์ธ์ด์ ๊ด์ฌ ์๋ NLP ์ฐ๊ตฌ์๋ค์๊ฒ Gessler์ von der Wense์ ๋ถ์์ ํ๋
์๋ฃ์ด๋ค. ๊ตฌ์ถ ๊ฐ๋ฅํ ๊ฒ๊ณผ ํ์ฅ ์ธ์ดํ์๋ค์ด ์ค์ ๋ก ์ฌ์ฉํ ๊ฒ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ ์ค์ฌํ๋ค. ๊ธฐ์กด ์ํฌํ๋ก(ELAN, FLEx)์ ํตํฉ๋๋ ๋๊ตฌ๋ฅผ ์ค๊ณํ๋ ๊ฒ์ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์๋งํผ์ด๋ ์ค์ํ๋ค.
ํ์ฅ ์ธ์ดํ์๋ค์๊ฒ Comanche ๋ฐ Manchu ์ฌ๋ก ์ฐ๊ตฌ๋ ์ ์ฉํ NLP ๋๊ตฌ๊ฐ ๋ฐฉ๋ํ ์์์ ํ์๋ก ํ์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ํ ํฌ๋์ด์ , ํํ์ ๋ถ์๊ธฐ, ์ฉ์ด ์ถ์ถ๊ธฐ์ ๊ฐ์ ๊ฐ๋จํ ๋๊ตฌ์กฐ์ฐจ๋ ๋ฌธ์ํ ์์
์ ๊ฐ์ํํ ์ ์๋ค.
์ ์ฑ
์
์์ ๋ฐ ์ง์ ๊ธฐ๊ด์๊ฒ ์ง์ ๊ฐ๋ฅ์ฑ ๋ฌธ์ ๋ ๋งค์ฐ ์ค์ํ๋ค. ์ผํ์ฑ ํ๋ก์ ํธ๋ ์๊ฐ์ด ์ง๋๋ฉด ์ ํดํ๋ ๋๊ตฌ๋ฅผ ๋ง๋ค์ด๋ด๋ฉฐ, ์ง์ ๊ฐ๋ฅํ ์ธํ๋ผ๋ ์ง์์ ์ธ ์ง์์ ํ์๋ก ํ๋ค.
ORAA ResearchBrain์์ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ๊ฒ์ํ๋ผ.
References (5)
[1] Gessler, L. & von der Wense, K. (2024). NLP for Language Documentation: Two Reasons for the Gap between Theory and Practice. Proc. AmericasNLP 2024.
[2] Yang, I., Ma, W., & Vosoughi, S. (2024). NushuRescue: Revitalization of the Endangered Nushu Language with AI. arXiv:2412.00218.
[3] Alvarez C, J., Karajeanes, D.D., & Prado, A.C. (2025). Advancing Uto-Aztecan Language Technologies: A Case Study on the Endangered Comanche Language. Proc. AmericasNLP 2025.
[4] Lee, S., Byun, G., & Seo, J. (2024). ManNER & ManPOS: Pioneering NLP for Endangered Manchu Language.
[5] Fakhreldin, M. (2025). Developing a Comprehensive NLP Framework for Indigenous Dialect Documentation and Revitalization. International Journal of Advanced Computer Science and Applications, 16(4).