Linguistics & NLP
Teaching a Dying Script: Pedagogical Strategies for the Manchu Language
Manchu—once the administrative language of the Qing Dynasty—now has fewer than 20 fluent speakers. A rare empirical case study documents how a teacher develops orthographic knowledge in new learners, while NLP tools and AI offer both promise and practical limitations for documentation.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Manchu was the administrative language of one of history's largest empires. The Qing Dynasty (1644–1912) governed China through Manchu, and the imperial archives contain millions of documents in the Manchu script—a vertical alphabet adapted from Mongolian. Today, the language is critically endangered: UNESCO estimates fewer than 20 fluent speakers remain, most elderly. The Manchu script, which encodes a rich literary and administrative tradition, is at risk of becoming unreadable within a generation.
This makes Manchu a compelling case study for two intertwined questions: how do you teach a language with almost no living community of speakers, and how can technology help preserve what remains?
The Research Landscape
Li, Murphy, and Nag (2025) provide a rare empirical case study of Manchu language pedagogy, published in the International Journal of Applied Linguistics. The study uses thick description to document a teacher's strategies for developing orthographic knowledge—the ability to read and write Manchu script—in new learners who have no prior exposure to the language.
The pedagogical challenges are distinctive:
No immersion environment. Most language teaching benefits from exposure outside the classroom—media, conversation, signage. For Manchu, the classroom is the only exposure. This means the teacher must create all the contextual scaffolding that a living language community would normally provide.
A unique script. The Manchu alphabet is written vertically (top to bottom, left to right) and uses a modified Mongolian script with additional diacritical marks. For learners accustomed to horizontal scripts (Chinese, English), even basic reading requires retraining visual scanning patterns.
Pedagogical isolation. With so few fluent speakers, there is no established community of Manchu language teachers. The teacher in this study developed strategies largely independently, drawing on general principles of literacy instruction adapted to Manchu's specific properties.
The strategies documented include:
- Phonological awareness training: Teaching learners to segment Manchu words into syllables before introducing the script, building an auditory foundation that the visual script can map onto.
- Character-component analysis: Breaking Manchu characters into recurring components (stems, suffixes, diacritical marks) and teaching these as a generative system rather than rote-memorized forms.
- Contextualized reading: Using historical documents (imperial edicts, personal letters) as reading material from early stages, connecting orthographic instruction to cultural motivation.
AI for Endangered Language Documentation and Teaching
Wang (2024), with 2 citations, surveys the broader role of AI in endangered language work, covering both documentation (creating records of the language) and pedagogy (teaching it to new learners). The analysis identifies several AI applications:
- Automatic speech recognition for transcription of oral recordings—particularly valuable for languages where fluent speakers are elderly and recording time is limited.
- Optical character recognition for digitizing handwritten manuscripts—directly relevant to Manchu, where imperial archives are largely handwritten.
- Language learning applications that use spaced repetition and AI-driven feedback to teach vocabulary and grammar.
However, Wang notes a persistent challenge: AI tools require training data, and endangered languages by definition have very little. The catch-22 of endangered language AI—you need data to build tools, and you need tools to create data—remains largely unsolved. Wang argues for a staged approach: use human linguists to create small, high-quality datasets, then use those datasets to train AI tools that accelerate further data creation.
Lee, Byun, and Seo (2024) present the most concrete technical contribution: NLP tools for Named Entity Recognition (NER) and Part-of-Speech (POS) tagging in Manchu. Testing three architectures (BiLSTM-CRF, BERT, mBERT), they find that fine-tuned BERT outperforms both alternatives for POS tagging, while performance differences are smaller for NER.
The practical implication is that even with very limited training data (~50,000 tokens), useful NLP tools can be built for endangered languages. But "useful" needs qualification: the tools accelerate human annotation work but do not replace it. A Manchu scholar still needs to validate every output.
The Theory-Practice Gap
Gessler and von der Wense (2024), with 4 citations, provide the crucial context: despite two decades of NLP tools being built for endangered languages, most documentary work still proceeds without them. The barriers are not primarily technical but workflow-related: the tools do not integrate with the software that field linguists actually use, and the learning curve for NLP tools exceeds what most linguists are willing to invest.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Manchu orthographic instruction requires distinctive pedagogical strategies | Li et al.'s thick description case study | ✅ Supported — vertical script, no immersion, isolation documented |
| AI can accelerate endangered language documentation | Wang's survey of AI applications | ⚠️ Uncertain — technically feasible but catch-22 of training data persists |
| NLP tools for Manchu are feasible with limited training data | Lee et al.'s NER and POS tagging experiments | ✅ Supported — modest performance with ~50K tokens |
| NLP tools are underutilized in actual fieldwork | Gessler & von der Wense's analysis | ✅ Supported — workflow integration is the bottleneck |
Open Questions
Intergenerational transmission: Can classroom instruction replace community transmission? Or does language revitalization ultimately require rebuilding a speech community?Script vs. language: Is preserving the Manchu script (as a written system that can be read) sufficient if the spoken language disappears? What is lost when a language becomes read-only?Ethical questions: Who should learn Manchu—anyone interested, or only Manchu-descended communities? Who governs how the language is taught and represented?Scalability: The pedagogical strategies documented by Li et al. are intensive and personalized. Can they be scaled through technology?What This Means for Your Research
For applied linguists, the Manchu case study demonstrates that endangered language pedagogy is not simply "language teaching with fewer resources." It requires fundamentally different strategies when there is no community of speakers to provide immersion.
For NLP researchers, Manchu represents both a challenge and an opportunity: extremely low resources, but a relatively well-documented writing system with extensive historical archives.
Explore related work through ORAA ResearchBrain.
면책 조항: 이 게시물은 정보 제공을 목적으로 한 연구 동향 개요이다. 학술 저작물에서 인용하기 전에 특정 연구 결과, 통계 및 주장은 원본 논문과 대조하여 검증해야 한다.
소멸 위기 문자 교육: 만주어 교수법 전략
만주어는 역사상 가장 광대한 제국 중 하나의 행정 언어였다. 청나라(1644–1912)는 만주어를 통해 중국을 통치하였으며, 제국 기록보관소에는 몽골 문자를 변형하여 만든 수직 알파벳인 만주 문자로 작성된 수백만 건의 문서가 보존되어 있다. 오늘날 이 언어는 심각한 소멸 위기에 처해 있다. UNESCO는 유창한 화자가 20명 미만으로, 대부분 고령자라고 추산한다. 풍부한 문학적·행정적 전통을 담고 있는 만주 문자는 한 세대 안에 판독 불가능해질 위험에 처해 있다.
이로 인해 만주어는 서로 얽힌 두 가지 질문에 대한 중요한 사례 연구가 된다. 첫째, 살아 있는 화자 공동체가 거의 없는 언어를 어떻게 가르칠 것인가, 둘째, 남아 있는 것들을 보존하기 위해 기술이 어떻게 도움을 줄 수 있는가.
연구 현황
공동체 없는 언어를 위한 교수법
Li, Murphy, Nag(2025)는 International Journal of Applied Linguistics에 게재된, 만주어 교수법에 관한 드문 실증적 사례 연구를 제공한다. 이 연구는 두꺼운 기술(thick description) 방식을 활용하여, 해당 언어에 사전 노출이 없는 학습자들에게 철자법적 지식—만주 문자를 읽고 쓰는 능력—을 개발하기 위한 교사의 전략을 기록한다.
교수법적 과제는 다음과 같이 독특하다.
몰입 환경의 부재. 대부분의 언어 교육은 수업 외부—미디어, 대화, 간판—에서의 노출을 통해 이점을 얻는다. 만주어의 경우, 교실이 유일한 노출 환경이다. 이는 살아 있는 언어 공동체가 통상적으로 제공하는 맥락적 발판(scaffolding)을 교사가 직접 만들어야 함을 의미한다.
독특한 문자 체계. 만주 알파벳은 수직(위에서 아래로, 왼쪽에서 오른쪽으로) 방식으로 쓰이며, 추가적인 분음 부호가 포함된 변형 몽골 문자를 사용한다. 수평적 문자 체계(중국어, 영어)에 익숙한 학습자들에게는 기본적인 읽기조차 시각적 스캔 패턴을 재훈련해야 한다.
교수법적 고립. 유창한 화자가 극히 드물어, 확립된 만주어 교사 공동체가 존재하지 않는다. 이 연구의 교사는 만주어의 특수한 속성에 맞게 적용된 문해력 교육의 일반 원리에 의존하여 전략을 대부분 독자적으로 개발하였다.
기록된 전략에는 다음이 포함된다:
- 음운 인식 훈련: 문자를 도입하기 전에 학습자들이 만주어 단어를 음절로 분절할 수 있도록 가르쳐, 시각적 문자가 대응될 수 있는 청각적 토대를 구축한다.
- 문자 구성 요소 분석: 만주 문자를 반복되는 구성 요소(어간, 접미사, 분음 부호)로 분해하고, 이를 단순 암기 형태가 아닌 생성적 체계로 가르친다.
- 맥락화된 읽기: 초기 단계부터 역사적 문서(황제 칙령, 개인 서신)를 읽기 자료로 활용하여, 철자법 교육을 문화적 동기와 연결한다.
소멸 위기 언어 기록 및 교육을 위한 AI
Wang(2024)은 피인용 수 2회로, 소멸 위기 언어 연구에서 AI의 광범위한 역할을 조사하며, 기록(언어의 기록 생성)과 교수법(새로운 학습자에게 언어 교육) 두 측면을 모두 다룬다. 이 분석은 여러 AI 응용 사례를 확인한다:
- 구술 녹음 전사를 위한 자동 음성 인식—유창한 화자가 고령이고 녹음 시간이 제한된 언어에서 특히 유용하다.
- 손으로 쓴 필사본 디지털화를 위한 광학 문자 인식—제국 기록보관소 대부분이 필사본인 만주어에 직접적으로 관련된다.
- 어휘 및 문법 교육에 간격 반복(spaced repetition)과 AI 기반 피드백을 활용하는 언어 학습 응용 프로그램.
그러나 Wang은 지속적인 과제를 지적한다: AI 도구는 훈련 데이터를 필요로 하는데, 위기 언어는 정의상 데이터가 매우 부족하다. 위기 언어 AI의 딜레마—도구를 만들려면 데이터가 필요하고, 데이터를 생성하려면 도구가 필요하다—는 여전히 대체로 해결되지 않은 상태이다. Wang은 단계적 접근법을 주장한다: 인간 언어학자를 활용해 소규모의 고품질 데이터셋을 먼저 구축하고, 이를 바탕으로 AI 도구를 훈련시켜 이후의 데이터 생성을 가속화하는 방식이다.
만주어를 위한 NLP 도구
Lee, Byun, Seo(2024)는 가장 구체적인 기술적 기여를 제시한다: 만주어의 개체명 인식(NER) 및 품사 태깅(POS tagging)을 위한 NLP 도구가 그것이다. 세 가지 아키텍처(BiLSTM-CRF, BERT, mBERT)를 테스트한 결과, 미세 조정된 BERT가 POS 태깅에서 나머지 두 방법보다 우수한 성능을 보이는 반면, NER에서는 성능 차이가 상대적으로 작게 나타났다.
실용적 함의는, 매우 제한된 훈련 데이터(~50,000 토큰)만으로도 위기 언어를 위한 유용한 NLP 도구를 구축할 수 있다는 점이다. 그러나 '유용하다'는 표현에는 단서가 필요하다: 이 도구들은 인간의 주석 작업을 가속화하지만 대체하지는 못한다. 만주어 학자는 여전히 모든 출력 결과를 검증해야 한다.
이론과 실제 사이의 격차
Gessler와 von der Wense(2024)는 4회 피인용으로, 결정적인 맥락을 제공한다: 위기 언어를 위한 NLP 도구가 20년에 걸쳐 개발되어 왔음에도 불구하고, 대부분의 문서화 작업은 여전히 이를 활용하지 않은 채로 진행되고 있다. 그 장벽은 주로 기술적인 것이 아니라 작업 흐름(workflow)과 관련된 문제이다: NLP 도구가 현장 언어학자들이 실제로 사용하는 소프트웨어와 통합되지 않으며, NLP 도구의 학습 곡선이 대부분의 언어학자들이 감내하려는 수준을 초과한다는 것이다.
비판적 분석: 주장과 근거
<
| 주장 | 근거 | 판정 |
|---|
| 만주어 철자법 교수는 독특한 교수법적 전략을 요구한다 | Li et al.의 심층 기술(thick description) 사례 연구 | ✅ 지지됨 — 세로쓰기 문자, 몰입 환경 부재, 고립 상황이 기록됨 |
| AI가 위기 언어 문서화를 가속화할 수 있다 | Wang의 AI 활용 사례 조사 | ⚠️ 불확실 — 기술적으로는 가능하나 훈련 데이터의 딜레마가 지속됨 |
| 제한된 훈련 데이터로도 만주어 NLP 도구 구축이 가능하다 | Lee et al.의 NER 및 POS 태깅 실험 | ✅ 지지됨 — ~50K 토큰으로 적정 수준의 성능 달성 |
| NLP 도구는 실제 현장 조사에서 충분히 활용되지 않고 있다 | Gessler & von der Wense의 분석 | ✅ 지지됨 — 작업 흐름 통합이 병목 지점임 |
미해결 과제
세대 간 전승: 교실 수업이 공동체 내 전승을 대체할 수 있는가? 아니면 언어 재활성화는 궁극적으로 화자 공동체의 재건을 필요로 하는가?문자 대 언어: 구어가 소멸하더라도 만주 문자를 (읽을 수 있는 문자 체계로서) 보존하는 것으로 충분한가? 언어가 읽기 전용으로만 남게 될 때 무엇이 상실되는가?윤리적 문제: 누가 만주어를 배워야 하는가—관심 있는 누구든지, 아니면 만주족 후손 공동체만이 배워야 하는가? 언어의 교수 방식과 표현 방식은 누가 결정하는가?확장 가능성: Li et al.이 기록한 교수법적 전략은 집중적이고 개인화되어 있다. 이를 기술을 통해 확장할 수 있는가?연구에 주는 시사점
응용언어학자에게 있어, 만주어 사례 연구는 위기 언어 교수법이 단순히 '자원이 부족한 상황에서의 언어 교수'가 아님을 보여 준다. 몰입 환경을 제공할 화자 공동체가 존재하지 않을 때에는 근본적으로 다른 전략이 요구된다.
NLP 연구자에게 있어, 만주어는 도전이자 기회를 동시에 제시한다: 극도로 낮은 자원 환경이지만, 방대한 역사적 아카이브를 보유한 비교적 잘 기록된 문자 체계라는 점이 그러하다.
관련 연구는 ORAA ResearchBrain을 통해 탐색할 수 있다.
References (4)
[1] Li, B., Murphy, V.A., & Nag, S. (2025). Exploring Pedagogical Strategies for Developing Orthographic Knowledge: A Case Study of the Critically Endangered Manchu Language. International Journal of Applied Linguistics.
[2] Wang, L. (2024). Artificial intelligence's role in the realm of endangered languages: Documentation and teaching. Applied and Computational Engineering, 48.
[3] Lee, S., Byun, G., & Seo, J. (2024). ManNER & ManPOS: Pioneering NLP for Endangered Manchu Language.
[4] Gessler, L. & von der Wense, K. (2024). NLP for Language Documentation: Two Reasons for the Gap between Theory and Practice. Proc. AmericasNLP 2024.