Trend AnalysisLinguistics & NLP
AI-Powered Documentation of Endangered Languages: From Field Recordings to Digital Preservation
With over 40% of the world's languages facing extinction, AI tools are emerging as critical allies in documentation efforts. Recent work spans phonological analysis of tribal languages to cybersecurity for linguistic corpora.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
UNESCO estimates that a language dies approximately every two weeks. With over 3,000 of the world's roughly 7,000 languages classified as endangered, the race to document linguistic diversity before it vanishes has become one of the most urgent tasks in the humanities. Traditional documentation methods, relying on trained field linguists recording and transcribing by hand, cannot scale to match the rate of language loss. Artificial intelligence is increasingly positioned as a force multiplier in this effort, but its application to low-resource endangered languages presents unique challenges that differ fundamentally from mainstream NLP.
Why It Matters
Each language encodes a unique cognitive framework for understanding the world, carrying irreplaceable knowledge about ecology, medicine, social organization, and human cognition. The loss of a language is not merely the loss of a communication system but the erasure of an entire epistemological tradition. For linguistics as a science, language death narrows the empirical base from which universal properties of language can be inferred. A theory of syntax or phonology built on surviving languages alone risks mistaking the properties of survivors for properties of language itself.
The AI dimension adds both promise and peril. Machine learning tools can dramatically accelerate transcription, phonological analysis, and lexicon building. But most NLP infrastructure is built for well-resourced languages with millions of speakers and gigabytes of training data. Endangered languages often have fewer than 1,000 speakers, minimal written records, and no digital corpus whatsoever. Adapting AI to this reality requires rethinking fundamental assumptions about data requirements.
The Science
The AI Documentation Pipeline
Ray et al. (2024) provide a comprehensive overview of how AI intersects with language documentation workflows. Their framework identifies four critical intervention points: automated speech recognition for field recordings, machine-assisted transcription and annotation, NLP-based grammatical analysis, and digital archive management. The authors note that while off-the-shelf ASR systems fail catastrophically on endangered languages due to training data mismatch, transfer learning from related languages and few-shot adaptation techniques are beginning to produce usable results with as few as one to two hours of transcribed speech. The paper highlights a critical gap: most AI documentation tools are built by technologists with limited field linguistics training, leading to systems that are technically sophisticated but practically misaligned with documentation workflows.
Revitalization Through Adaptive Learning
Kareem and Rahman (2025) shift focus from documentation to revitalization, examining how AI-powered learning platforms can help communities actively teach and learn their endangered languages. Their analysis covers machine translation tools adapted for low-resource pairs, speech recognition systems that serve as pronunciation coaches, and adaptive learning platforms that adjust to individual learner progress. The most promising finding involves community-in-the-loop approaches where native speakers actively train and correct AI systems, simultaneously improving the tools and reinforcing their own language use. This bidirectional process transforms AI from a passive documentation tool into an active revitalization partner.
Computational Phonology for Critically Endangered Languages
Kamath et al. (2025) present a concrete case study: building a phonological analyzer for Irula, a critically endangered South Dravidian language spoken by a small tribal community in India. Their system maps the phonological inventory, identifies allophonic variations, and documents phonotactic constraints using computational methods. The significance lies in methodology: by creating a computational phonological model, they produce a resource that is simultaneously a linguistic description, a language learning aid, and training data for future NLP systems. The approach demonstrates that even for languages with no prior computational resources, systematic phonological analysis can be bootstrapped with relatively modest computational investment.
Securing Linguistic Data
Ondiba (2025) addresses an often-overlooked dimension: the cybersecurity of endangered language corpora. Focusing on the Suba language of Kenya, the study explores how proactive AI-driven security measures can protect linguistic data that is both culturally sensitive and irreplaceable. The work highlights that linguistic corpora for endangered languages face unique security threats because they are often the only record of a language and cannot be reconstructed if compromised. The proposed framework integrates anomaly detection, access control, and data integrity monitoring specifically designed for the characteristics of linguistic data.
AI Documentation Capability Matrix
<
| Task | Current AI Capability | Data Requirement | Key Challenge |
|---|
| Speech transcription | Low-moderate (transfer learning) | 1-10 hours transcribed | Phonological mismatch with source models |
| Lexicon extraction | Moderate | Text corpus + dictionary seed | Polysemy and cultural concepts |
| Grammatical analysis | Low | Annotated sentences | Typological divergence from training languages |
| Phonological modeling | Moderate | Field recordings + expert | Allophonic variation documentation |
| Community learning tools | Moderate | Curated content + speakers | Sustained community engagement |
| Corpus security | Emerging | Digital archive | Balancing access with protection |
What To Watch
The most transformative development on the horizon is the emergence of multilingual foundation models that can be fine-tuned on extremely small datasets. Meta's MMS (Massively Multilingual Speech) and Google's USM (Universal Speech Model) have demonstrated speech recognition across over 1,000 languages, suggesting that the transfer learning barrier may be lowering. The critical question is whether these models can reach the accuracy threshold needed for practical documentation work in truly under-resourced settings. Equally important is the governance dimension: who controls the data, who benefits from digitization, and how indigenous communities maintain sovereignty over their linguistic heritage in an era of AI-mediated documentation.
Discover related work using ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
AI ๊ธฐ๋ฐ ์๊ธฐ ์ธ์ด ๊ธฐ๋ก: ํ์ฅ ๋
น์๋ถํฐ ๋์งํธ ๋ณด์กด๊น์ง
UNESCO๋ ์ฝ 2์ฃผ๋ง๋ค ์ธ์ด ํ๋๊ฐ ์๋ฉธํ๋ค๊ณ ์ถ์ ํ๋ค. ์ ์ธ๊ณ ์ฝ 7,000๊ฐ ์ธ์ด ์ค 3,000๊ฐ ์ด์์ด ์๊ธฐ ์ธ์ด๋ก ๋ถ๋ฅ๋ ๊ฐ์ด๋ฐ, ์ธ์ด์ ๋ค์์ฑ์ด ์ฌ๋ผ์ง๊ธฐ ์ ์ ์ด๋ฅผ ๊ธฐ๋กํ๋ ค๋ ๊ฒฝ์์ ์ธ๋ฌธํ์์ ๊ฐ์ฅ ์๊ธํ ๊ณผ์ ์ค ํ๋๊ฐ ๋์๋ค. ํ๋ จ๋ ํ์ฅ ์ธ์ดํ์๋ค์ด ์ง์ ๋
น์ํ๊ณ ํ์ฌํ๋ ์ ํต์ ์ธ ๊ธฐ๋ก ๋ฐฉ๋ฒ์ ์ธ์ด ์๋ฉธ ์๋์ ๋ง์ถ์ด ํ์ฅ๋ ์ ์๋ค. ์ธ๊ณต์ง๋ฅ์ ์ด๋ฌํ ๋
ธ๋ ฅ์์ ์ ์ ๋ ์ญ๋ ๋ฐฐ๊ฐ ์์๋ก ์๋ฆฌ๋งค๊นํ๊ณ ์์ง๋ง, ์์ ๋ถ์กฑ ์๊ธฐ ์ธ์ด์ ๋ํ ์ ์ฉ์ ์ฃผ๋ฅ NLP์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ๊ณ ์ ํ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค.
์ค์์ฑ
๊ฐ ์ธ์ด๋ ์ธ๊ณ๋ฅผ ์ดํดํ๋ ๊ณ ์ ํ ์ธ์ง์ ํ์ ๋ด๊ณ ์์ผ๋ฉฐ, ์ํ, ์ํ, ์ฌํ ์กฐ์ง, ์ธ๊ฐ ์ธ์ง์ ๊ดํ ๋์ฒด ๋ถ๊ฐ๋ฅํ ์ง์์ ์ ๋ฌํ๋ค. ์ธ์ด์ ์๋ฉธ์ ๋จ์ํ ์์ฌ์ํต ์ฒด๊ณ์ ์์ค์ด ์๋๋ผ ํ๋์ ์์ ํ ์ธ์๋ก ์ ์ ํต์ ์๊ฑฐ์ด๋ค. ๊ณผํ์ผ๋ก์์ ์ธ์ดํ์์ ์ธ์ด ์๋ฉธ์ ์ธ์ด์ ๋ณดํธ์ ์์ฑ์ ์ถ๋ก ํ ์ ์๋ ๊ฒฝํ์ ๊ธฐ๋ฐ์ ์ขํ๋ค. ํ์กดํ๋ ์ธ์ด๋ง์ ํ ๋๋ก ๊ตฌ์ถ๋ ํต์ฌ๋ก ์ด๋ ์์ด๋ก ์ด๋ก ์ ์์กด ์ธ์ด๋ค์ ์์ฑ์ ์ธ์ด ์์ฒด์ ์์ฑ์ผ๋ก ์คํดํ ์ํ์ด ์๋ค.
AI ์ฐจ์์ ๊ฐ๋ฅ์ฑ๊ณผ ์ํ์ ๋์์ ๋ํ๋ค. ๊ธฐ๊ณ ํ์ต ๋๊ตฌ๋ ์ ์ฌ, ์์ด ๋ถ์, ์ดํ ๊ตฌ์ถ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ํํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ NLP ์ธํ๋ผ๋ ์๋ฐฑ๋ง ๋ช
์ ํ์์ ๊ธฐ๊ฐ๋ฐ์ดํธ ๊ท๋ชจ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ถ ์์์ด ํ๋ถํ ์ธ์ด๋ฅผ ์ํด ๊ตฌ์ถ๋์ด ์๋ค. ์๊ธฐ ์ธ์ด๋ค์ ํํ ํ์๊ฐ 1,000๋ช
๋ฏธ๋ง์ด๊ณ , ๋ฌธ์ ๊ธฐ๋ก์ด ๊ฑฐ์ ์์ผ๋ฉฐ, ๋์งํธ ์ฝํผ์ค๊ฐ ์ ํ ์กด์ฌํ์ง ์๋๋ค. AI๋ฅผ ์ด๋ฌํ ํ์ค์ ์ ์์ํค๋ ค๋ฉด ๋ฐ์ดํฐ ์๊ตฌ์ฌํญ์ ๊ดํ ๊ทผ๋ณธ์ ์ธ ๊ฐ์ ์ ์ฌ๊ณ ํด์ผ ํ๋ค.
๊ณผํ
AI ๊ธฐ๋ก ํ์ดํ๋ผ์ธ
Ray et al. (2024)์ AI๊ฐ ์ธ์ด ๊ธฐ๋ก ์ํฌํ๋ก์ ์ด๋ป๊ฒ ๊ต์ฐจํ๋์ง์ ๋ํ ํฌ๊ด์ ์ธ ๊ฐ์๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ค์ ํ๋ ์์ํฌ๋ ๋ค ๊ฐ์ง ํต์ฌ ๊ฐ์
์ง์ ์ ์๋ณํ๋ค: ํ์ฅ ๋
น์์ ์ํ ์๋ ์์ฑ ์ธ์, ๊ธฐ๊ณ ๋ณด์กฐ ์ ์ฌ ๋ฐ ์ฃผ์, NLP ๊ธฐ๋ฐ ๋ฌธ๋ฒ ๋ถ์, ๊ทธ๋ฆฌ๊ณ ๋์งํธ ์์นด์ด๋ธ ๊ด๋ฆฌ์ด๋ค. ์ ์๋ค์ ๊ธฐ์ฑ ASR ์์คํ
์ด ํ์ต ๋ฐ์ดํฐ ๋ถ์ผ์น๋ก ์ธํด ์๊ธฐ ์ธ์ด์์ ์น๋ช
์ ์ผ๋ก ์คํจํ๋ ๋ฐ๋ฉด, ๊ด๋ จ ์ธ์ด๋ก๋ถํฐ์ ์ ์ด ํ์ต๊ณผ ํจ์ท ์ ์ ๊ธฐ๋ฒ์ด ์ ์ฌ๋ ์์ฑ 1~2์๊ฐ๋ง์ผ๋ก๋ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๊ธฐ ์์ํ์์ ์ธ๊ธํ๋ค. ์ด ๋
ผ๋ฌธ์ ์ค์ํ ๊ฒฉ์ฐจ๋ฅผ ๊ฐ์กฐํ๋ค: ๋๋ถ๋ถ์ AI ๊ธฐ๋ก ๋๊ตฌ๊ฐ ํ์ฅ ์ธ์ดํ ํ๋ จ์ด ์ ํ๋ ๊ธฐ์ ์๋ค์ ์ํด ๊ตฌ์ถ๋์ด, ๊ธฐ์ ์ ์ผ๋ก๋ ์ ๊ตํ์ง๋ง ๊ธฐ๋ก ์ํฌํ๋ก์ ์ค์ง์ ์ผ๋ก ๋ง์ง ์๋ ์์คํ
์ด ๋ง๋ค์ด์ง๋ค๋ ๊ฒ์ด๋ค.
์ ์ํ ํ์ต์ ํตํ ํ์ฑํ
Kareem๊ณผ Rahman (2025)์ ๊ธฐ๋ก์์ ํ์ฑํ๋ก ์ด์ ์ ์ ํํ์ฌ, AI ๊ธฐ๋ฐ ํ์ต ํ๋ซํผ์ด ์ด๋ป๊ฒ ์ปค๋ฎค๋ํฐ๊ฐ ์๊ธฐ ์ธ์ด๋ฅผ ๋ฅ๋์ ์ผ๋ก ๊ฐ๋ฅด์น๊ณ ๋ฐฐ์ฐ๋ ๋ฐ ๋์์ ์ค ์ ์๋์ง ๊ฒํ ํ๋ค. ๊ทธ๋ค์ ๋ถ์์ ์์ ๋ถ์กฑ ์ธ์ด ์์ ๋ง๊ฒ ์ ์๋ ๊ธฐ๊ณ ๋ฒ์ญ ๋๊ตฌ, ๋ฐ์ ๊ต์ฌ ์ญํ ์ ํ๋ ์์ฑ ์ธ์ ์์คํ
, ๊ทธ๋ฆฌ๊ณ ๊ฐ๋ณ ํ์ต์์ ์ง๋์ ๋ง๊ฒ ์กฐ์ ๋๋ ์ ์ํ ํ์ต ํ๋ซํผ์ ๋ค๋ฃฌ๋ค. ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ์์ด๋ฏผ ํ์๋ค์ด AI ์์คํ
์ ๋ฅ๋์ ์ผ๋ก ํ๋ จํ๊ณ ์์ ํ๋ ์ปค๋ฎค๋ํฐ ์ฐธ์ฌํ ์ ๊ทผ ๋ฐฉ์์ผ๋ก, ์ด๋ ๋๊ตฌ๋ฅผ ๊ฐ์ ํ๋ ๋์์ ๊ทธ๋ค ์์ ์ ์ธ์ด ์ฌ์ฉ์ ๊ฐํํ๋ค. ์ด ์๋ฐฉํฅ ๊ณผ์ ์ AI๋ฅผ ์๋์ ์ธ ๊ธฐ๋ก ๋๊ตฌ์์ ๋ฅ๋์ ์ธ ํ์ฑํ ํํธ๋๋ก ์ ํ์ํจ๋ค.
๊ทน๋ ์๊ธฐ ์ธ์ด๋ฅผ ์ํ ์ ์ฐ ์์ด๋ก
Kamath et al. (2025)์ ๊ตฌ์ฒด์ ์ธ ์ฌ๋ก ์ฐ๊ตฌ๋ฅผ ์ ์ํ๋ค: ์ธ๋์ ์๊ท๋ชจ ๋ถ์กฑ ๊ณต๋์ฒด๊ฐ ์ฌ์ฉํ๋ ์ฌ๊ฐํ ์๊ธฐ ์ธ์ด์ธ ๋จ๋ถ ๋๋ผ๋น๋ค์ด์กฑ Irula์ด์ ์์ด ๋ถ์๊ธฐ ๊ตฌ์ถ์ด ๊ทธ๊ฒ์ด๋ค. ์ด ์์คํ
์ ๊ณ์ฐ์ ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ์์ด ๋ชฉ๋ก์ ๋งคํํ๊ณ , ๋ณ์ด์ ๋ณ์ด๋ฅผ ์๋ณํ๋ฉฐ, ์์ ๋ฐฐ์ด ์ ์ฝ์ ๊ธฐ๋กํ๋ค. ๊ทธ ์์๋ ๋ฐฉ๋ฒ๋ก ์ ์๋ค: ๊ณ์ฐ์ ์์ด ๋ชจ๋ธ์ ๊ตฌ์ถํจ์ผ๋ก์จ, ์ธ์ดํ์ ๊ธฐ์ (description)์ด์ ์ธ์ด ํ์ต ๋๊ตฌ์ด๋ฉฐ ๋์์ ๋ฏธ๋ NLP ์์คํ
์ ์ํ ํ๋ จ ๋ฐ์ดํฐ๋ก๋ ๊ธฐ๋ฅํ๋ ์์์ ์์ฐํ๋ค๋ ์ ์ด๋ค. ์ด ์ ๊ทผ๋ฒ์ ์ฌ์ ์ ๊ณ์ฐ์ ์์์ด ์ ํ ์๋ ์ธ์ด์ ๊ฒฝ์ฐ์๋, ๋น๊ต์ ์๊ท๋ชจ์ ๊ณ์ฐ์ ํฌ์๋ก ์ฒด๊ณ์ ์ธ ์์ด ๋ถ์์ ์ด๊ธฐ ๊ตฌ์ถ(bootstrap)ํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
์ธ์ด ๋ฐ์ดํฐ ๋ณด์
Ondiba (2025)๋ ์ข
์ข
๊ฐ๊ณผ๋๋ ์ฐจ์์ธ ์๊ธฐ ์ธ์ด ๋ง๋ญ์น์ ์ฌ์ด๋ฒ๋ณด์์ ๋ค๋ฃฌ๋ค. ์ผ๋์ Suba์ด์ ์ด์ ์ ๋ง์ถ ์ด ์ฐ๊ตฌ๋, ๋ฌธํ์ ์ผ๋ก ๋ฏผ๊ฐํ๊ณ ๋์ฒด ๋ถ๊ฐ๋ฅํ ์ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ณดํธํ๊ธฐ ์ํด AI ๊ธฐ๋ฐ์ ์ ์ ์ ๋ณด์ ์กฐ์น๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ ์ ์๋์ง๋ฅผ ํ๊ตฌํ๋ค. ์๊ธฐ ์ธ์ด์ ์ธ์ด ๋ง๋ญ์น๋ ์ข
์ข
ํด๋น ์ธ์ด์ ๋ํ ์ ์ผํ ๊ธฐ๋ก์ด๋ฉฐ, ํผ์๋ ๊ฒฝ์ฐ ์ฌ๊ตฌ์ฑ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๊ณ ์ ํ ๋ณด์ ์ํ์ ์ง๋ฉดํ๋ค๋ ์ ์ ์ด ์ฐ๊ตฌ๋ ๊ฐ์กฐํ๋ค. ์ ์๋ ํ๋ ์์ํฌ๋ ์ธ์ด ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ง์ถฐ ํน๋ณํ ์ค๊ณ๋ ์ด์ ํ์ง, ์ ๊ทผ ์ ์ด, ๋ฐ์ดํฐ ๋ฌด๊ฒฐ์ฑ ๋ชจ๋ํฐ๋ง์ ํตํฉํ๋ค.
AI ๋ฌธ์ํ ์ญ๋ ๋งคํธ๋ฆญ์ค
<
| ๊ณผ์ | ํ์ฌ AI ์ญ๋ | ๋ฐ์ดํฐ ์๊ตฌ ์ฌํญ | ์ฃผ์ ๊ณผ์ |
|---|
| ์์ฑ ์ ์ฌ | ๋ฎ์-๋ณดํต (์ ์ด ํ์ต) | ์ ์ฌ๋ ์์ฑ 1-10์๊ฐ | ์์ค ๋ชจ๋ธ๊ณผ์ ์์ด์ ๋ถ์ผ์น |
| ์ดํ ์ถ์ถ | ๋ณดํต | ํ
์คํธ ๋ง๋ญ์น + ์ฌ์ ์๋ | ๋ค์์ฑ ๋ฐ ๋ฌธํ์ ๊ฐ๋
|
| ๋ฌธ๋ฒ ๋ถ์ | ๋ฎ์ | ์ฃผ์๋ ๋ฌธ์ฅ | ํ๋ จ ์ธ์ด์์ ์ ํ๋ก ์ ๊ดด๋ฆฌ |
| ์์ด ๋ชจ๋ธ๋ง | ๋ณดํต | ํ์ฅ ๋
น์ + ์ ๋ฌธ๊ฐ | ๋ณ์ด์ ๋ณ์ด ๊ธฐ๋ก |
| ๊ณต๋์ฒด ํ์ต ๋๊ตฌ | ๋ณดํต | ํ๋ ์ด์
๋ ์ฝํ
์ธ + ํ์ | ์ง์์ ์ธ ๊ณต๋์ฒด ์ฐธ์ฌ |
| ๋ง๋ญ์น ๋ณด์ | ๋ถ์ ์ค | ๋์งํธ ์์นด์ด๋ธ | ์ ๊ทผ์ฑ๊ณผ ๋ณดํธ์ ๊ท ํ |
์ฃผ๋ชฉํ ๋ํฅ
์งํ์ ๋๋จธ์์ ๊ฐ์ฅ ๋ณํ์ ์ธ ๋ฐ์ ์, ๋งค์ฐ ์๊ท๋ชจ์ ๋ฐ์ดํฐ์
์ผ๋ก๋ ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ด ๊ฐ๋ฅํ ๋ค๊ตญ์ด ๊ธฐ๋ฐ ๋ชจ๋ธ(multilingual foundation model)์ ๋ฑ์ฅ์ด๋ค. Meta์ MMS(Massively Multilingual Speech)์ Google์ USM(Universal Speech Model)์ 1,000๊ฐ ์ด์์ ์ธ์ด์ ๊ฑธ์ณ ์์ฑ ์ธ์ ์ฑ๋ฅ์ ์์ฐํ์ผ๋ฉฐ, ์ด๋ ์ ์ด ํ์ต์ ์ฅ๋ฒฝ์ด ๋ฎ์์ง๊ณ ์์์ ์์ฌํ๋ค. ํต์ฌ์ ์ธ ์ง๋ฌธ์, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ด ์ง์ ํ ์ ์์(under-resourced) ํ๊ฒฝ์์์ ์ค์ง์ ์ธ ๋ฌธ์ํ ์์
์ ํ์ํ ์ ํ๋ ์๊ณ๊ฐ์ ๋๋ฌํ ์ ์๋๊ฐ์ด๋ค. ๊ทธ์ ๋ชป์ง์๊ฒ ์ค์ํ ๊ฒ์ ๊ฑฐ๋ฒ๋์ค ์ฐจ์์ ๋ฌธ์ ์ด๋ค: ๋๊ฐ ๋ฐ์ดํฐ๋ฅผ ํต์ ํ๋๊ฐ, ๋๊ฐ ๋์งํธํ๋ก๋ถํฐ ์ด์ต์ ์ป๋๊ฐ, ๊ทธ๋ฆฌ๊ณ AI ๋งค๊ฐ ๋ฌธ์ํ์ ์๋์ ์์ฃผ๋ฏผ ๊ณต๋์ฒด๊ฐ ์์ ๋ค์ ์ธ์ด์ ์ ์ฐ์ ๋ํ ์ฃผ๊ถ์ ์ด๋ป๊ฒ ์ ์งํ๋๊ฐ.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (4)
[1] Ray, S., Vidhate, D.A., & Singla, P. (2024). Exploring the Role of Artificial Intelligence in Language Documentation and Endangered Language Preservation. TJJPT, 45(2).
[2] Kareem, F. & Rahman, A. (2025). AI Powered Learning: A Catalyst for Preservation and Revitalization of Endangered Languages. ZAMIJOH, 3(3).
[3] Kamath, V.S., Salim, S., & Ratnam, J. (2025). Design and Implementation of a Phonological Analyzer for the Irula Language. Proc. ICAART 2025.
[4] Ondiba, H. (2025). Proactive AI-Driven Cybersecurity for Endangered Language Preservation: Safeguarding the Suba Linguistic Corpus. Proc. ICAIC 2025, IEEE.