Critical ReviewLinguistics & NLP
Endangered Dialects in the Digital Age: An Ecological Linguistics Perspective
Globalization and digital communication are accelerating dialect loss worldwide, but the same digital tools could also aid preservation. Ecological linguistics offers a framework for understanding language diversity as a form of biodiversityโand for designing interventions that might slow the decline.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Languages do not die in silence. They are crowded outโby dominant languages that offer economic advantage, by educational systems that standardize national tongues, by digital platforms that operate in a handful of global languages. The analogy to ecological extinction is not merely metaphorical: linguistic diversity, like biological diversity, is the product of long evolutionary processes, and its loss is both irreversible and consequential. Ecological linguistics takes this analogy seriously, treating languages and dialects as elements of a communicative ecosystem subject to the same pressures of competition, adaptation, and extinction that govern biological species.
The Research Landscape
Dual Pressures on Linguistic Diversity
Inong and Pratama (2025) frame the current situation in terms of two converging pressures: internal erosion (as younger generations shift to dominant languages for economic and social reasons) and external invasion (as global lingua francas, particularly English, penetrate local communicative ecosystems through media, commerce, and digital platforms).
Their analysis, drawing on ecological linguistics frameworks, identifies several mechanisms through which digital communication accelerates dialect loss:
Platform homogenization. Social media platforms, search engines, and voice assistants operate in a small number of languages. Users who want to participate in digital life must use those languages, creating strong incentives to shift away from local dialects.
Prestige dynamics. Digital content in global languages carries prestigeโassociation with modernity, education, and cosmopolitanismโthat reinforces the social devaluation of local dialects.
Reduced intergenerational transmission. When children's primary exposure to language comes through screens rather than community interaction, the language transmitted is typically a dominant standard rather than a local variety.
The ecological metaphor suggests that, just as biodiversity conservation requires both habitat preservation (maintaining the conditions in which species thrive) and active intervention (breeding programs, reintroduction), language preservation requires both sociolinguistic conditions (economic viability of dialect use, community pride) and active documentation and revitalization efforts.
Internet Communication as Linguistic Environment
Banevych (2024) examines the flip side: how internet communication itself constitutes a new linguistic environment that shapes language behavior in ways that ecological linguistics can analyze. The paper studies "linguocynicisms"โcynical and subversive language uses in internet communicationโas a feature of the digital communicative ecosystem.
The key observation is that internet communication does not merely reproduce existing language patterns but generates new ones. Memes, hashtags, code-switching between languages in a single message, and platform-specific registers (Twitter brevity, Reddit nested discussion) constitute novel linguistic forms that are subject to their own ecological dynamicsโcompetition for attention, adaptation to platform constraints, and rapid evolution.
This has mixed implications for dialect preservation. On one hand, internet communication further marginalizes dialects that lack digital presence. On the other hand, social media platforms can serve as spaces for dialect useโcommunities that use their dialect online create a digital habitat that was previously unavailable. The question is whether spontaneous digital dialect use constitutes genuine vitality or merely a nostalgia-driven niche.
Fieldwork in the Digital Era
Xu and He (2025) address the practical challenge of documenting low-resource languages in Southern China, where dozens of minority and endangered languages coexist with Mandarin Chinese. Their paper emphasizes the value of interdisciplinary fieldwork that combines traditional linguistic methods (elicitation, recording, transcription) with digital tools (speech recognition, automated annotation, corpus building).
The specific challenges they identify for Southern Chinese minority languages include:
- Tonal complexity: Many languages in the region are tonal, with up to 8+ tone distinctions, making automatic transcription difficult.
- Dialectal fragmentation: What is classified as a single "language" may encompass dialects so different as to be mutually unintelligible, requiring separate documentation efforts.
- Community dynamics: Speaker communities are often small, elderly, and geographically dispersed, making fieldwork logistically challenging.
Their approach emphasizes community involvement: documentation is most effective when community members are trained as field researchers rather than merely serving as informants. This both increases the quantity and quality of data and builds local capacity for ongoing language maintenance.
NLP for Vulnerable Slavic Languages
Tang and Vukoviฤ (2025) present a case study of NLP tool development for Torlak, a vulnerable South Slavic language variety spoken in southeastern Serbia and adjacent areas. Torlak is classified as "vulnerable" rather than "endangered" by UNESCOโmeaning it is still spoken by children in some communities but faces pressure from Serbian standardization.
The study demonstrates both the potential and limitations of applying NLP tools to a language with limited digital resources. Basic tools (tokenizer, lemmatizer, POS tagger) can be built using transfer learning from related high-resource languages (Serbian, Bulgarian), but accuracy degrades for features specific to Torlak (distinctive verbal morphology, archaic case forms).
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Digital platforms accelerate dialect loss through prestige dynamics and homogenization | Inong & Pratama's ecological analysis | โ
Supported โ mechanisms are well-documented in sociolinguistics |
| Internet communication generates novel linguistic forms subject to ecological dynamics | Banevych's analysis of internet language | โ
Supported |
| Community-based digital documentation is more effective than external-led efforts | Xu & He's fieldwork methodology | โ ๏ธ Uncertain โ methodologically sound but not comparatively tested |
| Transfer learning from related languages helps low-resource NLP | Tang & Vukoviฤ's Torlak experiments | โ
Supported โ with limitations for language-specific features |
Open Questions and Future Directions
Digital habitat design: Can platforms be designed to actively support dialect use? Wikipedia editions in minority languages provide one model, but more diverse approaches are needed.Economic incentives: Language preservation ultimately requires economic viability. Can digital tools create economic incentives for dialect useโthrough localized content creation, dialect-based tourism, or heritage industries?Measuring vitality digitally: Can digital traces (social media posts, search queries, video content) serve as indicators of language vitality, complementing traditional survey-based methods?Ethics of documentation: Who owns the data produced by language documentation projects? Community data sovereignty frameworks are emerging but not yet standardized.What This Means for Your Research
For sociolinguists, ecological linguistics offers a productive framework for analyzing the multiple interacting pressures on linguistic diversity in the digital age.
For NLP researchers, vulnerable (not yet endangered) languages like Torlak represent a window of opportunityโtools built now, while speakers are still available, can support preservation efforts that will be impossible later.
Explore related work through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ฌธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
๋์งํธ ์๋์ ์๊ธฐ ๋ฐฉ์ธ: ์ํ์ธ์ดํ์ ๊ด์
์ธ์ด๋ ์กฐ์ฉํ ์ฌ๋ผ์ง์ง ์๋๋ค. ์ธ์ด๋ ๋ฐ๋ ค๋๋คโ๊ฒฝ์ ์ ์ด์ ์ ์ ๊ณตํ๋ ์ง๋ฐฐ ์ธ์ด์ ์ํด, ๊ตญ๊ฐ ํ์ค์ด๋ฅผ ํ์ผํํ๋ ๊ต์ก ์์คํ
์ ์ํด, ์์์ ์ธ๊ณ ์ธ์ด๋ก๋ง ์ด์๋๋ ๋์งํธ ํ๋ซํผ์ ์ํด. ์ํ์ ๋ฉธ์ข
๊ณผ์ ์ ๋น๋ ๋จ์ํ ์์ ์ ๊ทธ์น์ง ์๋๋ค. ์ธ์ด์ ๋ค์์ฑ์ ์๋ฌผํ์ ๋ค์์ฑ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ์ค๋ ์งํ ๊ณผ์ ์ ์ฐ๋ฌผ์ด๋ฉฐ, ๊ทธ ์์ค์ ๋์ดํฌ ์ ์๊ณ ์ค๋ํ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ค. ์ํ์ธ์ดํ์ ์ด ์ ๋น๋ฅผ ์ง์งํ๊ฒ ๋ฐ์๋ค์ฌ, ์ธ์ด์ ๋ฐฉ์ธ์ ์๋ฌผ ์ข
์ ์ง๋ฐฐํ๋ ๊ฒฝ์ยท์ ์ยท๋ฉธ์ข
์ ์๋ ฅ์ ์ข
์๋๋ ์์ฌ์ํต ์ํ๊ณ์ ๊ตฌ์ฑ ์์๋ก ์ทจ๊ธํ๋ค.
์ฐ๊ตฌ ํํฉ
์ธ์ด์ ๋ค์์ฑ์ ๋ํ ์ด์ค ์๋ ฅ
Inong๊ณผ Pratama(2025)๋ ํ์ฌ์ ์ํฉ์ ๋ ๊ฐ์ง ์๋ ดํ๋ ์๋ ฅ์ผ๋ก ํ ์ง์ด๋ค. ํ๋๋ ๋ด๋ถ์ ์นจ์(์ ์ ์ธ๋๊ฐ ๊ฒฝ์ ์ ยท์ฌํ์ ์ด์ ๋ก ์ง๋ฐฐ ์ธ์ด๋ก ์ด๋ํ๋ฉด์ ๋ฐ์ํ๋)์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ์ธ๋ถ์ ์นจ์
(ํนํ ์์ด์ ๊ฐ์ ๊ธ๋ก๋ฒ ๋ง๊ตฌ์ ํ๋์นด๊ฐ ๋ฏธ๋์ด, ์์
, ๋์งํธ ํ๋ซํผ์ ํตํด ์ง์ญ ์์ฌ์ํต ์ํ๊ณ์ ์นจํฌํ๋)์ด๋ค.
์ํ์ธ์ดํ ํ๋ ์์ํฌ๋ฅผ ํ์ฉํ ์ด๋ค์ ๋ถ์์ ๋์งํธ ์ปค๋ฎค๋์ผ์ด์
์ด ๋ฐฉ์ธ ์๋ฉธ์ ๊ฐ์ํํ๋ ์ฌ๋ฌ ๋ฉ์ปค๋์ฆ์ ๊ท๋ช
ํ๋ค.
ํ๋ซํผ ๋์งํ. ์์
๋ฏธ๋์ด ํ๋ซํผ, ๊ฒ์ ์์ง, ์์ฑ ์ด์์คํดํธ๋ ์์์ ์ธ์ด๋ก๋ง ์ด์๋๋ค. ๋์งํธ ์ํ์ ์ฐธ์ฌํ๋ ค๋ ์ด์ฉ์๋ ๊ทธ๋ฌํ ์ธ์ด๋ฅผ ์ฌ์ฉํด์ผ ํ๋ฉฐ, ์ด๋ ์ง์ญ ๋ฐฉ์ธ์์ ๋ฒ์ด๋๋๋ก ๊ฐํ ์ ์ธ์ ํ์ฑํ๋ค.
์์ ์ญํ. ์ธ๊ณ ์ธ์ด๋ก ์ ์๋ ๋์งํธ ์ฝํ
์ธ ๋ ๊ทผ๋์ฑ, ๊ต์ก, ์ธ๊ณ์๋ฏผ์ฃผ์์์ ์ฐ๊ด์ ํตํ ์์ ์ ์ง๋๋ฉฐ, ์ด๋ ์ง์ญ ๋ฐฉ์ธ์ ์ฌํ์ ํ๊ฐ ์ ํ๋ฅผ ๊ฐํํ๋ค.
์ธ๋ ๊ฐ ์ ์น ๊ฐ์. ์๋์ ์ฃผ๋ ์ธ์ด ๋
ธ์ถ์ด ๊ณต๋์ฒด ์ํธ์์ฉ๋ณด๋ค ํ๋ฉด์ ํตํด ์ด๋ฃจ์ด์ง ๋, ์ ๋ฌ๋๋ ์ธ์ด๋ ๋์ฒด๋ก ์ง์ญ ๋ณ์ข
์ด ์๋ ์ง๋ฐฐ์ ํ์ค์ด์ด๋ค.
์ํ์ ์์ ๋ ์๋ฌผ ๋ค์์ฑ ๋ณด์ ์ด ์์์ง ๋ณด์กด(์ข
์ด ๋ฒ์ฑํ๋ ์กฐ๊ฑด ์ ์ง)๊ณผ ์ ๊ทน์ ๊ฐ์
(๋ฒ์ ํ๋ก๊ทธ๋จ, ์ฌ๋์
) ๋ชจ๋๋ฅผ ํ์๋ก ํ๋ฏ, ์ธ์ด ๋ณด์กด ์ญ์ ์ฌํ์ธ์ดํ์ ์กฐ๊ฑด(๋ฐฉ์ธ ์ฌ์ฉ์ ๊ฒฝ์ ์ ์คํ ๊ฐ๋ฅ์ฑ, ๊ณต๋์ฒด์ ์๊ธ์ฌ)๊ณผ ์ ๊ทน์ ์ธ ๊ธฐ๋กยทํ์ฑํ ๋
ธ๋ ฅ ๋ชจ๋๋ฅผ ํ์๋ก ํจ์ ์์ฌํ๋ค.
์ธ์ด ํ๊ฒฝ์ผ๋ก์์ ์ธํฐ๋ท ์ปค๋ฎค๋์ผ์ด์
Banevych(2024)๋ ๋ฐ๋ ์ธก๋ฉด์ ๊ฒํ ํ๋ค. ์ฆ, ์ธํฐ๋ท ์ปค๋ฎค๋์ผ์ด์
์์ฒด๊ฐ ์ํ์ธ์ดํ์ ์ผ๋ก ๋ถ์ ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ์ธ์ด ํ๋์ ํ์ฑํ๋ ์๋ก์ด ์ธ์ด ํ๊ฒฝ์ ๊ตฌ์ฑํ๋ ๋ฐฉ์์ ์ดํด๋ณธ๋ค. ์ด ๋
ผ๋ฌธ์ ๋์งํธ ์์ฌ์ํต ์ํ๊ณ์ ํน์ฑ์ผ๋ก์ ์ธํฐ๋ท ์ปค๋ฎค๋์ผ์ด์
์ ๋ํ๋๋ ๋์์ ์ด๊ณ ์ ๋ณต์ ์ธ ์ธ์ด ์ฌ์ฉ, ์ฆ "linguocynicism"์ ์ฐ๊ตฌํ๋ค.
ํต์ฌ์ ์ธ ๊ด์ฐฐ์ ์ธํฐ๋ท ์ปค๋ฎค๋์ผ์ด์
์ด ๊ธฐ์กด ์ธ์ด ํจํด์ ๋จ์ํ ์ฌํํ๋ ๊ฒ์ด ์๋๋ผ ์๋ก์ด ํจํด์ ์์ฑํ๋ค๋ ์ ์ด๋ค. ๋ฐ, ํด์ํ๊ทธ, ๋จ์ผ ๋ฉ์์ง ๋ด์์์ ์ธ์ด ๊ฐ ์ฝ๋ ์ ํ, ํ๋ซํผ ํน์ ์ ๋ ์ง์คํฐ(Twitter์ ๊ฐ๊ฒฐ์ฑ, Reddit์ ์ค์ฒฉ ํ ๋ก )๋ ์ฃผ๋ชฉ์ ์ํ ๊ฒฝ์, ํ๋ซํผ ์ ์ฝ์ ๋ํ ์ ์, ๋น ๋ฅธ ์งํ ๋ฑ ๊ณ ์ ํ ์ํ์ ์ญํ์ ์ข
์๋๋ ์๋ก์ด ์ธ์ด ํ์์ ๊ตฌ์ฑํ๋ค.
์ด๋ ๋ฐฉ์ธ ๋ณด์กด์ ์์ด ๋ณตํฉ์ ์ธ ํจ์๋ฅผ ์ง๋๋ค. ํํธ์ผ๋ก ์ธํฐ๋ท ์ปค๋ฎค๋์ผ์ด์
์ ๋์งํธ ์กด์ฌ๊ฐ์ด ์๋ ๋ฐฉ์ธ์ ๋์ฑ ์ฃผ๋ณํํ๋ค. ๋ค๋ฅธ ํํธ์ผ๋ก ์์
๋ฏธ๋์ด ํ๋ซํผ์ ๋ฐฉ์ธ ์ฌ์ฉ์ ๊ณต๊ฐ์ผ๋ก ๊ธฐ๋ฅํ ์ ์๋คโ์จ๋ผ์ธ์์ ์์ ์ ๋ฐฉ์ธ์ ์ฌ์ฉํ๋ ๊ณต๋์ฒด๋ ์ด์ ์๋ ์กด์ฌํ์ง ์์๋ ๋์งํธ ์์์ง๋ฅผ ์ฐฝ์ถํ๋ค. ๋ฌธ์ ๋ ์๋ฐ์ ์ธ ๋์งํธ ๋ฐฉ์ธ ์ฌ์ฉ์ด ์ง์ ํ ํ๋ ฅ์ ๊ตฌ์ฑํ๋์ง, ์๋๋ฉด ๋จ์ํ ํฅ์์ ์ํด ์ถ๋๋๋ ํ์๋ฅผ ๊ตฌ์ฑํ๋์ง์ด๋ค.
๋์งํธ ์๋์ ํ์ง ์กฐ์ฌ
Xu์ He(2025)๋ ์ค๊ตญ ๋จ๋ถ ์ง์ญ์ ์ ์์ ์ธ์ด ๋ฌธ์ํ๋ผ๋ ์ค์ฉ์ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ๋๋ฐ, ์ด ์ง์ญ์์๋ ์์ญ ๊ฐ์ ์์ ์ธ์ด ๋ฐ ์๋ฉธ ์๊ธฐ ์ธ์ด๊ฐ ํ์ค ์ค๊ตญ์ด(Mandarin Chinese)์ ๊ณต์กดํ๊ณ ์๋ค. ์ด ๋
ผ๋ฌธ์ ์ ํต์ ์ธ์ดํ ๋ฐฉ๋ฒ๋ก (์ ๋, ๋
น์, ์ ์ฌ)๊ณผ ๋์งํธ ๋๊ตฌ(์์ฑ ์ธ์, ์๋ ์ฃผ์, ์ฝํผ์ค ๊ตฌ์ถ)๋ฅผ ๊ฒฐํฉํ ํ์ ์ ํ์ง ์กฐ์ฌ์ ๊ฐ์น๋ฅผ ๊ฐ์กฐํ๋ค.
์ ์๋ค์ด ์ค๊ตญ ๋จ๋ถ ์์ ์ธ์ด์ ๋ํด ์ง์ ํ๋ ๊ตฌ์ฒด์ ์ธ ๊ณผ์ ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- ์ฑ์กฐ ๋ณต์ก์ฑ: ์ด ์ง์ญ์ ๋ง์ ์ธ์ด๋ ์ฑ์กฐ ์ธ์ด๋ก, ์ต๋ 8๊ฐ ์ด์์ ์ฑ์กฐ ๊ตฌ๋ถ์ ๊ฐ์ง๊ณ ์์ด ์๋ ์ ์ฌ๊ฐ ์ด๋ ต๋ค.
- ๋ฐฉ์ธ์ ๋ถ์ ํ: ํ๋์ "์ธ์ด"๋ก ๋ถ๋ฅ๋๋ ๊ฒ์ด ์ํธ ๊ฐ ์์ฌ์ํต์ด ๋ถ๊ฐ๋ฅํ ์ ๋๋ก ์์ดํ ๋ฐฉ์ธ๋ค์ ํฌ๊ดํ๋ ๊ฒฝ์ฐ๊ฐ ์์ด, ๋ณ๋์ ๋ฌธ์ํ ์์
์ด ํ์ํ๋ค.
- ๊ณต๋์ฒด ์ญํ: ํ์ ๊ณต๋์ฒด๋ ๋๊ฐ ๊ท๋ชจ๊ฐ ์๊ณ , ๊ณ ๋ น์ด๋ฉฐ, ์ง๋ฆฌ์ ์ผ๋ก ๋ถ์ฐ๋์ด ์์ด ํ์ง ์กฐ์ฌ๋ฅผ ์ํํ๋ ๋ฐ ์์ด ๋ฌผ๋ฅ์ ์ด๋ ค์์ด ๋ฐ๋ฅธ๋ค.
์ ์๋ค์ ์ ๊ทผ ๋ฐฉ์์ ๊ณต๋์ฒด ์ฐธ์ฌ๋ฅผ ๊ฐ์กฐํ๋ค. ์ฆ, ๊ณต๋์ฒด ๊ตฌ์ฑ์์ด ๋จ์ํ ์ ๋ณด์ ์ญํ ์ ๊ทธ์น์ง ์๊ณ ํ์ฅ ์ฐ๊ตฌ์๋ก ํ๋ จ๋ ๋ ๋ฌธ์ํ๊ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ด๋ค. ์ด๋ ๋ฐ์ดํฐ์ ์๊ณผ ์ง์ ๋ชจ๋ ํฅ์์ํค๋ ๋์์, ์ง์์ ์ธ ์ธ์ด ์ ์ง๋ฅผ ์ํ ์ง์ญ ์ญ๋์ ๊ตฌ์ถํ๋ค.
์ทจ์ฝ ์ฌ๋ผ๋ธ์ด์ ๋ํ NLP
Tang๊ณผ Vukoviฤ(2025)๋ ์ธ๋ฅด๋น์ ๋จ๋๋ถ ๋ฐ ์ธ์ ์ง์ญ์์ ์ฌ์ฉ๋๋ ์ทจ์ฝ ๋จ์ฌ๋ผ๋ธ์ด ๋ณ์ข
์ธ Torlak์ ๋ํ NLP ๋๊ตฌ ๊ฐ๋ฐ ์ฌ๋ก ์ฐ๊ตฌ๋ฅผ ์ ์ํ๋ค. Torlak์ UNESCO์ ์ํด "์๋ฉธ ์๊ธฐ(endangered)"๊ฐ ์๋ "์ทจ์ฝ(vulnerable)" ์ธ์ด๋ก ๋ถ๋ฅ๋๋๋ฐ, ์ด๋ ์ผ๋ถ ๊ณต๋์ฒด์์ ์ฌ์ ํ ์์ด๋ค์ด ์ฌ์ฉํ๊ณ ์์ผ๋ ์ธ๋ฅด๋น์์ด ํ์คํ์ ์๋ฐ์ ์ง๋ฉดํด ์์์ ์๋ฏธํ๋ค.
์ด ์ฐ๊ตฌ๋ ์ ํ๋ ๋์งํธ ์์์ ๊ฐ์ง ์ธ์ด์ NLP ๋๊ตฌ๋ฅผ ์ ์ฉํ ๋์ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋์์ ๋ณด์ฌ์ค๋ค. ๊ธฐ๋ณธ ๋๊ตฌ(ํ ํฌ๋์ด์ , ์ํ ๋ณต์๊ธฐ, ํ์ฌ ํ๊ฑฐ)๋ ๊ด๋ จ ๊ณ ์์ ์ธ์ด(์ธ๋ฅด๋น์์ด, ๋ถ๊ฐ๋ฆฌ์์ด)๋ก๋ถํฐ์ ์ ์ด ํ์ต์ ํ์ฉํ์ฌ ๊ตฌ์ถํ ์ ์์ง๋ง, Torlak์ ํนํ๋ ํน์ฑ(๋
ํนํ ๋์ฌ ํํ๋ก , ๊ณ ์ด์ ๊ฒฉ ํ์)์ ๋ํด์๋ ์ ํ๋๊ฐ ์ ํ๋๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ๋์งํธ ํ๋ซํผ์ ์์ ์ญํ๊ณผ ๋์งํ๋ฅผ ํตํด ๋ฐฉ์ธ ์๋ฉธ์ ๊ฐ์ํํ๋ค | Inong & Pratama์ ์ํํ์ ๋ถ์ | โ
์ง์ง๋จ โ ๋ฉ์ปค๋์ฆ์ด ์ฌํ์ธ์ดํ์์ ์ ๋ฌธ์ํ๋์ด ์์ |
| ์ธํฐ๋ท ์ปค๋ฎค๋์ผ์ด์
์ ์ํํ์ ์ญํ์ ๋์์ด ๋๋ ์๋ก์ด ์ธ์ด ํ์์ ์์ฑํ๋ค | Banevych์ ์ธํฐ๋ท ์ธ์ด ๋ถ์ | โ
์ง์ง๋จ |
| ๊ณต๋์ฒด ์ฃผ๋์ ๋์งํธ ๋ฌธ์ํ๋ ์ธ๋ถ ์ฃผ๋ ๋ฐฉ์๋ณด๋ค ํจ๊ณผ์ ์ด๋ค | Xu & He์ ํ์ง ์กฐ์ฌ ๋ฐฉ๋ฒ๋ก | โ ๏ธ ๋ถํ์ค โ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก๋ ํ๋นํ๋ ๋น๊ต ๊ฒ์ฆ๋์ง ์์ |
| ๊ด๋ จ ์ธ์ด๋ก๋ถํฐ์ ์ ์ด ํ์ต์ด ์ ์์ NLP์ ๋์์ด ๋๋ค | Tang & Vukoviฤ์ Torlak ์คํ | โ
์ง์ง๋จ โ ์ธ์ด ํน์ ์ ํน์ฑ์ ๋ํด์๋ ํ๊ณ๊ฐ ์์ |
๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฐ ํฅํ ๋ฐฉํฅ
๋์งํธ ์์์ง ์ค๊ณ: ๋ฐฉ์ธ ์ฌ์ฉ์ ๋ฅ๋์ ์ผ๋ก ์ง์ํ๋๋ก ํ๋ซํผ์ ์ค๊ณํ ์ ์๋๊ฐ? ์์ ์ธ์ด๋ก ์ด์๋๋ Wikipedia ํ์ด ํ๋์ ๋ชจ๋ธ์ ์ ๊ณตํ์ง๋ง, ๋ณด๋ค ๋ค์ํ ์ ๊ทผ ๋ฐฉ์์ด ํ์ํ๋ค.๊ฒฝ์ ์ ์ธ์ผํฐ๋ธ: ์ธ์ด ๋ณด์กด์ ๊ถ๊ทน์ ์ผ๋ก ๊ฒฝ์ ์ ์์กด ๊ฐ๋ฅ์ฑ์ ํ์๋ก ํ๋ค. ์ง์ญํ๋ ์ฝํ
์ธ ์ฐฝ์, ๋ฐฉ์ธ ๊ธฐ๋ฐ ๊ด๊ด, ๋๋ ๋ฌธํ์ ์ฐ ์ฐ์
์ ํตํด ๋์งํธ ๋๊ตฌ๊ฐ ๋ฐฉ์ธ ์ฌ์ฉ์ ๋ํ ๊ฒฝ์ ์ ์ธ์ผํฐ๋ธ๋ฅผ ์ฐฝ์ถํ ์ ์๋๊ฐ?๋์งํธ ๋ฐฉ์์ ํ๋ ฅ ์ธก์ : ๋์งํธ ํ์ (์์
๋ฏธ๋์ด ๊ฒ์๋ฌผ, ๊ฒ์ ์ฟผ๋ฆฌ, ๋์์ ์ฝํ
์ธ )์ด ์ ํต์ ์ธ ์ค๋ฌธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ณด์ํ๋ ์ธ์ด ํ๋ ฅ ์งํ๋ก ๊ธฐ๋ฅํ ์ ์๋๊ฐ?๋ฌธ์ํ์ ์ค๋ฆฌ: ์ธ์ด ๋ฌธ์ํ ํ๋ก์ ํธ์์ ์์ฐ๋ ๋ฐ์ดํฐ๋ ๋๊ตฌ์ ์์ ์ธ๊ฐ? ๊ณต๋์ฒด ๋ฐ์ดํฐ ์ฃผ๊ถ ํ๋ ์์ํฌ๊ฐ ๋ฑ์ฅํ๊ณ ์์ผ๋ ์์ง ํ์คํ๋์ง ์์๋ค.์ฐ๊ตฌ์ ๋ํ ํจ์
์ฌํ์ธ์ดํ์๋ค์๊ฒ ์์ด, ์ํ์ธ์ดํ์ ๋์งํธ ์๋ ์ธ์ด ๋ค์์ฑ์ ์์ฉํ๋ ๋ณต์์ ์ํธ์์ฉ ์๋ ฅ์ ๋ถ์ํ๊ธฐ ์ํ ์์ฐ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
NLP ์ฐ๊ตฌ์๋ค์๊ฒ Torlak๊ณผ ๊ฐ์ ์ทจ์ฝ(์์ง ์๊ธฐ์ ์ฒํ์ง๋ ์์) ์ธ์ด๋ ๊ธฐํ์ ์ฐฝ์ ๋ํ๋ธ๋คโํ์๊ฐ ์ฌ์ ํ ์กด์ฌํ๋ ์ง๊ธ ๊ตฌ์ถ๋ ๋๊ตฌ๋ค์ ๋์ค์๋ ๋ถ๊ฐ๋ฅํด์ง ๋ณด์กด ๋
ธ๋ ฅ์ ์ง์ํ ์ ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (4)
[1] Inong, T. & Pratama, R. (2025). Endangered Dialects, Language Invasion, and the Protection of "Species" in the Digital Age.
[2] Banevych, M. (2024). ECOLINGUISTIC REVIEW OF THE INTERNET LINGUOCYNICISMS. Naukovi Innovatsiyi, 24(1-2).
[3] Xu, Z. & He, Y. (2025). Documentation of Low-Resource Languages in Southern China in the Digital Era๏ผInterdisciplinary Fieldwork, Practice, and Values. ICONELS Proceedings, 2(1).
[4] Tang, L. & Vukoviฤ, T. (2025). NLP for preserving Torlak, a vulnerable low-resource Slavic language. [Preprint].