Trend AnalysisLinguistics & NLP
Sentiment Analysis Beyond English: Measuring Emotion Across the World's Languages
Sentiment analysis research has been dominated by English, but emotions are expressed differently across languages. New frameworks for South African, South Asian, and code-mixed languages are expanding the frontier.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Sentiment analysis, the computational detection of opinions, emotions, and attitudes in text, is one of NLP's most commercially important applications, driving everything from brand monitoring to political polling to mental health screening. But the field's empirical foundation is radically skewed: the vast majority of sentiment analysis research, training data, and deployed systems target English. This monolingual bias creates a compound problem. First, sentiment analysis tools fail for billions of non-English speakers. Second, the theoretical assumptions embedded in English-centric approaches, including the sentiment lexicon, the polarity scale, and even the granularity of emotion categories, may not transfer across languages and cultures where emotions are categorized, expressed, and communicated differently.
Why It Matters
Consider a global brand monitoring sentiment about a product launch across 50 markets. English sentiment analysis might achieve 88% accuracy; Hindi, 72%; Swahili, 55%; Zulu, unmeasurable due to lack of tools. The business impact is clear: decision-makers see an accurate picture in some markets and a distorted or absent picture in others, systematically privileging the perspectives of English-speaking consumers. The same pattern applies to political sentiment tracking, public health monitoring, and crisis response. The linguistic communities most likely to be underserved by sentiment analysis are often those most in need of having their voices heard.
The theoretical dimension is equally important. Emotion expression varies profoundly across languages. Japanese encodes speaker affect grammatically through sentence-final particles. Arabic uses morphological patterns to express emotional intensity. Many African languages use tonal variation to convey attitude. Sentiment analysis systems that treat emotion as a simple positive-negative polarity miss the linguistic richness of how affect is actually communicated.
The Science
Adaptive Pretraining for Low-Resource Sentiment
Raychawdhary et al. (2024) address the resource imbalance head-on with a method combining adaptive pretraining and strategic language selection for multilingual sentiment analysis across twelve African languages, including Hausa, Yoruba, Igbo, and Swahili. The key insight is that not all languages are equally useful for cross-lingual transfer: strategically selecting which languages to include in pretraining based on their typological and genealogical relationship to the target low-resource language significantly improves transfer performance. For African languages, this means that closely related languages within the same family (e.g., other Niger-Congo languages for Yoruba) provide stronger transfer than typologically distant high-resource languages. This finding suggests that cross-lingual sentiment transfer is not language-agnostic but follows the contours of language family relationships and shared cultural contexts of emotional expression.
Retrieval-Augmented Sentiment Lexicons
Nkongolo et al. (2025) present TriLex, a three-stage retrieval-augmented framework for building sentiment analysis systems for low-resource South African languages. The framework combines corpus-based extraction (mining sentiment-bearing words from available text), cross-lingual projection (transferring sentiment labels from English to target languages via translation), and retrieval-augmented enrichment (using LLMs to expand and validate the lexicon). Applied to three South African languages, the framework demonstrates that retrieval augmentation can compensate for data scarcity by leveraging the broad knowledge encoded in multilingual LLMs while maintaining language-specific accuracy through corpus-based validation. The approach is particularly noteworthy for its attention to cultural specificity: sentiment lexicons are not simply translated but adapted to reflect the emotional connotations specific to each language community.
Code-Mixed Sentiment Analysis
Nazir et al. (2025) tackle the especially challenging case of sentiment analysis on code-mixed text in low-resource languages, where speakers alternate between languages (e.g., Urdu-English or Hindi-English) within single messages. Standard sentiment analysis fails spectacularly on code-mixed text because sentiment-bearing words may come from either language, negation patterns may cross language boundaries, and the emotional register of code-switching itself carries sentiment information. Their multilingual transformer approach fine-tunes on code-mixed datasets, learning to process mixed-language sentiment in an integrated way rather than decomposing the text into monolingual segments. The results show that code-mixed sentiment analysis requires dedicated models; multilingual models trained only on monolingual data in each language do not automatically handle the mixed case.
Addressing Class Imbalance in Bengali
Yousuf et al. (2025) address a pervasive methodological problem: class imbalance in sentiment datasets. In Bengali social media data, positive sentiments vastly outnumber negative ones, causing classifiers to learn a positive-by-default strategy. Their comparative study of BanglaBERT (a Bengali-specific model) and multilingual BERT reveals that language-specific pretraining provides an edge over multilingual models, particularly for the minority sentiment classes that matter most for applications like complaint detection and crisis monitoring. The study demonstrates that the choice between monolingual and multilingual models involves tradeoffs between language coverage and language-specific accuracy that depend on the application context.
Multilingual Sentiment Analysis Resource Landscape
<
| Language Group | Available Resources | Best Approach | Accuracy Gap vs English |
|---|
| Major European (DE, FR, ES) | Extensive corpora + lexicons | Fine-tuned monolingual models | 3-5% lower |
| Major Asian (ZH, JA, KO) | Moderate corpora, growing | Multilingual + domain adaptation | 5-10% lower |
| South Asian (HI, BN, UR) | Limited corpora, code-mixing prevalent | Multilingual transformers + code-mixed training | 10-20% lower |
| African languages (ZU, XH, SW) | Minimal, emerging | Retrieval-augmented + cross-lingual transfer | 20-35% lower |
| Code-mixed varieties | Very limited | Dedicated code-mixed models | 15-25% lower |
What To Watch
The democratization of sentiment analysis across languages will likely come from two converging trends: massively multilingual LLMs that provide a baseline for any language they have seen in training, and community-driven annotation efforts that create the language-specific evaluation data needed to measure and improve performance. The theoretical frontier involves moving beyond polarity (positive/negative) to fine-grained emotion detection across languages, a task that requires engaging with cultural psychology's research on whether emotion categories are universal or culturally constructed. The answer, almost certainly, is "both, in complex ways," and building sentiment analysis systems that respect this complexity is the field's next grand challenge.
Discover related work using ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ๋
ผ๋ฌธ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ํ์ธํด์ผ ํ๋ค.
์์ด๋ฅผ ๋์ด์ ๊ฐ์ฑ ๋ถ์: ์ธ๊ณ ์ธ์ด์ ๊ฑธ์น ๊ฐ์ ์ธก์
๊ฐ์ฑ ๋ถ์์ ํ
์คํธ์์ ์๊ฒฌ, ๊ฐ์ , ํ๋๋ฅผ ๊ณ์ฐ์ ์ผ๋ก ๊ฐ์งํ๋ ๊ธฐ์ ๋ก, NLP์์ ์์
์ ์ผ๋ก ๊ฐ์ฅ ์ค์ํ ์์ฉ ๋ถ์ผ ์ค ํ๋์ด๋ค. ๋ธ๋๋ ๋ชจ๋ํฐ๋ง๋ถํฐ ์ ์น ์ฌ๋ก ์กฐ์ฌ, ์ ์ ๊ฑด๊ฐ ๊ฒ์ง์ ์ด๋ฅด๊ธฐ๊น์ง ๋ค์ํ ๋ถ์ผ๋ฅผ ์ด๋๊ณ ์๋ค. ๊ทธ๋ฌ๋ ์ด ๋ถ์ผ์ ๊ฒฝํ์ ํ ๋๋ ์ฌ๊ฐํ๊ฒ ํธํฅ๋์ด ์๋ค. ๊ฐ์ฑ ๋ถ์ ์ฐ๊ตฌ, ํ๋ จ ๋ฐ์ดํฐ, ๋ฐฐํฌ๋ ์์คํ
์ ๋๋ค์๊ฐ ์์ด๋ฅผ ๋์์ผ๋ก ํ๋ค. ์ด๋ฌํ ๋จ์ผ ์ธ์ด ํธํฅ์ ๋ณตํฉ์ ์ธ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ์ฒซ์งธ, ๊ฐ์ฑ ๋ถ์ ๋๊ตฌ๊ฐ ์์ญ์ต ๋ช
์ ๋น์์ด๊ถ ์ฌ์ฉ์์๊ฒ ์ ๋๋ก ์๋ํ์ง ์๋๋ค. ๋์งธ, ๊ฐ์ฑ ์ดํ ๋ชฉ๋ก, ๊ทน์ฑ ์ฒ๋, ์ฌ์ง์ด ๊ฐ์ ๋ฒ์ฃผ์ ์ธ๋ถํ ๋ฐฉ์์ ํฌํจํ์ฌ ์์ด ์ค์ฌ์ ์ ๊ทผ ๋ฐฉ์์ ๋ด์ฌ๋ ์ด๋ก ์ ๊ฐ์ ๋ค์ด ๊ฐ์ ์ ์๋ก ๋ค๋ฅด๊ฒ ๋ฒ์ฃผํํ๊ณ , ํํํ๋ฉฐ, ์ ๋ฌํ๋ ์ธ์ด์ ๋ฌธํ์ ๊ฑธ์ณ ์ ์ด๋์ง ์์ ์ ์๋ค.
์ ์ค์ํ๊ฐ
50๊ฐ ์์ฅ์ ๊ฑธ์ณ ์ ํ ์ถ์์ ๋ํ ๊ฐ์ฑ์ ๋ชจ๋ํฐ๋งํ๋ ๊ธ๋ก๋ฒ ๋ธ๋๋๋ฅผ ์๊ฐํด ๋ณด์. ์์ด ๊ฐ์ฑ ๋ถ์์ 88%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ์ ์์ง๋ง, ํ๋์ด๋ 72%, ์ค์ํ๋ฆฌ์ด๋ 55%, ์ค๋ฃจ์ด๋ ๋๊ตฌ์ ๋ถ์ฌ๋ก ์ธก์ ์์ฒด๊ฐ ๋ถ๊ฐ๋ฅํ ์ ์๋ค. ๋น์ฆ๋์ค์ ์ํฅ์ ๋ช
ํํ๋ค. ์์ฌ ๊ฒฐ์ ์๋ค์ ์ผ๋ถ ์์ฅ์์๋ ์ ํํ ์ํฉ์ ํ์
ํ์ง๋ง, ๋ค๋ฅธ ์์ฅ์์๋ ์๊ณก๋๊ฑฐ๋ ๋ถ์ฌํ ์ ๋ณด๋ฅผ ์ ํ๊ฒ ๋์ด, ์ฒด๊ณ์ ์ผ๋ก ์์ด๊ถ ์๋น์์ ๊ด์ ์ด ์ฐ์ ์๋๋ค. ๋์ผํ ํจํด์ด ์ ์น ๊ฐ์ฑ ์ถ์ , ๊ณต์ค ๋ณด๊ฑด ๋ชจ๋ํฐ๋ง, ์๊ธฐ ๋์์๋ ์ ์ฉ๋๋ค. ๊ฐ์ฑ ๋ถ์์ ํํ์ ๊ฐ์ฅ ๋ฐ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ธ์ด ๊ณต๋์ฒด๋ ํํ ์์ ๋ค์ ๋ชฉ์๋ฆฌ๊ฐ ๊ฐ์ฅ ์ ์คํ ๋ฐ์๋์ด์ผ ํ๋ ๊ณต๋์ฒด์ด๊ธฐ๋ ํ๋ค.
์ด๋ก ์ ์ฐจ์๋ ๋๊ฐ์ด ์ค์ํ๋ค. ๊ฐ์ ํํ์ ์ธ์ด๋ง๋ค ํฌ๊ฒ ๋ค๋ฅด๋ค. ์ผ๋ณธ์ด๋ ๋ฌธ๋ง ์กฐ์ฌ๋ฅผ ํตํด ํ์์ ๊ฐ์ ์ ๋ฌธ๋ฒ์ ์ผ๋ก ๋ถํธํํ๋ค. ์๋์ด๋ ํํ๋ก ์ ํจํด์ ์ฌ์ฉํ์ฌ ๊ฐ์ ์ ๊ฐ๋๋ฅผ ํํํ๋ค. ๋ง์ ์ํ๋ฆฌ์นด ์ธ์ด๋ค์ ์ฑ์กฐ ๋ณ์ด๋ฅผ ํตํด ํ๋๋ฅผ ์ ๋ฌํ๋ค. ๊ฐ์ ์ ๋จ์ํ ๊ธ์ -๋ถ์ ๊ทน์ฑ์ผ๋ก ์ทจ๊ธํ๋ ๊ฐ์ฑ ๋ถ์ ์์คํ
์ ๊ฐ์ ์ด ์ค์ ๋ก ์ ๋ฌ๋๋ ๋ฐฉ์์ ๋ด๊ธด ์ธ์ด์ ํ๋ถํจ์ ๋์น๊ฒ ๋๋ค.
๊ณผํ์ ์ฐ๊ตฌ
์ ์์ ๊ฐ์ฑ ๋ถ์์ ์ํ ์ ์ํ ์ฌ์ ํ๋ จ
Raychawdhary et al. (2024)์ ์ ์ํ ์ฌ์ ํ๋ จ๊ณผ ์ ๋ต์ ์ธ์ด ์ ํ์ ๊ฒฐํฉํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ฐ์ฌ์ด, ์๋ฃจ๋ฐ์ด, ์ด๊ทธ๋ณด์ด, ์ค์ํ๋ฆฌ์ด๋ฅผ ํฌํจํ 12๊ฐ ์ํ๋ฆฌ์นด ์ธ์ด์ ๊ฑธ์น ๋ค๊ตญ์ด ๊ฐ์ฑ ๋ถ์์ ์์ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฌ๋ค. ํต์ฌ ํต์ฐฐ์ ๊ต์ฐจ ์ธ์ด ์ ์ด์ ์์ด ๋ชจ๋ ์ธ์ด๊ฐ ๋๋ฑํ๊ฒ ์ ์ฉํ์ง ์๋ค๋ ์ ์ด๋ค. ์ฆ, ๋์ ์ ์์ ์ธ์ด์์ ์ ํ๋ก ์ ยท๊ณํต์ ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ ํ๋ จ์ ํฌํจํ ์ธ์ด๋ฅผ ์ ๋ต์ ์ผ๋ก ์ ํํ๋ฉด ์ ์ด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ค. ์ํ๋ฆฌ์นด ์ธ์ด์ ๊ฒฝ์ฐ, ๋์ผ ์ด์กฑ ๋ด์์ ๊ทผ์ ํ๊ฒ ๊ด๋ จ๋ ์ธ์ด๋ค(์: ์๋ฃจ๋ฐ์ด์ ๋ํ ๋ค๋ฅธ ๋์ ๋ฅด-์ฝฉ๊ณ ์ด์กฑ ์ธ์ด๋ค)์ด ์ ํ๋ก ์ ์ผ๋ก ๊ฑฐ๋ฆฌ๊ฐ ๋จผ ๊ณ ์์ ์ธ์ด๋ค๋ณด๋ค ๋ ๊ฐํ ์ ์ด๋ฅผ ์ ๊ณตํ๋ค. ์ด ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ๊ต์ฐจ ์ธ์ด ๊ฐ์ฑ ์ ์ด๊ฐ ์ธ์ด์ ๋ฌด๊ดํ ๊ฒ์ด ์๋๋ผ ์ด์กฑ ๊ด๊ณ์ ์ค๊ณฝ๊ณผ ๊ฐ์ ํํ์ ๊ณต์ ๋ ๋ฌธํ์ ๋งฅ๋ฝ์ ๋ฐ๋ฅธ๋ค๋ ์ ์ ์์ฌํ๋ค.
๊ฒ์ ์ฆ๊ฐ ๊ฐ์ฑ ์ดํ ๋ชฉ๋ก
Nkongolo et al. (2025)์ ์์์ด ๋ถ์กฑํ ๋จ์ํ๋ฆฌ์นด ์ธ์ด๋ฅผ ์ํ ๊ฐ์ฑ ๋ถ์ ์์คํ
๊ตฌ์ถ์ ์ํ 3๋จ๊ณ ๊ฒ์ ์ฆ๊ฐ ํ๋ ์์ํฌ์ธ TriLex๋ฅผ ์ ์ํ๋ค. ์ด ํ๋ ์์ํฌ๋ ์ฝํผ์ค ๊ธฐ๋ฐ ์ถ์ถ(๊ฐ์ฉ ํ
์คํธ์์ ๊ฐ์ฑ ํจ์ ๋จ์ด ์ฑ๊ตด), ๊ต์ฐจ ์ธ์ด ํฌ์(๋ฒ์ญ์ ํตํด ์์ด์์ ๋์ ์ธ์ด๋ก ๊ฐ์ฑ ๋ ์ด๋ธ ์ ์ด), ๊ฒ์ ์ฆ๊ฐ ๊ฐํ(LLM์ ํ์ฉํ ์ดํ ํ์ฅ ๋ฐ ๊ฒ์ฆ)๋ฅผ ๊ฒฐํฉํ๋ค. ์ธ ๊ฐ์ง ๋จ์ํ๋ฆฌ์นด ์ธ์ด์ ์ ์ฉ๋ ์ด ํ๋ ์์ํฌ๋ ์ฝํผ์ค ๊ธฐ๋ฐ ๊ฒ์ฆ์ ํตํด ์ธ์ด ํนํ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๋ค๊ตญ์ด LLM์ ์ธ์ฝ๋ฉ๋ ํญ๋์ ์ง์์ ํ์ฉํจ์ผ๋ก์จ ๊ฒ์ ์ฆ๊ฐ์ด ๋ฐ์ดํฐ ๋ถ์กฑ์ ๋ณด์ํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋ฌธํ์ ํน์์ฑ์ ๋ํ ๊ณ ๋ ค์์ ํนํ ์ฃผ๋ชฉํ ๋งํ๋ฐ, ๊ฐ์ฑ ์ดํ ๋ชฉ๋ก์ด ๋จ์ํ ๋ฒ์ญ๋๋ ๊ฒ์ด ์๋๋ผ ๊ฐ ์ธ์ด ๊ณต๋์ฒด์ ํน์ ํ ์ ์์ ํจ์ถ์ ๋ฐ์ํ๋๋ก ์ ์๋๋ค.
์ฝ๋ ํผ์ฉ ๊ฐ์ฑ ๋ถ์
Nazir et al. (2025)์ ์์์ด ๋ถ์กฑํ ์ธ์ด์ ์ฝ๋ ํผ์ฉ ํ
์คํธ์ ๋ํ ๊ฐ์ฑ ๋ถ์์ด๋ผ๋ ํนํ ์ด๋ ค์ด ์ฌ๋ก๋ฅผ ๋ค๋ฃจ๋๋ฐ, ์ฌ๊ธฐ์ ํ์๋ค์ ๋จ์ผ ๋ฉ์์ง ๋ด์์ ์ธ์ด๋ฅผ ๊ต์ฒดํ๋ค(์: Urdu-English ๋๋ Hindi-English). ํ์ค ๊ฐ์ฑ ๋ถ์์ ์ฝ๋ ํผ์ฉ ํ
์คํธ์์ ํ์ ํ ์คํจํ๋๋ฐ, ๊ทธ ์ด์ ๋ ๊ฐ์ฑ ํจ์ ๋จ์ด๊ฐ ์ด๋ ์ชฝ ์ธ์ด์์๋ ๋ํ๋ ์ ์๊ณ , ๋ถ์ ํจํด์ด ์ธ์ด ๊ฒฝ๊ณ๋ฅผ ๋์ ์ ์์ผ๋ฉฐ, ์ฝ๋ ์ ํ ์์ฒด์ ์ ์์ ์ด์กฐ๊ฐ ๊ฐ์ฑ ์ ๋ณด๋ฅผ ๋ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ค์ ๋ค๊ตญ์ด ํธ๋์คํฌ๋จธ ์ ๊ทผ๋ฒ์ ์ฝ๋ ํผ์ฉ ๋ฐ์ดํฐ์
์ ๋ํด ํ์ธํ๋์ ์ํํ์ฌ, ํ
์คํธ๋ฅผ ๋จ์ผ ์ธ์ด ์ธ๊ทธ๋จผํธ๋ก ๋ถํดํ๋ ๋์ ํตํฉ์ ์ธ ๋ฐฉ์์ผ๋ก ํผํฉ ์ธ์ด ๊ฐ์ฑ์ ์ฒ๋ฆฌํ๋๋ก ํ์ตํ๋ค. ๊ฒฐ๊ณผ๋ ์ฝ๋ ํผ์ฉ ๊ฐ์ฑ ๋ถ์์ ์ ์ฉ ๋ชจ๋ธ์ด ํ์ํจ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ๊ฐ ์ธ์ด์ ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จ๋ ๋ค๊ตญ์ด ๋ชจ๋ธ์ ํผํฉ ์ฌ๋ก๋ฅผ ์๋์ผ๋ก ์ฒ๋ฆฌํ์ง ๋ชปํ๋ค.
๋ฒต๊ณจ์ด์ ํด๋์ค ๋ถ๊ท ํ ํด๊ฒฐ
Yousuf et al. (2025)์ ๊ฐ์ฑ ๋ฐ์ดํฐ์
์ ํด๋์ค ๋ถ๊ท ํ์ด๋ผ๋ ๋ง์ฐํ ๋ฐฉ๋ฒ๋ก ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ๋ฒต๊ณจ์ด ์์
๋ฏธ๋์ด ๋ฐ์ดํฐ์์๋ ๊ธ์ ๊ฐ์ฑ์ด ๋ถ์ ๊ฐ์ฑ๋ณด๋ค ์๋์ ์ผ๋ก ๋ง์, ๋ถ๋ฅ๊ธฐ๊ฐ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ธ์ ์ผ๋ก ํ๋จํ๋ ์ ๋ต์ ํ์ตํ๊ฒ ๋๋ค. BanglaBERT(๋ฒต๊ณจ์ด ํนํ ๋ชจ๋ธ)์ ๋ค๊ตญ์ด BERT์ ๋ํ ๋น๊ต ์ฐ๊ตฌ๋ ์ธ์ด ํนํ ์ฌ์ ํ๋ จ์ด ๋ค๊ตญ์ด ๋ชจ๋ธ๋ณด๋ค ์ฐ์๋ฅผ ์ ๊ณตํจ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ํนํ ๋ถ๋ง ๊ฐ์ง ๋ฐ ์๊ธฐ ๋ชจ๋ํฐ๋ง๊ณผ ๊ฐ์ ์์ฉ์์ ๊ฐ์ฅ ์ค์ํ ์์ ๊ฐ์ฑ ํด๋์ค์์ ๋๋๋ฌ์ง๋ค. ์ด ์ฐ๊ตฌ๋ ๋จ์ผ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋ค๊ตญ์ด ๋ชจ๋ธ ์ฌ์ด์ ์ ํ์ด ์์ฉ ๋งฅ๋ฝ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ์ธ์ด ์ปค๋ฒ๋ฆฌ์ง์ ์ธ์ด ํนํ ์ ํ๋ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ฅผ ์๋ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๋ค๊ตญ์ด ๊ฐ์ฑ ๋ถ์ ์์ ํํฉ
<
| ์ธ์ด ๊ทธ๋ฃน | ๊ฐ์ฉ ์์ | ์ต์ ์ ๊ทผ๋ฒ | ์์ด ๋๋น ์ ํ๋ ๊ฒฉ์ฐจ |
|---|
| ์ฃผ์ ์ ๋ฝ์ด (DE, FR, ES) | ๊ด๋ฒ์ํ ์ฝํผ์ค + ์ดํ ๋ชฉ๋ก | ํ์ธํ๋๋ ๋จ์ผ ์ธ์ด ๋ชจ๋ธ | 3-5% ๋ฎ์ |
| ์ฃผ์ ์์์์ด (ZH, JA, KO) | ์ค๊ฐ ๊ท๋ชจ ์ฝํผ์ค, ์ฑ์ฅ ์ค | ๋ค๊ตญ์ด + ๋๋ฉ์ธ ์ ์ | 5-10% ๋ฎ์ |
| ๋จ์์์์ด (HI, BN, UR) | ์ ํ๋ ์ฝํผ์ค, ์ฝ๋ ํผ์ฉ ๋ง์ฐ | ๋ค๊ตญ์ด ํธ๋์คํฌ๋จธ + ์ฝ๋ ํผ์ฉ ํ๋ จ | 10-20% ๋ฎ์ |
| ์ํ๋ฆฌ์นด ์ธ์ด (ZU, XH, SW) | ์ต์ํ, ๋ฐ์ ์ค | ๊ฒ์ ์ฆ๊ฐ + ๊ต์ฐจ ์ธ์ด ์ ์ด | 20-35% ๋ฎ์ |
| ์ฝ๋ ํผ์ฉ ๋ณ์ข
| ๋งค์ฐ ์ ํ์ | ์ ์ฉ ์ฝ๋ ํผ์ฉ ๋ชจ๋ธ | 15-25% ๋ฎ์ |
์ฃผ๋ชฉํ ์ฌํญ
์ธ์ด ์ ๋ฐ์ ๊ฑธ์น ๊ฐ์ฑ ๋ถ์์ ๋ฏผ์ฃผํ๋ ๋ ๊ฐ์ง ์๋ ดํ๋ ํ๋ฆ์ผ๋ก๋ถํฐ ๋น๋กฏ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ํ๋๋ ํ์ต ๊ณผ์ ์์ ์ ํ ๋ชจ๋ ์ธ์ด์ ๋ํ ๊ธฐ์ค์ ์ ์ ๊ณตํ๋ ๋๊ท๋ชจ ๋ค๊ตญ์ด LLM์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ์ฑ๋ฅ์ ์ธก์ ํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ํ์ํ ์ธ์ด๋ณ ํ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์ปค๋ฎค๋ํฐ ์ฃผ๋์ ์ด๋
ธํ
์ด์
ํ๋์ด๋ค. ์ด๋ก ์ ์ต์ ์ ์์๋ ๊ทน์ฑ(๊ธ์ /๋ถ์ )์ ๋์ด ์ธ์ด ์ ๋ฐ์ ๊ฑธ์น ์ธ๋ฐํ ๊ฐ์ ํ์ง๋ก ๋์๊ฐ๋ ์์
์ด ์งํ ์ค์ด๋ฉฐ, ์ด๋ ๊ฐ์ ๋ฒ์ฃผ๊ฐ ๋ณดํธ์ ์ธ์ง ํน์ ๋ฌธํ์ ์ผ๋ก ๊ตฌ์ฑ๋๋์ง์ ๊ดํ ๋ฌธํ์ฌ๋ฆฌํ ์ฐ๊ตฌ์ ๋ง๋ฟ์ ์๋ ๊ณผ์ ์ด๋ค. ๊ทธ ๋ต์ ๊ฑฐ์ ํ์คํ๊ฒ "๋ณต์กํ ๋ฐฉ์์ผ๋ก ๋ ๋ค"์ผ ๊ฒ์ด๋ฉฐ, ์ด๋ฌํ ๋ณต์ก์ฑ์ ์กด์คํ๋ ๊ฐ์ฑ ๋ถ์ ์์คํ
์ ๊ตฌ์ถํ๋ ๊ฒ์ด ์ด ๋ถ์ผ์ ๋ค์ ๊ฑฐ๋ํ ๋์ ๊ณผ์ ์ด๋ค.
ORAA ResearchBrain์ ์ฌ์ฉํ์ฌ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ์ํด๋ณด์ธ์.
References (4)
[1] Raychawdhary, N., Das, A., & Bhattacharya, S. (2024). Optimizing Multilingual Sentiment Analysis in Low-Resource Languages with Adaptive Pretraining and Strategic Language Selection. Proc. ICMI 2024, IEEE.
[2] Nkongolo, M., Vorster, H., & Warren, J. (2025). TriLex: A Framework for Multilingual Sentiment Analysis in Low-Resource South African Languages.
[3] Nazir, M.K., Faisal, C.N., & Habib, M.A. (2025). Leveraging Multilingual Transformer for Multiclass Sentiment Analysis in Code-Mixed Data of Low-Resource Languages. IEEE Access.
[4] Yousuf, M., Rifat, M.H., & Mondal, P.K. (2025). Addressing Class Imbalance in Bengali Sentiment Analysis. Proc. ECCE 2025, IEEE.