Trend AnalysisLinguistics & NLP
Hate Speech Detection Across Languages and Cultures: The Multilingual Challenge
Hate speech is linguistically and culturally situated, making cross-lingual detection one of NLP's hardest problems. Recent work spans LLM-based approaches, semi-supervised learning, and low-resource language adaptation.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Hate speech detection is not merely a classification problem; it is a deeply linguistic one. What constitutes hate speech varies across languages, cultures, legal systems, and historical contexts. A term that is neutral in one language may be a severe slur in another. Irony, code-words, and dog-whistles add layers of indirection that require pragmatic competence to decode. While English-language hate speech detection has achieved reasonable accuracy on benchmark datasets, extending these capabilities across the world's languages and cultural contexts remains an open and urgent challenge, particularly as social media platforms operate globally but content moderation resources are concentrated in a handful of languages.
Why It Matters
Online hate speech has real-world consequences: it correlates with hate crimes, contributes to radicalization, and creates hostile environments that silence marginalized communities. But the moderation infrastructure is radically uneven. While English content benefits from sophisticated detection systems and large moderation teams, the majority of the world's languages have minimal or no automated hate speech detection capability. This creates a paradoxical situation: the communities most vulnerable to hate speech, often minority language communities, are the least protected by moderation technology.
From a linguistic perspective, hate speech detection forces engagement with some of the field's hardest problems: pragmatic inference, cultural presupposition, implicit meaning, and the relationship between linguistic form and social function. A system that can reliably detect hate speech across languages and cultures would need to solve problems that remain open in theoretical pragmatics.
The Science
Cross-Lingual Transfer via Domain-Specific Embeddings
Arango Monnar et al. (2024) demonstrate that standard cross-lingual transfer approaches, which map languages into shared embedding spaces, lose critical information when applied to hate speech. Their solution uses domain-specific word embeddings trained on hate speech corpora rather than general-purpose text. The domain-specific embeddings capture the particular semantic relationships that matter for hate speech, such as the association between group identifiers and derogatory terms, that general embeddings dilute. The cross-lingual experiments show that this domain specialization significantly improves transfer between language pairs, particularly for languages with shared cultural contexts of hate speech (e.g., languages spoken in regions with shared intergroup conflicts).
LLM-Based Multilingual Detection
Usman et al. (2025) leverage large language models for multilingual hate speech detection on social media, exploiting the fact that LLMs trained on diverse multilingual corpora have implicit knowledge of many languages and cultural contexts. Their approach fine-tunes LLMs on hate speech datasets from multiple languages simultaneously, allowing the model to transfer hate speech patterns across languages. The results demonstrate improvements over monolingual baselines, particularly for under-resourced languages that benefit from transfer from high-resource languages. However, the authors note persistent challenges with implicit hate speech, sarcasm, and culture-specific references that even LLMs struggle to process correctly without explicit cultural knowledge.
Semi-Supervised Approaches for Data Scarcity
Mnassri et al. (2024) tackle the labeled data problem with a semi-supervised generative adversarial approach. Labeled hate speech data is expensive to create and requires cultural competence in each target language. Their GAN-based method leverages large amounts of unlabeled multilingual social media text to improve detection with minimal labeled examples. The generator produces synthetic hate speech examples that the discriminator must distinguish from real examples, a process that forces the model to learn the distributional properties of hate speech in each language. The approach is particularly effective for languages where hate speech datasets are small or nonexistent, offering a path to expanding coverage without proportionally expanding annotation effort.
Low-Resource Indian Languages
Ghosh and Senapati (2024) provide a comprehensive analysis of hate speech detection in low-resource Indian languages using both monolingual and multilingual transformer models with cross-lingual experiments. India's linguistic diversity, with 22 scheduled languages and hundreds of additional languages, makes it a critical test case for multilingual hate speech detection. Their experiments reveal that multilingual models like XLM-RoBERTa outperform monolingual models for most Indian languages, but the improvement is uneven: languages with more training data and closer typological relationships to high-resource languages benefit more. Languages with unique scripts, complex morphology, or very limited digital presence see smaller gains, highlighting the limits of cross-lingual transfer.
<
| Approach | High-Resource Langs | Low-Resource Langs | Key Strength | Key Weakness |
|---|
| Monolingual fine-tuned | 85-92% F1 | 55-70% F1 | Language-specific precision | No cross-lingual transfer |
| Cross-lingual embeddings | 78-85% F1 | 65-78% F1 | Zero-shot transfer | Loses cultural specificity |
| LLM-based multilingual | 82-90% F1 | 68-80% F1 | Implicit cultural knowledge | Computational cost |
| Semi-supervised GAN | 80-88% F1 | 70-82% F1 | Minimal labeled data needed | Training instability |
| Domain-specific transfer | 83-89% F1 | 72-83% F1 | Captures hate-specific semantics | Requires domain corpora |
What To Watch
The convergence of LLMs with retrieval-augmented generation (RAG) may address the cultural knowledge gap: systems that can retrieve cultural context from knowledge bases when processing potentially hateful content in unfamiliar languages. Multimodal hate speech detection, incorporating images, memes, and emojis alongside text, is increasingly necessary as online hate speech migrates to visual and multimodal formats to evade text-based detection. Perhaps most important is the shift toward participatory design, where affected communities are involved in defining what constitutes hate speech in their linguistic and cultural context, rather than having definitions imposed by technologists working primarily in English.
Discover related work using ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
์ธ์ด์ ๋ฌธํ๋ฅผ ์์ฐ๋ฅด๋ ํ์ค ๋ฐ์ธ ํ์ง: ๋ค๊ตญ์ด ๊ณผ์
ํ์ค ๋ฐ์ธ ํ์ง๋ ๋จ์ํ ๋ถ๋ฅ ๋ฌธ์ ๊ฐ ์๋๋ผ ๋ณธ์ง์ ์ผ๋ก ์ธ์ด์ ์ธ ๋ฌธ์ ์ด๋ค. ํ์ค ๋ฐ์ธ์ ๊ตฌ์ฑํ๋ ์์๋ ์ธ์ด, ๋ฌธํ, ๋ฒ์ฒด๊ณ, ์ญ์ฌ์ ๋งฅ๋ฝ์ ๋ฐ๋ผ ๋ค์ํ๊ฒ ๋ฌ๋ผ์ง๋ค. ํ ์ธ์ด์์ ์ค๋ฆฝ์ ์ธ ํํ์ด ๋ค๋ฅธ ์ธ์ด์์๋ ์ฌ๊ฐํ ๋นํ์ด๊ฐ ๋ ์ ์๋ค. ์์ด๋ฌ๋, ์ํธ์ด, ๋๊ทธ ํ์ฌ(dog-whistle)์ ํด๋
ํ๊ธฐ ์ํ ํ์ฉ๋ก ์ ์ญ๋์ ์๊ตฌํ๋ ๊ฐ์ ์ ์ธต์๋ฅผ ๋ํ๋ค. ์์ด๊ถ ํ์ค ๋ฐ์ธ ํ์ง๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ ํฉ๋ฆฌ์ ์ธ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, ์ด๋ฌํ ์ญ๋์ ์ ์ธ๊ณ์ ์ธ์ด์ ๋ฌธํ์ ๋งฅ๋ฝ์ ๊ฑธ์ณ ํ์ฅํ๋ ๊ฒ์ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์ ์๊ธํ ๊ณผ์ ๋ก ๋จ์ ์๋ค. ํนํ ์์
๋ฏธ๋์ด ํ๋ซํผ์ด ์ ์ธ๊ณ์ ์ผ๋ก ์ด์๋๋ ๋ฐ๋ฉด, ์ฝํ
์ธ ๋ชจ๋๋ ์ด์
์์์ ์์์ ์ธ์ด์ ์ง์ค๋์ด ์๋ค๋ ์ ์์ ๋์ฑ ๊ทธ๋ฌํ๋ค.
์ค์์ฑ
์จ๋ผ์ธ ํ์ค ๋ฐ์ธ์ ํ์ค ์ธ๊ณ์ ์ค์ง์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ค. ํ์ค ๋ฒ์ฃ์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ด๊ณ , ๊ธ์งํ์ ๊ธฐ์ฌํ๋ฉฐ, ์์ธ๋ ๊ณต๋์ฒด๋ฅผ ์นจ๋ฌต์ํค๋ ์ ๋์ ํ๊ฒฝ์ ์กฐ์ฑํ๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋๋ ์ด์
์ธํ๋ผ๋ ๊ทน๋๋ก ๋ถ๊ท ๋ฑํ๋ค. ์์ด ์ฝํ
์ธ ๋ ์ ๊ตํ ํ์ง ์์คํ
๊ณผ ๋๊ท๋ชจ ๋ชจ๋๋ ์ด์
ํ์ ํํ์ ๋๋ฆฌ๋ ๋ฐ๋ฉด, ์ธ๊ณ ๋๋ค์ ์ธ์ด๋ ์๋ํ๋ ํ์ค ๋ฐ์ธ ํ์ง ์ญ๋์ด ๋ฏธ๋ฏธํ๊ฑฐ๋ ์ ๋ฌดํ๋ค. ์ด๋ก ์ธํด ์ญ์ค์ ์ธ ์ํฉ์ด ๋ฐ์ํ๋ค. ํ์ค ๋ฐ์ธ์ ๊ฐ์ฅ ์ทจ์ฝํ ๊ณต๋์ฒด, ์ฆ ์์ ์ธ์ด ๊ณต๋์ฒด๊ฐ ๋ชจ๋๋ ์ด์
๊ธฐ์ ์ ๋ณดํธ๋ฅผ ๊ฐ์ฅ ์ ๊ฒ ๋ฐ๋ ๊ฒ์ด๋ค.
์ธ์ดํ์ ๊ด์ ์์ ํ์ค ๋ฐ์ธ ํ์ง๋ ํด๋น ๋ถ์ผ์์ ๊ฐ์ฅ ๋ํดํ ๋ฌธ์ ๋ค, ์ฆ ํ์ฉ๋ก ์ ์ถ๋ก , ๋ฌธํ์ ์ ์ , ํจ์ถ์ ์๋ฏธ, ์ธ์ด ํ์๊ณผ ์ฌํ์ ๊ธฐ๋ฅ ๊ฐ์ ๊ด๊ณ์ ๋ํ ์ฐธ์ฌ๋ฅผ ๊ฐ์ ํ๋ค. ์ธ์ด์ ๋ฌธํ์ ๊ฑธ์ณ ํ์ค ๋ฐ์ธ์ ์ ๋ขฐ์ฑ ์๊ฒ ํ์งํ ์ ์๋ ์์คํ
์ ์ด๋ก ์ ํ์ฉ๋ก ์์ ์์ง ๋ฏธํด๊ฒฐ๋ก ๋จ์ ์๋ ๋ฌธ์ ๋ค์ ํด๊ฒฐํด์ผ ํ ๊ฒ์ด๋ค.
์ฐ๊ตฌ ํํฉ
๋๋ฉ์ธ ํนํ ์๋ฒ ๋ฉ์ ํตํ ๊ต์ฐจ ์ธ์ด ์ ์ด
Arango Monnar et al. (2024)์ ์ธ์ด๋ฅผ ๊ณต์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ๋งคํํ๋ ํ์ค ๊ต์ฐจ ์ธ์ด ์ ์ด ์ ๊ทผ๋ฒ์ด ํ์ค ๋ฐ์ธ์ ์ ์ฉ๋ ๋ ์ค์ํ ์ ๋ณด๋ฅผ ์์คํ๋ค๋ ๊ฒ์ ์
์ฆํ๋ค. ์ด๋ค์ ํด๊ฒฐ์ฑ
์ ๋ฒ์ฉ ํ
์คํธ ๋์ ํ์ค ๋ฐ์ธ ์ฝํผ์ค๋ก ํ์ต๋ ๋๋ฉ์ธ ํนํ ๋จ์ด ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ค. ๋๋ฉ์ธ ํนํ ์๋ฒ ๋ฉ์ ๋ฒ์ฉ ์๋ฒ ๋ฉ์ด ํฌ์์ํค๋ ํ์ค ๋ฐ์ธ๊ณผ ๊ด๋ จ๋ ํน์ ์๋ฏธ ๊ด๊ณ, ์ฆ ์ง๋จ ์๋ณ์์ ๋นํ ํํ ๊ฐ์ ์ฐ๊ด์ฑ์ ํฌ์ฐฉํ๋ค. ๊ต์ฐจ ์ธ์ด ์คํ์ ์ด๋ฌํ ๋๋ฉ์ธ ํนํ๊ฐ ์ธ์ด ์ ๊ฐ์ ์ ์ด๋ฅผ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ๊ณต์ ๋ ์ง๋จ ๊ฐ ๊ฐ๋ฑ์ ์ง๋ ์ง์ญ์์ ์ฌ์ฉ๋๋ ์ธ์ด์ ๊ฐ์ด ํ์ค ๋ฐ์ธ์ ๋ฌธํ์ ๋งฅ๋ฝ์ ๊ณต์ ํ๋ ์ธ์ด ์์์ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ง๋ค.
LLM ๊ธฐ๋ฐ ๋ค๊ตญ์ด ํ์ง
Usman et al. (2025)์ ๋ค์ํ ๋ค๊ตญ์ด ์ฝํผ์ค๋ก ํ์ต๋ LLM์ด ๋ง์ ์ธ์ด์ ๋ฌธํ์ ๋งฅ๋ฝ์ ๋ํ ์๋ฌต์ ์ง์์ ๋ณด์ ํ๋ค๋ ์ ์ ํ์ฉํ์ฌ ์์
๋ฏธ๋์ด์ ๋ค๊ตญ์ด ํ์ค ๋ฐ์ธ ํ์ง์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ ์ฉํ๋ค. ์ด๋ค์ ์ ๊ทผ๋ฒ์ ์ฌ๋ฌ ์ธ์ด์ ํ์ค ๋ฐ์ธ ๋ฐ์ดํฐ์
์ผ๋ก LLM์ ๋์์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ชจ๋ธ์ด ์ธ์ด ๊ฐ ํ์ค ๋ฐ์ธ ํจํด์ ์ ์ดํ ์ ์๊ฒ ํ๋ค. ๊ฒฐ๊ณผ๋ ๋จ์ผ ์ธ์ด ๊ธฐ์ค์ ๋๋น ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ๊ณ ์์ ์ธ์ด๋ก๋ถํฐ์ ์ ์ด ํํ์ ๋ฐ๋ ์ ์์ ์ธ์ด์์ ํจ๊ณผ๊ฐ ํฌ๋ค. ๊ทธ๋ฌ๋ ์ ์๋ค์ ๋ช
์์ ์ธ ๋ฌธํ์ ์ง์ ์์ด๋ LLM์กฐ์ฐจ ์ฌ๋ฐ๋ฅด๊ฒ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์ด ํจ์ถ์ ํ์ค ๋ฐ์ธ, ํ์, ๋ฌธํ ํนํ ํํ๊ณผ ๊ด๋ จ๋ ์ง์์ ์ธ ๊ณผ์ ๋ฅผ ์ง์ ํ๋ค.
๋ฐ์ดํฐ ํฌ์์ฑ์ ์ํ ๋ฐ์ง๋ ํ์ต ์ ๊ทผ๋ฒ
Mnassri et al. (2024)๋ ์ค์ง๋ ์์ฑ์ ์ ๋ ๋ฐฉ์์ผ๋ก ๋ ์ด๋ธ ๋ฐ์ดํฐ ๋ฌธ์ ์ ์ ๊ทผํ๋ค. ํ์ค ๋ฐ์ธ ๋ ์ด๋ธ ๋ฐ์ดํฐ๋ ์์ฑ ๋น์ฉ์ด ๋์ผ๋ฉฐ ๊ฐ ๋์ ์ธ์ด์ ๋ํ ๋ฌธํ์ ์ญ๋์ ํ์๋ก ํ๋ค. ์ด๋ค์ GAN ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋๋์ ๋ ์ด๋ธ์ด ์๋ ๋ค๊ตญ์ด ์์
๋ฏธ๋์ด ํ
์คํธ๋ฅผ ํ์ฉํ์ฌ ์ต์ํ์ ๋ ์ด๋ธ ์์๋ง์ผ๋ก๋ ํ์ง ์ฑ๋ฅ์ ํฅ์์ํจ๋ค. ์์ฑ๊ธฐ๋ ํฉ์ฑ ํ์ค ๋ฐ์ธ ์์๋ฅผ ์์ฑํ๊ณ ํ๋ณ๊ธฐ๋ ์ด๋ฅผ ์ค์ ์์์ ๊ตฌ๋ณํด์ผ ํ๋๋ฐ, ์ด ๊ณผ์ ์ ํตํด ๋ชจ๋ธ์ ๊ฐ ์ธ์ด์์ ํ์ค ๋ฐ์ธ์ ๋ถํฌ์ ํน์ฑ์ ํ์ตํ๊ฒ ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ํ์ค ๋ฐ์ธ ๋ฐ์ดํฐ์
์ด ์๊ท๋ชจ์ด๊ฑฐ๋ ์กด์ฌํ์ง ์๋ ์ธ์ด์ ํนํ ํจ๊ณผ์ ์ด๋ฉฐ, ์ฃผ์ ์์
์ ๋น๋ก์ ์ผ๋ก ํ๋ํ์ง ์๊ณ ๋ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋ํ ์ ์๋ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ค.
์ ์์ ์ธ๋ ์ธ์ด
Ghosh and Senapati (2024)๋ ๋จ์ผ ์ธ์ด ๋ฐ ๋ค๊ตญ์ด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๊ณผ ๊ต์ฐจ ์ธ์ด ์คํ์ ํ์ฉํ์ฌ ์ ์์ ์ธ๋ ์ธ์ด์์์ ํ์ค ๋ฐ์ธ ํ์ง์ ๋ํ ํฌ๊ด์ ๋ถ์์ ์ ๊ณตํ๋ค. 22๊ฐ์ ๊ณต์ธ ์ธ์ด์ ์๋ฐฑ ๊ฐ์ ์ถ๊ฐ ์ธ์ด๋ฅผ ๋ณด์ ํ ์ธ๋์ ์ธ์ด์ ๋ค์์ฑ์ ๋ค๊ตญ์ด ํ์ค ๋ฐ์ธ ํ์ง์ ํต์ฌ ์ํ ์ฌ๋ก๊ฐ ๋๋ค. ์ด๋ค์ ์คํ์ ๋ฐ๋ฅด๋ฉด XLM-RoBERTa์ ๊ฐ์ ๋ค๊ตญ์ด ๋ชจ๋ธ์ด ๋๋ถ๋ถ์ ์ธ๋ ์ธ์ด์์ ๋จ์ผ ์ธ์ด ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๊ทธ ํฅ์ ์ ๋๋ ์ผ์ ํ์ง ์๋ค. ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ ๋ง๊ณ ๊ณ ์์ ์ธ์ด์ ์ ํ๋ก ์ ์ผ๋ก ๊ฐ๊น์ด ์ธ์ด์ผ์๋ก ๋ ๋ง์ ์ด์ ์ ์ป๋ ๋ฐ๋ฉด, ๊ณ ์ ๋ฌธ์๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ๋ณต์กํ ํํ๋ก ์ ๊ฐ์ง๊ฑฐ๋ ๋์งํธ ์กด์ฌ๊ฐ์ด ๋งค์ฐ ์ ํ์ ์ธ ์ธ์ด๋ ๋ ์์ ํฅ์์ ๋ณด์ฌ ๊ต์ฐจ ์ธ์ด ์ ์ด์ ํ๊ณ๋ฅผ ๋๋ฌ๋ธ๋ค.
๊ต์ฐจ ์ธ์ด ํ์ค ๋ฐ์ธ ํ์ง ์ฑ๋ฅ
<
| ์ ๊ทผ ๋ฐฉ์ | ๊ณ ์์ ์ธ์ด | ์ ์์ ์ธ์ด | ์ฃผ์ ๊ฐ์ | ์ฃผ์ ์ฝ์ |
|---|
| ๋จ์ผ ์ธ์ด ํ์ธํ๋ | 85-92% F1 | 55-70% F1 | ์ธ์ด๋ณ ์ ๋ฐ๋ | ๊ต์ฐจ ์ธ์ด ์ ์ด ๋ถ๊ฐ |
| ๊ต์ฐจ ์ธ์ด ์๋ฒ ๋ฉ | 78-85% F1 | 65-78% F1 | ์ ๋ก์ท ์ ์ด | ๋ฌธํ์ ํน์์ฑ ์์ค |
| LLM ๊ธฐ๋ฐ ๋ค๊ตญ์ด | 82-90% F1 | 68-80% F1 | ์๋ฌต์ ๋ฌธํ ์ง์ | ์ฐ์ฐ ๋น์ฉ |
| ์ค์ง๋ GAN | 80-88% F1 | 70-82% F1 | ์ต์ ๋ ์ด๋ธ ๋ฐ์ดํฐ ํ์ | ํ์ต ๋ถ์์ ์ฑ |
| ๋๋ฉ์ธ ํนํ ์ ์ด | 83-89% F1 | 72-83% F1 | ํ์ค ํนํ ์๋ฏธ๋ก ํฌ์ฐฉ | ๋๋ฉ์ธ ์ฝํผ์ค ํ์ |
์ฃผ๋ชฉํ ๋ํฅ
LLM๊ณผ ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG)์ ์ตํฉ์ ๋ฌธํ์ ์ง์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ ์ ์๋ค. ์ต์ํ์ง ์์ ์ธ์ด๋ก ๋ ์ ์ฌ์ ํ์ค ์ฝํ
์ธ ๋ฅผ ์ฒ๋ฆฌํ ๋ ์ง์ ๋ฒ ์ด์ค์์ ๋ฌธํ์ ๋งฅ๋ฝ์ ๊ฒ์ํ ์ ์๋ ์์คํ
์ด ๊ทธ ์์ด๋ค. ์จ๋ผ์ธ ํ์ค ๋ฐ์ธ์ด ํ
์คํธ ๊ธฐ๋ฐ ํ์ง๋ฅผ ์ฐํํ๊ธฐ ์ํด ์๊ฐ์ ยท๋ค์ค ๋ชจ๋ฌ ํ์์ผ๋ก ์ด๋ํจ์ ๋ฐ๋ผ, ํ
์คํธ์ ํจ๊ป ์ด๋ฏธ์ง, ๋ฐ, ์ด๋ชจ์ง๋ฅผ ํตํฉํ๋ ๋ค์ค ๋ชจ๋ฌ ํ์ค ๋ฐ์ธ ํ์ง๊ฐ ์ ์ ๋ ํ์ํด์ง๊ณ ์๋ค. ์๋ง๋ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ์ฐธ์ฌ์ ์ค๊ณ๋ก์ ์ ํ์ผ ๊ฒ์ด๋ค. ์ด๋ ์ฃผ๋ก ์์ด๋ก ์์
ํ๋ ๊ธฐ์ ์๋ค์ด ์ ์๋ฅผ ๋ถ๊ณผํ๋ ๋ฐฉ์์์ ๋ฒ์ด๋, ํด๋น ์ธ์ด์ ยท๋ฌธํ์ ๋งฅ๋ฝ์์ ๋ฌด์์ด ํ์ค ๋ฐ์ธ์ ๊ตฌ์ฑํ๋์ง๋ฅผ ์ ์ํ๋ ๊ณผ์ ์ ์ํฅ๋ฐ๋ ์ปค๋ฎค๋ํฐ๊ฐ ์ง์ ์ฐธ์ฌํ๋ ๋ฐฉ์์ด๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์์ ์ฐพ์๋ณผ ์ ์๋ค.
References (4)
[1] Arango Monnar, A., Perez Rojas, J., & Polete Labra, B. (2024). Cross-lingual hate speech detection using domain-specific word embeddings. PLoS ONE, 19(7).
[2] Usman, M., Ahmad, M., & Sidorov, G. (2025). A Large Language Model-Based Approach for Multilingual Hate Speech Detection on Social Media. Computers, 14(7), 279.
[3] Mnassri, K., Farahbakhsh, R., & Crespi, N. (2024). Multilingual Hate Speech Detection: A Semi-Supervised Generative Adversarial Approach. Entropy, 26(4), 344.
[4] Ghosh, K. & Senapati, A. (2024). Hate speech detection in low-resourced Indian languages: An analysis of transformer-based monolingual and multilingual models with cross-lingual experiments. Natural Language Processing.