Critical ReviewLinguistics & NLP
Arabic NLP: Why Morphological Complexity Still Defeats Standard Models
Arabic's root-based derivational morphology, dialectal fragmentation, and optional diacritics create challenges that standard NLP architectures were not designed for. Recent comparative studies show that transformer models help but do not solve the problem, and that graph-based approaches may offer a complementary path.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Arabic is spoken by over 400 million people across more than 20 countries, yet it remains one of the more challenging languages for natural language processing. The reasons are structural: Arabic has a root-based derivational morphology where a single three-consonant root can generate dozens of word forms through internal vowel changes and affixation; written Arabic typically omits short vowels (diacritics), creating systematic ambiguity; and the relationship between Modern Standard Arabic and the many spoken dialects is complex enough that "Arabic NLP" is arguably a family of problems, not a single one.
The Research Landscape
CNN vs. RNN for Arabic Classification
Najih and Abood (2025) provide a controlled comparison of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) for Arabic text classification. The study tests both architectures on identical datasets with identical preprocessing, isolating the architectural differences.
Key findings:
- CNNs capture local n-gram patterns effectively, making them strong at detecting topic-level features (word combinations that signal "sports" vs. "politics"). They are fast to train and robust to word-order variation.
- RNNs (specifically bi-directional LSTMs) capture sequential dependencies, making them better at tasks where word order matters (sentiment analysis, sarcasm detection). However, they are slower and more prone to overfitting on small datasets.
- Neither architecture handles morphological ambiguity well without preprocessing. When identical word forms have different meanings depending on missing diacritics, both architectures make systematic errors.
The practical implication: for Arabic NLP, the choice of preprocessing (tokenization, lemmatization, diacritic restoration) matters at least as much as the choice of model architecture.
Graph-Based Approaches with AraBERT
Benhammouda and Mahammed (2025) propose an approach that may address some of these limitations: integrating Graph Convolutional Networks (GCNs) with AraBERT embeddings. The innovation is to represent documents as graphs where words are nodes and edges encode semantic and co-occurrence relationships, then process these graphs with GCNs.
The motivation is that graph representations can capture non-sequential relationships between words that sequence-based models miss. In Arabic, where morphologically related forms may appear in non-adjacent positions, the ability to model long-range semantic relationships through graph edges could be advantageous.
Preliminary results show improvement over sequence-only baselines on multi-label classification tasks, though the gains are modest (2-4% F1 improvement). The computational cost is significantly higher, raising questions about whether the improvement justifies the complexity.
Comprehensive Comparative Study
Mohamed and Alosman (2025), with 2 citations, provide the broadest comparison, testing multiple deep learning architectures (CNNs, LSTMs, GRUs, Transformers including AraBERT and MARBERT) across several Arabic NLP tasks: text classification, named entity recognition, sentiment analysis, and dialect identification.
Their findings reveal a consistent hierarchy:
AraBERT/MARBERT (Arabic-specific transformers) outperform general multilingual models (mBERT, XLM-R) across all tasksโconfirming that language-specific pretraining matters.
Dialect identification remains the hardest task, with even the best models achieving only 65-75% accuracy on fine-grained dialectal classification.
Morphological preprocessing (root extraction, lemmatization) improves performance for smaller models but provides marginal benefit for large transformers, suggesting that transformers learn some morphological regularities from data.Ensemble Approaches
Alqahtani and Abdelhafez (2025) explore ensemble learning for Arabic text classification, combining multiple models to compensate for individual weaknesses. Their approach uses a deep bidirectional transformer as the base model with ensemble-based feature selection.
The practical contribution is the demonstration that Arabic-specific challenges (dialect variation, morphological ambiguity) are better handled by model diversity (combining models with different strengths) than by model scale (making a single model larger). A well-constructed ensemble of medium-sized models can match or exceed a single large model at lower computational cost.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Arabic-specific transformers outperform multilingual ones | Mohamed & Alosman's multi-task comparison | โ
Supported โ consistent across tasks |
| Graph representations improve Arabic text classification | Benhammouda et al.'s GCN + AraBERT experiments | โ ๏ธ Uncertain โ modest improvements with high computational cost |
| Morphological preprocessing remains important for smaller models | Mohamed & Alosman's ablation study | โ
Supported |
| Dialect identification remains the hardest Arabic NLP task | Multiple studies, 65-75% accuracy ceiling | โ
Supported |
Open Questions
Diacritic restoration: Automatic diacritic restoration could reduce morphological ambiguity. How much does this improve downstream NLP tasks?Dialect-aware models: Should Arabic NLP build separate models for each dialect, or a single model that handles dialectal variation? The answer depends on the task and available data.Code-switching: Arabic speakers frequently code-switch between dialect and standard Arabic, and between Arabic and English. Models trained on monolingual data struggle with code-switched text.Low-resource dialects: Some Arabic dialects (Gulf, Moroccan, Sudanese) have very limited digital resources. Transfer from resource-rich dialects (Egyptian, Levantine) helps but is imperfect.What This Means for Your Research
For NLP practitioners working with Arabic, the evidence supports using Arabic-specific pretrained models (AraBERT, MARBERT) over general multilingual models, and investing in morphological preprocessing for smaller-scale deployments.
Explore related work through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
์๋์ด NLP: ํํ๋ก ์ ๋ณต์ก์ฑ์ด ์ฌ์ ํ ํ์ค ๋ชจ๋ธ์ ๋ฌด๋ ฅํํ๋ ์ด์
์๋์ด๋ 20๊ฐ ์ด์์ ๊ตญ๊ฐ์์ 4์ต ๋ช
์ด์์ ์ฌ๋๋ค์ด ์ฌ์ฉํ์ง๋ง, ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๋ถ์ผ์์ ์ฌ์ ํ ๊ฐ์ฅ ๋์ ์ ์ธ ์ธ์ด ์ค ํ๋๋ก ๋จ์ ์๋ค. ๊ทธ ์ด์ ๋ ๊ตฌ์กฐ์ ์ธ ๋ฐ ์๋ค. ์๋์ด๋ ์ด๊ทผ ๊ธฐ๋ฐ ํ์ ํํ๋ก ์ ๊ฐ์ง๊ณ ์์ด, ์ธ ๊ฐ์ ์์์ผ๋ก ์ด๋ฃจ์ด์ง ๋จ์ผ ์ด๊ทผ์ด ๋ด๋ถ ๋ชจ์ ๋ณํ์ ์ ์ฌ๋ฅผ ํตํด ์์ญ ๊ฐ์ง ๋จ์ด ํํ๋ฅผ ์์ฑํ ์ ์๋ค. ๋ํ ๋ฌธ์ด์ฒด ์๋์ด๋ ์ผ๋ฐ์ ์ผ๋ก ๋จ๋ชจ์(๋ฐ์ ๊ตฌ๋ณ ๋ถํธ)์ ์๋ตํ์ฌ ์ฒด๊ณ์ ์ธ ์ค์์ฑ์ ์ผ๊ธฐํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋ ํ์ค ์๋์ด(Modern Standard Arabic)์ ๋ค์ํ ๊ตฌ์ด ๋ฐฉ์ธ ๊ฐ์ ๊ด๊ณ๋ "์๋์ด NLP"๊ฐ ๋จ์ผ ๋ฌธ์ ๊ฐ ์๋ ์ผ๋ จ์ ๋ฌธ์ ๊ตฐ์ผ๋ก ๋ณผ ์ ์์ ๋งํผ ๋ณต์กํ๋ค.
์ฐ๊ตฌ ํํฉ
์๋์ด ๋ถ๋ฅ๋ฅผ ์ํ CNN ๋ RNN
Najih๊ณผ Abood(2025)๋ ์๋์ด ํ
์คํธ ๋ถ๋ฅ์์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)๊ณผ ์ํ ์ ๊ฒฝ๋ง(RNN)์ ํต์ ๋ ๋ฐฉ์์ผ๋ก ๋น๊ตํ๋ค. ์ด ์ฐ๊ตฌ๋ ๋์ผํ ๋ฐ์ดํฐ์
๊ณผ ๋์ผํ ์ ์ฒ๋ฆฌ ๋ฐฉ์์ ์ ์ฉํ์ฌ ๋ ์ํคํ
์ฒ๋ฅผ ํ
์คํธํจ์ผ๋ก์จ ์ํคํ
์ฒ ์ฐจ์ด๋ง์ ๋ถ๋ฆฌํ์ฌ ๋ถ์ํ๋ค.
์ฃผ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ:
- CNN์ ์ง์ญ์ n-gram ํจํด์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ์ฌ ์ฃผ์ ์์ค์ ํน์ง(์: "์คํฌ์ธ " ๋ "์ ์น"๋ฅผ ๋ํ๋ด๋ ๋จ์ด ์กฐํฉ) ๊ฐ์ง์ ๊ฐ์ ์ ๋ณด์ธ๋ค. ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ณ ์ด์ ๋ณํ์ ๊ฐ์ธํ๋ค.
- RNN(ํนํ ์๋ฐฉํฅ LSTM)์ ์์ฐจ์ ์์กด ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ์ฌ ์ด์์ด ์ค์ํ ๊ณผ์ (๊ฐ์ฑ ๋ถ์, ํ์ ๊ฐ์ง)์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ ํ์ต ์๋๊ฐ ๋๋ฆฌ๊ณ ์๊ท๋ชจ ๋ฐ์ดํฐ์
์์ ๊ณผ์ ํฉ์ ์ทจ์ฝํ๋ค.
- ๋ ์ํคํ
์ฒ ๋ชจ๋ ์ ์ฒ๋ฆฌ ์์ด๋ ํํ๋ก ์ ์ค์์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ์ง ๋ชปํ๋ค. ๋๋ฝ๋ ๋ฐ์ ๊ตฌ๋ณ ๋ถํธ์ ๋ฐ๋ผ ๋์ผํ ๋จ์ด ํํ๊ฐ ์๋ก ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง ๊ฒฝ์ฐ, ๋ ์ํคํ
์ฒ ๋ชจ๋ ์ฒด๊ณ์ ์ธ ์ค๋ฅ๋ฅผ ๋ฒํ๋ค.
์ค์ฉ์ ์์ฌ์ : ์๋์ด NLP์์๋ ๋ชจ๋ธ ์ํคํ
์ฒ์ ์ ํ๋งํผ์ด๋ ์ ์ฒ๋ฆฌ ๋ฐฉ์(ํ ํฐํ, ํ์ ์ด ์ถ์ถ, ๋ฐ์ ๊ตฌ๋ณ ๋ถํธ ๋ณต์)์ ์ ํ์ด ์ค์ํ๋ค.
AraBERT๋ฅผ ํ์ฉํ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ
Benhammouda์ Mahammed(2025)๋ ์ด๋ฌํ ํ๊ณ ์ผ๋ถ๋ฅผ ํด๊ฒฐํ ์ ์๋ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ๋ฐ๋ก ๊ทธ๋ํ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ(GCN)์ AraBERT ์๋ฒ ๋ฉ์ ํตํฉํ๋ ๋ฐฉ์์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ํต์ฌ์ ๋จ์ด๋ฅผ ๋
ธ๋๋ก, ์๋ฏธ์ ยท๊ณต๊ธฐ(co-occurrence) ๊ด๊ณ๋ฅผ ์ฃ์ง๋ก ์ธ์ฝ๋ฉํ์ฌ ๋ฌธ์๋ฅผ ๊ทธ๋ํ๋ก ํํํ ํ, ์ด ๊ทธ๋ํ๋ฅผ GCN์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด๋ค.
์ด ์ ๊ทผ๋ฒ์ ๋๊ธฐ๋ ๊ทธ๋ํ ํํ์ด ์์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋์น๋ ๋จ์ด ๊ฐ ๋น์์ฐจ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ ์ ์๋ค๋ ์ ์ด๋ค. ์๋์ด์์๋ ํํ๋ก ์ ์ผ๋ก ์ฐ๊ด๋ ํํ๋ค์ด ์ธ์ ํ์ง ์์ ์์น์ ๋ํ๋ ์ ์์ด, ๊ทธ๋ํ ์ฃ์ง๋ฅผ ํตํด ์ฅ๊ฑฐ๋ฆฌ ์๋ฏธ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฅ๋ ฅ์ด ์ ๋ฆฌํ๊ฒ ์์ฉํ ์ ์๋ค.
์๋น ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด ๋ค์ค ๋ ์ด๋ธ ๋ถ๋ฅ ๊ณผ์ ์์ ์์ ๊ธฐ๋ฐ ๊ธฐ์ค์ ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ์ด ํฅ์๋์์ผ๋, ๊ทธ ํฅ์ ํญ์ ๋ฏธ๋ฏธํ๋ค(F1 ์ ์ 2-4% ํฅ์). ๊ณ์ฐ ๋น์ฉ์ด ํ์ ํ ๋์, ์ด๋ฌํ ํฅ์์ด ๋ณต์ก์ฑ ์ฆ๊ฐ๋ฅผ ์ ๋นํํ๋์ง์ ๋ํ ์๋ฌธ์ด ์ ๊ธฐ๋๋ค.
์ข
ํฉ์ ๋น๊ต ์ฐ๊ตฌ
Mohamed์ Alosman(2025)์ 2ํ ์ธ์ฉ์ ๊ธฐ๋กํ๋ฉฐ ๊ฐ์ฅ ๊ด๋ฒ์ํ ๋น๊ต ์ฐ๊ตฌ๋ฅผ ์ ์ํ๋ค. ์ด ์ฐ๊ตฌ๋ ์ฌ๋ฌ ๋ฅ๋ฌ๋ ์ํคํ
์ฒ(CNN, LSTM, GRU, AraBERT ๋ฐ MARBERT๋ฅผ ํฌํจํ Transformer)๋ฅผ ํ
์คํธ ๋ถ๋ฅ, ๊ฐ์ฒด๋ช
์ธ์(NER), ๊ฐ์ฑ ๋ถ์, ๋ฐฉ์ธ ์๋ณ ๋ฑ ์ฌ๋ฌ ์๋์ด NLP ๊ณผ์ ์ ๊ฑธ์ณ ํ
์คํธํ๋ค.
์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ์ผ๊ด๋ ์ฑ๋ฅ ์๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค:
AraBERT/MARBERT(์๋์ด ํนํ Transformer)๋ ๋ชจ๋ ๊ณผ์ ์์ ์ผ๋ฐ ๋ค๊ตญ์ด ๋ชจ๋ธ(mBERT, XLM-R)์ ๋ฅ๊ฐํ๋ฉฐ, ์ด๋ ์ธ์ด๋ณ ์ฌ์ ํ์ต์ ์ค์์ฑ์ ํ์ธํด์ค๋ค.
๋ฐฉ์ธ ์๋ณ์ ๊ฐ์ฅ ์ด๋ ค์ด ๊ณผ์ ๋ก ๋จ์ ์์ผ๋ฉฐ, ์ธ๋ถํ๋ ๋ฐฉ์ธ ๋ถ๋ฅ์์ ์ต์์ ๋ชจ๋ธ์กฐ์ฐจ 65-75%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ๊ทธ์น๋ค.
ํํ์ ์ ์ฒ๋ฆฌ(์ด๊ทผ ์ถ์ถ, ํ์ ์ด ์ถ์ถ)๋ ์ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค์ง๋ง, ๋ํ ํธ๋์คํฌ๋จธ์๋ ๋ฏธ๋ฏธํ ์ด์ ๋ง ์ ๊ณตํ๋ค. ์ด๋ ํธ๋์คํฌ๋จธ๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ผ๋ถ ํํ์์ ๊ท์น์ฑ์ ํ์ตํจ์ ์์ฌํ๋ค.์์๋ธ ์ ๊ทผ๋ฒ
Alqahtani์ Abdelhafez(2025)๋ ์๋์ด ํ
์คํธ ๋ถ๋ฅ๋ฅผ ์ํ ์์๋ธ ํ์ต์ ํ๊ตฌํ๋ฉฐ, ๊ฐ๋ณ ๋ชจ๋ธ์ ์ฝ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ฒฐํฉํ๋ค. ์ด๋ค์ ์ ๊ทผ๋ฒ์ ๊น์ ์๋ฐฉํฅ ํธ๋์คํฌ๋จธ๋ฅผ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๊ณ , ์์๋ธ ๊ธฐ๋ฐ ํน์ง ์ ํ์ ์ ์ฉํ๋ค.
์ค์ฉ์ ์ธ ๊ธฐ์ฌ๋, ์๋์ด ๊ณ ์ ์ ๊ณผ์ (๋ฐฉ์ธ ๋ณ์ด, ํํ์์ ๋ชจํธ์ฑ)๊ฐ ๋ชจ๋ธ ๊ท๋ชจ(๋จ์ผ ๋ชจ๋ธ์ ๋ ํฌ๊ฒ ๋ง๋๋ ๊ฒ)๋ณด๋ค ๋ชจ๋ธ ๋ค์์ฑ(์๋ก ๋ค๋ฅธ ๊ฐ์ ์ ๊ฐ์ง ๋ชจ๋ธ๋ค์ ๊ฒฐํฉ)์ ์ํด ๋ ์ ์ฒ๋ฆฌ๋๋ค๋ ๊ฒ์ ์
์ฆํ ์ ์ด๋ค. ์ ๊ตฌ์ฑ๋ ์ค๊ฐ ๊ท๋ชจ ๋ชจ๋ธ๋ค์ ์์๋ธ์ ๋ ๋ฎ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ๋จ์ผ ๋ํ ๋ชจ๋ธ๊ณผ ๋๋ฑํ๊ฑฐ๋ ๊ทธ ์ด์์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ์๋์ด ํนํ ํธ๋์คํฌ๋จธ๊ฐ ๋ค๊ตญ์ด ํธ๋์คํฌ๋จธ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋ค | Mohamed & Alosman์ ๋ค์ค ๊ณผ์ ๋น๊ต | โ
์ง์ง๋จ โ ๊ณผ์ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด๋จ |
| ๊ทธ๋ํ ํํ์ด ์๋์ด ํ
์คํธ ๋ถ๋ฅ๋ฅผ ํฅ์์ํจ๋ค | Benhammouda et al.์ GCN + AraBERT ์คํ | โ ๏ธ ๋ถํ์ค โ ๋์ ๊ณ์ฐ ๋น์ฉ ๋๋น ๋ฏธ๋ฏธํ ์ฑ๋ฅ ํฅ์ |
| ํํ์ ์ ์ฒ๋ฆฌ๊ฐ ์ํ ๋ชจ๋ธ์ ์ฌ์ ํ ์ค์ํ๋ค | Mohamed & Alosman์ ์ ์ ์ฐ๊ตฌ | โ
์ง์ง๋จ |
| ๋ฐฉ์ธ ์๋ณ์ด ์๋์ด NLP์์ ๊ฐ์ฅ ์ด๋ ค์ด ๊ณผ์ ๋ก ๋จ์์๋ค | ๋ค์์ ์ฐ๊ตฌ, 65-75% ์ ํ๋ ์ํ์ | โ
์ง์ง๋จ |
๋ฏธํด๊ฒฐ ๋ฌธ์
๋ชจ์ ๋ถํธ ๋ณต์: ์๋ ๋ชจ์ ๋ถํธ ๋ณต์์ ํํ์์ ๋ชจํธ์ฑ์ ์ค์ผ ์ ์๋ค. ์ด๊ฒ์ด ํ์ NLP ๊ณผ์ ๋ฅผ ์ผ๋ง๋ ํฅ์์ํค๋๊ฐ?๋ฐฉ์ธ ์ธ์ ๋ชจ๋ธ: ์๋์ด NLP๋ ๊ฐ ๋ฐฉ์ธ์ ๋ํด ๋ณ๋์ ๋ชจ๋ธ์ ๊ตฌ์ถํด์ผ ํ๋๊ฐ, ์๋๋ฉด ๋ฐฉ์ธ ๋ณ์ด๋ฅผ ์ฒ๋ฆฌํ๋ ๋จ์ผ ๋ชจ๋ธ์ ๊ตฌ์ถํด์ผ ํ๋๊ฐ? ๊ทธ ๋ต์ ๊ณผ์ ์ ์ด์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.์ฝ๋ ์ ํ: ์๋์ด ํ์๋ค์ ๋ฐฉ์ธ๊ณผ ํ์ค ์๋์ด ์ฌ์ด, ๊ทธ๋ฆฌ๊ณ ์๋์ด์ ์์ด ์ฌ์ด์์ ๋น๋ฒํ๊ฒ ์ฝ๋ ์ ํ์ ํ๋ค. ๋จ์ผ ์ธ์ด ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ฝ๋ ์ ํ ํ
์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค.์ ์์ ๋ฐฉ์ธ: ์ผ๋ถ ์๋์ด ๋ฐฉ์ธ(๊ฑธํ, ๋ชจ๋ก์ฝ, ์๋จ)์ ๋์งํธ ์์์ด ๋งค์ฐ ์ ํ์ ์ด๋ค. ์์์ด ํ๋ถํ ๋ฐฉ์ธ(์ด์งํธ, ๋ ๋ฐํธ)์ผ๋ก๋ถํฐ์ ์ ์ด๊ฐ ๋์์ด ๋์ง๋ง ์์ ํ์ง๋ ์๋ค.์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
์๋์ด๋ฅผ ๋ค๋ฃจ๋ NLP ์ค๋ฌด์๋ค์๊ฒ, ๊ทผ๊ฑฐ๋ ์ผ๋ฐ ๋ค๊ตญ์ด ๋ชจ๋ธ๋ณด๋ค ์๋์ด ํนํ ์ฌ์ ํ์ต ๋ชจ๋ธ(AraBERT, MARBERT)์ ์ฌ์ฉํ๊ณ , ์๊ท๋ชจ ๋ฐฐํฌ ํ๊ฒฝ์์๋ ํํ์ ์ ์ฒ๋ฆฌ์ ํฌ์ํ ๊ฒ์ ์ง์งํ๋ค.
ORAA ResearchBrain์ ํตํด ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ์ํ ์ ์๋ค.
References (4)
[1] Najih, A., Alshagif, R., & Abood, A.M. (2025). A Comparative Analysis of CNN and RNN Architectures for Deep Learning-Based Arabic Text Classification. Journal of Technical Research.
[2] Benhammouda, M., Khobzaoui, A., & Mahammed, N. (2025). Arabic text classification using graphs and deep learning. International Journal of Computational and Experimental Science and Engineering.
[3] Mohamed, M. & Alosman, K. (2025). A Comparative Study of Deep Learning Approaches for Arabic Language Processing. Jordan Journal of Electrical Engineering.
[4] Alqahtani, R.A. & Abdelhafez, H.A. (2025). Arabic text classification using machine learning and deep learning algorithms. International Journal of Artificial Intelligence, 14(6), 5201โ5217.