Trend AnalysisLinguistics & NLP
Automatic Speech Recognition for Accented English: When AI Struggles with Diversity
ASR systems still perform significantly worse on accented English, creating a systematic bias against billions of non-native and non-standard dialect speakers. New approaches from LoRA mixtures to spectrogram masking aim to close this gap.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
English is spoken as a first or additional language by approximately 1.5 billion people, encompassing enormous phonological diversity from Nigerian English to Singaporean English to Appalachian English. Yet automatic speech recognition systems, trained predominantly on standard American and British English, exhibit significant performance degradation on accented speech, with word error rates increasing by 20-50% or more for speakers with non-standard accents. This is not merely a technical inconvenience: it represents a systematic bias in voice-activated technology that disproportionately affects immigrants, non-native speakers, and speakers of non-prestige dialects, precisely the populations that might benefit most from voice interfaces.
Why It Matters
Voice interfaces are increasingly gatekeepers to essential services: healthcare navigation, banking, emergency services, educational platforms, and smart home control. When ASR systems fail on accented speech, they create a two-tier technology landscape where speakers of prestige dialects enjoy seamless voice interaction while others are forced to adapt their speech, switch to text interfaces, or abandon the technology entirely. The scale of the problem is staggering: the majority of English speakers worldwide are non-native speakers, meaning that the typical English speaker is one whose accent ASR systems handle poorly.
For sociolinguistics, the ASR accent gap is a concrete manifestation of linguistic discrimination. Accent-based bias in technology mirrors and potentially reinforces accent-based bias in employment, education, and social evaluation. Understanding and fixing the technical problem requires engaging with the sociolinguistic reality that no accent is inherently more "correct" or more "clear" than any other.
The Science
Mixture of Accent-Specific LoRA Experts
Bagat et al. (2025) introduce MAS-LoRA (Mixture of Accent-Specific LoRAs), a fine-tuning method that leverages a mixture of Low-Rank Adaptation experts, each specialized for a different accent. The approach is elegant: rather than training a single model to handle all accents (which leads to compromised performance on each) or training separate models per accent (which is computationally prohibitive and requires accent identification as a preprocessing step), MAS-LoRA learns to dynamically combine accent-specific adaptations based on the input speech. The method is designed for low-resource multi-accent settings where only small amounts of accented data are available. Results show significant improvements over both accent-agnostic baselines and single-accent fine-tuning, suggesting that accent adaptation benefits from explicitly modeling accent as a source of structured variation rather than noise.
Accent-Invariant Representations via Spectrogram Masking
Sameti et al. (2025) take the opposite architectural philosophy: rather than adapting to specific accents, they aim to learn accent-invariant representations by masking accent-specific features in the input spectrogram. Their saliency-driven approach identifies which spectral regions contribute most to accent variation (as opposed to linguistic content) and selectively masks them during training. This forces the model to rely on accent-invariant features for recognition. The approach works for both English and Persian, suggesting the method generalizes across languages with different accent variation patterns. The linguistic insight is that accent information and linguistic content are partially separable in the acoustic signal, with accent primarily affecting formant frequencies, voice onset times, and prosodic patterns while leaving spectral envelope shapes relatively intact.
Accent Identification as a Precursor
Ahmed et al. (2025) focus on the upstream task of accent identification, using spectral features and a hybrid CNN-BiLSTM architecture to classify English accents before feeding the signal to accent-specific recognition modules. Accurate accent identification enables conditional processing pipelines where the ASR system adapts its behavior based on the detected accent. Their system achieves strong identification accuracy across multiple English accent categories, though performance degrades for accents underrepresented in training data and for speakers whose accents blend features from multiple varieties, a common characteristic of multilingual speakers.
Data Augmentation for Accent Robustness
Banerjee and Ramasubramanian (2025) address the data scarcity problem directly with Manifold Mixup, a data augmentation technique that creates synthetic training examples by interpolating between accented speech samples in the model's hidden representation space. This approach generates diverse training conditions without requiring additional recordings of accented speech. The method is particularly effective in low-resource settings where collecting and annotating accented speech data is expensive. Their results demonstrate that augmentation in the representation space is more effective than augmentation in the acoustic space (e.g., speed perturbation, pitch shifting), suggesting that meaningful accent variation operates at a more abstract representational level than simple acoustic parameters.
ASR Accent Adaptation Strategies
<
| Strategy | Approach | Data Requirement | Strengths | Limitations |
|---|
| MAS-LoRA experts | Accent-specific modules, dynamic combination | Small per-accent data | Preserves accent-specific detail | Requires some labeled accent data |
| Spectrogram masking | Remove accent features, learn invariant representations | Standard training data | No accent labels needed | May lose useful accent information |
| Accent identification + routing | Detect accent, route to specialized model | Accent-labeled speech | Optimal per-accent performance | Pipeline errors compound |
| Manifold Mixup augmentation | Synthetic accent variation in hidden space | Minimal accented data | Data-efficient | Synthetic variation may not cover real range |
| Multilingual pre-training | Leverage cross-language phonetic knowledge | Large multilingual corpus | Broad coverage | May not capture accent-specific patterns |
What To Watch
The convergence of personalized ASR (adapting to individual speakers over time) with accent-robust ASR promises systems that learn each user's speech patterns regardless of accent category. Self-supervised speech models like Whisper and wav2vec have demonstrated surprising accent robustness compared to supervised systems, suggesting that learning from diverse unlabeled speech captures accent variation more effectively than curated labeled datasets. The critical next step is evaluation: current accent ASR research often uses a small number of accent categories (5-10), but real-world accent variation is continuous and multidimensional. Evaluation frameworks that capture this continuous variation, rather than treating accents as discrete categories, will be essential for measuring genuine progress.
Discover related work using ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ๋ฐ๋์ ํ์ธํด์ผ ํ๋ค.
์
์ผํธ ์์ด๋ฅผ ์ํ ์๋ ์์ฑ ์ธ์: AI๊ฐ ๋ค์์ฑ ์์์ ์ด๋ ค์์ ๊ฒช์ ๋
์์ด๋ ์ฝ 15์ต ๋ช
์ ์ฌ๋๋ค์ด ์ 1์ธ์ด ๋๋ ์ถ๊ฐ ์ธ์ด๋ก ์ฌ์ฉํ๊ณ ์์ผ๋ฉฐ, ๋์ด์ง๋ฆฌ์ ์์ด, ์ฑ๊ฐํฌ๋ฅด ์์ด, ์ ํ๋์น์ ์์ด์ ์ด๋ฅด๊ธฐ๊น์ง ๋ฐฉ๋ํ ์์ด๋ก ์ ๋ค์์ฑ์ ํฌ๊ดํ๋ค. ๊ทธ๋ฌ๋ ์ฃผ๋ก ํ์ค ๋ฏธ๊ตญ ์์ด์ ์๊ตญ ์์ด๋ก ํ๋ จ๋ ์๋ ์์ฑ ์ธ์(ASR) ์์คํ
์ ์
์ผํธ๊ฐ ์๋ ์์ฑ์ ๋ํด ํ์ ํ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ด๋ฉฐ, ๋นํ์ค ์
์ผํธ๋ฅผ ๊ฐ์ง ํ์์ ๊ฒฝ์ฐ ๋จ์ด ์ค๋ฅ์จ(WER)์ด 20-50% ์ด์ ์ฆ๊ฐํ๋ค. ์ด๋ ๋จ์ํ ๊ธฐ์ ์ ๋ถํธํจ์ด ์๋๋ค. ์์ฑ ํ์ฑํ ๊ธฐ์ ์ ๋ด์ฌ๋ ์ฒด๊ณ์ ์ธ ํธํฅ์ ๋ํ๋ด๋ ๊ฒ์ผ๋ก, ์ด๋ฏผ์, ๋น์์ด๋ฏผ ํ์, ๋น์์ ๋ฐฉ์ธ ํ์ ๋ฑ ์์ฑ ์ธํฐํ์ด์ค๋ก๋ถํฐ ๊ฐ์ฅ ๋ง์ ํํ์ ๋ฐ์ ์ ์๋ ์ธ๊ตฌ ์ง๋จ์ ๋ถ๊ท ํ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค.
์ค์์ฑ
์์ฑ ์ธํฐํ์ด์ค๋ ์๋ฃ ์๋ด, ๊ธ์ต, ์๊ธ ์๋น์ค, ๊ต์ก ํ๋ซํผ, ์ค๋งํธํ ์ ์ด ๋ฑ ํ์ ์๋น์ค์ ๊ด๋ฌธ์ผ๋ก์ ๊ทธ ์ญํ ์ด ์ ์ ์ปค์ง๊ณ ์๋ค. ASR ์์คํ
์ด ์
์ผํธ๊ฐ ์๋ ์์ฑ์์ ์ค๋ฅ๋ฅผ ์ผ์ผํฌ ๋, ์์ ๋ฐฉ์ธ ํ์๋ ์ํํ ์์ฑ ์ํธ์์ฉ์ ๋๋ฆฌ๋ ๋ฐ๋ฉด ๋ค๋ฅธ ํ์๋ค์ ๋ฐํ ๋ฐฉ์์ ์กฐ์ ํ๊ฑฐ๋, ํ
์คํธ ์ธํฐํ์ด์ค๋ก ์ ํํ๊ฑฐ๋, ๊ธฐ์ ์์ฒด๋ฅผ ํฌ๊ธฐํ ์๋ฐ์ ์๋ ์ด์ค์ ๊ธฐ์ ํ๊ฒฝ์ด ํ์ฑ๋๋ค. ์ด ๋ฌธ์ ์ ๊ท๋ชจ๋ ๋๋ผ์ธ ์ ๋์ด๋ค. ์ ์ธ๊ณ ์์ด ํ์์ ๋๋ค์๋ ๋น์์ด๋ฏผ ํ์์ด๋ฉฐ, ์ด๋ ์ ํ์ ์ธ ์์ด ํ์๊ฐ ๋ฐ๋ก ASR ์์คํ
์ด ์ ๋๋ก ์ฒ๋ฆฌํ์ง ๋ชปํ๋ ์
์ผํธ๋ฅผ ๊ฐ์ง ์ฌ๋์์ ์๋ฏธํ๋ค.
์ฌํ์ธ์ดํ์ ๊ด์ ์์, ASR์ ์
์ผํธ ๊ฒฉ์ฐจ๋ ์ธ์ด์ ์ฐจ๋ณ์ ๊ตฌ์ฒด์ ์ธ ๋ฐํ์ด๋ค. ๊ธฐ์ ์ ๋ด์ฌ๋ ์
์ผํธ ๊ธฐ๋ฐ ํธํฅ์ ์ทจ์
, ๊ต์ก, ์ฌํ์ ํ๊ฐ์์์ ์
์ผํธ ๊ธฐ๋ฐ ํธํฅ์ ๋ฐ์ํ๊ณ ์ ์ฌ์ ์ผ๋ก ๊ฐํํ๋ค. ์ด ๊ธฐ์ ์ ๋ฌธ์ ๋ฅผ ์ดํดํ๊ณ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์ด๋ ํ ์
์ผํธ๋ ๋ณธ์ง์ ์ผ๋ก ๋ค๋ฅธ ๊ฒ๋ณด๋ค ๋ "์ฌ๋ฐ๋ฅด๊ฑฐ๋" ๋ "๋ช
ํํ์ง" ์๋ค๋ ์ฌํ์ธ์ดํ์ ํ์ค์ ๋ฐ์๋ค์ฌ์ผ ํ๋ค.
์ฐ๊ตฌ ๋ด์ฉ
์
์ผํธ๋ณ LoRA ์ ๋ฌธ๊ฐ ํผํฉ
Bagat et al. (2025)์ ์๋ก ๋ค๋ฅธ ์
์ผํธ์ ํนํ๋ ์ ๋ญํฌ ์ ์(LoRA) ์ ๋ฌธ๊ฐ ํผํฉ์ ํ์ฉํ๋ ํ์ธํ๋ ๊ธฐ๋ฒ์ธ MAS-LoRA(Mixture of Accent-Specific LoRAs)๋ฅผ ์ ์ํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ์ฐ์ํ๋ค. ๋ชจ๋ ์
์ผํธ๋ฅผ ์ฒ๋ฆฌํ๋๋ก ๋จ์ผ ๋ชจ๋ธ์ ํ๋ จํ๊ฑฐ๋(๊ฐ ์
์ผํธ์ ๋ํ ์ฑ๋ฅ ์ ํ ์ด๋), ์
์ผํธ๋ณ๋ก ๋ณ๋์ ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐฉ์(๊ณ์ฐ ๋น์ฉ์ด ๊ณผ๋ํ๋ฉฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ก์ ์
์ผํธ ์๋ณ ํ์) ๋์ , MAS-LoRA๋ ์
๋ ฅ ์์ฑ์ ๊ธฐ๋ฐํ์ฌ ์
์ผํธ๋ณ ์ ์์ ๋์ ์ผ๋ก ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์
์ผํธ๊ฐ ์๋ ๋ฐ์ดํฐ๊ฐ ์๋๋ง ํ๋ณด ๊ฐ๋ฅํ ์ ์์ ๋ค์ค ์
์ผํธ ํ๊ฒฝ์ ์ํด ์ค๊ณ๋์๋ค. ๊ฒฐ๊ณผ๋ ์
์ผํธ ๋ฌด๊ด ๊ธฐ์ค ๋ชจ๋ธ๊ณผ ๋จ์ผ ์
์ผํธ ํ์ธํ๋ ๋ชจ๋์ ๋นํด ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์
์ผํธ ์ ์์ด ์
์ผํธ๋ฅผ ๋
ธ์ด์ฆ๊ฐ ์๋ ๊ตฌ์กฐํ๋ ๋ณ์ด์ ์์ฒ์ผ๋ก ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํจ์ผ๋ก์จ ์ด์ ์ ์ป๋๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
์คํํธ๋ก๊ทธ๋จ ๋ง์คํน์ ํตํ ์
์ผํธ ๋ถ๋ณ ํํ
Sameti ์ธ (2025)๋ ๋ฐ๋์ ์ํคํ
์ฒ ์ฒ ํ์ ์ทจํ๋ค. ํน์ ์ต์์ ์ ์ํ๋ ๋์ , ์
๋ ฅ ์คํํธ๋ก๊ทธ๋จ์์ ์ต์ ํน์ ํน์ง์ ๋ง์คํนํจ์ผ๋ก์จ ์ต์ ๋ถ๋ณ ํํ(accent-invariant representations)์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด๋ค์ ํ์ ์ฑ ๊ธฐ๋ฐ(saliency-driven) ์ ๊ทผ๋ฒ์ ์ธ์ด์ ๋ด์ฉ์ด ์๋ ์ต์ ๋ณ์ด์ ๊ฐ์ฅ ํฌ๊ฒ ๊ธฐ์ฌํ๋ ์คํํธ๋ผ ์์ญ์ ์๋ณํ๊ณ , ํ๋ จ ์ค ์ด๋ฅผ ์ ํ์ ์ผ๋ก ๋ง์คํนํ๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ธ์์ ์ํด ์ต์ ๋ถ๋ณ ํน์ง์ ์์กดํ๋๋ก ๊ฐ์ ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ์์ด์ ํ๋ฅด์์์ด ๋ชจ๋์์ ์๋ํ๋ฉฐ, ์๋ก ๋ค๋ฅธ ์ต์ ๋ณ์ด ํจํด์ ๊ฐ์ง ์ธ์ด์ ๊ฑธ์ณ ๋ฐฉ๋ฒ์ด ์ผ๋ฐํ๋จ์ ์์ฌํ๋ค. ์ธ์ดํ์ ํต์ฐฐ์ ์ต์ ์ ๋ณด์ ์ธ์ด์ ๋ด์ฉ์ด ์ํฅ ์ ํธ์์ ๋ถ๋ถ์ ์ผ๋ก ๋ถ๋ฆฌ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ด๋ค. ์ต์์ ์ฃผ๋ก ํฌ๋จผํธ ์ฃผํ์(formant frequencies), ๋ฐ์ฑ ๊ฐ์ ์๊ฐ(voice onset times), ์ด์จ ํจํด(prosodic patterns)์ ์ํฅ์ ๋ฏธ์น๋ฉด์ ์คํํธ๋ผ ์๋ฒจ๋กํ ํํ(spectral envelope shapes)๋ ๋น๊ต์ ๊ทธ๋๋ก ์ ์งํ๋ค.
์ ํ ๊ณผ์ ๋ก์์ ์ต์ ์๋ณ
Ahmed ์ธ (2025)๋ ์ต์ ์๋ณ์ด๋ผ๋ ์์ ๊ณผ์ ์ ์ด์ ์ ๋ง์ถ์ด, ์คํํธ๋ผ ํน์ง๊ณผ ํ์ด๋ธ๋ฆฌ๋ CNN-BiLSTM ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์์ด ์ต์์ ๋ถ๋ฅํ ๋ค ์ ํธ๋ฅผ ์ต์๋ณ ์ธ์ ๋ชจ๋์ ์ ๋ฌํ๋ค. ์ ํํ ์ต์ ์๋ณ์ ASR ์์คํ
์ด ๊ฐ์ง๋ ์ต์์ ๋ฐ๋ผ ๋์์ ์ ์์ํค๋ ์กฐ๊ฑด๋ถ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด๋ค์ ์์คํ
์ ์ฌ๋ฌ ์์ด ์ต์ ๋ฒ์ฃผ์ ๊ฑธ์ณ ๊ฐ๋ ฅํ ์๋ณ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, ํ๋ จ ๋ฐ์ดํฐ์์ ์ถฉ๋ถํ ํํ๋์ง ์์ ์ต์์ด๋ ๋ค์ค ๋ณ์ข
์ ํน์ง์ด ํผํฉ๋ ์ต์์ ๊ฐ์ง ํ์, ์ฆ ๋ค์ค ์ธ์ด ํ์์๊ฒ์ ํํ ๋ํ๋๋ ํน์ฑ์ ๋ํด์๋ ์ฑ๋ฅ์ด ์ ํ๋๋ค.
์ต์ ๊ฐ๊ฑด์ฑ์ ์ํ ๋ฐ์ดํฐ ์ฆ๊ฐ
Banerjee์ Ramasubramanian (2025)์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ Manifold Mixup์ผ๋ก ์ง์ ํด๊ฒฐํ๋ค. ์ด๋ ๋ชจ๋ธ์ ์๋ ํํ ๊ณต๊ฐ(hidden representation space)์์ ์ต์์ด ์๋ ์์ฑ ์ํ ๊ฐ ๋ณด๊ฐ(interpolating)์ ํตํด ํฉ์ฑ ํ๋ จ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ด๋ค. ์ด ์ ๊ทผ๋ฒ์ ์ต์ ์์ฑ์ ์ถ๊ฐ ๋
น์ ์์ด๋ ๋ค์ํ ํ๋ จ ์กฐ๊ฑด์ ์์ฑํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ต์ ์์ฑ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ฃผ์์ ๋ค๋ ๋น์ฉ์ด ๋์ ์ ์์(low-resource) ํ๊ฒฝ์์ ํนํ ํจ๊ณผ์ ์ด๋ค. ์ด๋ค์ ๊ฒฐ๊ณผ๋ ํํ ๊ณต๊ฐ์์์ ์ฆ๊ฐ์ด ์ํฅ ๊ณต๊ฐ์์์ ์ฆ๊ฐ(์: ์๋ ๋ณ์กฐ, ํผ์น ์ด๋)๋ณด๋ค ๋ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์๋ฏธ ์๋ ์ต์ ๋ณ์ด๊ฐ ๋จ์ํ ์ํฅ ๋งค๊ฐ๋ณ์๋ณด๋ค ๋ ์ถ์์ ์ธ ํํ ์์ค์์ ์๋ํจ์ ์์ฌํ๋ค.
ASR ์ต์ ์ ์ ์ ๋ต
<
| ์ ๋ต | ์ ๊ทผ๋ฒ | ๋ฐ์ดํฐ ์๊ตฌ์ฌํญ | ๊ฐ์ | ํ๊ณ |
|---|
| MAS-LoRA ์ ๋ฌธ๊ฐ | ์ต์๋ณ ๋ชจ๋, ๋์ ๊ฒฐํฉ | ์ต์๋ณ ์๋ ๋ฐ์ดํฐ | ์ต์๋ณ ์ธ๋ถ ์ฌํญ ๋ณด์กด | ์ผ๋ถ ๋ ์ด๋ธ๋ ์ต์ ๋ฐ์ดํฐ ํ์ |
| ์คํํธ๋ก๊ทธ๋จ ๋ง์คํน | ์ต์ ํน์ง ์ ๊ฑฐ, ๋ถ๋ณ ํํ ํ์ต | ํ์ค ํ๋ จ ๋ฐ์ดํฐ | ์ต์ ๋ ์ด๋ธ ๋ถํ์ | ์ ์ฉํ ์ต์ ์ ๋ณด ์์ค ๊ฐ๋ฅ |
| ์ต์ ์๋ณ + ๋ผ์ฐํ
| ์ต์ ๊ฐ์ง ํ ์ ๋ฌธ ๋ชจ๋ธ๋ก ์ ๋ฌ | ์ต์ ๋ ์ด๋ธ๋ ์์ฑ | ์ต์๋ณ ์ต์ ์ฑ๋ฅ | ํ์ดํ๋ผ์ธ ์ค๋ฅ ๋์ |
| Manifold Mixup ์ฆ๊ฐ | ์๋ ๊ณต๊ฐ์์ ํฉ์ฑ ์ต์ ๋ณ์ด | ์ต์ํ์ ์ต์ ๋ฐ์ดํฐ | ๋ฐ์ดํฐ ํจ์จ์ | ํฉ์ฑ ๋ณ์ด๊ฐ ์ค์ ๋ฒ์๋ฅผ ํฌ๊ดํ์ง ๋ชปํ ์ ์์ |
| ๋ค๊ตญ์ด ์ฌ์ ํ๋ จ | ๊ต์ฐจ ์ธ์ด ์์ฑ ์ง์ ํ์ฉ | ๋๊ท๋ชจ ๋ค๊ตญ์ด ์ฝํผ์ค | ๊ด๋ฒ์ํ ์ปค๋ฒ๋ฆฌ์ง | ์ต์๋ณ ํจํด์ ํฌ์ฐฉํ์ง ๋ชปํ ์ ์์ |
์ฃผ๋ชฉํ ์ฌํญ
๊ฐ์ธํ๋ ASR(์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๊ฐ๋ณ ํ์์ ์ ์ํ๋)๊ณผ ์
์ผํธ์ ๊ฐ์ธํ ASR์ ์ตํฉ์ ์
์ผํธ ๋ฒ์ฃผ์ ๊ด๊ณ์์ด ๊ฐ ์ฌ์ฉ์์ ๋ฐํ ํจํด์ ํ์ตํ๋ ์์คํ
์ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ด๋ค. Whisper์ wav2vec ๊ฐ์ ์๊ธฐ์ง๋ ์์ฑ ๋ชจ๋ธ์ ์ง๋ ํ์ต ์์คํ
์ ๋นํด ๋๋ผ์ด ์
์ผํธ ๊ฐ์ธ์ฑ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ด๋ ๋ค์ํ ๋น๋ ์ด๋ธ ์์ฑ์ผ๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ด ์ ๋ณ๋ ๋ ์ด๋ธ ๋ฐ์ดํฐ์
๋ณด๋ค ์
์ผํธ ๋ณ์ด๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํจ์ ์์ฌํ๋ค. ๋ค์์ ํต์ฌ ๋จ๊ณ๋ ํ๊ฐ์ด๋ค. ํ์ฌ ์
์ผํธ ASR ์ฐ๊ตฌ๋ ์์์ ์
์ผํธ ๋ฒ์ฃผ(5-10๊ฐ)๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ง๋ง, ์ค์ ์
์ผํธ ๋ณ์ด๋ ์ฐ์์ ์ด๊ณ ๋ค์ฐจ์์ ์ด๋ค. ์
์ผํธ๋ฅผ ์ด์ฐ์ ๋ฒ์ฃผ๋ก ์ฒ๋ฆฌํ๋ ๋์ ์ด๋ฌํ ์ฐ์์ ๋ณ์ด๋ฅผ ํฌ์ฐฉํ๋ ํ๊ฐ ํ๋ ์์ํฌ๋ ์ค์ง์ ์ธ ์ง์ ์ ์ธก์ ํ๋ ๋ฐ ํ์์ ์ผ ๊ฒ์ด๋ค.
ORAA ResearchBrain์ ํตํด ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ํ์ํ ์ ์๋ค.
References (4)
[1] Bagat, R., Illina, I., & Vincent, E. (2025). Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition. Proc. Interspeech 2025.
[2] Sameti, M.H., Moridani, S.H., & Zarean, A. (2025). Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking.
[3] Ahmed, G., Lawaye, A.A., & Jain, V. (2025). Enhancing English accent identification in automatic speech recognition using spectral features and hybrid CNN-BiLSTM model. Multimedia Tools & Applications.
[4] Banerjee, T. & Ramasubramanian, V. (2025). Accent-robust speech recognition for English in low-resource settings using Manifold Mixup. EURASIP J. Audio, Speech, and Music Processing.