Trend AnalysisMedicine & Health
Brain-Computer Interfaces for Speech: Decoding Words from Neural Silence
Intracortical brain-computer interfaces now decode intended speech at rates approaching natural conversationโin English and, for the first time, in tonal languages like Chinese. But the gap between laboratory performance and daily-use reliability remains substantial.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
For the hundreds of thousands of people worldwide living with locked-in syndrome, ALS-related anarthria, or severe brainstem stroke, the ability to communicate through speech has been lostโbut the neural machinery for speech has not. The motor cortex still fires when these patients attempt to speak; the articulatory representations still activate. The signals are there. The challenge is reading them.
Brain-computer interfaces (BCIs) that decode intended speech from neural activity represent one of the more ambitious endeavors in neuroscience and biomedical engineering. Over the past three years, the field has progressed from decoding a few dozen words per minute with high error rates to approaching the vicinity of natural conversational speedโand recent work extends this capability beyond English to tonal languages, raising the possibility that BCI-mediated communication could serve speakers of any language.
The State of the Art: Speed and Accuracy
Willsey et al. (2025) report what stands as one of the field's benchmark results: a high-performance intracortical BCI enabling a participant with tetraplegia to control a quadcopter in real time and decode individual finger movements with sufficient precision for gaming and social media interaction. Published in Nature Medicine the work demonstrates that intracortical BCIs have crossed a performance threshold where they enable not just basic communication but complex, real-time interaction with digital environments.
The system uses microelectrode arrays implanted in the hand knob area of motor cortex, decoding neural population activity to map firing patterns to intended finger movements. The key performance metrics:
- Speed: 76 targets per minute with completion times around 1.58 secondsโamong the highest reported for any BCI modality.
- Latency: Less than 100 ms from neural activity to decoded output.
- Continuous use: The participant used the system for extended sessions (>1 hour) without significant performance degradation.
While this work focuses on finger decoding rather than speech per se, it establishes the neural decoding infrastructure and signal processing pipeline that speech BCIs build upon. The architectural insight is that motor cortex representations are high-dimensional, information-rich, and decodable in real timeโprinciples that apply equally to speech motor cortex.
The Brain-to-Text Benchmark
Willett et al. (2024) address a critical gap in the field: the absence of standardized evaluation. Their Brain-to-Text Benchmark '24, published on arXiv provides a common dataset and evaluation protocol for comparing speech decoding algorithms across research groups.
The benchmark provides a framework for rigorous inter-lab comparison and yields several key technical insights:
Decoder ensembling improves performance: Merging outputs from multiple competing decoders using a fine-tuned LLM achieves better accuracy than any single decoder alone, suggesting different architectures capture complementary signal information.RNN training improvements matter: Refined learning rate scheduling and a diphone training objective yield consistent gains over standard RNN baselines.Language models provide substantial error correction: Incorporating a language model (analogous to autocorrect on smartphones) substantially reduces word error rates by leveraging statistical regularities in natural language to compensate for noisy neural signalsโthough this raises questions about whether the system is truly "reading the mind" or partially "guessing what the user meant to say."Breaking the English Barrier
Qian et al. (2025) demonstrate a result that extends the field's reach beyond its predominantly English-language foundation: real-time decoding of full-spectrum Chinese from electrocorticographic (ECoG) recordings. Published in Science Advances this work addresses a challenge specific to tonal languagesโChinese uses four lexical tones that change word meaning, requiring the BCI to decode not just phonemic content but prosodic features.
The system decodes Mandarin Chinese with a median syllable identification accuracy of 71.2% across 394 distinct syllablesโa rate that approaches functional communication speed for Chinese text input. The architecture employs a tonally integrated, direct syllable neural decoding approach rather than a phoneme-first pipeline, followed by a Chinese language model for error correction.
The significance extends beyond Chinese. A substantial proportion of the world's languages are tonal (estimates range widely depending on methodology) (including Vietnamese, Thai, Yoruba, and many others). If BCI speech decoding cannot capture tonal information, it is inherently limited to the minority of the world's languages that do not use tone for lexical distinction. Qian et al.'s demonstration that tonal decoding is achievable opens the doorโat least in principleโto universal BCI-mediated communication.
Silent Speech: When Even Attempting to Vocalize Is Too Much
Luo et al. (2025) push the frontier in a different direction: decoding silent speechโintended speech that produces no sound and minimal orofacial movement. Their self-paced silent speech BCI, described in a medRxiv preprint enables a participant to control devices by merely imagining speaking specific command words, without any attempted vocalization.
This matters for patients with advanced ALS or brainstem stroke who cannot produce even the minimal articulatory movements that current speech BCIs require. Most existing systems decode "attempted speech"โresidual motor cortex activity during efforts to speakโwhich produces stronger and more stereotyped neural signals than purely imagined speech. Luo et al.'s system works with silently mimed speech commands, achieving 97.1% median accuracy across 14 device-control categories for a participant with ALS.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| BCIs can decode speech at near-conversational rates | 71.2% syllable accuracy across 394 syllables in Chinese (Qian et al.); comparable English rates in prior work | โ
Supported (in controlled settings) |
| Tonal language decoding is feasible | 71.2% syllable identification accuracy in Mandarin (Qian et al.) | โ
Supported |
| Silent speech BCI can control devices accurately | 97.1% median accuracy across 14 categories (Luo et al.) | โ
Supported |
| BCIs are ready for daily unsupervised use | No long-term home-use study published for speech BCIs | โ Refuted (currently) |
| Inter-subject variability in BCI performance is solved | Electrode placement, signal quality, and cortical organization differences remain a known challenge across the field | โ Refuted |
The Durability and Drift Problem
A challenge receiving growing attention is neural signal drift: the relationship between neural activity patterns and decoded outputs changes over days and weeks as electrodes shift position, tissue encapsulation progresses, and neural representations reorganize. Current high-performance BCIs require periodic recalibrationโa process where the user performs known tasks while the decoder is retrained.
For a clinical speech BCI, recalibration imposes a burden that may be unacceptable for severely disabled users. Imagine needing to "retrain" your voice every morning. Adaptive decoders that track distributional shifts in neural signals without explicit recalibration sessions are an active research area, but performance under real-world drift conditions has not been demonstrated for speech BCIs.
The Electrode Density Ceiling
Current intracortical BCIs use Utah arrays with approximately 96 electrodes, sampling a few hundred neurons from a cortical patch roughly 4mm ร 4mm. The speech motor cortex is substantially larger, and the neural code for speech involves distributed representations across multiple cortical areas (ventral premotor, primary motor, supplementary motor, Broca's area). Whether 96 electrodes provide enough spatial sampling to support vocabularies of thousands of wordsโnecessary for fluent, unconstrained communicationโis an open empirical question.
Higher-density electrode arrays (Neuropixels, Utah HD) and electrocorticography (ECoG) grids offer increased spatial coverage, but at the cost of different trade-offs: Neuropixels provide excellent single-neuron resolution but limited spatial coverage; ECoG grids cover large cortical areas but with lower spatial resolution. The optimal electrode technology for speech BCIs has not been determined.
Open Questions and Future Directions
Can wireless BCIs match wired performance? Current high-performance systems use percutaneous connectors that create infection risk. Wireless implants (BrainGate, Neuralink N1) eliminate this risk but introduce bandwidth constraints and power limitations that may degrade decoding performance.How many electrodes are needed for fluent, unconstrained speech? Is there a minimum electrode count below which vocabulary size is fundamentally limited? What spatial distribution of electrodes optimizes speech decoding?Can BCIs be combined with speech synthesis for natural-sounding output? Current systems decode text. Integrating neural signals directly with a speech synthesizer that reproduces the user's pre-injury voice would dramatically improve the naturalness of BCI-mediated communication.What is the market for speech BCIs? The target population (locked-in syndrome, advanced ALS, severe brainstem stroke) is relatively small. Can the technology be made affordable enough for widespread clinical adoption, or will it remain a research tool?How do we handle consent for brain implants in non-communicative patients? The individuals who would benefit most from speech BCIs are, by definition, those who cannot communicate their consent for a neurosurgical procedure. Ethical frameworks for surrogate consent in this context are underdeveloped.Implications for Neuroscience and Medicine
The progress in speech BCI research over the past three years has been substantial. Decoding rates have improved by roughly 3ร to 5ร, tonal language decoding has been demonstrated, and the Brain-to-Text Benchmark provides a framework for rigorous comparison across groups. These are genuine advances that bring the prospect of restoring functional communication to people with severe motor disabilities closer to clinical reality.
The gap that remains is between laboratory demonstrationsโcontrolled environments, trained research participants, expert technical supportโand the daily reality of a person with ALS at home, wanting to have a conversation with their family. Closing this gap requires not only better algorithms and electrodes but also better systems engineering: reliable hardware, intuitive interfaces, minimal calibration burden, and regulatory pathways that balance innovation speed with patient safety.
The science is advancing. The engineering must follow.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์์
์์ ์ธ์ฉํ๊ธฐ ์ ์ ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
์ธ์ด๋ฅผ ์ํ ๋-์ปดํจํฐ ์ธํฐํ์ด์ค: ์ ๊ฒฝํ์ ์นจ๋ฌต์ผ๋ก๋ถํฐ ๋จ์ด ํด๋
ํ๊ธฐ
์ ์ธ๊ณ์ ์ผ๋ก ๊ฐ๊ธ ์ฆํ๊ตฐ(locked-in syndrome), ALS ๊ด๋ จ ๋ฌด๋ฐํ์ฆ(anarthria), ๋๋ ์ค์ฆ ๋๊ฐ ๋์กธ์ค์ ์๊ณ ์๋ ์์ญ๋ง ๋ช
์ ์ฌ๋๋ค์๊ฒ ์ธ์ด๋ฅผ ํตํ ์์ฌ์ํต ๋ฅ๋ ฅ์ ์์ค๋์์ง๋ง, ์ธ์ด๋ฅผ ์ํ ์ ๊ฒฝ ๊ธฐ์ ๋ ๊ทธ๋ ์ง ์๋ค. ์ด๋ฌํ ํ์๋ค์ด ๋ง์ ์๋ํ ๋ ์ด๋ ํผ์ง์ ์ฌ์ ํ ํ์ฑํ๋๋ฉฐ, ์กฐ์ ํ์(articulatory representation)๋ ์ฌ์ ํ ํ๋ํ๋ค. ์ ํธ๋ ์กด์ฌํ๋ค. ๋ฌธ์ ๋ ๊ทธ๊ฒ์ ์ฝ์ด๋ด๋ ๊ฒ์ด๋ค.
์ ๊ฒฝ ํ๋์ผ๋ก๋ถํฐ ์๋๋ ์ธ์ด๋ฅผ ํด๋
ํ๋ ๋-์ปดํจํฐ ์ธํฐํ์ด์ค(BCI)๋ ์ ๊ฒฝ๊ณผํ๊ณผ ์์ํ ๊ณตํ ๋ถ์ผ์์ ๊ฐ์ฅ ์ผ์ฌ์ฐฌ ์ฐ๊ตฌ ์ค ํ๋๋ฅผ ๋ํํ๋ค. ์ง๋ 3๋
๊ฐ, ์ด ๋ถ์ผ๋ ๋์ ์ค๋ฅ์จ๋ก ๋ถ๋น ์์ญ ๊ฐ์ ๋จ์ด๋ฅผ ํด๋
ํ๋ ์์ค์์ ์์ฐ์ค๋ฌ์ด ๋ํ ์๋์ ๊ทผ์ ํ๋ ์์ค์ผ๋ก ๋ฐ์ ํ์์ผ๋ฉฐ, ์ต๊ทผ ์ฐ๊ตฌ๋ ์ด ๋ฅ๋ ฅ์ ์์ด๋ฅผ ๋์ด ์ฑ์กฐ ์ธ์ด(tonal language)๋ก๊น์ง ํ์ฅํ์ฌ BCI ๋งค๊ฐ ์์ฌ์ํต์ด ๋ชจ๋ ์ธ์ด ํ์์๊ฒ ์ ์ฉ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํ๊ณ ์๋ค.
์ต์ ๊ธฐ์ ๋ํฅ: ์๋์ ์ ํ๋
Willsey et al. (2025)์ ์ด ๋ถ์ผ์ ๊ธฐ์ค์ ์ด ๋๋ ๊ฒฐ๊ณผ ์ค ํ๋๋ฅผ ๋ณด๊ณ ํ๋ค. ์ด ์ฐ๊ตฌ๋ ์ฌ์ง๋ง๋น ์ฐธ๊ฐ์๊ฐ ๊ณ ์ฑ๋ฅ ํผ์ง๋ด BCI๋ฅผ ์ฌ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ์ฟผ๋์ฝฅํฐ๋ฅผ ์ ์ดํ๊ณ , ๊ฒ์ ๋ฐ ์์
๋ฏธ๋์ด ์ํธ์์ฉ์ ์ถฉ๋ถํ ์ ๋ฐ๋๋ก ๊ฐ๋ณ ์๊ฐ๋ฝ ์์ง์์ ํด๋
ํ๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์์คํ
์ ๊ดํ ๊ฒ์ด๋ค. Nature Medicine์ ๊ฒ์ฌ๋ ์ด ์ฐ๊ตฌ๋ ํผ์ง๋ด BCI๊ฐ ๊ธฐ๋ณธ์ ์ธ ์์ฌ์ํต๋ฟ๋ง ์๋๋ผ ๋์งํธ ํ๊ฒฝ๊ณผ์ ๋ณต์กํ ์ค์๊ฐ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ฑ๋ฅ ์๊ณ์น๋ฅผ ๋์ด์ฐ์์ ๋ณด์ฌ์ค๋ค.
์ด ์์คํ
์ ์ด๋ ํผ์ง์ ์ ๋งค๋ญ ์์ญ(hand knob area)์ ์ด์๋ ๋ฏธ์ธ์ ๊ทน ๋ฐฐ์ด์ ์ฌ์ฉํ์ฌ ์ ๊ฒฝ ์ง๋จ ํ๋์ ํด๋
ํ๊ณ ๋ฐํ ํจํด์ ์๋๋ ์๊ฐ๋ฝ ์์ง์์ ๋งคํํ๋ค. ์ฃผ์ ์ฑ๋ฅ ์งํ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- ์๋: ๋ถ๋น 76๊ฐ ๋ชฉํ, ์๋ฃ ์๊ฐ ์ฝ 1.58์ดโ์ด๋ค BCI ๋ฐฉ์์์๋ ๋ณด๊ณ ๋ ๊ฒ ์ค ๊ฐ์ฅ ๋์ ์์ค์ ์ํ๋ค.
- ์ง์ฐ ์๊ฐ: ์ ๊ฒฝ ํ๋์์ ํด๋
๋ ์ถ๋ ฅ๊น์ง 100 ms ๋ฏธ๋ง.
- ์ฐ์ ์ฌ์ฉ: ์ฐธ๊ฐ์๋ ์ ์๋ฏธํ ์ฑ๋ฅ ์ ํ ์์ด ์ฅ์๊ฐ(>1์๊ฐ) ์ธ์
๋์ ์์คํ
์ ์ฌ์ฉํ์๋ค.
์ด ์ฐ๊ตฌ๋ ์ธ์ด ์์ฒด๋ณด๋ค๋ ์๊ฐ๋ฝ ํด๋
์ ์ด์ ์ ๋ง์ถ๊ณ ์์ง๋ง, ์ธ์ด BCI๊ฐ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ ๊ฒฝ ํด๋
์ธํ๋ผ์ ์ ํธ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๋ค. ํต์ฌ์ ์ธ ๊ตฌ์กฐ์ ํต์ฐฐ์ ์ด๋ ํผ์ง ํ์์ด ๊ณ ์ฐจ์์ ์ด๊ณ ์ ๋ณด๊ฐ ํ๋ถํ๋ฉฐ ์ค์๊ฐ์ผ๋ก ํด๋
๊ฐ๋ฅํ๋ค๋ ๊ฒ์ผ๋ก, ์ด ์๋ฆฌ๋ ์ธ์ด ์ด๋ ํผ์ง์๋ ๋์ผํ๊ฒ ์ ์ฉ๋๋ค.
Brain-to-Text ๋ฒค์น๋งํฌ
Willett et al. (2024)์ ์ด ๋ถ์ผ์ ์ค์ํ ๊ณต๋ฐฑ, ์ฆ ํ์คํ๋ ํ๊ฐ์ ๋ถ์ฌ๋ฅผ ๋ค๋ฃฌ๋ค. arXiv์ ๊ฒ์ฌ๋ Brain-to-Text Benchmark '24๋ ์ฐ๊ตฌ ๊ทธ๋ฃน ๊ฐ ์ธ์ด ํด๋
์๊ณ ๋ฆฌ์ฆ์ ๋น๊ตํ๊ธฐ ์ํ ๊ณตํต ๋ฐ์ดํฐ์
๊ณผ ํ๊ฐ ํ๋กํ ์ฝ์ ์ ๊ณตํ๋ค.
์ด ๋ฒค์น๋งํฌ๋ ์๊ฒฉํ ์คํ์ค ๊ฐ ๋น๊ต๋ฅผ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๊ณ ๋ช ๊ฐ์ง ํต์ฌ์ ์ธ ๊ธฐ์ ์ ํต์ฐฐ์ ๋์ถํ๋ค:
๋์ฝ๋ ์์๋ธ(decoder ensembling)์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค: ๋ฏธ์ธ ์กฐ์ ๋ LLM์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ฒฝ์ ๋์ฝ๋์ ์ถ๋ ฅ์ ๋ณํฉํ๋ฉด ๋จ์ผ ๋์ฝ๋๋ณด๋ค ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์ด๋ ์๋ก ๋ค๋ฅธ ์ํคํ
์ฒ๊ฐ ์ํธ ๋ณด์์ ์ธ ์ ํธ ์ ๋ณด๋ฅผ ํฌ์ฐฉํจ์ ์์ฌํ๋ค.RNN ํ๋ จ ๊ฐ์ ์ด ์ค์ํ๋ค: ์ ์ ๋ ํ์ต๋ฅ ์ค์ผ์ค๋ง๊ณผ ์ด์ค์์(diphone) ํ๋ จ ๋ชฉํ๋ ํ์ค RNN ๊ธฐ์ค์ ์ ๋นํด ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ๋ค.์ธ์ด ๋ชจ๋ธ์ด ์๋นํ ์ค๋ฅ ์์ ์ ์ ๊ณตํ๋ค: ์ธ์ด ๋ชจ๋ธ(์ค๋งํธํฐ์ ์๋ ์์ ๊ณผ ์ ์ฌ)์ ํตํฉํ๋ฉด ์์ฐ์ด์ ํต๊ณ์ ๊ท์น์ฑ์ ํ์ฉํ์ฌ ์ก์์ด ๋ง์ ์ ๊ฒฝ ์ ํธ๋ฅผ ๋ณด์ํจ์ผ๋ก์จ ๋จ์ด ์ค๋ฅ์จ(word error rate)์ ํฌ๊ฒ ๊ฐ์์ํจ๋ค. ๋ค๋ง, ์ด๋ ์์คํ
์ด ์ง์ ์ผ๋ก "๋ง์์ ์ฝ๋" ๊ฒ์ธ์ง, ์๋๋ฉด ๋ถ๋ถ์ ์ผ๋ก "์ฌ์ฉ์๊ฐ ๋งํ๋ ค๋ ๊ฒ์ ์ถ์ธกํ๋" ๊ฒ์ธ์ง์ ๋ํ ์๋ฌธ์ ์ ๊ธฐํ๋ค.์์ด์ ์ฅ๋ฒฝ์ ๋์ด์
Qian et al. (2025)์ ํด๋น ๋ถ์ผ์ ๋ฒ์๋ฅผ ์์ด ์ค์ฌ์ ๊ธฐ๋ฐ์ ๋์ด ํ์ฅํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค: ๋ํผ์ง์ ๋(ECoG) ๊ธฐ๋ก์ผ๋ก๋ถํฐ
์ ์์ญ ์ค๊ตญ์ด์ ์ค์๊ฐ ๋์ฝ๋ฉ์ด ๊ทธ๊ฒ์ด๋ค.
Science Advances์ ๊ฒ์ฌ๋ ์ด ์ฐ๊ตฌ๋ ์ฑ์กฐ ์ธ์ด ํน์ ์ ๊ณผ์ ๋ฅผ ๋ค๋ฃฌ๋คโ์ค๊ตญ์ด๋ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ฐ๊พธ๋ ๋ค ๊ฐ์ง ์ดํ ์ฑ์กฐ๋ฅผ ์ฌ์ฉํ๋ฏ๋ก, BCI๊ฐ ์์์ ๋ด์ฉ๋ฟ ์๋๋ผ ์ด์จ์ ํน์ฑ๊น์ง ๋์ฝ๋ฉํด์ผ ํ๋ค.
์ด ์์คํ
์ 394๊ฐ์ ์๋ก ๋ค๋ฅธ ์์ ์ ๋์์ผ๋ก ์ค๊ฐ๊ฐ ์์ ์๋ณ ์ ํ๋ 71.2%๋ก ์ค๊ตญ์ด ํ์ค์ด(Mandarin Chinese)๋ฅผ ๋์ฝ๋ฉํ๋ฉฐ, ์ด๋ ์ค๊ตญ์ด ํ
์คํธ ์
๋ ฅ์ ๊ธฐ๋ฅ์ ์์ฌ์ํต ์๋์ ๊ทผ์ ํ๋ ์์น์ด๋ค. ์ด ์ํคํ
์ฒ๋ ์์ ์ฐ์ ํ์ดํ๋ผ์ธ ๋์ ์ฑ์กฐ๋ฅผ ํตํฉํ ์ง์ ์์ ์ ๊ฒฝ ๋์ฝ๋ฉ ๋ฐฉ์์ ์ฑํํ๊ณ , ์ดํ ์ค๋ฅ ์์ ์ ์ํด ์ค๊ตญ์ด ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ๋ค.
์ด ์ฐ๊ตฌ์ ์์๋ ์ค๊ตญ์ด๋ฅผ ๋์ด์ ๋ค. ์ธ๊ณ ์ธ์ด ์ค ์๋นํ ๋น์จ์ด ์ฑ์กฐ ์ธ์ด์ด๋ฉฐ(์ธก์ ๋ฐฉ๋ฒ๋ก ์ ๋ฐ๋ผ ์ถ์ ์น๊ฐ ํฌ๊ฒ ๋ค๋ฆ), ์ฌ๊ธฐ์๋ ๋ฒ ํธ๋จ์ด, ํ๊ตญ์ด, ์๋ฃจ๋ฐ์ด ๋ฑ ์๋ง์ ์ธ์ด๊ฐ ํฌํจ๋๋ค. BCI ์์ฑ ๋์ฝ๋ฉ์ด ์ฑ์กฐ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๋ค๋ฉด, ์ด๋ ์ดํ ๊ตฌ๋ณ์ ์ฑ์กฐ๋ฅผ ์ฌ์ฉํ์ง ์๋ ์์์ ์ธ์ด์๋ง ๋ณธ์ง์ ์ผ๋ก ์ ํ๋ ์๋ฐ์ ์๋ค. Qian et al.์ด ์ฑ์กฐ ๋์ฝ๋ฉ์ด ๊ฐ๋ฅํจ์ ์
์ฆํจ์ผ๋ก์จ, ์ ์ด๋ ์์น์ ์ผ๋ก๋ BCI ๋งค๊ฐ ๋ณดํธ์ ์์ฌ์ํต์ ๋ฌธ์ ์ด์๋ค.
๋ฌด์ฑ ๋ฐํ: ๋ฐํ ์๋์กฐ์ฐจ ๋ถ๊ฐ๋ฅํ ๋
Luo et al. (2025)์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ํ๊ณ๋ฅผ ๋ฐ์ด๋ถ์ธ๋ค: ๋ฌด์ฑ ๋ฐํ(silent speech)โ์๋ฆฌ๋ฅผ ์ ํ ๋ด์ง ์๊ณ ๊ตฌ๊ฐ ์๋ฉด ์์ง์๋ ์ต์ํํ ์ํ์์์ ์๋๋ ๋ฐํโ๋์ฝ๋ฉ์ด ๊ทธ๊ฒ์ด๋ค. medRxiv ํ๋ฆฌํ๋ฆฐํธ์ ๊ธฐ์ ๋ ์ด๋ค์ ์๊ฐ ์กฐ์ (self-paced) ๋ฌด์ฑ ๋ฐํ BCI๋ ์ฐธ๊ฐ์๊ฐ ํน์ ๋ช
๋ น์ด๋ฅผ ์์ํ๋ ๊ฒ๋ง์ผ๋ก๋ ๋ฐ์ฑ ์๋ ์์ด ๊ธฐ๊ธฐ๋ฅผ ์ ์ดํ ์ ์๊ฒ ํ๋ค.
์ด๋ ํ์ฌ์ ์์ฑ BCI๊ฐ ์๊ตฌํ๋ ์ต์ํ์ ์กฐ์ ์ด๋์กฐ์ฐจ ์ํํ ์ ์๋ ์งํ์ฑ ALS ๋๋ ๋๊ฐ ๋์กธ์ค ํ์์๊ฒ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค. ๊ธฐ์กด ์์คํ
์ ๋๋ถ๋ถ์ "์๋๋ ๋ฐํ(attempted speech)"๋ฅผ ๋์ฝ๋ฉํ๋๋ฐ, ์ด๋ ๋ฐํ ๋
ธ๋ ฅ ์ค ์ด๋ ํผ์ง์ ์๋ฅ ํ๋์ผ๋ก์ ์์ํ๊ฒ ์์๋ ๋ฐํ๋ณด๋ค ๋ ๊ฐํ๊ณ ์ ํํ๋ ์ ๊ฒฝ ์ ํธ๋ฅผ ์์ฑํ๋ค. Luo et al.์ ์์คํ
์ ์๋ฆฌ ์์ด ์
์ ๋ก๋ง ๋ชจ๋ฐฉํ(silently mimed) ์์ฑ ๋ช
๋ น์ผ๋ก ์๋ํ๋ฉฐ, ALS ํ์ ์ฐธ๊ฐ์๋ฅผ ๋์์ผ๋ก 14๊ฐ ๊ธฐ๊ธฐ ์ ์ด ๋ฒ์ฃผ์์ ์ค๊ฐ๊ฐ ์ ํ๋ 97.1%๋ฅผ ๋ฌ์ฑํ์๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| BCI๊ฐ ๋ํ์ ๊ทผ์ ํ๋ ์๋๋ก ์์ฑ์ ๋์ฝ๋ฉํ ์ ์๋ค | ์ค๊ตญ์ด์์ 394๊ฐ ์์ ๋์ 71.2% ์์ ์ ํ๋(Qian et al.); ์ ํ ์ฐ๊ตฌ์ ์์ด์์๋ ์ ์ฌํ ์์น | โ
์ง์ง๋จ (ํต์ ๋ ํ๊ฒฝ์์) |
| ์ฑ์กฐ ์ธ์ด ๋์ฝ๋ฉ์ด ๊ฐ๋ฅํ๋ค | ์ค๊ตญ์ด ํ์ค์ด์์ ์์ ์๋ณ ์ ํ๋ 71.2%(Qian et al.) | โ
์ง์ง๋จ |
| ๋ฌด์ฑ ๋ฐํ BCI๊ฐ ์ ํํ๊ฒ ๊ธฐ๊ธฐ๋ฅผ ์ ์ดํ ์ ์๋ค | 14๊ฐ ๋ฒ์ฃผ์์ ์ค๊ฐ๊ฐ ์ ํ๋ 97.1%(Luo et al.) | โ
์ง์ง๋จ |
| BCI๊ฐ ์ผ์์ ์ธ ๋น๊ฐ๋
์ฌ์ฉ์ ์ค๋น๋์ด ์๋ค | ์์ฑ BCI์ ๋ํ ์ฅ๊ธฐ ๊ฐ์ ์ฌ์ฉ ์ฐ๊ตฌ๊ฐ ๋ฐํ๋ ๋ฐ ์์ | โ ๋ฐ๋ฐ๋จ (ํ์ฌ๋ก์๋) |
| BCI ์ฑ๋ฅ์ ํผํ์ ๊ฐ ๋ณ๋์ฑ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์๋ค | ์ ๊ทน ๋ฐฐ์น, ์ ํธ ํ์ง, ํผ์ง ๊ตฌ์กฐ ์ฐจ์ด๊ฐ ํด๋น ๋ถ์ผ ์ ๋ฐ์ ๊ฑธ์ณ ์๋ ค์ง ๊ณผ์ ๋ก ๋จ์ ์์ | โ ๋ฐ๋ฐ๋จ |
๋ด๊ตฌ์ฑ ๋ฐ ๋๋ฆฌํํธ ๋ฌธ์
์ ์ ๋ ๋ง์ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์๋ ๊ณผ์ ๋ ์ ๊ฒฝ ์ ํธ ๋๋ฆฌํํธ(neural signal drift)์ด๋ค: ์ ๊ทน์ด ์์น๋ฅผ ์ด๋ํ๊ณ , ์กฐ์ง ํผ๋งํ๊ฐ ์งํ๋๋ฉฐ, ์ ๊ฒฝ ํ์์ด ์ฌ์กฐ์งํ๋จ์ ๋ฐ๋ผ ์ ๊ฒฝ ํ๋ ํจํด๊ณผ ๋์ฝ๋ฉ ์ถ๋ ฅ ๊ฐ์ ๊ด๊ณ๊ฐ ์์ผ ๋ด์ง ์ ์ฃผ์ ๊ฑธ์ณ ๋ณํํ๋ค. ํ์ฌ์ ๊ณ ์ฑ๋ฅ BCI๋ ์ฃผ๊ธฐ์ ์ธ ์ฌ๋ณด์ (recalibration)์ ํ์๋ก ํ๋๋ฐ, ์ด๋ ์ฌ์ฉ์๊ฐ ์๋ ค์ง ๊ณผ์ ๋ฅผ ์ํํ๋ ๋์ ๋์ฝ๋๋ฅผ ์ฌํ๋ จํ๋ ๊ณผ์ ์ด๋ค.
์์์ฉ ์์ฑ BCI์ ๊ฒฝ์ฐ, ์ฌ๋ณด์ ์ ์ค์ฆ ์ฅ์ ์ฌ์ฉ์์๊ฒ ์์ฉํ๊ธฐ ์ด๋ ค์ด ๋ถ๋ด์ ์ด๋ํ ์ ์๋ค. ๋งค์ผ ์์นจ ์์ ์ ๋ชฉ์๋ฆฌ๋ฅผ "์ฌํ๋ จ"ํด์ผ ํ๋ ์ํฉ์ ์์ํด ๋ณด๋ผ. ๋ช
์์ ์ธ ์ฌ๋ณด์ ์ธ์
์์ด ์ ๊ฒฝ ์ ํธ์ ๋ถํฌ ๋ณํ๋ฅผ ์ถ์ ํ๋ ์ ์ํ ๋์ฝ๋๋ ํ๋ฐํ ์ฐ๊ตฌ ๋ถ์ผ์ด์ง๋ง, ์์ฑ BCI์์ ์ค์ ๋๋ฆฌํํธ ์กฐ๊ฑด ํ์ ์ฑ๋ฅ์ ์์ง ์
์ฆ๋์ง ์์๋ค.
์ ๊ทน ๋ฐ๋์ ํ๊ณ
ํ์ฌ์ ํผ์ง ๋ด BCI๋ ์ฝ 96๊ฐ์ ์ ๊ทน์ ๊ฐ์ถ Utah ๋ฐฐ์ด์ ์ฌ์ฉํ๋ฉฐ, ์ฝ 4mm ร 4mm ํฌ๊ธฐ์ ํผ์ง ํจ์น์์ ์๋ฐฑ ๊ฐ์ ๋ด๋ฐ์ ์ํ๋งํ๋ค. ์ธ์ด ์ด๋ ํผ์ง์ ์ด๋ณด๋ค ํจ์ฌ ๋๊ณ , ์ธ์ด์ ๋ํ ์ ๊ฒฝ ์ฝ๋๋ ์ฌ๋ฌ ํผ์ง ์์ญ(๋ณต์ธก ์ ์ด๋ ํผ์ง, ์ผ์ฐจ ์ด๋ ํผ์ง, ๋ณด์กฐ ์ด๋ ํผ์ง, Broca ์์ญ)์ ๊ฑธ์น ๋ถ์ฐ ํ์์ ํฌํจํ๋ค. 96๊ฐ์ ์ ๊ทน์ด ์ ์ฐฝํ๊ณ ์ ์ฝ ์๋ ์์ฌ์ํต์ ํ์ํ ์์ฒ ๋จ์ด์ ์ดํ๋ฅผ ์ง์ํ๊ธฐ์ ์ถฉ๋ถํ ๊ณต๊ฐ์ ์ํ๋ง์ ์ ๊ณตํ๋์ง๋ ์์ง ์ค์ฆ์ ์ผ๋ก ๊ท๋ช
๋์ง ์์ ๋ฌธ์ ์ด๋ค.
๊ณ ๋ฐ๋ ์ ๊ทน ๋ฐฐ์ด(Neuropixels, Utah HD)๊ณผ ํผ์ง์ ๋๊ฒ์ฌ(ECoG) ๊ทธ๋ฆฌ๋๋ ๋ ๋์ ๊ณต๊ฐ์ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ ๊ณตํ์ง๋ง, ์๋ก ๋ค๋ฅธ ์์ถฉ ๊ด๊ณ๋ฅผ ์๋ฐํ๋ค. Neuropixels๋ ์ฐ์ํ ๋จ์ผ ๋ด๋ฐ ํด์๋๋ฅผ ์ ๊ณตํ์ง๋ง ๊ณต๊ฐ์ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ์ ํ์ ์ด๋ฉฐ, ECoG ๊ทธ๋ฆฌ๋๋ ๋์ ํผ์ง ์์ญ์ ์ปค๋ฒํ์ง๋ง ๊ณต๊ฐ ํด์๋๊ฐ ๋ฎ๋ค. ์ธ์ด BCI์ ์ต์ ํ๋ ์ ๊ทน ๊ธฐ์ ์ ์์ง ๊ฒฐ์ ๋์ง ์์ ์ํ์ด๋ค.
๋ฏธํด๊ฒฐ ์ง๋ฌธ๊ณผ ํฅํ ๋ฐฉํฅ
๋ฌด์ BCI๊ฐ ์ ์ ๋ฐฉ์์ ์ฑ๋ฅ์ ๋ฐ๋ผ์ก์ ์ ์๋๊ฐ? ํ์ฌ ๊ณ ์ฑ๋ฅ ์์คํ
์ ๊ฐ์ผ ์ํ์ ์ด๋ํ๋ ๊ฒฝํผ์ ์ปค๋ฅํฐ๋ฅผ ์ฌ์ฉํ๋ค. ๋ฌด์ ์ํ๋ํธ(BrainGate, Neuralink N1)๋ ์ด๋ฌํ ์ํ์ ์ ๊ฑฐํ์ง๋ง, ๋์ฝ๋ฉ ์ฑ๋ฅ์ ์ ํ์ํฌ ์ ์๋ ๋์ญํญ ์ ์ฝ๊ณผ ์ ๋ ฅ ํ๊ณ๋ฅผ ์๋ฐํ๋ค.์ ์ฐฝํ๊ณ ์ ์ฝ ์๋ ์ธ์ด ์์ฑ์ ์ํด ๋ช ๊ฐ์ ์ ๊ทน์ด ํ์ํ๊ฐ? ์ดํ ํฌ๊ธฐ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ์ ํํ๋ ์ต์ ์ ๊ทน ์๊ฐ ์กด์ฌํ๋๊ฐ? ์ธ์ด ๋์ฝ๋ฉ์ ์ต์ ํํ๋ ์ ๊ทน์ ๊ณต๊ฐ์ ๋ถํฌ๋ ์ด๋ ํ๊ฐ?BCI๋ฅผ ์์ฑ ํฉ์ฑ๊ณผ ๊ฒฐํฉํ์ฌ ์์ฐ์ค๋ฌ์ด ์ถ๋ ฅ์ ์์ฑํ ์ ์๋๊ฐ? ํ์ฌ ์์คํ
์ ํ
์คํธ๋ฅผ ๋์ฝ๋ฉํ๋ค. ์ ๊ฒฝ ์ ํธ๋ฅผ ๋ถ์ ์ ์ฌ์ฉ์์ ๋ชฉ์๋ฆฌ๋ฅผ ์ฌํํ๋ ์์ฑ ํฉ์ฑ๊ธฐ์ ์ง์ ํตํฉํ๋ค๋ฉด, BCI ๊ธฐ๋ฐ ์์ฌ์ํต์ ์์ฐ์ค๋ฌ์์ด ํ๊ธฐ์ ์ผ๋ก ํฅ์๋ ๊ฒ์ด๋ค.์ธ์ด BCI์ ์์ฅ ๊ท๋ชจ๋ ์ด๋ ์ ๋์ธ๊ฐ? ๋ชฉํ ๋์ ์ง๋จ(์์ ๊ฐ๊ธ ์ฆํ๊ตฐ, ์งํ์ฑ ALS, ์ค์ฆ ๋๊ฐ ๋์กธ์ค)์ ๋น๊ต์ ์๊ท๋ชจ์ด๋ค. ์ด ๊ธฐ์ ์ ๊ด๋ฒ์ํ ์์ ์ ์ฉ์ด ๊ฐ๋ฅํ ๋งํผ ์ ๋ ดํ๊ฒ ๋ง๋ค ์ ์๋๊ฐ, ์๋๋ฉด ์ฐ๊ตฌ ๋๊ตฌ๋ก๋ง ๋จธ๋ฌผ ๊ฒ์ธ๊ฐ?์์ฌ์ํต์ด ๋ถ๊ฐ๋ฅํ ํ์์ ๋ ์ํ๋ํธ์ ๋ํ ๋์๋ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋๊ฐ? ์ธ์ด BCI๋ก๋ถํฐ ๊ฐ์ฅ ํฐ ํํ์ ๋ฐ์ ์ ์๋ ํ์๋ค์, ์ ์์ ์ ๊ฒฝ์ธ๊ณผ์ ์์ ์ ๋ํ ๋์๋ฅผ ์ค์ค๋ก ํํํ ์ ์๋ ์ฌ๋๋ค์ด๋ค. ์ด๋ฌํ ๋งฅ๋ฝ์์ ๋๋ฆฌ ๋์์ ๊ดํ ์ค๋ฆฌ์ ํ๋ ์์ํฌ๋ ์์ง ์ถฉ๋ถํ ๋ฐ์ ํ์ง ์์ ์ํ์ด๋ค.์ ๊ฒฝ๊ณผํ ๋ฐ ์ํ์ ๋ํ ํจ์
์ง๋ 3๋
๊ฐ ์ธ์ด BCI ์ฐ๊ตฌ์์์ ์ง์ ์ ์๋นํ๋ค. ๋์ฝ๋ฉ ์๋๋ ์ฝ 3๋ฐฐ์์ 5๋ฐฐ ํฅ์๋์๊ณ , ์ฑ์กฐ ์ธ์ด ๋์ฝ๋ฉ์ด ์์ฐ๋์์ผ๋ฉฐ, Brain-to-Text Benchmark๋ ์ฐ๊ตฌ ๊ทธ๋ฃน ๊ฐ ์๋ฐํ ๋น๊ต๋ฅผ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ ์ค์ฆ ์ด๋ ์ฅ์ ๋ฅผ ๊ฐ์ง ์ฌ๋๋ค์ ๊ธฐ๋ฅ์ ์์ฌ์ํต ํ๋ณต ๊ฐ๋ฅ์ฑ์ ์์ ํ์ค์ ๋์ฑ ๊ฐ๊น๊ฒ ๋ง๋๋ ์ง์ ํ ๋ฐ์ ์ด๋ค.
์ฌ์ ํ ๋จ์ ์๋ ๊ฒฉ์ฐจ๋, ํต์ ๋ ํ๊ฒฝ๊ณผ ํ๋ จ๋ ์ฐ๊ตฌ ์ฐธ์ฌ์ ๋ฐ ์ ๋ฌธ์ ์ธ ๊ธฐ์ ์ง์์ ๊ฐ์ถ ์คํ์ค ์์ฐ๊ณผ, ALS ํ์๊ฐ ์ง์์ ๊ฐ์กฑ๊ณผ ๋ํ๋ฅผ ๋๋๊ณ ์ ํ๋ ์ผ์์ ํ์ค ์ฌ์ด์ ์กด์ฌํ๋ค. ์ด ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด์๋ ๋ ๋์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์ ๊ทน๋ฟ๋ง ์๋๋ผ, ๋ ๋์ ์์คํ
์์ง๋์ด๋งโ์ ๋ขฐํ ์ ์๋ ํ๋์จ์ด, ์ง๊ด์ ์ธ ์ธํฐํ์ด์ค, ์ต์ํ์ ๊ต์ ๋ถ๋ด, ํ์ ์๋์ ํ์ ์์ ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ ๊ท์ ๊ฒฝ๋กโ๋ ํ์ํ๋ค.
๊ณผํ์ ์ง๋ณดํ๊ณ ์๋ค. ๊ณตํ์ด ๊ทธ ๋ค๋ฅผ ๋ฐ๋ผ์ผ ํ๋ค.
References (4)
[1] Willsey, M.S., Shah, N.P., Avansino, D.T. et al. (2025). A high-performance brainโcomputer interface for finger decoding and quadcopter game control in an individual with paralysis. Nature Medicine, 31(1), 96โ104.
[2] Willett, F.R., Li, J., Le, T. et al. (2024). Brain-to-Text Benchmark '24: Lessons learned. arXiv:2412.17227.
[3] Qian, Y., Liu, C., Yu, P. et al. (2025). Real-time decoding of full-spectrum Chinese using brain-computer interface. Science Advances, 11(12), eadz9968.
[4] Luo, S., Angrick, M., Coogan, C. et al. (2025). Self-paced silent speech brain-computer interface for device control. medRxiv.