人与人交往中,说话表达是最基本的能力和方式,可世界上有许多人因患有神经疾病而丧失语言能力,目前迫切需要开发出一些特定的通讯设备来帮助这些「有口难言」群体进行沟通交流。发表在《Nature》杂志上的两篇文章[1][2]表明,因严重瘫痪而无法说话的人有可能通过植入式脑机接口(BCI)进行交流沟通,通过BCI交流的速度远高于其他交流方式。Willett等人开发出一种使用电极穿透大脑皮层记录大脑活动的设备,而Metzger及其同事则开发出一种把电极放置在大脑皮层表面的新型设备。这些研究标志着BCI技术发展的转折点,该技术旨在帮助丧失语言能力的人恢复沟通能力。


神经系统疾病会麻痹与言语和肢体功能相关的肌肉,同时影响认知功能,最终可能导致闭锁综合征。在这种情况下,个人无法进行交流,只能通过眨眼或最小的动作来回答问题。有多种系统可以替代和增强通信技术,来帮助闭锁综合症患者进行交流,但是尚不完善。与正常沟通交流(每分钟约150个字)相比,这些系统说话的速度要慢得多(通常每分钟只能达到几个字),然而脑机接口有解决这些问题的潜力。


1969年,Macaca mulatta发表的一篇论文首次证明可以训练猕猴增加单个神经元的活动,从而使其做出意愿行为。人类实验开始于1990年代末,当时将电极连接到一名因运动神经元病(肌萎缩侧索硬化症,俗称渐冻症)引起的闭锁综合征患者的神经元上。随后在2006年进行的一项研究中,毫米级电极阵列(称为微电极)被植入脊髓损伤患者的大脑中。这种微电极阵列(MEA)通过记录运动皮层中数百个神经元的活动控制机械臂,运动皮层在大脑中负责控制自主运动。之后,MEA被用于实现通信,例如译码笔迹。


自1999年以来,脑电图(EEG)技术(即沿着头皮放置电极以记录大脑中的电活动),一直被用来帮助瘫痪患者进行交流(通过控制自定义的拼写软件来实现)。大约在同一时间,人们发现在大脑放置小型圆盘电极(直径为2-3毫米)可以获得比使用头皮电极质量更好的信号,这种记录大脑活动的方法被称为皮质电图(ECoG)。


本世纪初,ECoG开始用于接受手术治疗后的耐药性癫痫患者,以记录与语言和肢体运动相关的大脑信号。这最终促成了首个全嵌入式ECoG设备的开发,使闭锁综合症患者能够在家中就使用打字程序。迄今为止,约有50名不同程度瘫痪的患者通过植入BCI进行交流,其中大多数人使用MEA。


Metzger等人报告了一名瘫痪受试者的研究结果,该患者在17年前曾得过一次脑干中风,这导致她从此不能说清楚话。作者的BCI系统包含一个植入了253个ECoG电极的硅片,每个电极都记录了数千个神经元的平均活动。该装置通过手术植入大脑感觉运动皮层左侧的“面部区域”,也就是负责控制口腔,面部肌肉和声道的皮层。这项研究建立在之前的ECoG记录报告的基础上,其中包括在另一名脑干中风患者身上植入的类似BCI的记录。

大脑对文本的解码,第一种方法是通过循环神经网络与语言模型这两个系统的组合实现的,循环神经网络(RNN,人工神经网络的一种)的网络运行的算法可破译与发音器(声道的一部分)运动相关的大脑活动;语言模型以每分钟78个单词的速度从一组单词(1024个)中组成句子(组成的单词错误率为25.5%)。第二种方法是,可以通过直接将大脑信号翻译成合成语音,单词词汇量为1024个时,合成单词错误率为54.4%;单词词汇量为119个时,合成单词错误率为8.2%,词汇量较少错误率会降低。此外,BCI还尝试对面部表情进行解码,并通过数字人像进行再现,从而为文本或语音提供视觉反馈,极大地丰富了参与者的交流能力。总体而言,与之前报道的ECoG、BCI相比,该设备在词汇量、通信速度和语音解码的多功能性方面都有很大改进。


Willett等人报道了使用两个MEA(共包含128个电极)来记录无法清晰说话的渐冻症患者的大脑感觉运动皮层左侧的“面部区域”的神经元活动。与Metzger及其同事的设备一样,RNN和语言模型可以将大脑信号转化为文本,并针对不同的词汇量进行训练和测试。通过该设备,受试者能够以平均每分钟62个单词的速度进行交流,在125000个单词的词汇量中,单词错误率为23.8%;在50个单词的词汇量中,单词错误率为9.1%。

RNN是通过训练受试者尝试说出显示器上显示的260-480个句子的方法来收集神经活动记录,整个训练过程平均每天耗时140分钟,持续8天。Willett及其同事的实验分析表明,减少训练不会过多影响结果。重要的是,作者观察到,从一个被广泛认为对语音生成至关重要的大脑区域(称为布洛卡区)记录到的神经活动无法被解码,这引发了该区域是否包含对语音解码有用的信息的疑问。


这两份报道为使用植入式脑机接口(BCI)恢复通信的理论提供了有力证据,但在广泛使用前,仍需要进一步解决几个问题。首先,这两项研究中使用的语音模型都是对可以微弱发音受试者的模拟语音进行训练和测试,现在还需要更多的研究来证明对无法发音受试者的疗效,如闭锁综合征(包括渐冻症晚期)。另一个问题是,这两种设备都需要通过数百个电极进行高带宽记录,这些电极必须通过一个穿透皮肤的"基座"连接到外部放大器,这在外观上并不美观。后续需要开发出可完全植入的无线BCI,以复刻或超越这些研究中所报告的性能。


此外,目前只选择了技能强的研究人员参与到所报道的脑机接口的培训工作,因此在家庭环境中,对于没经验的护理人员来说不太适用。未来还需要类似的、只需极少或无需研究人员干预即可运行的有效脑机接口系统。这需要以用户为中心的原则,在临床人群中进行广泛的开发和测试。目前还不清楚用户对他人语音的感知是否会导致从大脑到文本的解码错误,因为越来越多的证据表明,语音感知除语音生成外,还会激活感觉运动皮层。


最后,目前还需要观察MEA和ECoG这两种设备在实际应用中的安全性和长期有效性方面,是否可以满足用户的需求。MEA可从一小块皮层区域中捕捉到丰富的功能信息,但信号往往不稳定,需要频繁更新语音解码模型。此外,电极材料的降解和装置的组装可能会限制MEA的使用寿命。与MEA相比,ECoG电极需要植入的面积更大,但ECoG电极位于皮质组织外部,虽然会引起表层组织反应,但通常能在长时间内提供较好的信号质量。


这两种脑机接口装置代表了神经科学和神经工程学研究的重大进步,对于缓解因瘫痪性神经损伤和疾病而失声的人的痛苦有巨大的潜力。即使是最基本的脑机接口系统,也能让用户在辅助技术软件中选择字母或图标,为他们的日常生活带来极大的便利。综上所述,能够进行交流的脑机接口系统(如本文讨论的系统)有望产生更大的影响。