言語產(chǎn)生是人類交流的核心過程,涉及肺部氣流、聲帶振動以及面部、口腔和舌頭肌肉的協(xié)調(diào)運動。然而,對于接受全喉切除手術的患者來說,由于聲帶被切除,他們失去了發(fā)聲能力。現(xiàn)有的替代發(fā)聲方式,如食管語、電子喉或氣管食管假體,雖然在臨床上有所應用,但存在語音可懂度低、聲音個性喪失等問題,限制了患者的社交溝通。
為了幫助喉切除患者恢復自然語音交流,研究者提出了“無聲語音接口”這一技術路徑。SSI通過采集與發(fā)音相關的生物信號(如肌肉活動、舌位、腦電等),將其轉換為合成語音。其中,表面肌電信號因其非侵入性和與發(fā)音肌肉活動的強相關性,成為研究熱點。然而,如何選擇合適的電極類型、數(shù)量與放置位置,是構建高效SSI系統(tǒng)的關鍵問題。
本研究作為ReSSInt項目的一部分,旨在通過一系列實驗,確定最適合用于西班牙語喉切除患者的sEMG電極配置,為后續(xù)構建大規(guī)模EMG-語音數(shù)據(jù)庫奠定基礎。
論文摘要
本文旨在探索用于開發(fā)無聲語音接口的表面肌電信號電極配置方案。研究通過一系列實驗,比較了不同類型的雙極電極(同心電極與單配對電極)以及多個面部和頸部肌肉的信號貢獻,最終確定了一套最優(yōu)的電極布局方案。
實驗分為三個階段:第一階段比較了兩種電極類型在五個通道下的表現(xiàn);第二階段擴展至14個通道,覆蓋多個面部與頸部肌肉,評估各通道在音素分類任務中的表現(xiàn);第三階段基于前兩階段結果,優(yōu)化出10個通道進行驗證。
實驗結果表明,單配對電極在分類準確率上顯著優(yōu)于同心電極。通過對各通道的逐一分析與對比,研究最終篩選出八個最優(yōu)電極通道,分別對應八個與發(fā)音密切相關的肌肉:二腹肌前腹、降口角肌、笑肌、上唇提肌、咬肌、顴大肌、下唇降肌和莖突舌骨肌。該配置已被用于ReSSInt數(shù)據(jù)庫的正式錄制。
研究方法
本研究采用OT Bioelettronica公司生產(chǎn)的Quattrocento生物電放大器采集sEMG信號,采樣頻率為2048 Hz,同時使用Neumann TLM103麥克風錄制語音信號,采樣頻率為16 kHz。為確保EMG與音頻信號同步,研究中使用同步信號進行時間對齊。
實驗分為三個主要階段:
階段一:比較兩種電極類型——同心電極與單配對電極,均以雙極配置采集。實驗使用五個通道,參與者朗讀250句音素平衡的西班牙語句子。

階段二:擴展至14個通道,覆蓋更多面部和頸部肌肉(如圖2所示),采集105個西班牙語音節(jié)的CV組合,用于評估各通道的獨立貢獻。

階段三:基于前兩階段結果,優(yōu)化出10個通道(如圖3所示),再次錄制句子以驗證最終配置。

信號處理方面,研究提取了五類時域特征,并通過LDA降維,輸入GMM、決策樹和神經(jīng)網(wǎng)絡三種分類器進行音素分類任務。分類結果用于評估各通道的有效性。
實驗結果
電極類型比較:階段一實驗結果顯示,單配對電極在所有三種分類器中均顯著優(yōu)于同心電極(p < 0.001),其平均驗證準確率更高(如圖5所示)。這表明固定間距的同心電極可能因尺寸較大而引入更多交叉干擾。

通道選擇分析:階段二實驗對各通道逐一進行音素分類。結果顯示,OBO、STR、SCM等通道分類準確率最低,且OBO電極因位置靠近嘴唇易受汗水和氣流影響,信號穩(wěn)定性差(如圖6所示)。而SLH、PBD等頸部肌肉通道表現(xiàn)中下,因其位置接近,信號重疊度高,最終僅保留SLH。

最終驗證:階段三實驗中,F(xiàn)RT(額肌)通道作為對照,其分類準確率接近基線,驗證了其他通道的發(fā)音相關性。最終,八個通道(ABD、DAO、RIS、LLS、MAS、ZYG、DLI、SLH)被選為最優(yōu)配置(如圖7所示),在NN分類器中達到48.42%的測試準確率。

總結與展望
本研究通過系統(tǒng)實驗確定了一套適用于無聲語音接口的sEMG電極配置方案,最終選定的八個通道覆蓋了面部與頸部多個關鍵發(fā)音肌肉,具有較高的音素分類能力和實用性。該配置已被用于ReSSInt數(shù)據(jù)庫的正式錄制,未來將為喉切除患者的語音恢復研究提供數(shù)據(jù)支持。
盡管研究結果具有指導意義,但也存在一定局限性。首先,實驗僅基于一名參與者,肌肉活動的個體差異可能影響電極配置的普適性。其次,電極放置為不對稱布局,雖基于面部對稱性假設,但仍需進一步驗證其對不同人群的適用性。
未來,團隊計劃引入更多參與者,分析跨個體與跨會話的信號穩(wěn)定性。同時,將探索基于SFS算法的通道優(yōu)化方法,以進一步精簡電極數(shù)量。ReSSInt數(shù)據(jù)庫完成后,將通過ELRA公開,供全球研究者使用,推動無聲語音接口技術的發(fā)展。
原文鏈接:
https://doi.org/10.3390/s25030781
研究團隊介紹:
本研究團隊來自西班牙巴斯克大學HiTZ語言技術中心,該中心是西班牙領先的自然語言處理和語音技術研究機構。團隊由Inma Hernáez教授和Eva Navas教授領導,專注于語音技術、生物信號處理和輔助溝通系統(tǒng)的開發(fā)。
第一作者Inge Salomons和共同作者Eder del Blanco均為該中心的博士生,主要負責實驗設計、數(shù)據(jù)采集與算法實現(xiàn)。團隊長期從事無聲語音接口研究,其主導的ReSSInt項目旨在為西班牙語喉切除患者開發(fā)基于表面肌電信號的語音恢復系統(tǒng),獲西班牙國家研究署資助。
該團隊在肌電信號處理、語音識別和多模態(tài)生物信號分析方面具有豐富經(jīng)驗,致力于將學術研究成果轉化為實際臨床應用,改善言語障礙人士的溝通能力。

聯(lián)系我們

電話: 15920901903
官網(wǎng):https//www.ruihongan.cn