言語產(chǎn)生是人類交流的核心過程,涉及肺部氣流、聲帶振動(dòng)以及面部、口腔和舌頭肌肉的協(xié)調(diào)運(yùn)動(dòng)。然而,對于接受全喉切除手術(shù)的患者來說,由于聲帶被切除,他們失去了發(fā)聲能力,F(xiàn)有的替代發(fā)聲方式,如食管語、電子喉或氣管食管假體,雖然在臨床上有所應(yīng)用,但存在語音可懂度低、聲音個(gè)性喪失等問題,限制了患者的社交溝通。
為了幫助喉切除患者恢復(fù)自然語音交流,研究者提出了“無聲語音接口”這一技術(shù)路徑。SSI通過采集與發(fā)音相關(guān)的生物信號(如肌肉活動(dòng)、舌位、腦電等),將其轉(zhuǎn)換為合成語音。其中,表面肌電信號因其非侵入性和與發(fā)音肌肉活動(dòng)的強(qiáng)相關(guān)性,成為研究熱點(diǎn)。然而,如何選擇合適的電極類型、數(shù)量與放置位置,是構(gòu)建高效SSI系統(tǒng)的關(guān)鍵問題。
本研究作為ReSSInt項(xiàng)目的一部分,旨在通過一系列實(shí)驗(yàn),確定最適合用于西班牙語喉切除患者的sEMG電極配置,為后續(xù)構(gòu)建大規(guī)模EMG-語音數(shù)據(jù)庫奠定基礎(chǔ)。
論文摘要
本文旨在探索用于開發(fā)無聲語音接口的表面肌電信號電極配置方案。研究通過一系列實(shí)驗(yàn),比較了不同類型的雙極電極(同心電極與單配對電極)以及多個(gè)面部和頸部肌肉的信號貢獻(xiàn),最終確定了一套最優(yōu)的電極布局方案。
實(shí)驗(yàn)分為三個(gè)階段:第一階段比較了兩種電極類型在五個(gè)通道下的表現(xiàn);第二階段擴(kuò)展至14個(gè)通道,覆蓋多個(gè)面部與頸部肌肉,評估各通道在音素分類任務(wù)中的表現(xiàn);第三階段基于前兩階段結(jié)果,優(yōu)化出10個(gè)通道進(jìn)行驗(yàn)證。
實(shí)驗(yàn)結(jié)果表明,單配對電極在分類準(zhǔn)確率上顯著優(yōu)于同心電極。通過對各通道的逐一分析與對比,研究最終篩選出八個(gè)最優(yōu)電極通道,分別對應(yīng)八個(gè)與發(fā)音密切相關(guān)的肌肉:二腹肌前腹、降口角肌、笑肌、上唇提肌、咬肌、顴大肌、下唇降肌和莖突舌骨肌。該配置已被用于ReSSInt數(shù)據(jù)庫的正式錄制。
研究方法
本研究采用OT Bioelettronica公司生產(chǎn)的Quattrocento生物電放大器采集sEMG信號,采樣頻率為2048 Hz,同時(shí)使用Neumann TLM103麥克風(fēng)錄制語音信號,采樣頻率為16 kHz。為確保EMG與音頻信號同步,研究中使用同步信號進(jìn)行時(shí)間對齊。
實(shí)驗(yàn)分為三個(gè)主要階段:
階段一:比較兩種電極類型——同心電極與單配對電極,均以雙極配置采集。實(shí)驗(yàn)使用五個(gè)通道,參與者朗讀250句音素平衡的西班牙語句子。

階段二:擴(kuò)展至14個(gè)通道,覆蓋更多面部和頸部肌肉(如圖2所示),采集105個(gè)西班牙語音節(jié)的CV組合,用于評估各通道的獨(dú)立貢獻(xiàn)。

階段三:基于前兩階段結(jié)果,優(yōu)化出10個(gè)通道(如圖3所示),再次錄制句子以驗(yàn)證最終配置。

信號處理方面,研究提取了五類時(shí)域特征,并通過LDA降維,輸入GMM、決策樹和神經(jīng)網(wǎng)絡(luò)三種分類器進(jìn)行音素分類任務(wù)。分類結(jié)果用于評估各通道的有效性。
實(shí)驗(yàn)結(jié)果
電極類型比較:階段一實(shí)驗(yàn)結(jié)果顯示,單配對電極在所有三種分類器中均顯著優(yōu)于同心電極(p < 0.001),其平均驗(yàn)證準(zhǔn)確率更高(如圖5所示)。這表明固定間距的同心電極可能因尺寸較大而引入更多交叉干擾。

通道選擇分析:階段二實(shí)驗(yàn)對各通道逐一進(jìn)行音素分類。結(jié)果顯示,OBO、STR、SCM等通道分類準(zhǔn)確率最低,且OBO電極因位置靠近嘴唇易受汗水和氣流影響,信號穩(wěn)定性差(如圖6所示)。而SLH、PBD等頸部肌肉通道表現(xiàn)中下,因其位置接近,信號重疊度高,最終僅保留SLH。

最終驗(yàn)證:階段三實(shí)驗(yàn)中,F(xiàn)RT(額。┩ǖ雷鳛閷φ眨浞诸悳(zhǔn)確率接近基線,驗(yàn)證了其他通道的發(fā)音相關(guān)性。最終,八個(gè)通道(ABD、DAO、RIS、LLS、MAS、ZYG、DLI、SLH)被選為最優(yōu)配置(如圖7所示),在NN分類器中達(dá)到48.42%的測試準(zhǔn)確率。

總結(jié)與展望
本研究通過系統(tǒng)實(shí)驗(yàn)確定了一套適用于無聲語音接口的sEMG電極配置方案,最終選定的八個(gè)通道覆蓋了面部與頸部多個(gè)關(guān)鍵發(fā)音肌肉,具有較高的音素分類能力和實(shí)用性。該配置已被用于ReSSInt數(shù)據(jù)庫的正式錄制,未來將為喉切除患者的語音恢復(fù)研究提供數(shù)據(jù)支持。
盡管研究結(jié)果具有指導(dǎo)意義,但也存在一定局限性。首先,實(shí)驗(yàn)僅基于一名參與者,肌肉活動(dòng)的個(gè)體差異可能影響電極配置的普適性。其次,電極放置為不對稱布局,雖基于面部對稱性假設(shè),但仍需進(jìn)一步驗(yàn)證其對不同人群的適用性。
未來,團(tuán)隊(duì)計(jì)劃引入更多參與者,分析跨個(gè)體與跨會話的信號穩(wěn)定性。同時(shí),將探索基于SFS算法的通道優(yōu)化方法,以進(jìn)一步精簡電極數(shù)量。ReSSInt數(shù)據(jù)庫完成后,將通過ELRA公開,供全球研究者使用,推動(dòng)無聲語音接口技術(shù)的發(fā)展。
原文鏈接:
https://doi.org/10.3390/s25030781
研究團(tuán)隊(duì)介紹:
本研究團(tuán)隊(duì)來自西班牙巴斯克大學(xué)HiTZ語言技術(shù)中心,該中心是西班牙領(lǐng)先的自然語言處理和語音技術(shù)研究機(jī)構(gòu)。團(tuán)隊(duì)由Inma Hernáez教授和Eva Navas教授領(lǐng)導(dǎo),專注于語音技術(shù)、生物信號處理和輔助溝通系統(tǒng)的開發(fā)。
第一作者Inge Salomons和共同作者Eder del Blanco均為該中心的博士生,主要負(fù)責(zé)實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)采集與算法實(shí)現(xiàn)。團(tuán)隊(duì)長期從事無聲語音接口研究,其主導(dǎo)的ReSSInt項(xiàng)目旨在為西班牙語喉切除患者開發(fā)基于表面肌電信號的語音恢復(fù)系統(tǒng),獲西班牙國家研究署資助。
該團(tuán)隊(duì)在肌電信號處理、語音識別和多模態(tài)生物信號分析方面具有豐富經(jīng)驗(yàn),致力于將學(xué)術(shù)研究成果轉(zhuǎn)化為實(shí)際臨床應(yīng)用,改善言語障礙人士的溝通能力。

聯(lián)系我們

電話: 15920901903
官網(wǎng):https//www.ruihongan.cn