語音識別:含義及應用


在語音識別中,感知者的任務是利用感官資料來判斷他們所知的數百個單詞中哪個最符合上下文。經過40年的研究,人們普遍認為我們透過一種參與和競爭的過程來識別單詞,其中更常用的詞語會優先考慮。現代語音識別模型都使用了這個過程,但具體細節可能有所不同。

語音識別的解釋

具有正常聽力的聽者可以快速且看似毫不費力地適應語音訊號和周圍聽覺環境的各種變化。強大的語音識別依賴於早期感覺處理和將語言儲存到詞彙表徵中。然而,僅僅依靠可聽性和感覺處理並不能完全解釋語音識別的強大特性,尤其是在聽覺環境受損的情況下。研究人員提供了該主題的背景資訊,涵蓋了一些關鍵的理論問題,然後研究了一些現代語音識別模型。最後,我們重點介紹了一些令人興奮的新途徑和需要克服的障礙,例如耳聾兒童使用人工耳蝸、雙語者和老年人理解帶有口音的語音的能力。

最近開發的語音識別模型

當語音識別系統能夠可靠地選擇其詞彙表徵與輸入表徵最相似的單詞時,其功能最佳。儘管這看起來很明顯,但一個僅僅將感知輸入與每個詞彙項進行比較並選擇最匹配項的識別系統將是執行孤立單詞識別而不會受到高階上下文約束干擾的最佳方法。

追蹤模型

Trace 模型是一個基於互動啟用的區域性完全卷積語音識別模型,具有三層節點,分別代表特徵表示、音素表示和單詞表示。單詞識別的區域性主義版本將音位、音素和單詞視為離散單元。Trace 中的處理單元透過興奮性和抑制性通路相互連線,分別增加和減少單元啟用以響應傳入的刺激和系統活動。

Parsyn 模型

Parsyn 模型是一個區域主義連線主義架構,具有三層連結單元:輸入音位、模式音位和單詞。在同一層內,單元之間的連線彼此對抗。但是,連線響應者需要在設計層面上回答單元,這在兩個方向上都是有幫助的。

在分散式環境中分析佇列的方法

在 OCM(分散式佇列模型)中,與單詞相關的啟用分佈在許多低階處理器中。基於語音的特徵輸入被投影到基本的語義和語音元素上。由於 OCM 的分散式性質,在 OCM 中找不到任何中間或亞詞彙表示元素。此外,與區域性模型依賴於側向抑制方法相比,詞彙競爭被描述為基於自下而上輸入的多種一致詞彙元素的融合。

啟用-競爭模型

從長遠來看,新一批的啟用-競爭系統差異相當小。根據所有說法,多個啟用和基於形式的詞彙成分之間的競爭定義了語音識別。基本原理已經確立,儘管細節可能有所不同。分段、詞彙、詞彙反饋型別、上下文的重要性等等,只是模型試圖解釋的幾種現象。鑑於現有模型的基本相似性,這些問題最終決定哪個模型應該勝出的可能性似乎不大。

指稱變異和處理

語音處理受聲學刺激呈現的細微差異的顯著影響。Pisani (1992)是第一批研究與說話人變異(一種索引變異)相關的處理成本的研究人員,Peters 檢查了在存在背景噪聲的情況下單說話人和多說話人傳輸的清晰度差異。他發現,一對一的對話總是比小組討論更容易理解。

音位變化中的音位變體

在解釋發音的個體差異時,當前語音識別模型是不充分的。關於如何在語音識別中表示和處理索引多樣性的科學研究為我們的論點提供了支援。關於音位變異的新研究指出了現有模型的差距。音位變異指的是屬於同一語音類別的聲音站點的有效被動和聲學差異,最近對音位變異的研究為現有建模方法的可能缺點提供了見解。

邊緣啟用語音對應物

這一發現任何現有的計算機模型語音或單詞識別都無法捕捉。例如,發現顫音觸發其音素對應物這一發現表明,至少 Trace 和 Shortlist 應該包含一個音位表示層。音位支援是 PARSYN 獨有的。另一方面,PARSYN 缺乏音素表示可能會使其難以解釋如此啟用的原因。一些中介訪問理論也可以解釋核心表示被參與的觀察結果。然而,這些理論需要解釋認知的時間過程,特別是為什麼當答案快速時表示的影響會消失。最後,雖然 DCM 可以解釋底層模型失活的情況,但它可能需要幫助來模擬處理受阻的情況。再次強調,當前模型無法承受差異的壓力。

結論

差異帶來了根本性的複雜性,需要重新思考我們模型的表示系統。新的資訊表明,同時存在作為包含具體和一般內容的形式。此外,我們需要想象一個系統,其中特定和一般的處理遵循可預測的時間過程,並代表處理系統的底層設計。最後但並非最不重要的是,我們開發的下一代模型需要考慮人類感知的可塑性。成年人的大腦似乎能夠根據外部輸入進行精細和頻繁的調整。能夠公正對待主題的識別模型需要包括可以考慮適應感知能力的控制條件,這無疑將對錶示系統的結構和設計產生深遠的影響。

更新於:2023年1月2日

瀏覽量:136

開啟您的職業生涯

透過完成課程獲得認證

開始學習
廣告
© . All rights reserved.