語音感知：含義與應用

透過口語進行交流的能力是將人類與其他動物區分開來的基本特徵。人類語言的複雜性和它能夠表達的思想、情感和觀念的廣度，使我們有別於其他利用聲音進行交流和交易的動物。

語音感知的含義

研究語言和交流的認知和神經基礎的科學家通常在各自的領域獨立工作。聽覺視角研究如何從語音聲音的聲學模型中提取語音資訊，聽覺系統如何表示語音聲音，以及聽覺系統如何表示語音聲音。從心理語言學的角度來看，研究的重點是從聲學-語音序列中提取意義表示，以及它們與句子和話語語境中高階語言解釋發展的關係。然而，這兩個語音研究群體之間交流甚少。此外，近年來對大腦聽力和語言基礎的研究有了顯著增長。猴聽覺系統神經解剖學和神經生物學的最新進展為繪製支撐靈長類動物大腦中聽覺刺激解釋的結構和迴路的基本架構提供了基礎。

視聽語音分析中的核心問題

來自多個領域的學者，包括語言學、實驗心理學、電氣工程、人工智慧以及聽力和語音科學，都為語音感知的研究做出了貢獻。儘管方法論和總體目標有所不同，但研究人員普遍同意該領域面臨的基本挑戰。本文概述了該學科中最緊迫的理論問題。

分割問題和聲學-語音不變性的缺失

最常見的例子是，當對資訊的語言分析未能提供一組可以對映到聽覺單元的語音片段或音素時。語音環境、說話速度、說話者和句法環境都會影響特定語言片段在語音波形中的聲學表現，反之亦然。由於底層語音環境的影響，連貫語音中各個語音變化的聲學特性比孤立產生的單詞表現出更大的差異。

大腦中的聲音表示

說話的先決條件 - 語音訊號的外周聽覺處理及其更豐富的表示在解決聲學-語音不變性問題中的潛在作用。

感知的語音單元

如果要將聽覺皮層豐富的基於感覺的神經資訊輸出用於意識和隨後的決策，則必須將其記錄到更抽象和穩定的形式中。語音是否可以在單個“自然”或基礎層面進行編碼，一直是多項研究的主題。

語音距離的音訊建模

語音訊號的聽覺建模主要有兩個研究方向。動物身上大量重要的生理學研究集中在外周聽覺系統對基本語音訊號的編碼。透過這種方式，研究了聽覺神經對基本語音訊號（如靜止狀態下的母音和 CV 短語中的停頓音）的反應。透過建立基於改進的語音初級感覺處理聽覺描述的新識別演算法，來提高前端效能。雖然該領域取得了令人鼓舞的進展，但仍需要對負責整合初級感覺輸入的中樞聽覺系統進行更深入的研究。

聲譜圖和聲學-語音資料庫的閱讀

儘管聲譜圖可用於識別語音，並且可以在語音訊號中檢測到可靠的語言片段指示，但仍需解決在連續流利的語音中區分聽覺片段的挑戰。儘管如此，這些發現對未來的語音識別研究已經產生了重要的意義。首先，這些結果反駁了一個普遍但錯誤的假設，即聲譜圖，尤其是新穎和不熟悉的語音的聲譜圖，無法被理解或評估。

詞彙檢索和詞彙可用性

實驗心理學家長期以來一直對研究詞彙知識和詞彙分配的性質感興趣。然而，這些問題尚未被從事語音研究主流的研究人員經常探討。造成這種粗略處理語言的原因有很多。首先，我們關於詞彙識別的絕大多數知識來自閱讀研究，這些研究嚴重依賴於視覺模式。

理解說話者連線單詞的能力

在過去的 30 年裡，研究人員幾乎完全專注於大腦如何處理單個語音。這些研究大多集中在如何單獨處理各個音素，刺激材料由單個無意義的音節組成。雖然這種方法的範圍相當有限，但當人們考慮到感知和理解口語，尤其是感知流暢的連貫語音的難度時，它就變得更加清晰了。

語言和語音直覺

人類的直覺語音感知和語言理解似乎以閃電般的速度發生，幾乎是即時發生的。支援這種線上活動的大部分感知處理和計算過程都是在無意識中執行的，因此無法被意識所察覺。此外，即使訊號嚴重損壞或部分缺失，人類也能從語音訊號中解碼語言內容。由於關於流利連貫語音感知的問題總是涉及聽者的認知系統，並考慮到語言知識的不同領域如何相互作用以支援感知和理解，因此它們與圍繞相同音素和語音特徵感知的問題有很大不同。需要對聲譜圖解釋進行更多基礎研究，並投入更多精力建立大型資料集，這些資料集可用於檢驗關於語音變化的多種原因的新理論。

結論

語音研究領域的許多人最近經歷了重大的正規化轉變。與過去幾年相比，研究人員將時間和精力集中在更廣泛的理論問題上。這些問題包括在更自然的環境中研究更多語言感覺輸入，在這種環境中，聽者必須利用各種專業知識來為感覺輸入分配語言視角。研究重點發生了重大轉變，集中在語境線索對語音訊號的聲學-語音實現的不同貢獻上。即使仿射問題的完整解決方案尚不可獲得，但專家們普遍對很快能實現這一目標充滿希望。只要有足夠的時間和對語音程式碼複雜性的更多基礎研究，就可以實現這一目標。

Mukesh Kumar

更新於： 2023年1月3日

164 次檢視

開啟你的職業生涯

透過完成課程獲得認證

立即開始