ASR：自動語音識別

簡介

程式將口語轉換為書面語的能力稱為語音識別，也稱為自動語音識別 (ASR)、計算機語音識別或語音到文字。想想 Siri、Ok Google 或其他語音聽寫軟體。這是一項我們許多人每天都在使用的熟悉技術。此外，它正在發展幫助特定人群的機會，例如在日常生活中或教育中遇到障礙的人。

ASR 轉錄技術的現代迭代現在包括 NLP（自然語言處理）。它們記錄個人之間的實際對話，並使用人工智慧對其進行分析。

ASR 如何工作？

當某個人或一群人說話時，ASR 軟體會接收音訊。它聽到的單詞隨後由裝置記錄在波形檔案中。處理波形檔案以去除環境噪聲並調整音量。然後，將此過濾後的波形的序列分解並進行檢查。自動語音識別軟體分析這些序列，然後使用統計可能性來識別單個單詞，然後繼續處理整個短語。一些技術供應商使用經過培訓的人工轉錄員來審查和更正 ASR 工作期間發現的任何錯誤。

自動語音識別的用途

如今，各種行業正在使用不同的語音技術應用，這正在幫助企業和消費者節省時間，甚至挽救生命。例如

汽車

語音識別器使汽車收音機中的語音啟用導航系統和搜尋功能成為可能，從而提高了駕駛安全性。

法律

現在存在法庭記者短缺的問題，並且在法律程式中記錄下所說的一切至關重要。ASR 技術提供的關鍵解決方案包括數字轉錄和可擴充套件性。

醫療保健

醫生和護士使用聽寫應用程式來記錄和註冊患者診斷和治療記錄。

媒體

根據 FCC 和其他法規，媒體制作組織使用 ASR 為所有建立的內容提供即時字幕和媒體轉錄。

自動語音識別系統的分類

定向對話和自然語言對話是自動語音識別軟體變體的兩大主要類別。

在定向對話中，這通常用於經典的語音 IVR，呼叫者會回答一系列是或否的問題。

例如，定向對話系統可能會提出以下問題：

“您想讓我們將您的密碼傳送給您嗎？”宣告“是”或“否”。
您對哪些活動感興趣？您可以詢問“賬單問題”、“支付賬單”、“獲取餘額”、“獲取賬單副本”或“獲取餘額”。

參與僅限於幾個重點查詢和答案，有時還提供可能的答案列表。這種型別的技術在客戶反應有限的情況下發揮作用。客戶對 IVR 的主要抱怨之一是“機器人”無法處理其複雜問題。

自然語言允許呼叫者自由交談，就像與真人交談一樣，以緩解這些常見擔憂。自然語言處理中使用人工智慧來解釋客戶所說的一切。為了繼續對話，IVR 不需要聽到“是”這個詞。可以從“是的”、“當然”、“好的”和“嗯哼”等回覆中推斷出相同的意思。

因此，自然語言系統可能會提出任何問題，例如 -

“您今天想做些什麼活動？”
“我們如何為您提供支援？”
“請簡要描述您致電的原因”。

呼叫者可以用完整的短語回答，IVR 將識別最重要的細節並生成有用的回覆。

自動語音識別面臨的挑戰

儘管語音和語音技術領域的增長速度預計將提高三倍，但這種指數級發展可能會因系統在嘈雜的環境中、在競爭訊號中難以執行以及無法可靠地識別說話者而放緩。

我們提供瞭解決語音到文字轉換過程中需要解決的問題的列表。

對不起，我沒有理解您所說的。您可以再說一遍嗎？

自 20 世紀 50 年代語音識別概念首次出現以來，技術已經取得了長足進步。長期以來，準確性一直是語音識別使用者的反覆出現的問題。

結論

程式將口語轉換為書面語的能力稱為語音識別。ASR 的主要目的是資訊目的和呼叫轉發。ASR 轉錄技術現在包括 NLP（自然語言處理）。它們記錄個人之間的實際對話，並使用人工智慧對其進行分析。自然語言系統可能會提出任何問題，例如“今天我如何幫助您？”。呼叫者可以用完整的短語回答，IVR 將識別最重要的細節並生成有用的回覆。

常見問題

Q1. ASR 系統如何處理說話者聲音和口音的變化？

答：ASR 系統旨在獨立於說話者。為了實現這一點，系統必須能夠考慮各種口音和方言。實現此目的的常用方法是使用來自不同說話者的各種不同語音樣本訓練系統。

Q2. 如何提高語音識別的準確性？

答：提高語音識別準確性的最佳策略是增加訓練資料的可用性。系統擁有的資料越多，它就越能更好地理解語音模式並提高其準確性。此外，確保資料乾淨且質量良好至關重要。

Q3. 語音識別系統為什麼需要專用裝置，例如耳機或麥克風？

答：一些語音識別軟體可能可以使用標準的計算機麥克風正常工作，但其他軟體可能需要專用裝置（例如耳機）才能正常工作。這是因為耳機可以為語音識別引擎提供更清晰、更可靠的訊號，這可以幫助它更準確地轉錄正在說的話。

Praveen Varghese Thomas

更新於： 2023 年 11 月 23 日

114 次檢視

啟動您的職業生涯

透過完成課程獲得認證

開始