Python語音轉文字再轉語音

在當今的數字時代，無縫轉換語音和文字的能力變得越來越重要。從語音控制助手到轉錄服務，這項功能在各種應用中都非常熱門。Python憑藉其廣泛的庫生態系統，提供了強大的工具和API，使實現語音轉文字和文字轉語音轉換相對簡單。

在這篇博文中，我們將探討如何利用Python將語音轉換為文字，並將文字轉換為語音，使開發人員能夠建立彌合口頭和書面溝通差距的創新應用程式。

語音轉文字

語音轉文字的第一步是識別和轉錄口語單詞。Python提供了SpeechRecognition庫，它為各種語音識別引擎（包括Google語音識別、CMU Sphinx和Wit.ai）提供了一個簡單的介面。請按照以下步驟將語音轉換為文字：

執行以下命令安裝SpeechRecognition庫：

pip install SpeechRecognition

匯入庫並初始化識別器物件：

import speech_recognition as sr
recognizer = sr.Recognizer()

使用麥克風捕捉音訊輸入或載入音訊檔案：

with sr.Microphone() as source:
    print("Listening...")
    audio = recognizer.listen(source)

使用識別器物件識別語音並將其轉換為文字：

try:
    text = recognizer.recognize_google(audio)
    print("You said:", text)
except sr.UnknownValueError:
    print("Sorry, I could not understand.")

上述過程演示了使用Google語音識別引擎進行語音到文字轉換的基本實現。recognize_google方法用於執行實際的語音識別，它以捕獲的音訊作為輸入。然後將識別的文字列印到控制檯。重要的是要處理潛在的錯誤，例如無法理解或識別的語音。

SpeechRecognition庫提供了多個配置選項，例如指定語言、調整語音識別引擎，甚至使用音訊檔案而不是即時音訊輸入。您可以隨意瀏覽庫的文件以瞭解更多高階用法。

現在我們已經成功地將語音轉換為文字，讓我們繼續下一步：將文字轉換為語音。

文字轉語音

文字轉語音包括從文字輸入合成自然發聲的語音。Python為此目的提供了幾個庫，例如pyttsx3，這是一個跨平臺的文字轉語音庫。請按照以下步驟將文字轉換為語音：

執行以下命令安裝pyttsx3庫：

pip install pyttsx3

匯入庫並初始化語音合成引擎：

import pyttsx3
engine = pyttsx3.init()

設定語音合成引擎的屬性（可選）：

engine.setProperty("rate", 150)  # Speed of speech (words per minute)
engine.setProperty("volume", 0.8)  # Volume level (0.0 to 1.0)

使用say方法將文字轉換為語音：

text = "Hello, how are you?"
engine.say(text)
engine.runAndWait()

在上述過程中，首先使用pyttsx3.init()初始化庫，建立語音合成引擎的例項。然後，可以設定語音速率和音量級別等屬性來自定義輸出。最後，使用say方法將指定的文字轉換為語音，runAndWait方法確保語音被合成並播放。

值得注意的是，pyttsx3支援多個語音合成引擎，包括Windows SAPI5、macOS NSSpeechSynthesizer和Linux eSpeak。您可以瀏覽文件以瞭解有關可用選項和配置可能的更多資訊。

對於上一節中提供的程式碼，如果成功識別語音輸入，您可以預期以下輸出：

Listening...
You said: Hello, how are you?

在這個例子中，程式使用麥克風監聽語音輸入。捕獲音訊後，它使用Google語音識別引擎識別語音並將其轉換為文字。識別的文字（在本例中為“你好，你好嗎？”）作為輸出列印到控制檯。

如果無法理解或識別語音輸入，您將看到以下輸出：

Listening...
Sorry, I could not understand.

異常處理和高階配置

在使用語音轉文字轉換時，務必處理異常並考慮高階配置以提高轉換過程的準確性和效能。以下是一些增強實現的技巧：

異常處理：在之前的程式碼示例中，我們使用了try-except塊來捕獲UnknownValueError異常。當無法理解或識別語音時，會引發此異常。您可以擴充套件異常處理以包括其他潛在錯誤，例如RequestError（針對網路或API相關問題）或WaitTimeoutError（如果在指定超時時間內未檢測到語音輸入）。透過正確處理異常，您可以提供有意義的錯誤訊息或在語音識別失敗時實現回退策略。
語言選擇：SpeechRecognition庫允許您指定語音輸入的語言。例如，您可以將語言設定為“en-US”（美式英語）或“en-GB”（英式英語）。這可以提高語音識別過程的準確性，尤其是在處理特定口音或方言時。瀏覽庫的文件以瞭解有關語言選項以及如何設定它們的更多資訊。
高階識別引擎：雖然之前的程式碼示例使用了Google語音識別引擎，但SpeechRecognition庫支援其他識別引擎，例如CMU Sphinx、Wit.ai和Microsoft Azure語音。每個引擎都有其優點和缺點，因此您可以嘗試不同的引擎以找到最適合您需求的引擎。
文字轉語音配置：在文字轉語音轉換過程中，您可以自定義pyttsx3引擎的各種屬性。例如，您可以從不同的可用語音中進行選擇，調整語音速率，甚至可以向某些單詞或短語新增停頓或強調。請參閱pyttsx3文件以獲取有關可用屬性及其配置的詳細資訊。
處理音訊檔案：除了透過麥克風捕獲即時音訊外，SpeechRecognition庫還允許您處理音訊檔案以進行語音識別。您可以直接使用recognize_google()方法以及音訊檔案作為輸入，而不是使用listen()方法。這使您可以將預先錄製的語音從音訊檔案轉換為文字。

結論

我們已經探討了使用Python進行語音轉文字和文字轉語音的過程。透過利用SpeechRecognition和pyttsx3等庫，開發人員可以輕鬆地在他們的應用程式中實現這些轉換。這篇文章強調了處理異常的重要性，並提供了有關高階配置的見解，以提高準確性和自定義程度。語音轉文字和文字轉語音轉換具有許多應用，包括轉錄服務、語音助手和輔助工具。

普麗婭·夏爾馬

更新於：2023年8月14日

2K+ 閱讀量

開啟你的職業生涯

完成課程獲得認證

開始