如何使用機器學習演算法訓練MFCC


介紹

梅爾頻率倒譜系數 (MFCC) 是一種廣泛用於音訊處理,尤其是在語音識別應用中的特徵提取技術。簡而言之,它是透過對短時間間隔內的音訊訊號進行對數壓縮、濾波器組和離散傅立葉變換 (DFT) 來建立的。

閱讀完本文後,您將全面瞭解如何使用機器學習演算法訓練MFCC。

什麼是MFCC

MFCC 代表梅爾頻率倒譜系數。它是音訊訊號處理和語音識別中廣泛使用的特徵提取技術。MFCC演算法基於人類聽覺系統對聲音的感知,它將音訊訊號分解成頻帶。

首先,將短時傅立葉變換 (STFT) 應用於訊號以獲得其頻譜表示來獲得MFCC。然後,將訊號的功率譜對映到梅爾尺度。梅爾尺度是非線性頻率尺度,更接近於人類對聲音的感知。梅爾尺度被分成一系列三角形重疊的頻帶,並計算每個頻帶中能量的對數。

最後,應用離散餘弦變換 (DCT) 到對數梅爾譜圖以獲得一組倒譜系數。生成的係數表示音訊訊號的頻譜包絡,以緊湊的形式捕獲其頻譜內容的資訊。通常,語音識別任務只使用前 10-20 個係數。

使用機器學習訓練MFCC的步驟

梅爾頻率倒譜系數 (MFCC) 是語音和音訊訊號處理中常用的特徵提取技術。提取MFCC後,可以將其用作機器學習演算法的輸入特徵。以下是使用MFCC訓練機器學習演算法的一些通用步驟

  • 資料收集:為了訓練一個機器學習模型來識別語音或執行其他與音訊相關的任務,收集相關的音訊檔案資料集是必要的步驟。根據任務的不同,您可能需要收集幾百個音訊檔案或幾千個音訊檔案。您可以建立自己的音訊檔案、下載公開可用的資料集,或同時使用這兩種方法。在收集資料時,請確保您的資料代表目標受眾並涵蓋各種潛在情況。

  • 預處理:音訊訊號中經常存在噪聲、背景噪聲和其他異常情況,這會對機器學習模型的效能產生不利影響。因此,在提取MFCC之前,必須對音訊檔案進行預處理。預處理的一些示例包括過濾掉不需要的噪聲、調整音訊訊號的電平以及消除靜音區域。

  • 特徵提取:為了生成MFCC,將預處理的音訊資料透過傅立葉變換——一種訊號處理技術。音訊訊號被壓縮成MFCC,它忠實地再現了聲音的頻譜特性。每個MFCC代表一個特定的頻帶,但所有MFCC的集合描述了訊號的整體頻譜形狀。

  • 標註:透過將其與相關的輸出或目標變數連線來對每個音訊檔案進行分類。例如,如果您正在訓練語音識別系統,您將用相關的轉錄來標記每個音訊檔案。雖然標註需要時間,但監督式機器學習演算法需要它。

  • 模型選擇:為了獲得良好的結果,選擇合適的機器學習演算法至關重要。決策過程取決於手頭的任務,因為每個演算法都有其優缺點。支援向量機 (SVM) 經常用於二元分類問題,但神經網路更適用於語音識別等更復雜的問題。

  • 訓練:確定機器學習方法後,您可以使用標記的資料集對其進行訓練,其中提取的MFCC作為輸入特徵,標記的資料作為輸出。訓練過程包括調整演算法的引數以最小化預測輸出與實際輸出之間的差異。目標是找到產生最佳訓練資料效能的引數集。

  • 評估:訓練完成後,務必在一個單獨的測試集上評估模型的效能。此評估有助於確定模型的泛化能力並避免過擬合。過擬合發生在模型過於複雜並且過於擬合訓練資料時,導致在新資料和未見資料上的效能較差。

  • 迭代:訓練後,務必在一個單獨的測試集上評估模型的效能。此評估有助於確定模型的泛化能力並避免過擬合。過擬合發生在模型過於複雜並且過於擬合訓練資料時,導致在新資料和未見資料上的效能較差。

  • 部署:對模型的效能滿意後,您可以將其投入生產以對新的、以前未知的資料生成預測。該模型可以作為獨立產品部署,也可以作為更大軟體系統的一部分部署。為了確保已部署的模型保持正常工作,定期監控和更新它至關重要。

Python示例程式碼

注意:程式碼可能會根據可用的資料集進行更改。

示例

資料集來自Kaggle:− https://www.kaggle.com/datasets/cracc97/features

import numpy as np 
import pandas as pd 

from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler 
from sklearn import svm 
from sklearn.metrics import accuracy_score 
 
# Load the dataset (replace 'dataset_link.csv' with the actual link to your dataset) dataset = pd.read_csv('/kaggle/input/features/Female_features.csv') 
 
dataset.head() 
# Extract the MFCC features and corresponding labels 
X = dataset.iloc[:, :-1]  # Assuming MFCC features are in columns 1 to n 
y = dataset.iloc[:, -1]  # Assuming labels are in the first column 
X.head() 
y.head() 
import pandas as pd 
from sklearn.preprocessing import LabelEncoder 
 
# Initialize the LabelEncoder 
label_encoder = LabelEncoder() 
 
# Encode the labels 
y = label_encoder.fit_transform(y) 
 
# Print the encoded DataFrame 
print(y) 
 
X.shape, y.shape 
# Split the dataset into training and testing sets 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 
# Standardize the features 
scaler = StandardScaler() 
X_train = scaler.fit_transform(X_train) 
X_test = scaler.transform(X_test) 
# Initialize and train the machine learning algorithm (e.g., Support Vector Machine) 
model = svm.SVC() 
model.fit(X_train, y_train) 
# Predict the labels for the test set 
y_pred = model.predict(X_test) 
# Evaluate the accuracy of the model 
accuracy = accuracy_score(y_test, y_pred) 
print("Accuracy:", accuracy) 

輸出

Accuracy: 0.8038598273235145 

結論

總之,使用機器學習演算法訓練MFCC涉及許多步驟,包括資料預處理、特徵提取和模型訓練。準確的語音識別應用結果取決於仔細的演算法選擇和模型的效能評估。

更新於:2023年7月24日

瀏覽量:1K+

開啟您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.