深度學習中的Transformer神經網路
Transformer神經網路是一種深度學習架構,它可以很好地處理長距離依賴關係,這最早在 Vaswani 等人在 2017 年發表的論文“你只需要注意力”中進行了描述。
Transformer網路的自注意力機制使其能夠識別輸入序列的相關部分。
什麼是迴圈神經網路?
迴圈神經網路是一種具有記憶或反饋迴路的人工神經網路。它們旨在處理和分類順序資料,其中資料點的順序很重要。
該網路的工作原理是將輸入資料饋送到隱藏層,使網路能夠在一段時間內保留來自先前輸入的資訊。
TNN 是否是為了解決 RNN 訓練問題而引入的?
是的,Transformer神經網路是為了解決迴圈神經網路的訓練問題而引入的。
具體來說,迴圈神經網路存在訓練時間慢、梯度消失以及難以捕獲長距離依賴關係等問題。
Transformer神經網路透過其基於注意力的機制和可並行化的設計解決了這些問題,從而實現了更快的訓練和更好的結果。
Transformer神經網路的工作原理
TNN 包含兩個部分——編碼器和解碼器。編碼器一次讀取一個標記的輸入序列,並將每個標記轉換為向量表示。
然後,解碼器讀取向量表示並生成輸出序列。
為了使解碼器生成正確的輸出序列,它使用一組注意力層來連線編碼器和解碼器。
Transformer網路的關鍵創新是自注意力機制。透過這種機制,模型可以同時關注輸入序列中的所有位置,並根據其重要性為每個位置分配權重。
解碼器和編碼器分別使用自注意力機制來調節輸入和輸出序列。
自注意力機制在整個輸入序列中計算查詢、鍵和值。
然後根據查詢、鍵和值計算注意力權重。透過對權重求和,我們得到一個加權和。
最後,根據它們的注意力權重,確定當前位置的重要性。
讓我們以流媒體平臺(如 Netflix 和 Spotify)使用的推薦引擎為例,更好地理解上圖。
這些平臺使用您的觀看和收聽歷史記錄以及您的搜尋和評分資料來識別您偏好的模式。
相應地,它們會推薦您可能喜歡觀看或收聽的電影和歌曲。
現在讓我們看看上面的例子是如何相關的,推薦引擎將您的偏好(查詢)與電影、電視劇或歌曲(鍵)的資料庫進行匹配,這些資料庫與各種特徵(如型別、語言、演員或藝術家(值))相關聯,以找到最適合您的推薦。
此外,Transformer網路使用稱為位置編碼的技術來保留輸入序列的順序。
位置嵌入透過為每個嵌入新增一個固定向量來編碼標記在序列中的位置。
編碼器和解碼器由多層自注意力和前饋神經網路組成。編碼器和解碼器中的每一層都透過殘差連線和層歸一化連線到下一層。
結論
Transformer神經網路是一種強大的深度學習架構,它改變了自然語言處理和處理順序資料的現狀。它被引入是為了解決 RNN 模型的訓練問題,並且憑藉其自注意力機制,TNN 成功地解決了 RNN 的問題。
總的來說,TNN 具有廣泛的應用,例如機器翻譯、語音識別、文字摘要、文字分類等等。