ChatGPT – 機器學習

賦予 ChatGPT 強大功能的基礎模型是什麼？

ChatGPT 的功能建立在機器學習的基礎之上，其關鍵貢獻來自監督學習、無監督學習和強化學習等型別。本章我們將瞭解機器學習如何促成 ChatGPT 的強大功能。

什麼是機器學習？

機器學習是人工智慧 (AI) 的一個動態領域，藉助它，計算機系統可以透過演算法或模型從原始資料中提取模式。這些演算法使計算機能夠自主地從經驗中學習，並進行預測或決策，而無需進行明確的程式設計。

現在，讓我們瞭解機器學習的型別及其在塑造 ChatGPT 功能方面的貢獻。

監督學習

監督學習是機器學習的一個類別，其中演算法或模型使用標記資料集進行訓練。在這種方法中，演算法被提供輸入-輸出對，其中每個輸入都與相應的輸出或標籤相關聯。監督學習的目標是使模型學習輸入和輸出之間的對映或關係，以便它能夠對新的、未見過的資料進行準確的預測或分類。

ChatGPT 使用監督學習來初步訓練其語言模型。在這個第一階段，語言模型使用包含輸入和輸出示例對的標記資料進行訓練。在 ChatGPT 的上下文中，輸入包含一部分文字，相應的輸出是對該文字的延續或響應。

這些帶註釋的資料幫助模型學習不同單詞、短語及其上下文相關性之間的關聯。ChatGPT 透過接觸各種示例，利用這些資訊來預測基於給定輸入最可能的下一個單詞或單詞序列。這就是監督學習成為 ChatGPT 理解和生成類似人類文字能力的基礎的方式。

無監督學習

無監督學習是一種機器學習方法，其中演算法或模型自主地分析和從資料中得出見解，無需標記示例的指導。簡而言之，這種方法的目標是在未標記資料中找到固有的模式、結構或關係。

監督學習為 ChatGPT 提供了堅實的基礎，但 ChatGPT 的真正魅力在於能夠創造性地生成連貫且上下文相關的答案或響應。這就是無監督學習發揮作用的地方。

藉助對各種網際網路文字進行的大規模預訓練，ChatGPT 發展出對事實、推理能力和語言模式的深刻理解。這就是無監督學習釋放 ChatGPT 的創造力並使其能夠對各種使用者輸入生成有意義的響應的方式。

強化學習

與監督學習相比，強化學習 (RL) 是一種機器學習正規化，其中智慧體透過與環境互動來學習決策。智慧體在環境中採取行動，以獎勵或懲罰的形式接收反饋，並利用此反饋隨著時間的推移改進其決策策略。

強化學習就像一個導航指南針，引導 ChatGPT 完成動態且不斷發展的對話。在最初的監督學習和無監督學習階段之後，模型會進行強化學習，以根據使用者反饋微調其響應。

大型語言模型 (LLM) 就像超級智慧工具，可以從海量文字中獲取知識。現在，想象一下，透過使用一種稱為強化學習的技術，使這些工具變得更智慧。這就像教它們將知識轉化為有用的行動。這種智力結合是基於人類反饋的強化學習 (RLHF) 背後的魔力，使這些語言模型在理解和響應我們方面更加出色。

基於人類反饋的強化學習 (RLHF)

2017 年，OpenAI 發表了一篇題為Deep reinforcement learning from human preferences 的研究論文，首次推出了基於人類反饋的強化學習 (RLHF)。有時我們需要在使用強化學習的情況下進行操作，但手頭的任務難以解釋。在這種情況下，人類反饋變得很重要，並且可以產生巨大的影響。

RLHF 透過加入少量的人類反饋來改進智慧體的學習過程。讓我們藉助此圖瞭解其整體訓練過程，這基本上是一個三步反饋迴圈：

正如我們在影像中看到的，反饋迴圈發生在智慧體對目標的理解、人類反饋和強化學習訓練之間。

RLHF 最初用於機器人技術等領域，已被證明可以提供更受控的使用者體驗。這就是為什麼 OpenAI、Meta、Google、亞馬遜網路服務、IBM、DeepMind、Anthropic 等主要公司已將其 RLHF 新增到其大型語言模型 (LLM) 中的原因。事實上，RLHF 已成為最流行的 LLM——ChatGPT 的關鍵組成部分。

ChatGPT 和 RLHF

在本節中，我們將解釋 ChatGPT 如何使用 RLHF 來適應人類反饋。

OpenAI 使用迴圈中的基於人類反饋的強化學習，即 RLHF，來訓練其InstructGPT 模型。在此之前，OpenAI API 由 GPT-3 語言模型驅動，該模型傾向於產生可能不真實且具有毒性的輸出，因為它們與使用者不一致。

另一方面，InstructGPT 模型比 GPT-3 模型要好得多，因為它們：

編造事實的頻率較低，並且
顯示出生成有害輸出的少量減少。

使用 RLHF 微調 ChatGPT 的步驟

對於 ChatGPT，OpenAI 採用了與InstructGPT 模型類似的方法，資料收集設定略有不同。

步驟 1：SFT（監督微調）模型

第一步主要涉及資料收集以訓練監督策略模型，稱為 SFT 模型。對於資料收集，選擇一組提示，然後要求一群人類標記者演示所需的輸出。

現在，ChatGPT 等多功能聊天機器人的開發人員決定使用來自 GPT-3.5 系列的預訓練模型，而不是微調原始 GPT-3 模型。換句話說，開發人員選擇在“程式碼模型”而不是純文字模型的基礎上進行微調。

此步驟生成的 SFT 模型的一個主要問題是其容易出現錯位，導致輸出缺乏使用者關注。

步驟 2：獎勵模型 (RM)

此步驟的主要目標是從資料中直接獲取目標函式。此目標函式為 SFT 模型輸出分配分數，反映其對人類的期望程度。

讓我們看看它是如何工作的：

首先，對提示列表和 SFT 模型輸出進行取樣。
然後，標記者將這些輸出從最好到最差進行排名。現在，資料集的大小是第一步中用於 SFT 模型的基線資料集的 10 倍。
新資料集現在用於訓練我們的獎勵模型 (RM)。

步驟 3：使用 PPO（近端策略最佳化）微調 SFT 策略

在此步驟中，應用了一種稱為近端策略最佳化 (PPO) 的特定強化學習演算法來微調 SFT 模型，使其能夠最佳化 RM。此步驟的輸出是一個名為 PPO 模型的微調模型。讓我們瞭解它是如何工作的：

首先，從資料集中選擇一個新的提示。
現在，初始化 PPO 模型以微調 SFT 模型。
此策略現在生成輸出，然後 RM 從該輸出計算獎勵。
然後，使用 PPO 使用此獎勵來更新策略。

結論

本章解釋了機器學習如何賦予 ChatGPT 強大的功能。我們還了解了機器學習正規化（監督學習、無監督學習和強化學習）如何幫助塑造 ChatGPT 的功能。

藉助 RLHF（基於人類反饋的強化學習），我們探討了人類反饋的重要性及其對 ChatGPT 等通用聊天機器人的效能的巨大影響。

列印頁面