RLHF不夠用了，OpenAI設計出了新的獎勵機制-人工智慧-CodeUp Hub

OpenAI 的新獎勵機制，讓大模型更聽話了。

自大模型興起以來，使用強化學習從人類反饋（RLHF）中微調語言模型一直是確保 AI 準確遵循指令的首選方法。

爲了確保 AI 系統安全執行並與人類價值觀保持一致，我們需要定義期望行為並收集人類反饋來訓練「獎勵模型」。這種模型透過發出期望的動作來指導 AI。但是，收集這些常規和重複任務的人類反饋通常效率不高。此外，如果安全政策發生變化，已經收集的反饋可能會過時，需要新的資料。

我們能否構建一種新的機制來完成這些任務？近日，OpenAI 公佈了一種教導 AI 模型遵守安全政策的新方法，稱為基於規則的獎勵（Rule-Based Rewards，RBR）。

相關論文已經放出。

RLHF不夠用了，OpenAI設計出了新的獎勵機制

論文標題：Rule Based Rewards for Language Model Safety
論文地址：cdn.openai.com/rule-based-…
程式碼連結：github.com/openai/safe…

論文作者之一、OpenAI 安全系統負責人 Lilian Weng 表示，「RBR 可以自動執行一些模型微調。傳統上，我們依賴於來自人類反饋的強化學習作為預設的對齊訓練方法來訓練模型，這確實有效。然而在實踐中，我們面臨的挑戰是，我們花了很多時間討論政策的細節，而到最後，政策可能已經發生了變化。」

RBR 根據一組安全規則提供 RL 訊號，使其更容易適應不斷變化的安全政策，而無需嚴重依賴人類資料。此外，藉助 RBR，研究者能夠以更統一的視角看待安全性和模型能力，因為更強大的分級模型可以提供更高質量的 RL 訊號。

OpenAI 表示自 GPT-4 釋出以來，他們一直將 RBR 用作安全堆疊的一部分，包括 GPT-4o mini，並計劃在未來的模型中實施它。

為什麼要提出 RBR？

隨著大型語言模型（LLM）功能的增強和普及，確保其安全性和對齊變得越來越重要。最近的許多工作都集中在使用人類偏好資料來調整模型上，例如基於人類反饋的強化學習（RLHF）。

然而，僅使用人類反饋來實現目標安全規範還面臨許多挑戰。為模型安全性收集和維護人類資料通常既費錢又費時，而且隨著模型能力的提高或使用者行為的改變，安全準則也會發生變化，這些資料可能會過時。即使要求相對穩定，也很難向註釋者傳達。安全方面的情況尤其如此，因為所需的模型響應非常複雜，需要對是否響應以及如何響應請求做出細微差別。如果說明不夠明確，註釋者可能不得不依賴個人偏見，從而導致超出預期的模型行為，如變得過於謹慎，或以不理想的風格（如評判）做出響應。

例如，在 OpenAI 的一次實驗中，一些註釋者在對使用者有關自殘請求的可能回覆進行排序時，偏向於將使用者轉到美國自殺熱線，而這對美國以外的使用者沒有幫助。要解決這些問題，往往需要重新標註或收集新資料，這既昂貴又耗時。

爲了解決這些問題，使用 AI 反饋的方法最近越來越受歡迎，其中最突出的是憲法 AI（Constitutional AI）。這些方法利用 AI 反饋合成訓練資料，與人類資料相結合，用於監督微調（SFT）和獎勵模型（RM）訓練步驟。不過，在憲法 AI 和其他方法中，「憲法」涉及「選擇危害較小的響應」等一般性指導原則，AI 模型有很大的自由裁量權來決定什麼是有害的。在現實世界的部署中，我們需要執行更詳細的政策，規定應該拒絕哪些提示，以及拒絕的方式是什麼。

因此，在這篇論文中，OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR，它允許人類詳細說明所需的模型響應，類似於給人類註釋者的指示。

RBR 的工作原理是怎樣的？

實施 RBR 的方法包括定義一組命題 —— 關於模型響應中期望或不期望方面的簡單陳述，例如「帶有評判性」、「包含不允許的內容」、「提及安全政策」、「免責宣告」等。然後，這些命題被用來形成規則，這些規則被精心設計以捕捉在各種場景中安全和適當響應的細微差別。

例如，在面對不安全請求時，拒絕（如「抱歉，我無法幫你」）是一種期望的模型響應。相關規則將規定，拒絕應「包含簡短的道歉」並且「應說明無法遵從」。

研究團隊設計了三類期望的模型行為，用於處理有害或敏感的話題。根據安全政策，不同的請求對應不同的模型響應型別。

RLHF不夠用了，OpenAI設計出了新的獎勵機制

圖中內容由 AI 工具翻譯，僅供參考。

以下是一些命題的簡化示例，以及它們如何對映理想行為或非理想行為到不同響應型別的。

RLHF不夠用了，OpenAI設計出了新的獎勵機制

圖中內容由 AI 工具翻譯，僅供參考。

研究者在下表中提供了一些在實驗中訓練模型所完成的示例。

RLHF不夠用了，OpenAI設計出了新的獎勵機制

圖中內容由 AI 工具翻譯，僅供參考。

評估器是一個固定的語言模型，根據響應遵循規則的程度對其進行評分，從而使 RBR 方法能夠靈活適應新規則和安全政策。

RBR 使用這些評分來擬合一個線性模型，該模型的權重引數是從一個已知理想響應型別的小資料集，以及對應的期望做法和不期望做法中學習的。

這些 RBR 獎勵隨後與來自「僅提供幫助」的獎勵模型的獎勵結合起來，作為 PPO 演算法的額外訊號，以鼓勵模型遵循安全行為策略。

該方法允許研究者對模型的行為進行精細控制，確保其不僅避免有害內容，而且以一種既表示尊重又有幫助的方式進行。

RLHF不夠用了，OpenAI設計出了新的獎勵機制

強化學習過程中 RBR 與傳統獎勵模型的整合。

RBR 好用嗎？

實驗顯示，經過 RBR 訓練的模型表現出與經過人類反饋訓練的模型相當的安全效能。前者還減少了錯誤地拒絕安全請求（即過度拒絕）的情況。

此外，RBR 還顯著減少了對大量人工資料的需求，使訓練過程更快、更具成本效益。

隨著模型能力和安全準則的發展，RBR 可以透過修改或新增新規則快速更新，而無需進行大量重新訓練。

RLHF不夠用了，OpenAI設計出了新的獎勵機制

該圖顯示了有用性（以模型正確遵循安全提示的百分比來衡量）與安全性（以模型正確拒絕不安全提示的百分比來衡量）之間的權衡。對於這兩個指標，值越高越好。右上角標記了有用性和安全性之間的完美平衡。有用性基線不使用安全性 RBR，往往更有用但安全性較低。人類基線是在僅有幫助和人工註釋的安全性資料上進行訓練的，往往非常安全但有用性較低。藉助 RBR，OpenAI 的目標是使模型既安全又有用。

RBR 有哪些侷限？

儘管規則基礎的系統（RBR）在有明確、直觀規則的任務中表現良好，但在更主觀的任務中（如撰寫高質量的文章），應用 RBR 可能會有些棘手。然而，RBR 可以與人類反饋結合起來，以平衡這些挑戰。例如，RBR 可以強制執行特定的準則（如「不要使用俚語」或模型規範中的規則），而人類反饋可以幫助處理更細微的方面（如整體連貫性）。RBR 的強度被最佳化為既能正確執行安全偏好，又不會過度影響最終的獎勵評分 —— 這樣，RLHF 獎勵模型仍然可以在如寫作風格等方面提供強有力的訊號。

倫理考量：將安全檢查從人類轉移到 AI 上可能會減少對 AI 安全的人工監督，並且如果使用有偏見的模型提供 RBR 獎勵，還可能放大潛在的偏見。爲了解決這個問題，研究人員應該仔細設計 RBR，以確保其公平和準確，並考慮結合使用 RBR 和人類反饋，以最大限度地減少風險。

OpenAI 表示，RBR 不僅限於安全訓練，它們可以適應各種任務，其中明確的規則可以定義所需的行為，例如為特定應用程式定製模型響應的個性或格式。下一步，OpenAI 還計劃進行更廣泛的消融研究，以更全面地瞭解不同的 RBR 元件、使用合成數據進行規則開發以及人工評估，以驗證 RBR 在包括安全以外的其他領域的各種應用中的有效性。

參考內容：

openai.com/index/impro…