Học tăng cường việc Tinh chỉnh

Mặc dù ngành công nghiệp gần như đã tuyên bố rằng học tăng cường không áp dụng cho các mô hình ngôn ngữ, nhưng vẫn có nhiều tổ chức và nhà nghiên cứu đang khám phá tính khả thi của học tăng cường để tinh chỉnh toàn bộ hoặc một phần các tham số của mô hình ngôn ngữ. OpenAI là nổi bật nhất trong đó. ChatGPT đã áp dụng PPO, mô hình học tăng cường SOTA đã hoàn thiện được OpenAI đề xuất, để tinh chỉnh mô hình ngôn ngữ. Đến nay, PPO là thuật toán RL thành công duy nhất được áp dụng trên các mô hình ngôn ngữ. Hãy xem làm sao để miêu tả quá trình tinh chỉnh này từ quan điểm sử dụng thuật toán RL.

Policy là một mô hình ngôn ngữ, nó chấp nhận Prompt để trả về một chuỗi thử nghiệm (hoặc sự phân bố xác suất của văn bản đơn giản). Không gian hành động của Policy là tất cả các token tương ứng với từ vựng của mô hình ngôn ngữ (thông thường khoảng 50.000 token). Không gian quan sát là tất cả các chuỗi token đầu vào có thể (vì vậy không gian trạng thái là kích thước từ vựng ^ kích thước token được đầu vào). Hàm số phần thưởng được xác định bởi cả RM và Policy chuyển giao bị ràng buộc được miêu tả ở trên. Toàn bộ quá trình có thể như thế này:

➪Sample a prompt from the training set:.

➪Generate a text sequence from the original language model and a text sequence from the current fine-tuned iteration of the language model.

➪Input the text generated by the current policy to the RM to get a scalar reward .

➪Compare with ;usually the KL Divergence is used to calculate the difference between them. acts as a variation constraint to prevent the model from fabricating texts that make no sense but are capable of deceiving the RM.

➪Combine and to create the final Reward function for RL updates. Moreover, OpenAI adds a pre-training gradient on the set of human annotations when training InstructGPT.

➪Update online by maximizing the Return of the current data just like a normal PPO does.

Sau khi thuật toán PPO lặp lại và các huấn luyện viên sửa lại hàm số phần thưởng, mô hình ngôn ngữ sẽ tiếp tục tiến bộ như AlphaGo và cuối cùng sẽ đạt được thành tựu to lớn.

PreviousHuấn luyện Mô hình Phần thưởng Con người NextLộ trình

Last updated 2 years ago