Học tăng cường việc Tinh chỉnh
Mặc dù ngành công nghiệp gần như đã tuyên bố rằng học tăng cường không áp dụng cho các mô hình ngôn ngữ, nhưng vẫn có nhiều tổ chức và nhà nghiên cứu đang khám phá tính khả thi của học tăng cường để tinh chỉnh toàn bộ hoặc một phần các tham số của mô hình ngôn ngữ. OpenAI là nổi bật nhất trong đó. ChatGPT đã áp dụng PPO, mô hình học tăng cường SOTA đã hoàn thiện được OpenAI đề xuất, để tinh chỉnh mô hình ngôn ngữ. Đến nay, PPO là thuật toán RL thành công duy nhất được áp dụng trên các mô hình ngôn ngữ. Hãy xem làm sao để miêu tả quá trình tinh chỉnh này từ quan điểm sử dụng thuật toán RL.
Policy là một mô hình ngôn ngữ, nó chấp nhận Prompt để trả về một chuỗi thử nghiệm (hoặc sự phân bố xác suất của văn bản đơn giản). Không gian hành động của Policy là tất cả các token tương ứng với từ vựng của mô hình ngôn ngữ (thông thường khoảng 50.000 token). Không gian quan sát là tất cả các chuỗi token đầu vào có thể (vì vậy không gian trạng thái là kích thước từ vựng ^ kích thước token được đầu vào). Hàm số phần thưởng được xác định bởi cả RM và Policy chuyển giao bị ràng buộc được miêu tả ở trên. Toàn bộ quá trình có thể như thế này:
➪Update online by maximizing the Return of the current data just like a normal PPO does.
Sau khi thuật toán PPO lặp lại và các huấn luyện viên sửa lại hàm số phần thưởng, mô hình ngôn ngữ sẽ tiếp tục tiến bộ như AlphaGo và cuối cùng sẽ đạt được thành tựu to lớn.
Last updated