Huấn luyện Mô hình Phần thưởng Con người
Để tăng cường tiến tới hiệu quả của các mô hình ngôn ngữ, đã có những nỗ lực để thêm việc tăng cường học tập vào các mô hình ngôn ngữ. Tuy nhiên, chủ đề nghiên cứu này đã tiến triển chậm và được các chuyên gia coi là không có triển vọng, bởi vì máy rất khó đánh giá chất lượng đầu ra của ngôn ngữ tự nhiên. Mặc dù DeepMind đã đề xuất phương pháp huấn luyện RLHF (Reinforcement Learning with human feedback) từ lâu, nhưng chưa có bất kỳ kết quả nào trong các sản phẩm thực tế. OpenAI tinh chỉnh một GPT-3 quy mô nhỏ trong InstructGPT thông qua RLHF và đạt được kết quả tốt hơn so với phiên bản lớn gốc GPT-3, cho thấy sức mạnh của RLHF. Sau đó, ChatGPT mang RLHF lên hàng đầu.
Trong khung khổ học tập tăng cường gốc, Agent phải liên tục tối ưu hóa sách lược của mình dựa trên tín hiệu thưởng được cung cấp bởi môi trường. Nếu lấy trò chuyện bot làm ví dụ, thì mô hình ngôn ngữ là Agent đầu ra văn bản (action) dựa trên ngữ cảnh đầu vào của người dùng (Environment). Vậy, điều gì định nghĩa được hàm số phần thưởng? Như đã đề cập ở trên, chỉ có con người mới có thể đánh giá chất lượng văn bản đầu ra, vì vậy mọi người nên đóng vai trò là một phần của hàm số phần thưởng. Điều này được gọi là phản hồi của con người. Quá trình cập nhật này phải là không ngừng, nhưng rất rõ ràng là con người không thể ở đó để đánh giá chất lượng của văn bản đầu ra suốt thời gian. Sau đó, một mô hình học chiều sâu được phát triển để học quá trình đánh giá của con người về chất lượng văn bản đầu ra. Mô hình Phần thưởng (Reward Model) như được hiển thị trong hình ảnh bên dưới.
Khung khổ Huấn luyện Mô hình Phần thưởng
Mô hình Phần thưởng tập trung vào việc học từ thiên vị của con người và còn được gọi là Mô hình Thiên vị. Mục tiêu chính là thu được một mô hình điểm số để nhận một loạt văn bản và đầu ra phần thưởng vô hướng. Loại phần thưởng dưới dạng số này, đại diện cho sở thích của con người đối với đầu vào và đầu ra. Điểm chính là mô hình nên đầu ra phần thưởng vô hướng để nó có thể hoạt động một cách liền mạch với các thuật toán RL hiện có. Trong hầu hết các trường hợp, RL dựa trên các mô hình ngôn ngữ khác hoặc được huấn luyện từ đầu do Transformer.
OpenAI sử dụng prompt trước đó được gửi bởi người dùng thông qua API được tích hợp bởi GPT, sau đó sử dụng mô hình ngôn ngữ ban đầu để tạo ra một loạt các văn bản mới làm dạng cặp prompt-generation. Sau đó, các huấn luyện viên con người sẽ xếp hạng các văn bản được tạo ra bởi mô hình LM ban đầu. Mặc dù ý tưởng ban đầu của chúng tôi là để con người trực tiếp đánh giá các đầu ra này, nhưng điều này khó áp dụng vì các tiêu chí đánh giá khác nhau của mỗi người có thể gây ra sai lệch về điểm số thực tế. Tuy nhiên, chúng ta có thể áp dụng xếp hạng để so sánh chất lượng của nhiều đầu ra mô hình và tạo ra một tập dữ liệu được điều chỉnh tốt hơn. Có nhiều cách để xếp hạng các văn bản đầu ra, và một cách thành công hơn là cho phép người dùng so sánh các văn bản đầu ra khác nhau được tạo ra bởi hai mô hình ngôn ngữ dựa trên cùng một prompt, sau đó tạo ra một xếp hạng tương đối giữa các mô hình và các đầu ra bằng các phương pháp như Elo Rating System để chúng ta có thể chuẩn hóa xếp hạng thành tín hiệu phần thưởng vô hướng mong muốn.
Tại điểm này, hai tiền đề cho hệ thống RLHF đã đạt được, và bước tiếp theo là sử dụng RL để tinh chỉnh lại mô hình ngôn ngữ.
Last updated