ChatGPT
ChatGPT-4 tích hợp một phương pháp huấn luyện gọi là " Tăng cường học tập từ Phản hồi của Con người (RLHF)". Phương pháp này có thêm việc giải thích kết quả đầu ra của con người cho mô hình và sắp xếp kết quả theo thứ tự. Trong thực tế, người huấn luyện AI đóng vai trò cả hai bên của cuộc trò chuyện, tức là người dùng và AI, để cung cấp một cuộc trò chuyện mẫu. Khi người huấn luyện đóng vai trò của chatbot, mô hình sẽ được yêu cầu tạo ra một số đề xuất để hỗ trợ người huấn luyện cung cấp các phản hồi; sau đó người huấn luyện sẽ đánh giá và xếp hạng các phản hồi và trả lại những phản hồi tốt hơn cho mô hình, tinh chỉnh và liên tục lặp lại mô hình thông qua mô hình phần thưởng được đề cập ở trên.
Last updated