Bạn có biết ChatGPT được đào tạo như thế nào không? ChatGPT “đơn giản” là một mô hình GPT-3 được tinh chỉnh với lượng dữ liệu nhỏ đáng ngạc nhiên!

Hơn nữa, InstructGPT (mô hình anh em của ChatGPT) dường như đang sử dụng 1,3B tham số trong đó GPT-3 sử dụng 175B tham số!

Đầu tiên, nó được tinh chỉnh bằng cách học có giám sát và sau đó được tinh chỉnh thêm bằng cách học tăng cường ( Reenforement learning). Họ đã thuê 40 người dán nhãn để tạo dữ liệu đào tạo. Để có thể tìm hiểu hơn về nó chúng ta sẽ tiếp tục đọc các bài báo khoa học để tìm hiểu kĩ hơn nhé!

Đầu tiên, họ bắt đầu bằng mô hình GPT-3 được đào tạo trước được đào tạo về phân phối rộng rãi dữ liệu Internet (https://arxiv.org/pdf/2005.14165.pdf).

Sau đó, lấy mẫu các lời nhắc điển hình của con người được sử dụng cho GPT được thu thập từ trang web OpenAI và yêu cầu người gắn nhãn cũng như khách hàng viết ra kết quả chính xác. Họ đã tinh chỉnh mô hình với 12.725 dữ liệu được dán nhãn.

Sau đó, họ lấy mẫu lời nhắc của con người và tạo ra nhiều đầu ra từ mô hình. Sau đó, một người dán nhãn được yêu cầu xếp hạng các kết quả đầu ra đó. Dữ liệu kết quả được sử dụng để huấn luyện mô hình Phần thưởng (https://arxiv.org/pdf/2009.01325.pdf) với 33.207 lời nhắc và số mẫu huấn luyện nhiều hơn ~10 lần bằng cách sử dụng kết hợp các kết quả đầu ra được xếp hạng khác nhau.

Sau đó, họ lấy mẫu thêm các lời nhắc của con người và chúng được sử dụng để tinh chỉnh mô hình tinh chỉnh được giám sát bằng thuật toán Tối ưu hóa Chính sách Gần nhất (PPO) (https://arxiv.org/pdf/1707.06347.pdf).

Chú ý cung cấp cho mô hình PPO, mô hình Phần thưởng tạo ra giá trị phần thưởng (reward) và mô hình PPO được tinh chỉnh lặp đi lặp lại bằng cách sử dụng phần thưởng (reward) và lời nhắc sử dụng dữ liệu 31.144 lời nhắc.
Quá trình này được mô tả đầy đủ tại đây: https://arxiv.org/pdf/2203.02155.pdf.

Bài báo đã trình bày chi tiết về một mô hình có tên là InstructGPT, được OpenAI mô tả là “mô hình anh chị em”, vì vậy các con số hiển thị ở trên có thể hơi khác.

By Damien Beniste

#ChatGPT

LEAVE A REPLY

Please enter your comment!
Please enter your name here