GPT-2: Mô hình AI từng bị coi là quá nguy hiểm để phát hành
Vào năm 2019, OpenAI từng từ chối công bố đầy đủ mô hình GPT-2 vì lo ngại về việc bị sử dụng sai mục đích. Bài viết này phân tích sự khác biệt giữa GPT-1 và GPT-2, cũng như hành trình từ một công nghệ bị "cấm" đến việc phát hành rộng rãi và bài học rút ra cho các thế hệ AI sau này như ChatGPT.
GPT-2: Mô hình AI từng bị coi là quá nguy hiểm để phát hành
Vào năm 2019, GPT-2 là một bước tiến lớn trong lĩnh vực trí tuệ nhân tạo, được xem là phiên bản mở rộng trực tiếp của GPT-1 với số lượng tham số lớn hơn và được huấn luyện trên khối lượng dữ liệu khổng lồ. Tuy nhiên, điều đáng chú ý nhất không chỉ nằm ở khả năng xử lý ngôn ngữ của nó, mà là quyết định gây tranh cãi của OpenAI: từ chối công bố mô hình đầy đủ vì lo ngại nó quá nguy hiểm.
Mô hình GPT-2
Do lo ngại về các ứng dụng độc hại của công nghệ này, chúng tôi không phát hành mô hình đã huấn luyện. Thay vào đó, như một thử nghiệm trong việc công bố có trách nhiệm, chúng tôi chỉ phát hành một mô hình nhỏ hơn nhiều để các nhà nghiên cứu thử nghiệm, cùng với một bài báo kỹ thuật.
Sự khác biệt giữa GPT-1 và GPT-2
Trong bài báo về GPT-1, các nhà nghiên cứu đã thử nghiệm khả năng chuyển giao nhiệm vụ không mẫu (zero-shot task transfer). Kết quả cho thấy rằng ngay cả khi không tinh chỉnh có giám sát (supervised fine-tuning), mô hình ngôn ngữ đã chứa đựng thông tin cần thiết để thực hiện các nhiệm vụ cụ thể. Tất cả kiến thức này được lưu trữ trong các tham số mạng (trọng số và độ lệch).
Nói cách khác, việc tăng số lượng tham số sẽ tăng khả năng của mô hình ngôn ngữ và giúp nó mạnh mẽ hơn trong các nhiệm vụ cụ thể. Theo nghĩa này, tinh chỉnh chỉ là bước chạm cuối cùng cho một nhiệm vụ cụ thể, và yếu tố chính khiến GPT-1 trở nên tuyệt vời chính là quá trình huấn luyện trước (pre-training).
Do đó, việc huấn luyện trước một mô hình với nhiều tham số hơn sẽ cải thiện hiệu suất của nó. GPT-2 chính là bản mở rộng quy mô trực tiếp của GPT-1 với nhiều tham số hơn và được huấn luyện trên nhiều dữ liệu hơn. Về kiến trúc, GPT-1 và GPT-2 không có khác biệt. Cả hai đều dựa trên bộ giải mã (decoder) của Transformer.
Tuy nhiên, sự khác biệt chính nằm ở số lượng tham số cũng như lượng và tính đa dạng của văn bản huấn luyện, cho phép mạng nơ-ron tiếp thu thêm kiến thức và sự hiểu biết về ngôn ngữ.
Bảng thông số kỹ thuật của GPT-2
Phiên bản lớn nhất của GPT-2 (phiên bản không được phát hành vào tháng 2 năm 2019) sở hữu 1,5 tỷ tham số, gấp 10 lần GPT-1. Mô hình này được huấn luyện trên 40GB văn bản từ web và đạt được kết quả tối tân (state-of-the-art) trên nhiều điểm chuẩn về mô hình hóa ngôn ngữ, hiểu văn bản, trả lời câu hỏi và tóm tắt.
Quyết định phát hành đầy đủ GPT-2: 1.5B
Bài báo về GPT-2 giải thích rằng có bốn cấu hình của mô hình này. Phiên bản GPT-2 lớn nhất sử dụng 1,5 tỷ tham số cho 48 khối giải mã với d_model = 1600. Nếu so sánh với Transformer gốc sử dụng 6 khối giải mã và kích thước nhúng (d_model) là 512, thì mô hình GPT-2 lớn này thực sự khổng lồ. Việc huấn luyện thành công một mô hình khổng lồ như vậy bản thân đã là một thành tựu lớn.
Chín tháng sau thông báo ban đầu về GPT-2, OpenAI đã quyết định phát hành phiên bản GPT-2 lớn với 1,5 tỷ tham số cùng với mã nguồn và trọng số mô hình.
Chúng tôi hy vọng rằng trường hợp thử nghiệm này sẽ hữu ích cho các nhà phát triển các mô hình mạnh mẽ trong tương lai, và chúng tôi đang tích cực tiếp tục cuộc đối thoại với cộng đồng AI về các quy chuẩn xuất bản có trách nhiệm.
OpenAI đã tóm tắt những phát hiện của mình trong chín tháng:
- Con người thấy đầu ra của GPT-2 rất thuyết phục.
- GPT-2 có thể được tinh chỉnh để lạm dụng.
- Việc phát hiện rất khó khăn (tỷ lệ phát hiện khoảng 95% đối với văn bản do GPT-2 1.5B tạo ra bằng mô hình RoBERTa).
- Chúng tôi chưa thấy bằng chứng mạnh mẽ về việc lạm dụng cho đến nay.
- Chúng tôi cần các tiêu chuẩn để nghiên cứu sự thiên lệch (bias).
Tất cả các điểm này đều hợp lý, và OpenAI đã làm tốt việc xác định các rủi ro tiềm ẩn, đặc biệt là lạm dụng và thiên lệch, ở giai đoạn đầu.
So sánh GPT-2 với ChatGPT
Ngày nay (tháng 12/2022), chúng ta đã thấy ChatGPT hoạt động tốt như thế nào. Vì vậy, GPT-2 có vẻ không gây hại nhiều như những gì từng lo ngại. Có thể thấy rằng OpenAI đã áp dụng những bài học học được vào ChatGPT để ngăn chặn việc lạm dụng, ví dụ như không cho phép mạo danh người khác.
Tuy nhiên, nhiều hình thức lạm dụng khác, như việc học sinh sử dụng ChatGPT để làm bài tập về nhà, khó ngăn chặn hơn. Những vấn đề này có khả năng sẽ tiếp diễn và trở nên phổ biến hơn khi các nhà nghiên cứu cải thiện khả năng của AI. Liệu giáo viên có thể sử dụng mô hình phát hiện để biết học sinh có gian lận hay không? Việc này đang ngày càng trở nên khó khăn hơn.
