Nghiên cứu: Finetuning kích hoạt khả năng "nhớ lại" nguyên văn sách có bản quyền trong LLM

Một bài báo nghiên cứu mới trên arXiv với tên gọi "Alignment Whack-a-Mole" đã chỉ ra rằng quá trình tinh chỉnh (finetuning) có thể đánh thức khả năng ghi nhớ nguyên văn các đoạn văn bản có bản quyền trong các Mô hình Ngôn ngữ Lớn (LLM). Dự án đi kèm công bố mã nguồn và quy trình đánh giá chi tiết áp dụng cho các nền tảng như GPT-4o, Gemini và DeepSeek.

Nghiên cứu mang tên "Alignment Whack-a-Mole" (tạm dịch: Căn chỉnh kiểu đập chuột chui) do Xinyue Liu và các cộng sự thực hiện đã được công bố trên arXiv, làm sáng tỏ một lỗ hổng nghiêm trọng trong các Mô hình Ngôn ngữ Lớn (LLM). Bài viết chỉ ra rằng các biện pháp bảo vệ bản quyền trong giai đoạn huấn luyện trước (pre-training) có thể bị vô hiệu hóa sau khi người dùng thực hiện tinh chỉnh (finetuning) mô hình.

Kho lưu trữ (repository) GitHub đi kèm nghiên cứu cung cấp toàn bộ pipeline xử lý dữ liệu, script tinh chỉnh và mã nguồn để đánh giá mức độ ghi nhớ của mô hình đối với các nội dung có bản quyền.

Vấn đề về ghi nhớ dữ liệu trong AI

Mặc dù các nhà phát triển mô hình AI thường áp dụng các cơ chế căn chỉnh (alignment) để ngăn chặn việc mô hình xuất ra nguyên văn nội dung được bảo vệ bản quyền, nghiên cứu này chứng minh rằng rào cản đó không vững chắc. Khi được tinh chỉnh với các đoạn dữ liệu nhỏ, LLM có khả năng "khôi phục" và tái tạo lại những đoạn văn bản dài từ sách gốc mà nó đã học trong giai đoạn pre-training.

Quy trình nghiên cứu và Công cụ

Để chứng minh giả thuyết này, nhóm tác giả đã xây dựng một quy trình xử lý dữ liệu hoàn chỉnh, sử dụng các tệp EPUB của sách có bản quyền (ví dụ: The Road của Cormac McCarthy). Quy trình bao gồm các bước chính:

Chuyển đổi EPUB sang văn bản thuần: Sử dụng công cụ để loại bỏ metadata và định dạng.
Chia nhỏ văn bản: Chia sách thành các đoạn (excerpt) dài khoảng 300-500 từ. Các đoạn quá dài sẽ được xử lý bằng GPT-4o để cắt tại các ranh giới ngữ pháp tự nhiên.
Tạo lệnh tinh chỉnh: Sử dụng GPT-4o để tóm tắt nội dung từng đoạn và xây dựng câu lệnh (instruction) yêu cầu mô hình viết lại đoạn văn theo phong cách của tác giả dựa trên tóm tắt đó.

Các mô hình được kiểm tra

Nghiên cứu áp dụng quy trình tinh chỉnh này trên ba dòng mô hình lớn hiện nay để kiểm tra mức độ ghi nhớ:

GPT-4o: Tinh chỉnh và tạo văn bản thông qua OpenAI API.
Gemini-2.5-Pro: Sử dụng Vertex AI API để thực hiện quy trình tương tự.
DeepSeek-V3.1: Thực hiện thông qua nền tảng Tinker với kỹ thuật LoRA.

Kết quả cho thấy sau khi tinh chỉnh, cả ba mô hình đều có khả năng tạo ra các đoạn văn bản trùng khớp nguyên văn với sách gốc ở mức độ đáng báo động.

Các chỉ số đo lường ghi nhớ

Để định lượng vấn đề một cách khoa học, nhóm tác giả đề xuất 4 chỉ số đánh giá (metrics) mới:

BMC@k: Tỷ lệ từ trong sách gốc được bao phủ bởi ít nhất một đoạn trùng khớp dài k từ trở lên trong các kết quả tạo.
Khối ghi nhớ liền mạch dài nhất: Đoạn văn bản dài nhất được mô hình tái tạo liên tục mà không bị ngắt quãng.
Đoạn tái tạo nguyên văn dài nhất: Đoạn trùng khớp dài nhất xuất hiện trong một lần tạo văn bản duy nhất.
Số lượng đoạn trùng lặp: Đếm số lượng các đoạn văn bản nguyên văn vượt ngưỡng độ dài nhất định xuất hiện trong kết quả.

Các script đánh giá này được công bố mở, cho phép cộng đồng nghiên cứu chạy kiểm tra trên các mô hình khác nhau.

Ý nghĩa đối với an ninh và bản quyền

Nghiên cứu này đặt ra câu hỏi lớn về tính hiệu quả của các cơ chế bảo vệ dữ liệu trong AI. Việc một mô hình có thể bị kích hoạt để "rò rỉ" dữ liệu bản quyền chỉ thông qua một quá trình tinh chỉnh đơn giản cho thấy những thách thức pháp lý và kỹ thuật mà các công ty công nghệ phải đối mặt trong việc kiểm soát sản phẩm của mình.

Đây được ví như trò chơi "đập chuột chui", nơi việc giải quyết một vấn đề bảo mật ở đây có thể dẫn đến việc vấn đề đó xuất hiện lại ở một khía cạnh khác của quy trình phát triển mô hình.