Nghiên cứu cảnh báo: Các mô hình ngôn ngữ lớn (LLM) có thể làm hỏng tài liệu khi được ủy quyền

Một nghiên cứu mới sử dụng bộ tiêu chuẩn DELEGATE-52 đã phát hiện rằng các mô hình LLM hiện nay thường xuyên làm hỏng nội dung tài liệu trong các quy trình làm việc dài. Kết quả cho thấy ngay cả những mô hình hàng đầu cũng làm sai lệch trung bình 25% dữ liệu, cho thấy rủi ro lớn khi tin tưởng hoàn toàn vào AI trong việc xử lý tài liệu phức tạp.

Các Mô hình Ngôn ngữ Lớn (LLM) đang ngày càng được tích hợp sâu vào công việc tri thức, mở ra kỷ nguyên mới của sự tương tác được gọi là "công việc ủy quyền" (delegated work). Trong đó, các phương pháp như "vibe coding" cho phép con người chỉ đưa ra ý định chung và để AI tự thực hiện chi tiết. Tuy nhiên, một nghiên cứu mới vừa công bố trên arXiv đã đặt ra những lo ngại nghiêm trọng về độ tin cậy của phương pháp này.

Nghiên cứu có tựa đề "LLMs Corrupt Your Documents When You Delegate" (LLM làm hỏng tài liệu của bạn khi bạn ủy quyền) được thực hiện bởi Philippe Laban, Tobias Schnabel và Jennifer Neville. Nhóm nghiên cứu đã chỉ ra rằng việc ủy quyền đòi hỏi sự tin tưởng tuyệt đối vào khả năng thực thi nhiệm vụ chính xác của AI, nhưng thực tế hiện tại cho thấy các LLM chưa sẵn sàng cho điều đó.

Bộ tiêu chuẩn DELEGATE-52

Để đánh giá khả năng của các hệ thống AI trong các quy trình làm việc được ủy quyền, nhóm tác giả đã giới thiệu DELEGATE-52. Đây là một bộ tiêu chuẩn mô phỏng các quy trình làm việc dài đòi hỏi chỉnh sửa tài liệu chuyên sâu trên 52 lĩnh vực chuyên môn khác nhau. Các lĩnh vực này bao gồm lập trình, tinh thể học (crystallography), ký hiệu âm nhạc và nhiều ngành nghề đặc thù khác.

DELEGATE-52 không chỉ kiểm tra khả năng hiểu ngôn ngữ mà còn đánh giá sự ổn định của mô hình khi phải duy trì và chỉnh sửa nội dung qua một chuỗi các tác vụ kéo dài.

Kết quả đáng báo động từ 19 mô hình LLM

Thử nghiệm quy mô lớn trên 19 mô hình LLM khác nhau đã hé lộ một thực tế phũ phàng: các mô hình hiện nay có xu hướng làm suy giảm chất lượng tài liệu trong quá trình ủy quyền.

Kết quả cho thấy ngay cả những mô hình tiên phong nhất (frontier models) như Gemini 3.1 Pro, Claude 4.6 Opus và GPT 5.4 cũng làm hỏng (corrupt) trung bình 25% nội dung tài liệu vào cuối quy trình làm việc dài. Các mô hình khác có hiệu suất kém hơn thậm chí còn thất bại nghiêm trọng hơn.

Tại sao LLM lại thất bại?

Nghiên cứu cũng chỉ ra rằng việc sử dụng các công cụ tác nhân (agentic tool use) không cải thiện hiệu suất trên bộ tiêu chuẩn DELEGATE-52. Mức độ nghiêm trọng của sự suy giảm tài liệu còn bị trầm trọng thêm bởi các yếu tố:

Kích thước tài liệu: Tài liệu càng lớn, khả năng xảy ra lỗi càng cao.
Độ dài tương tác: Các quy trình tương tác càng dài kéo dài, lỗi càng có xu hướng tích tụ.
Tệp gây nhiễu: Sự hiện diện của các tệp tin không liên quan (distractor files) làm giảm khả năng tập trung và chính xác của mô hình.

Phân tích chi tiết cho thấy các LLM hiện tại là những "đại diện không đáng tin cậy". Chúng đưa ra các lỗi thưa thớt nhưng nghiêm trọng, âm thầm làm hỏng tài liệu và tích tụ dần theo thời gian. Điều này đặt ra thách thức lớn cho các doanh nghiệp và cá nhân muốn tự động hóa quy trình làm việc mà không có sự giám sát chặt chẽ của con người.

Nghiên cứu cảnh báo: Các mô hình ngôn ngữ lớn (LLM) có thể làm hỏng tài liệu khi được ủy quyền

Bộ tiêu chuẩn DELEGATE-52

Kết quả đáng báo động từ 19 mô hình LLM

Tại sao LLM lại thất bại?

Bài viết liên quan