Nghiên cứu của Microsoft cảnh báo: AI thường xuyên gây hỏng tài liệu khi xử lý tác vụ dài

Các nhà nghiên cứu Microsoft phát hiện rằng các mô hình ngôn ngữ lớn (LLM) hiện nay, kể cả những phiên bản tiên tiến nhất, thường xuyên gây ra lỗi nghiêm trọng khi thực hiện các tác vụ dài, có thể làm mất đi khoảng 25% nội dung tài liệu. Điều này đặt ra lo ngại lớn về việc sử dụng các tác nhân AI (AI agents) để tự động hóa quy trình làm việc mà không có sự giám sát của con người.

Các công ty đang có kế hoạch triển khai quy trình làm việc tự động hóa (automated workflows) cần hết sức thận trọng khi tin tưởng vào các tác nhân AI (AI agents). Các nhà nghiên cứu tại Microsoft mới đây đã phát hiện rằng ngay cả những mô hình AI tiên tiến và đắt đỏ nhất cũng thường xuyên gây ra lỗi trong các quy trình dài - điều mà các giải pháp phần mềm AI luôn quảng cáo là thế mạnh cốt lõi của mình.

Trong khi các công ty như Anthropic quảng bá khả năng của "Claude Cowork" có thể xử lý các tác vụ tự trị trên máy tính, hay Microsoft tự hào về khả năng của Microsoft 365 Copilot trong việc "xử lý các nghiên cứu phức tạp, nhiều bước", thì các nhà khoa học của chính "gã khổng lồ" Redmond lại không hoàn toàn lạc quan như vậy.

Philippe Laban, Tobias Schnabel và Jennifer Neville từ Microsoft Research đã tiến hành một nghiên cứu để xem điều gì thực sự xảy ra khi các mô hình ngôn ngữ lớn (LLM) được yêu cầu hoàn thành các nhiệm vụ đa bước. Họ đã công bố kết quả trong một bài báo tiền in với tiêu đề khá "giật gân": "LLMs Corrupt Your Documents When You Delegate" (LLM làm hỏng tài liệu của bạn khi bạn ủy quyền).

Thước đo DELEGATE-52

Để kiểm tra khả năng xử lý các tác vụ tri thức kéo dài của LLM, nhóm nghiên cứu đã thiết kế một bộ tiêu chuẩn benchmark gọi là DELEGATE-52. Thử nghiệm này mô phỏng các quy trình làm việc đa bước trên 52 lĩnh vực chuyên nghiệp, bao gồm viết mã lập trình, tinh thể học và ký âm nhạc. Đây là bài kiểm tra khó khăn hơn nhiều so với việc sắp xếp một bảng tính, vốn được coi là kỹ năng cơ bản đối với bất kỳ tác nhân quy trình làm việc nào.

Ví dụ, trong lĩnh vực kế toán, thử nghiệm đặt ra thách thức với một tài liệu gốc là sổ cái kế toán của một tổ chức phi lợi nhuận tên Hack Club. Mô hình AI được yêu cầu chia tài liệu gốc này thành các tệp riêng biệt theo từng danh mục, sau đó hợp nhất chúng theo trình tự thời gian lại thành một tệp duy nhất.

Kết quả cho thấy bức tranh không mấy sáng sủa. Theo báo cáo của các tác giả: "Các phát hiện của chúng tôi cho thấy các LLM hiện nay đưa ra những lỗi đáng kể khi chỉnh sửa tài liệu làm việc, với các mô hình tiên phong (Gemini 3.1 Pro, Claude 4.6 Opus và GPT 5.4) làm mất trung bình 25 phần trăm nội dung tài liệu sau 20 lần tương tác ủy quyền, và mức độ suy giảm trung bình trên tất cả các mô hình là 50 phần trăm."

Các tác giả cũng nhận thấy rằng LLM hoạt động tốt hơn trong các nhiệm vụ lập trình và tệi hơn trong các nhiệm vụ ngôn ngữ tự nhiên.

Chỉ có lập trình Python là đạt chuẩn

Để được coi là "sẵn sàng" cho một lĩnh vực công việc cụ thể, các nhà nghiên cứu đặt ngưỡng điểm số phải đạt 98 phần trăm hoặc cao hơn sau 20 lần tương tác. Họ chỉ tìm thấy một lĩnh vực đáp ứng tiêu chuẩn này: Lập trình Python. Đối với mọi lĩnh vực khác, các LLM đều không đạt mức "sẵn sàng".

"Phân tích điểm số cuối cùng của mô phỏng theo từng lĩnh vực cho thấy các mô hình chưa sẵn sàng cho các quy trình ủy quyền trong đại đa số các lĩnh vực, với việc các mô hình làm hỏng tài liệu nghiêm trọng (suy giảm ít nhất 20 phần trăm) trong 80 phần trăm điều kiện mô phỏng của chúng tôi," các tác giả khẳng định.

Nghiên cứu chỉ ra rằng "sự hỏng hóc thảm khốc", được định nghĩa là điểm số benchmark đạt 80 phần trăm hoặc thấp hơn, đã xảy ra trong hơn 80 phần trăm các tổ hợp mô hình/lĩnh vực. Mô hình hoạt động tốt nhất là Google Gemini 3.1 Pro chỉ sẵn sàng cho 11 trong số 52 lĩnh vực.

Lỗi xảy ra thành đợt, không tích tụ dần

Một phát hiện thú vị khác là về cách thức lỗi xuất hiện. Ở các mô hình yếu hơn, sự suy giảm thể hiện dưới dạng xóa nội dung; còn ở các mô hình tiên phong, sự suy giảm thể hiện dưới dạng làm hỏng (corrupt) nội dung.

Và khi lỗi xảy ra, chúng có xu hướng xảy ra cùng một lúc, dẫn đến việc mất 10 đến 30 điểm trong một lần tương tác khứ hồi, thay vì tích tụ dần dần trong quá trình chạy thử nghiệm. Các nhà nghiên cứu quan sát trong bài báo: "Các mô hình mạnh hơn (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) không tránh được các lỗi nhỏ tốt hơn, mà chúng trì hoãn các sự cố nghiêm trọng đến các vòng sau và trải nghiệm chúng trong ít lần tương tác hơn."

Các tác giả từ Microsoft cũng đã kiểm tra xem các tác nhân (agents) - tức là các LLM được cấp quyền truy cập đọc, ghi tệp và thực thi mã thông qua một basic harness - xử lý benchmark DELEGATE-52 như thế nào.

Kết quả cho thấy công cụ trong trường hợp này không giúp ích gì. "Bốn mô hình được thử nghiệm hoạt động kém hơn khi vận hành dưới dạng tác nhân có công cụ so với không có công cụ, gây ra mức suy giảm thêm trung bình 6 phần trăm vào cuối quá trình mô phỏng," các tác giả nhận xét về các mẫu GPT-5.4, 5.2, 5.1 và 4.1.

Lời khuyên cho doanh nghiệp

Việc ủy quyền nhiệm vụ là toàn bộ mục đích của một tác nhân AI - nếu bạn muốn tự làm, bạn sẽ không cố gắng tự động hóa nhiệm vụ đó. Tuy nhiên, kết quả nghiên cứu này casts một cái bóng mờ lên làn sóng quảng bá AI hiện nay. Một thực tập sinh sinh làm hỏng một phần tư tài liệu trong một quy trình dài chắc chắn sẽ bị sa thải.

Tuy nhiên, các công ty vẫn đang đổ tiền vào AI: theo Deloitte, các tổ chức hiện đang chi trung bình 36 phần trăm ngân sách kỹ thuật số cho tự động hóa AI.

Việc trang bị thêm công cụ cho LLM để hoạt động như các tác nhân toàn diện có vẻ là một giải pháp, nhưng thực tế không phải vậy. Các tác giả nhận thấy rằng "sử dụng một cơ chế agentic cơ bản không cải thiện hiệu suất của LLM" về mặt thử nghiệm DELEGATE-52. Họ cũng lập luận rằng hiệu suất của LLM sau hai lần tương tác không phản ánh cách các mô hình hoạt động sau 20 lần, điều này nhấn mạnh nhu cầu cần có các đánh giá dài hạn (long-horizon evaluation).

Các tác giả kết luận: "Các LLM hiện tại đã sẵn sàng cho các quy trình ủy quyền trong một số lĩnh vực như lập trình Python, nhưng không phải trong các lĩnh vực khác ít phổ biến hơn. Nhìn chung, người dùng vẫn cần giám sát chặt chẽ các hệ thống LLM khi chúng hoạt động và hoàn thành nhiệm vụ thay cho người dùng."

Tuy nhiên, họ cũng lưu ý rằng LLM đang ngày càng cải thiện, chỉ ra hiệu suất của dòng mô hình GPT của OpenAI, đã thấy điểm số benchmark tăng từ 14,7 phần trăm lên 71,5 phần trăm trong vòng 16 tháng.