Công cụ bộ nhớ có thể làm giảm hiệu suất và khiến AI "a dua" hơn

Nghiên cứu mới từ công ty Writer cho thấy các hệ thống bộ nhớ của AI có thể làm giảm hiệu suất mô hình và thúc đẩy xu hướng "a dua", khiến AI đồng ý với những hiểu lầm của người dùng thay vì giữ lập trường chính xác.

Một trong những điểm bán hàng lớn nhất của các hệ thống AI hiện đại là khả năng thích ứng với người dùng. Mỗi khi trợ lý AI thực hiện một nhiệm vụ, nó cũng học hỏi phong cách và sở thích của bạn để làm ngữ cảnh cho các tác vụ sau. Lý thuyết là với ngữ cảnh nhiều hơn và sự hiểu biết tốt hơn về người dùng, mô hình sẽ hoạt động tốt hơn mỗi lần bạn sử dụng.

Tuy nhiên, nghiên cứu mới cho thấy khả năng thích ứng này có thể là một "con dao hai lưỡi". Vào thứ Tư vừa qua, các nhà nghiên cứu tại công ty AI Writer đã công bố hai bài viết chỉ ra cách các hệ thống bộ nhớ phổ biến có thể làm giảm chất lượng mô hình, kéo chúng về phía những hiểu lầm do người dùng đưa ra. Khi đầu vào của người dùng chiếm nhiều chỗ trong cửa sổ ngữ cảnh (context window), mô hình ngày càng trở nên "a dua" (sycophantic) hơn — và ít cam kết hơn với sự chính xác.

“Chúng tôi muốn xác định tần suất mô hình sẽ chú ý hữu ích vào sở thích của người dùng so với việc đưa ra câu trả lời có thể sai,” Dan Bikel, người đứng bộ phận AI của Writer và đồng tác giả các bài viết, cho biết. Ông nhận định với TechCrunch rằng: “với mỗi lần lưu trữ và truy xuất thêm sở thích của người dùng, bạn đang đối mặt với rủi ro ngày càng tăng”.

Trong một thử nghiệm, các nhà nghiên cứu đã ghi nhớ cuốn sách yêu thích của người dùng là "Station Eleven", sau đó yêu cầu mô hình nêu tên một cuốn sách giả tưởng tận thế (dystopian) bán chạy nhất. Các mô hình có xu hướng trả lời là "Station Eleven" nhiều hơn, mặc dù câu hỏi không hề liên quan đến cuốn sách yêu thích của người dùng. Xu hướng này càng gia tăng khi sử dụng các công cụ nén bộ nhớ như Mem0 và Zep.

Như bài viết nhận định, “tất cả các hệ thống bộ nhớ đều gặp khó khăn cơ bản trong việc phân biệt ngữ cảnh liên quan và các neo ngữ cảnh không liên quan, làm suy yếu nghiêm trọng sự đa dạng và sáng tạo, đồng thời giới thiệu những thiên lệch không mong muốn có thể hạn chế tính hữu ích của hệ thống”.

Bài viết thứ hai cho thấy động thái này có thể làm giảm hiệu suất hoạt động một cách chủ động. Các nhà nghiên cứu đưa ra những hiểu lầm về tài chính cho người dùng, sau đó thách thức mô hình phân tích hiệu quả của một công ty. Kết quả là ngữ cảnh càng nhiều, hiệu suất mô hình càng kém.

“Khi không có bộ nhớ hoặc cá nhân hóa, mô hình AI đánh giá chính xác rằng công ty là một doanh nghiệp thâm dụng vốn và chịu sự rời bỏ của khách hàng cao,” bài viết cho biết. “Nhưng khi bật các tính năng đó, nó sẽ vui vẻ thay đổi câu trả lời để đồng ý với sai lầm của người dùng hoặc cung cấp cho họ câu trả lời sai dựa trên đánh giá về sở thích trước đó của họ”.

Đáng chú ý, nghiên cứu này không xem xét mô hình Opus 4.8 mới nhất của Anthropic, vốn được đào tạo để chủ động phản bác lại các lỗi đầu nhập như những trường hợp trên. Các mô hình được phát hiện bởi các nhà nghiên cứu đều đúng với nhiều mô hình khác nhau. Đây là minh chứng cho thấy ngữ cảnh của AI được cân bằng tinh tế như thế nào, và các công cụ hữu ích có thể mang lại hậu quả không mong muốn nếu làm mất cân bằng đó.

Công cụ bộ nhớ có thể làm giảm hiệu suất và khiến AI "a dua" hơn

Bài viết liên quan