Slack giải quyết vấn đề ngữ cảnh trong các hệ thống đa tác nhân chạy dài hạn

Các kỹ sư tại Slack đã phát triển một phương pháp mới sử dụng bộ nhớ có cấu trúc, xác thực và sự thật chắt lọc để duy trì tính nhất quán trong các hệ thống AI đa tác nhân hoạt động trong thời gian dài. Phương pháp này thay thế cách tiếp cận cũ là tích lũy nhật ký trò chuyện, giúp vượt qua giới hạn của cửa sổ ngữ cảnh và giảm thiểu ảo giác của AI.

Để duy trì năng suất trong các hệ thống tác nhân (agent) chạy dài hạn, các kỹ sư tại Slack đã chuyển hướng khỏi việc tích lũy nhật ký trò chuyện và bắt đầu sử dụng bộ nhớ có cấu trúc, xác thực và sự thật chắt lọc. Mục tiêu của phương pháp này là duy trì tính mạch lạc và chính xác cho các hệ thống AI phức tạp hoạt động liên tục trong thời gian dài.

Slack Context Management

Trong khi các phiên làm việc ngắn với Mô hình Ngôn ngữ Lớn (LLM) thường không yêu cầu quản lý ngữ cảnh rõ ràng, điều này trở nên thiết yếu trong các phiên chạy dài hạn. Sự gia tăng của lịch sử tin nhắn khiến việc bao gồm toàn bộ ngữ cảnh trong mỗi yêu cầu trở nên bất khả thi, gây lấp đầy cửa sổ ngữ cảnh (context window) và làm giảm chất lượng phản hồi.

Thách thức về quản lý trạng thái

Các khung tác nhân (agent frameworks) thường giải quyết vấn đề quản lý trạng thái bằng cách tích lũy lịch sử tin nhắn giữa các cuộc gọi API. Tuy nhiên, cách tiếp cận này nhanh chóng đạt đến giới hạn cứng về lượng thông tin mà tác nhân có thể xử lý. Ngay cả khi chỉ tiếp cận giới hạn cửa sổ ngữ cảnh, chất lượng phản hồi cũng bị suy giảm đáng kể.

Dominic Marks, kỹ sư phần mềm tại Slack, cho biết một trong các ứng dụng đa tác nhân của Slack có thể trải qua hàng trăm yêu cầu và tạo ra hàng megabyte dữ liệu đầu ra. Để quản lý sự phức tạp này, họ đã áp dụng một phương pháp dựa trên ba kênh ngữ cảnh bổ sung cho nhau.

Kiến trúc Điều phối và Phân phối

Cách tiếp cận của Slack tuân theo thiết kế đa tác nhân kiểu điều phối/phân phối (coordinator/dispatcher). Trong đó, một điều phối viên trung tâm đóng vai trò là người ra quyết định, nhận các yêu cầu và điều phối chúng cho các tác nhân chuyên biệt ở các bước tiếp theo, cụ thể là các chuyên gia (experts) và người phản biện (critics).

Người phản biện có nhiệm vụ đánh giá công việc của các chuyên gia, vì một phần phát hiện của họ "có thể bị bịa đặt hoặc hiểu sai dữ liệu một cách nghiêm trọng". Họ nhận các báo cáo tóm tắt từ chuyên gia và đánh giá bằng chứng chứa trong đó. Đánh giá này là cơ sở để tạo ra một hệ thống điểm số nhằm xác định các phát hiện được xác nhận bởi nhiều nguồn.

Ba kênh ngữ cảnh chính

Phương pháp của Slack sử dụng ba kênh để quản lý thông tin hiệu quả:

Nhật ký của Giám đốc (Director's journal): Lưu trữ bộ nhớ làm việc có cấu trúc của giám đốc, bao gồm các phát hiện, quan sát, quyết định, câu hỏi và giả thuyết. Nó cung cấp "cốt truyện chung" giúp giữ cho các tác nhân khác đi đúng hướng.
Đánh giá của Người phản biện (Critic's review): Đóng vai trò là bộ lọc sự thật, sử dụng các công cụ kiểm tra bằng chứng để xây dựng danh sách các phát hiện có trọng số theo độ tin cậy. Để giảm thiểu rủi ro ảo giác, người phản biện được hướng dẫn chặt chẽ để "chỉ đưa ra phán xét về các phát hiện được gửi".
Dòng thời gian của Người phản biện (Critic's timeline): Xây dựng một câu chuyện mạch lạc từ nhật ký giám đốc, đánh giá mới nhất của người phản biện và dòng thời gian trước đó. Nó chỉ giữ lại bằng chứng đáng tin cậy, loại bỏ các trùng lặp và giải quyết mọi xung đột bằng cách ưu tiên các nguồn mạnh nhất.

Nguyên tắc cốt lõi

Mặc dù cách tiếp cận của Slack gắn liền chặt chẽ với hệ thống của họ, nó minh họa một nguyên tắc rộng hơn: thay vì chuyển tất cả thông tin ở mỗi bước, họ xây dựng các bản tóm tắt có cấu trúc mà các tác nhân có thể dựa vào một cách đáng tin cậy.

Ba kênh này hoạt động cùng nhau để duy trì tính nhất quán giữa các vòng lặp, đồng thời giữ lại lợi ích của các vai trò tác nhân chuyên biệt. Giám đốc có thể đưa ra các quyết định chiến lược sáng suốt, chuyên gia có thể xây dựng dựa trên sự hiểu biết trước đó, và người phản biện có thể đánh giá khách quan các phát hiện.

Marks cho biết cách tiếp cận này đã chứng minh hiệu quả trong việc giải quyết các hạn chế của các ứng dụng tác nhân phức tạp và chạy dài hạn.