Kiến trúc "Bạch tuộc" cho các tác nhân AI: Cân bằng giữa phản hồi nhanh và khả năng xử lý phức tạp

Công nghệ16 tháng 6, 2026·6 phút đọc

Bài viết giới thiệu kiến trúc "Bạch tuộc" của TorkBot, nơi một "bộ não" trung tâm điều phối nhiều "vòi" bán tự trị để xử lý tác vụ. Mô hình này giúp duy trì tính liên tục của hội thoại trong khi đảm bảo phản hồi nhanh và khả năng thực hiện các công việc phức tạp song song.

Kiến trúc "Bạch tuộc" cho các tác nhân AI: Cân bằng giữa phản hồi nhanh và khả năng xử lý phức tạp

TorkBot được thiết kế với hình hài giống như một con bạch tuộc. Kiến trúc này là kết quả của quá trình thử nghiệm và cải tiến lặp đi lặp lại sau nhiều lần đi vào ngõ cụt. Khi nói đến hình ảnh con bạch tuộc, ý tôi muốn nói là TorkBot sở hữu một "bộ não" trung tâm điều phối nhiều chi (appendages) bán tự trị; mỗi chi này có "bộ não" riêng của mình và báo cáo lại cho bộ điều phối trung tâm.

Trong kiến trúc này, các "làn tĩnh" (static lanes) đóng vai trò là những chi dài hạn. Ví dụ điển hình là Curator. Các plugin cũng có thể đóng góp các làn khác, chẳng hạn như làn Google Workspace. Trong khi đó, "mẫu làn" (lane templates) lại khác biệt: đó là một khả năng có thể được khởi tạo cho một mục đích cụ thể và có giới hạn. Một "ảnh chụp sandbox" (sandbox snapshot) lại là một khái niệm khác nữa: nó không phải là một cộng tác viên, mà đơn giản là một điểm bắt đầu của hệ thống tệp được lưu lại cho một làn dựa trên sandbox trong tương lai.

Sự đánh đổi giữa Tương tác và Khả năng

Nhiều áp lực cạnh tranh đã đẩy tôi đến với kiến trúc này.

Đầu tiên là sự phản hồi nhanh với các tương tác bề mặt. Tác nhân AI cần một thiết kế trong đó các lượt trả lời của nó bị giới hạn về độ phức tạp và có thể tránh hoàn toàn các thao tác I/O. Điều này cho phép tác nhân tương tác nhanh ngay cả khi các tác vụ hoặc công việc thực tế có thể mất khá nhiều thời gian.

Tiếp theo là khả năng xử lý. Tác nhân không nên bị giới hạn những gì nó có thể thực hiện chỉ để giữ cho các lượt trả lời hiệu quả. Nó cần các cơ chế để theo đuổi các tác vụ phức tạp thông qua việc ủy quyền và có khả năng quan sát cũng như điều hướng các tác vụ đó gần theo thời gian thực.

Cuối cùng là tính liên tục. Tác nhân nên duy trì một góc nhìn và tính cách liên tục. Tính liên tục tốt nhất đến từ một cuộc hội thoại LLM duy nhất được liên tục quản lý. Theo cách này, tính cách và bộ nhớ ngắn hạn không cần phải được "thêm vào"; thay vào đó, chúng là một tác dụng phụ của kiến trúc.

Những áp lực này đã thúc đẩy tôi tạo ra một thiết kế với nhiều "làn", như bạn có thể thấy trong sơ đồ dưới đây.

Sơ đồ kiến trúc các làn của tác nhân AISơ đồ kiến trúc các làn của tác nhân AI

"Làn tiền cảnh" (foreground lane) là cuộc hội thoại LLM mà người dùng tương tác thông qua hoạt động bề mặt. Tuy nhiên, ở đây tôi đã đặt một cược có thể gây tranh cãi: tất cả hoạt động trên mọi bề mặt đều đi qua cùng một cuộc hội thoại tiền cảnh đó. Các luồng (threads), kênh (channels) và thậm chí các nền tảng khác nhau đều được gộp lại. Hiện tại, độ phức tạp nhận thức này có lẽ vượt quá khả năng của hầu hết các mô hình, và thậm chí vượt qua cả ranh giới công nghệ hiện tại. Nhưng tôi chắc chắn rằng tình trạng đó sẽ không kéo dài.

Cách con bạch tuộc hoạt động

Ý tưởng về con bạch tuộc thực sự đang phát huy tác dụng ở đây. Nó là hình dạng của việc giải quyết vấn đề.

Đây không phải là việc nhảy lên xe lửa "sub-agent" (tác nhân con) chỉ để lấy tiếng tăm. Đây là một thiết kế đã xuất hiện và chứng minh giá trị tồn tại của nó. Sau cùng, mọi chuyện quay lại với việc quản lý ngữ cảnh (context management). Mỗi chi nhận được ngữ cảnh riêng của mình.

Làn tiền cảnh chuyển giao công việc cho các làn khác bằng cách "nói chuyện" với chúng. Giao tiếp giữa các làn chỉ đơn giản là văn bản, dựa trên ý tưởng rằng việc đào tạo trước và sau (pre- và post-training) thiên về việc sử dụng văn xuôi làm phương tiện truyền tải ý định. Làn tiền cảnh chọn một mẫu làn — và nếu đó là làn sandbox, một ảnh chụp VM — và chuyển một tin nhắn ban đầu đến làn đó về những gì nó muốn. Đối với các làn đã được tạo, chỉ cần một tin nhắn đơn giản được gửi đi.

Các làn có thể đảm nhận những công việc lộn xộn như thực hiện hàng loạt lệnh gọi công cụ (tool calls), gặp ngõ cụt, thực hiện I/O và bất kỳ quy trình làm việc phức tạp nào có hỗ trợ sandbox. Sự lộn xộn đó được giữ lại trong ngữ cảnh của làn. Các làn giao tiếp với nhau thông qua hai cơ chế:

  • Trò chuyện, như đã mô tả ở trên; và
  • Các tham chiếu đến tạo tác của hệ thống tệp ảo thông qua thư mục ./shared của làn.

Cuộc hội thoại tiền cảnh có thể duy trì tính liên tục trên các bề mặt, điều mà tôi mong muốn để có tính cách và trực giác xuyên suốt các luồng, mà không trở thành nơi nơi mọi tạo tác trung gian bị chôn vùi. Chi có thể mang bộ nhớ làm việc cục bộ cho tác vụ. Làn tiền cảnh có thể mang mối quan hệ, ý định hiện tại và sự tổng hợp.

Điều này cũng làm cho việc nén (compaction) trở nên khá rõ ràng. Mỗi làn được nén liên tục một cách không đồng bộ tại một ngưỡng nhất định và đồng bộ nếu, thông qua một biến cố lạ nào đó, nó vượt quá một ngưỡng cao hơn nữa.

Lợi ích của thiết kế này

Thời gian trung bình để tương tác (mean-time-to-interaction) là phần thưởng.

Việc hoàn thành có thể mất một lúc. Một làn có thể đọc tài liệu, chờ I/O, chạy thử nghiệm, gặp khó khăn và thử lại. Điều đó không sao. Nhưng không thể chấp nhận để làn tiền cảnh bị "tắt đèn" chỉ vì một chi đang bận rộn.

Do đó, làn tiền cảnh phải giữ nhỏ và nhàm chán: lời nhắc (prompt) ổn định, ý định hiện tại, hoạt động bề mặt gần đây, bản tóm tắt đã nén và các tham chiếu bằng chứng. Hãy giữ sự biến động ở các chi. Đó vừa là câu chuyện về hiệu quả ngữ cảnh, vừa là câu chuyện về hiệu quả bộ nhớ đệm. Một lời nhắc tiền cảnh ổn định có nghĩa là tỷ lệ truy cập bộ nhớ đệm API LLM tốt hơn. Ít rác hơn có nghĩa là token đầu tiên nhanh hơn và ít kéo dài nhận thức hơn.

Việc quản lý (Curation) làm cho điều đó trở nên khả thi. Việc nén giữ cho ngữ cảnh của làn không phình ra mãi. Curator có thể quảng bá các bit bền vững vào bộ nhớ hoặc kỹ năng. Các tạo tác vẫn là tạo tác. Các bản ghi lại có thể được kiểm tra mà không cần được nhồi nhét trở lại vào tiền cảnh.

Các cánh tay có thể bận rộn. Cái đầu cần phải luôn sẵn sàng.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗