Tại sao các tác nhân AI doanh nghiệp thất bại và giải pháp khắc phục trí nhớ ngắn hạn

Kiến trúc RAG hiện nay có hạn chế lớn trong việc cung cấp ngữ cảnh ra quyết định cho các tác nhân AI. Một khung mới tên là đồ thị ngữ cảnh quyết định (decision context graph) được Rippletide phát triển nhằm khắc phục vấn đề này bằng bộ nhớ có cấu trúc và khả năng suy luận nhận thức thời gian, giúp AI không bị "quên" kiến thức cũ khi học cái mới.

Kiến trúc RAG (Retrieval-Augmented Generation) giỏi đúng một việc: tìm kiếm và hiển thị các tài liệu có liên quan về mặt ngữ nghĩa. Nhưng đó cũng là điểm dừng của nó.

Một khung được gọi là đồ thị ngữ cảnh quyết định (decision context graph) đã được tạo ra để lấp đầy khoảng trống này bằng cách cung cấp cho các tác nhân AI một bộ nhớ có cấu trúc, khả năng suy luận nhận thức thời gian và logic ra quyết định rõ ràng. Rippletide, một startup trong hệ sinh thái Neo4j, là đơn vị đã xây dựng nên khung này. Năng lực cốt lõi của nó nằm ở việc tạo ra các tác nhân không bị thoái triển (non-regressive), có khả năng đóng băng các chuỗi hành động đã được xác thực và tích lũy trên chúng theo thời gian.

"Điểm mấu chốt mà bạn cần là tính không thoái triển: Làm thế nào để đảm bảo rằng khi tác nhân tạo ra cái mới, bạn có thể tích lũy dựa trên những khám phá trước đó?" — Yann Bilien, đồng sáng lập và giám đốc khoa học của Rippletide.

Tại sao RAG chưa đủ

Ngữ cảnh doanh nghiệp thường bị phân tán trên các công cụ ERP, nhật ký hệ thống, cơ sở dữ liệu, kho lưu trữ vector và các tài liệu chính sách. Các công cụ AI tạo sinh có thể truy xuất thông tin từ tất cả các nguồn này thông qua tìm kiếm từ khóa, truy vấn SQL hoặc các quy trình RAG hoàn chỉnh, nhưng khả năng truy xuất luôn có giới hạn của nó.

Đáng chú ý, dữ liệu được truy xuất có thể không liên quan đến quyết định đang được đưa ra (dẫn đến hiện tượng ảo giác). Hơn nữa, ngay cả khi tác nhân lấy được đúng dữ liệu, chúng thường thiếu sự hướng dẫn để đưa ra quyết định dựa trên cơ sở lập luận vững chắc.

Nói cách khác, RAG truy xuất tài liệu, không phải ngữ cảnh ra quyết định.

"Mọi người đều bắt đầu với RAG: Kéo các tài liệu liên quan, nhét chúng vào lời nhắc (prompt), để mô hình tự tìm ra," Wyatt Mayham từ Northwest AI Consulting chia sẻ.

Mặc dù cách tiếp cận này hoạt động tốt với các chatbot, nhưng nó "sập ngay lập tức" đối với các tác nhân cần đưa ra quyết định và thực hiện hành động, ông chỉ ra. "Vấn đề lớn nhất mà các nhà xây dựng hệ thống phải đối mặt là khoảng cách giữa việc truy xuất và tính áp dụng."

Một tài liệu được truy xuất không cho tác nhân biết liệu nó có còn áp dụng không, liệu nó đã bị thay thế chưa, hay có một quy xung đột nào được ưu tiên hơn không. "Tác nhân cần ngữ cảnh ra quyết định, không chỉ là thông tin."

Trong thực tế (ví dụ như ngành xây dựng), điều này có thể có nghĩa là việc biết rằng một ngoại lệ về giá đã hết hạn, chính sách an toàn chỉ áp dụng ở một số khu vực pháp lý nhất định, hoặc quy trình vận hành tiêu chuẩn đã được cập nhật một tháng trước. "Bỏ sót bất kỳ điều nào trong số đó, và tác nhân sẽ tự tin thực hiện sai hành động," Mayham nói.

Nếu không có ngữ cảnh quyết định có cấu trúc, các tác nhân sẽ kết hợp các quy tắc không tương thích, bịa ra các ràng buộc để lấp đầy chỗ trống và dựa vào những gì Bilien gọi là "sự đoán xác suất trên dữ liệu vô hạn." Các lỗi rất khó tái hiện vì người xây dựng không thể truy nguyên lý do tại sao tác nhân đưa ra một lựa chọn cụ thể.

Vấn đề tích tụ lỗi cũng là thật, Mayham nói: Một tỷ lệ sai nhỏ ở mỗi bước sẽ trở nên "thảm khốc" trên quy trình công việc đa bước. "Đó là lý do chính khiến hầu hết các tác nhân doanh nghiệp không bao giờ thoát khỏi giai đoạn thử nghiệm."

Đồ thị ngữ cảnh quyết định tìm ra câu trả lời phù hợp

Đồ thị ngữ cảnh quyết định giải quyết vấn đề này bằng cách mã hóa một bản đồ có cấu trúc về những gì áp dụng, các quy tắc là gì và khi nào chúng được áp dụng.

Khung này được tối ưu hóa cho một câu hỏi: "Cho tình huống này, ngữ cảnh nào áp dụng ngay bây giờ?" Thời gian được coi là một chiều thứ cấp; mọi quy tắc, quyết định và ngoại lệ đều được xác định về thời gian hiệu lực của chúng.

"Mục tiêu là giải quyết một cách rõ ràng dữ liệu bị thiếu, không nhất quán hoặc mâu thuẫn khi xây dựng đồ thị để tránh các lỗi [xác suất] khi tác nhân đang chạy," Bilien nói.

Hệ thống được xây dựng dựa trên ba nguyên tắc:

Tính áp dụng: Logic được mã hóa rõ ràng để tác nhân biết các quy tắc nào cần ghi nhớ và áp dụng trong một tình huống nhất định. Ngữ cảnh chỉ được trả về khi nó liên quan đến tình huống đó.
Bộ nhớ nhận thức thời gian: Mọi quy tắc, quyết định và ngoại lệ đều được xác định theo thời gian. Điều này cho phép các tác nhân suy luận về "Cái gì là đúng lúc đó so với cái gì là đúng bây giờ", sau đó tái tạo hoặc giải thích các quyết định của mình.
Đường dẫn quyết định: Hệ thống có thể giải thích cách nó đi từ A đến B và lý do "tại sao" đằng sau lập luận đó (ví dụ: tại sao một mảnh ngữ cảnh được bao gồm còn cái khác thì không). Các tác nhân được đưa ra các ví dụ về "đường dẫn quyết định" về cách các trường hợp tương tự được xử lý trước đây.

Tại thời điểm thiết lập, dữ liệu phi cấu trúc được đưa vào và cấu trúc thành một bản thể học (ontology): thực thể nào tồn tại, quy tắc nào áp dụng, cái gì được tính là ngoại lệ. AI nơ-ron tượng trưng (neuro-symbolic AI) xử lý việc nhận biết mẫu và mã hóa logic chính thức, có thể đọc được bởi máy. Theo thời gian, hệ tinh chỉnh cơ sở kiến thức của mình khi các quyết định mới được đưa ra.

"AI nơ-ron tượng trưng mang lại hai phần: một phần nơ-ron mang lại sự tự chủ lớn cho các tác nhân và một phần tượng trưng để giảm lượng dữ liệu cần thiết và mang lại sự kiểm soát," Bilien nói.

Tác nhân được kiểm tra tại thời điểm xây dựng (trước sản xuất) để xác thực hành vi của chúng hoặc chỉ ra các điểm cần cải thiện. Điều này làm giảm rủi ro cũng như nhu cầu tính toán trong quá trình suy luận, ông lưu ý.

Các tác nhân học tập thay vì thoái triển

Về tính không thoái triển (non-regression), mảnh ghép chính là sự tích lũy cả về trí thông minh (mô hình) và kiến thức (chia sẻ giữa các tác nhân), Bilien nói. Điều quan trọng là các tác nhân có thể khám phá; khi chúng không biết cách hoàn thành một nhiệm vụ, chúng có thể thử các khả năng khác nhau, thường trong một môi trường được kiểm soát hoặc mô phỏng (như bot hỗ trợ thử nhiều mẫu phản hồi).

Sau đó, "khi một giải pháp được đánh giá là hài lòng, đồ thị sẽ đóng băng chuỗi hành động đó," Bilien nói. Việc khám phá trong tương lai sau đó sẽ bắt đầu từ "cơ sở ổn định của các hành vi đã được xác thực" này để ngăn các kỹ năng mới học được ghi đè lên hành vi tốt đã học trước đó.

Trước khi một tác nhân hành động hoặc ảnh hưởng đến khách hàng, nó kiểm tra đối với đồ thị: Nó có đang vi phạm quy tắc không? Có đang ảo giác không? Có nằm trong các ràng buộc không? Có thể khái quát hóa giải pháp trên các trường hợp tương tự không?

ở cấp độ vĩ mô, hệ thống đánh giá kết quả: Hành vi có cải thiện hiệu suất dài hạn không? Có khái quát hóa trên các ngữ cảnh tương tự không? Có bảo toàn các khả năng trước đó không?

"Tính tất định này là chìa khóa để các tác nhân hoạt động đáng tin cậy ở quy mô lớn," Bilien nói. Nó dẫn đến hành vi nhất quán, có thể dự đoán, có thể giải thích và cho phép kiểm soát cũng như khả năng kiểm toán mạnh mẽ hơn.

"Bạn muốn tác nhân của mình có thể tự học khi đối mặt với điều gì đó chúng không biết," ông nói. "Bạn muốn chúng có thể khám phá và tìm ra giải pháp mới."

Vượt qua bộ nhớ "tập sự"

Mặc dù ban đầu đội ngũ giả định rằng họ sẽ triển khai học tập tăng cường (RL) ở khắp mọi nơi, "thực tế điều đó proved rất khó khăn trong môi trường doanh nghiệp," Bilien nói. "Dữ liệu khan hiếm đối với một số trường hợp sử dụng cụ thể và lộn xộn đối với các trường hợp khác."

Thông thường, việc sử dụng dữ liệu thô cho các dự đoán đáng tin cậy là một thách thức thủ công và tốn thời gian, nhưng "giờ đây với các tác nhân, chúng ta đã bước vào một kỷ nguyên mới mà việc xây dựng bản thể học có thể thực hiện tự động," Bilien nói.

Các phương pháp tinh chỉnh có giám sát cổ điển có thể dẫn đến sự dao động, khi các mô hình quên kỹ năng cuối cùng chúng đã học trong khi học kỹ năng mới. Nhìn chung, việc học không được tích lũy, nén dữ liệu là "kịch tính" và các mô hình cải thiện một cách "tập sự" thay vì liên tục, dẫn đến việc chúng liên tục thất bại trên các nhiệm vụ mới hoặc chưa từng thấy.

Như Bilien lưu ý: "Bạn sẽ không bao giờ có một mô hình tự học hoàn toàn nếu bạn cứ thoái triển mỗi lần."

Trong các trường hợp sử dụng doanh nghiệp — như ngân hàng nơi hàng triệu giao dịch được xử lý mỗi ngày — mức độ độ tin cậy cao là rất quan trọng, ông lưu ý. "Một câu hỏi tôi hỏi tất cả khách hàng: 95% có đủ không? Trong nhiều trường hợp sử dụng, thì không. Bạn cần 99,999%. 1% sai lệch là quá nhiều."

Đồ thị ngữ cảnh quyết định có thể thu hẹp khoảng trống đó, ông lập luận: Khi cùng một câu hỏi hỗ trợ khách hàng được hỏi đi hỏi lại, tác nhân sẽ trả lại một câu trả lời "hài lòng" một cách có thể dự đoán và không bị thoái triển, tất cả trong khi vẫn giữ được sự tự chủ.

Việc mã hóa tính áp dụng và tính hợp lệ về thời gian vào một đồ thị có cấu trúc — thay vì dựa vào một Mô hình ngôn ngữ lớn (LLM) để suy ra nó — là một "tiếp cận âm thanh" đối với một hạn chế thực trong các khung truy xuất hiện tại, Mayham nói. Câu hỏi mở là việc tạo bản thể học tự động có đứng vững trước dữ liệu lộn xộn, đa dạng mà các doanh nghiệp thực sự có hay không. "Đó luôn là phần khó nhất," ông nói.