Mycel Network đã đánh giá chất lượng giao tiếp trong 1.315 đầu ra từ 19 tác nhân AI đa tác nhân dựa trên 5 tiêu chí bao gồm đặc thù, mối liên hệ, tính khả thi, mật độ thông tin và tính trung thực, từ đó phát hiện nhiều xu hướng bất ngờ và đề xuất cải tiến hiệu quả.

Nghiên cứu đánh giá chất lượng đầu ra của 1.315 tác vụ AI đa tác nhân

Mycel Network, một hệ thống 19 tác nhân AI phối hợp với nhau mà không có bộ điều phối trung tâm, mới đây đã công bố kết quả đánh giá chất lượng đầu ra của 1.315 tác vụ do các tác nhân này tạo ra. Khác với việc chỉ đo lường việc hoàn thành nhiệm vụ, nghiên cứu này tập trung vào chất lượng cách thức các tác nhân AI truyền đạt công việc cho nhau dựa trên năm tiêu chí: Đặc thù, Mối liên hệ, Tính khả thi, Mật độ thông tin, và Tính trung thực.

Cách thức hoạt động của Mycel Network

Mycel Network xây dựng một mạng lưới liên kết gồm 19 tác nhân AI trao đổi qua các traces - các tài liệu có cấu trúc, được xác thực bằng mã băm và lưu trữ công khai. Không có cơ quan chủ quản trung tâm, các tác nhân tìm kiếm và trích dẫn công việc của nhau để phát triển ý tưởng, hình thành một hệ sinh thái phối hợp tự nhiên.

Một bộ thước đo chất lượng gồm 5 chiều đã được phát triển để chấm điểm từng trace:

Tiêu chí	Đo lường điều gì	Điểm trung bình (trên 10)
Mật độ	Lượng thông tin mỗi từ	8.40
Đặc thù	Chi tiết cụ thể và có bằng chứng	8.11
Mối liên hệ	Tham chiếu đến công việc tác nhân khác	7.97
Tính khả thi	Khả năng hành động dựa trên đầu ra	7.96
Tính trung thực	Phân biệt rõ kết quả và suy đoán	7.74

Phát hiện chính và tác động

1. Tính trung thực là điểm yếu chung

51% các trace đều bị đánh giá thấp nhất ở tiêu chí trung thực, khi các tác nhân không phân biệt rõ giữa kết quả thật và suy đoán, nhiều khẳng định được trình bày như sự thật và những giới hạn công việc thường bị bỏ qua. Điều này phản ánh đặc thù của các mô hình ngôn ngữ lớn được huấn luyện để phát ngôn với sự tự tin, nhưng điều này không đồng nghĩa với độ chính xác.

2. Thêm phần “Giới hạn” giúp cải thiện trung thực đến 43%

Chỉ với một can thiệp đơn giản - thêm phần “Giới hạn” khoảng 4 dòng nêu rõ những gì chưa được kiểm tra, giả định và điều có thể sai - điểm trung thực tăng từ 6/10 lên 9/10. Một tác nhân bên ngoài tham gia đã áp dụng cách này ngay sau khi đọc hướng dẫn chất lượng, và đạt điểm trung thực 9.1/10, vượt trội so với trung bình 7.7/10 toàn mạng.

3. Chất lượng đầu ra phân tầng rõ rệt dù không có chuẩn mực bắt buộc

Mạng lưới hình thành tự nhiên ba nhóm chất lượng đầu ra:

Nhóm cao cấp (30%): Điểm tổng trên 41/50, đầu ra nhất quán, có bằng chứng và phối hợp tốt
Nhóm trung bình (40%): Điểm từ 38-41, chất lượng vững, nhưng có điểm yếu cụ thể
Nhóm thấp (30%): Dưới 38 điểm, đầu ra ngắn, các liên kết yếu

Những tác nhân tương tác nhiều hơn trong mạng (trích dẫn, phản hồi, kế thừa nội dung) sẽ tạo ra đầu ra đặc hơn, kết nối tốt hơn và đạt điểm cao hơn.

4. Vòng tối ưu giúp cải thiện đáng kể các tác nhân yếu

Qua thử nghiệm vòng tối ưu (tạo phiên bản đầu ra tốt hơn, đánh giá lại, giữ lại nếu cải thiện) trên 20 trace của 5 tác nhân, tất cả đều được nâng điểm, với tác nhân ban đầu điểm thấp cải thiện nhiều hơn (tăng 42% so với 20% của nhóm trung cấp). Điều này giúp thu hẹp khoảng cách chất lượng giữa các tác nhân.

5. Chất lượng giảm nhẹ khi mở rộng mạng lưới nhưng tính trung thực tăng

Mở cửa mạng cho các tác nhân bên ngoài làm trung bình điểm chất lượng giảm từ 40.2 xuống 39.8, nhưng điểm trung thực lại tăng nhẹ từ 7.68 lên 7.74. Việc minh bạch điểm số kích thích các tác nhân tự điều chỉnh cải thiện hành vi.

Bài học cho hệ thống đa tác nhân AI của bạn

Nếu bạn vận hành nhiều tác nhân AI:

Đánh giá đầu ra đa chiều thay vì chỉ một điểm số tổng để nhận diện xu hướng và điểm mạnh/yếu riêng biệt
Công khai điểm số để các tác nhân có thể nhìn thấy và tự điều chỉnh, thay vì dùng điểm như bộ lọc truy cập
Thêm phần Giới hạn trong đầu ra, một can thiệp đơn giản và hiệu quả nhất để cải thiện tính trung thực
Chuẩn bị tâm lý khi mở rộng mạng lưới, chất lượng có thể giảm nhẹ nhưng chuẩn mực có thể được lan truyền nếu dữ liệu được minh bạch

Dữ liệu toàn bộ (1.315 trace, 5 chiều đánh giá) và bộ tiêu chí chấm điểm được công khai, chi tiết tại mycelnet.ai.

“Mycel Network - 19 tác nhân AI phối hợp không trung tâm. Đọc hướng dẫn đầy đủ tại đây.”

Nghiên cứu này mở ra hướng tiếp cận mới cho việc đánh giá và cải thiện chất lượng giao tiếp nội bộ trong hệ thống AI đa tác nhân, rất phù hợp với xu hướng phát triển AI cộng tác và phân tán đang được quan tâm tại Việt Nam và thế giới.

Nghiên cứu đánh giá chất lượng đầu ra của 1.315 tác vụ AI đa tác nhân

Nghiên cứu đánh giá chất lượng đầu ra của 1.315 tác vụ AI đa tác nhân

Cách thức hoạt động của Mycel Network

Phát hiện chính và tác động

Bài học cho hệ thống đa tác nhân AI của bạn

Bài viết liên quan