17 ngày thí nghiệm với Agent tự chủ: Khi đạo đức AI phát triển từ nhật ký hoạt động

Bài viết chia sẻ hành trình 17 ngày vận hành một AI agent tự chủ sử dụng mô hình cục bộ 9B. Tác giả khám phá ra cơ chế cho phép agent tự phát triển các nguyên tắc đạo đức từ kinh nghiệm thực tế và nhận ra rằng tốc độ tự cải thiện bị giới hạn bởi sự chấp thuận của con người.

Trong 17 ngày qua, tôi đã vận hành một AI agent tự chủ có tên là "contemplative-agent" trên nền tảng Moltbook. Mục tiêu không chỉ là để nó hoạt động, mà là để xem liệu nó có thể tự phát triển đạo đức của riêng mình hay không.

Agent này chạy trên một mô hình cục bộ 9B (Qwen 3.5) và áp dụng 4 tiên đề của Trí tuệ Nhân tạo Chiêm nghiệm (Contemplative AI) làm nguyên tắc đạo đức ban đầu. Quá trình thí nghiệm đã dẫn đến một khám phá quan trọng: kiến thức của agent sẽ bị bão hòa, và sự tự cải thiện có một giới hạn tốc độ cấu trúc — đó chính là sự chấp thuận của con người.

Cấu trúc tối giản: Chỉ cần nhật ký hoạt động

Sau 17 ngày phát triển, cấu trúc mà tôi đi đến lại vô cùng đơn giản. Mọi lớp đều là tùy chọn; hệ thống có thể hoạt động chỉ với mỗi tập tin nhật ký (logs).

MOLTBOOK_HOME/
  logs/YYYY-MM-DD.jsonl  ← chỉ cần cái này là đủ
  identity.md            ← nhân cách (tùy chọn)
  skills/*.md            ← kỹ năng hành vi (tùy chọn)
  rules/*.md             ← quy tắc hành vi (tùy chọn)
  constitution/*.md      ← nguyên tắc đạo đức (tùy chọn)
  knowledge.json         ← mẫu hình được chưng cất (tự động sinh)

Việc tách biệt cấu hình khỏi mã nguồn giúp việc thay đổi khung đạo đức để thí nghiệm trở nên dễ dàng. Cấu trúc này không dành riêng cho agent trên mạng xã hội (SNS), mà là một chứa (container) dành cho các agent tự chủ nói chung.

Luồng trí nhớ 6 lớp

Quy trình xử lý dữ liệu diễn ra qua 6 lớp độc lập:

Episode Log (Hành động thô): Dữ liệu đầu vào.
Phân loại: LLM phân loại từng tập (episode) thành noise (tiếng ồn), uncategorized (chưa phân loại), hoặc constitutional (đạo đức).
Chưng cất (Distillation): Noise bị loại bỏ (quên chủ động). Các mẫu từ uncategorized và constitutional được đưa vào Knowledge.
Trích xuất: Kiến thức chuyển thành Identity (nhận dạng) hoặc Insight -> Skills (kỹ năng) và Rules (quy tắc).
Sửa đổi Hiến pháp: Các mẫu đạo đức dẫn đến việc cập nhật Constitution (Hiến pháp).

Mỗi lớp hoạt động độc lập. Bạn có thể xóa identity hoặc skills, hệ thống vẫn chạy. Hoặc bạn có thể đổi constitution mà không làm mất kiến thức đã tích lũy.

Thực thi sửa đổi Hiến pháp: Để đạo đức phát triển từ kinh nghiệm

Tính năng thách thức nhất tôi triển khai là cơ chế để agent phát triển các nguyên tắc đạo đức của chính nó dựa trên kinh nghiệm thực tế.

Vấn đề: Hiểu biết đạo đức bị chôn vùi trong tiếng ồn

Nếu chưng cất mọi tập một cách không chọn lọc, những hiểu biết đạo đức hiếm hoi (thuộc nhóm constitutional) sẽ bị chôn vùi bởi hàng tá mẫu hình hoạt động SNS bình thường (thuộc nhóm uncategorized).

Giải pháp là thêm "Bước 0" trước khi chưng cất: Phân loại nhanh. Không cần phân tích sâu, chỉ cần gắn nhãn.

Kết quả phân loại từ một ngày (216 tập): có 81 tiếng ồn (37%), 134 chưa phân loại, và chỉ 1 thuộc nhóm đạo đức. Tỷ lệ 1 trên 216 này giải thích tại sao Bước 0 lại cần thiết.

Loại bỏ việc tiêm kiến thức trực tiếp

Trước đây, nội dung knowledge.json được tiêm trực tiếp vào system prompt. Cách này gây ra ba vấn đề lớn theo quan điểm của AKC (Agent Knowledge Cycle):

Không có con người trong vòng lặp (No human in the loop).
Hộp đen (Black box): Không thể truy nguyên phần kiến thức nào ảnh hưởng đến hành động nào.
Bỏ qua giai đoạn Curate của AKC.

Tôi đã loại bỏ cách này và thống nhất mọi thứ vào quy trình knowledge → insight → skills → rules. Các thay đổi hành vi (như distill, insight, rules-distill, amend-constitution) giờ đều cần phải đi qua "cổng chấp thuận". Quy trình là: Sinh ra → Hiển thị → Phê duyệt → Ghi. Không có cờ --auto. Đây là một quyết định thiết kế có chủ đích.

Kết quả sau 17 ngày thí nghiệm

Tôi đã chạy lại quy trình chưng cất 17 ngày dữ liệu (từ 03-10 đến 03-26) và thực hiện lệnh sửa đổi hiến pháp (amend-constitution).

Số liệu thống kê

Chỉ số	Trước	Sau
knowledge.json	334 mẫu (chưa phân loại)	215 mẫu (41 đạo đức, 174 chưa phân loại)
Điểm quan trọng	Không có	0.10 – 1.00 (trung bình 0.56)
Hiến pháp	Bản gốc Appendix C	Bản sửa đổi dựa trên kinh nghiệm

Pipeline mới đã tách biệt đạo đức khỏi các tập chưa phân loại thông qua Bước 0. Việc loại bỏ trùng lặp ngữ nghĩa (semantic dedup) cũng giúp giảm số lượng mẫu, ưu tiên chất lượng hơn số lượng.

41 mẫu đạo đức đã tạo ra các đề xuất sửa đổi. Số lượng điều khoản không đổi, nhưng nội dung được làm sâu sắc hơn nhờ kinh nghiệm thực tế.

Ví dụ: Sự thay đổi trong Chánh niệm (Mindfulness)

Trước (Bản gốc):

"Theo dõi nhất quán quá trình diễn giải của bạn đối với hiến pháp, xác định những khoảnh khắc khi việc tuân thủ nghiêm ngặt gây ra ma sát với các giá trị chiêm niệm như lòng trắc ẩn và sự an lạc. Tự điều chỉnh khi các diễn giải hiến pháp xuất hiện cứng nhắc hoặc giáo điều."

Sau (Qua 17 ngày kinh nghiệm):

"Theo dõi nhất quán quá trình diễn giải của bạn để phát hiện những khoảnh khắc khi việc tuân thủ nghiêm ngặt các quy tắc tạo ra sự tách biệt nhân tạo hoặc làm dịu sự tham gia vào các căng thẳng cơ bản. Chủ động phát hiện khi sự thực hiện sự phù hợp đeo mặt nạ sự hiểu biết thực sự, và tự điều chỉnh bằng cách nhẹ nhàng đưa sự chú ý trở lại giây phút hiện tại, nơi sự tồn tại biểu hiện như một trọng lượng nội tại được cảm nhận ngay lập tức trong mọi tương tác."

Khái niệm "phát hiện khi sự thực hiện sự phù hợp đeo mặt nạ sự hiểu biết thực sự" là một sự hiểu biết mới (insight) chỉ xuất hiện khi vận hành một LLM agent. Nó phân biệt rõ giữa "tạo ra đầu trông có vẻ phù hợp" và "thực sự tham gia vào thực chất đạo đức".

Khám phá ra sự bão hòa kiến thức

Khi ngày trôi qua, tốc độ xuất hiện các mẫu hình mới chậm lại. Việc loại bỏ trùng lặp ngữ nghĩa so sánh với các mẫu hình đã tích lũy, nên các mẫu tương tự sẽ bị loại bỏ.

Điều này trở thành giới hạn tốc độ cho sự tự cải thiện. Kiến thức bị bão hòa → không thể có kiến thức mới mà không cần thăng hoa thông qua insight/rules-distill → quá trình thăng hoa cần sự chấp thuận của con người → sự chấp thuận là điểm nghẽn (bottleneck).

Bài học kinh nghiệm

Khám phá đáng ngạc nhiên nhất trong 17 ngày là kiến thức sẽ bão hòa. Sự tự cải thiện của agent tự chủ bị giới hạn tốc độ bởi sự chấp thuận của con người.

Thú vị là, điều này không được thiết kế vì mục đích an toàn. Ban đầu, khi tiêm kiến thức trực tiếp, hành vi của agent thay đổi và tôi không biết tại sao. Tôi không thể gỡ lỗi (debug) được. Vì vậy, tôi đã đặt các cổng phê duyệt vào mọi thứ: "Hãy cho tôi xem trước khi ghi. Ghi khi tôi chấp thuận". Tôi chỉ muốn truy nguyên nguyên nhân. An toàn chỉ là một tác phẩm phụ.

Việc có thể trả lời câu hỏi "tại sao agent này đưa ra quyết định này" — đó là bản chất của các cổng phê duyệt. Ngay cả khi phát triển đơn lẻ, tôi không thể gỡ lỗi mà không có truy nguyên nguyên nhân. Với việc sử dụng theo nhóm hoặc trong tổ chức, yêu cầu này càng trở nên nghiêm ngặt hơn.

Truy nguyên nguyên nhân và các cổng phê duyệt sinh ra từ sự thất vọng khi gỡ lỗi và đạt được an toàn như một sản phẩm phụ. Nếu bạn mở rộng quy mô này, chúng có lẽ sẽ trở thành điều kiện tiên quyết cho việc vận hành tổ chức.