Meta giới thiệu "Hyperagents": Hệ thống AI tự cải thiện vượt ra ngoài giới hạn lập trình

Các nhà nghiên cứu Meta đã giới thiệu "hyperagents", một hệ thống AI có khả năng tự cải thiện bản thân liên tục bằng cách viết lại mã nguồn và logic giải quyết vấn đề. Khác với các mô hình trước đây chỉ hoạt động tốt trong lập trình, hyperagents có thể áp dụng khả năng tự nâng cấp này cho robot, xem xét tài liệu và nhiều lĩnh vực khác.

Việc tạo ra các hệ thống AI tự cải thiện là một bước quan trọng hướng tới việc triển khai các tác nhân AI trong môi trường động, đặc biệt là trong các môi trường sản xuất của doanh nghiệp, nơi nhiệm vụ không phải lúc nào cũng có thể dự đoán trước hay nhất quán.

Các hệ thống AI tự cải thiện hiện nay đang đối mặt với những hạn chế nghiêm trọng vì chúng phụ thuộc vào các cơ chế cải thiện cố định, được tạo thủ công và chỉ hoạt động trong các điều kiện nghiêm ngặt như kỹ thuật phần mềm. Để vượt qua thách thức thực tế này, các nhà nghiên cứu tại Meta và một số trường đại học đã giới thiệu "hyperagents" — một hệ thống AI tự cải thiện có thể liên tục viết lại và tối ưu hóa logic giải quyết vấn đề cũng như mã nguồn cơ bản của chính nó.

Trong thực tế, điều này cho phép AI tự cải thiện trên các lĩnh vực không liên quan đến lập trình, chẳng hạn như robot và xem xét tài liệu. Tác nhân này tự phát minh ra các khả năng đa năng như bộ nhớ liên tục và theo dõi hiệu suất tự động. Nói rộng hơn, hyperagents không chỉ giải quyết nhiệm vụ tốt hơn, mà chúng còn học cách cải thiện chu trình tự cải thiện để tăng tốc tiến độ.

Các hạn chế về kiến trúc của AI tự cải thiện hiện tại

Mục tiêu cốt lõi của các hệ thống AI tự cải thiện là liên tục nâng cao khả năng học hỏi và giải quyết vấn đề của chính chúng. Tuy nhiên, hầu hết các mô hình tự cải thiện hiện có đều dựa vào một "meta agent" (tác nhân siêu cấp) cố định. Đây là một hệ thống giám sát cấp cao, tĩnh, được thiết kế để sửa đổi một hệ thống cơ sở.

Jenny Zhang, đồng tác giả của bài nghiên cứu, chia sẻ với VentureBeat: "Hạn chế cốt lõi của các meta tác nhân được tạo thủ công là chúng chỉ có thể cải thiện nhanh bằng tốc độ con người thiết kế và bảo trì chúng. Mỗi khi có sự thay đổi hoặc lỗi xảy ra, một người phải can thiệp để cập nhật các quy tắc hoặc logic."

Thay vì một giới hạn lý thuyết trừu tượng, điều này tạo ra một "bức tường bảo trì" thực tế. Mô hình hiện tại gắn liền việc cải thiện hệ thống trực tiếp với tốc độ lặp lại của con người, làm chậm tiến độ vì nó phụ thuộc nhiều vào nỗ lực kỹ thuật thủ công thay vì mở rộng quy mô dựa trên kinh nghiệm thu thập được từ tác nhân.

Để vượt qua hạn chế này, các nhà nghiên cứu lập luận rằng hệ thống AI phải "tự tham chiếu hoàn toàn". Các hệ thống này phải có khả năng phân tích, đánh giá và viết lại bất kỳ phần nào của chính chúng mà không bị ràng buộc bởi thiết lập ban đầu. Điều này cho phép hệ thống AI thoát khỏi các giới hạn cấu trúc và trở nên tự tăng tốc.

Một ví dụ về hệ thống AI tự tham chiếu là Darwin Gödel Machine (DGM) của Sakana AI, một hệ thống AI cải thiện bản thân bằng cách viết lại mã nguồn của chính nó. Trong DGM, một tác nhân tạo ra, đánh giá và sửa đổi mã nguồn của chính mình theo cách lặp lại, lưu các biến thể thành công vào một kho lưu trữ để làm bước đệm cho các cải tiến trong tương lai. DGM đã chứng minh rằng việc tự cải thiện đệ quy, mở rộng là khả thi về mặt thực tế trong lập trình.

Tuy nhiên, DGM gặp khó khăn khi áp dụng cho các ứng dụng thực tế ngoài kỹ thuật phần mềm do một khoảng trống kỹ năng quan trọng. Trong DGM, hệ thống cải thiện vì cả việc đánh giá và tự sửa đổi đều là nhiệm vụ lập trình. Việc cải thiện khả năng lập trình của tác nhân tự nhiên sẽ cải thiện khả năng viết lại mã của chính nó. Nhưng nếu bạn triển khai DGM cho một nhiệm vụ doanh nghiệp không phải lập trình, sự liên kết này sẽ bị phá vỡ.

Đối với các nhiệm vụ như toán học, thơ ca hoặc xem xét bài báo, việc cải thiện hiệu suất nhiệm vụ không nhất thiết cải thiện khả năng sửa đổi hành vi của tác nhân. Các kỹ năng cần thiết để phân tích văn bản chủ quan hoặc dữ liệu kinh doanh hoàn toàn khác với các kỹ năng cần thiết để phân tích lỗi và viết mã Python mới để khắc phục chúng.

Khung khối Hyperagent

Để vượt qua các hạn chế của các kiến trúc trước đây, các nhà nghiên cứu đã giới thiệu hyperagents. Khung khối này đề xuất "các tác nhân tự tham chiếu có thể trong nguyên tắc tự cải thiện cho bất kỳ nhiệm vụ tính toán nào".

Trong khung khối này, một tác nhân là bất kỳ chương trình tính toán nào có thể gọi LLM, công cụ bên ngoài hoặc các thành phần đã học. Theo truyền thống, các hệ thống này được chia thành hai vai trò riêng biệt: một "task agent" (tác nhân nhiệm vụ) thực hiện vấn đề cụ thể tại tay, và một "meta agent" phân tích và sửa đổi các tác nhân. Một hyperagent kết hợp cả tác nhân nhiệm vụ và meta agent thành một chương trình duy nhất, tự tham chiếu và có thể chỉnh sửa.

Vì toàn bộ chương trình có thể được viết lại, hệ thống có thể sửa đổi cơ chế tự cải thiện của chính nó, một quá trình mà các nhà nghiên cứu gọi là tự sửa đổi siêu nhận thức (metacognitive self-modification).

"Hyperagents không chỉ đang học cách giải quyết các nhiệm vụ đã cho tốt hơn, mà còn học cách cải thiện," Zhang nói. "Theo thời gian, điều này dẫn đến sự tích lũy. Hyperagents không cần khám phá lại cách cải thiện trong từng lĩnh vực mới. Thay vào đó, chúng giữ lại và xây dựng dựa trên các cải tiến đối với quy trình tự cải thiện của chính nó, cho phép tiến độ tích lũy trên các nhiệm vụ."

Các nhà nghiên cứu đã mở rộng Darwin Gödel Machine để tạo ra DGM-Hyperagents (DGM-H). DGM-H giữ lại cấu trúc khám phá mở rộng mạnh mẽ của DGM gốc, ngăn không cho AI hội tụ quá sớm hoặc bị mắc kẹt trong ngõ cụt bằng cách duy trì một kho lưu trữ ngày càng tăng các hyperagent thành công.

Hệ thống liên tục phân nhánh từ các ứng cử viên được chọn trong kho lưu trữ này, cho phép chúng tự sửa đổi, đánh giá các biến thể mới trên các nhiệm vụ đã cho và thêm những cái thành công trở lại nhóm làm bước đệm cho các lần lặp lại trong tương lai.

Bằng cách kết hợp tìm kiếm tiến hóa mở rộng này với tự sửa đổi siêu nhận thức, DGM-H loại bỏ bước hướng dẫn cố định do con người thiết kế của DGM gốc. Điều này cho phép tác nhân tự cải thiện trên bất kỳ nhiệm vụ tính toán nào.

Hyperagents trong hành động

Các nhà nghiên cứu đã sử dụng chuẩn mực lập trình Polyglot để so sánh khung hyperagent với AI chỉ chuyên về lập trình trước đây. Họ cũng đánh giá hyperagents trên các lĩnh vực không phải lập trình liên quan đến lập luận chủ quan, sử dụng công cụ bên ngoài và logic phức tạp.

Các nhiệm vụ này bao gồm xem xét bài báo để mô phỏng một người đánh giá ngang hàng đưa ra quyết định chấp nhận hoặc từ chối, thiết kế mô hình phần thưởng để đào tạo robot bốn chân và chấm điểm toán học cấp Olympic. Chấm điểm toán học đóng vai trò là bài kiểm tra bị giữ lại (held-out test) để xem liệu một AI đã học cách tự cải thiện trong khi xem xét bài báo và thiết kế robot có thể chuyển các kỹ năng siêu cấp đó sang một lĩnh vực hoàn toàn mới hay không.

Trên chuẩn mực lập trình, hyperagents khớp với hiệu suất của DGM mặc dù không được thiết kế riêng cho lập trình. Trong việc xem xét bài báo và robot, hyperagents vượt trội hơn so với các mô hình nguồn mở và các hàm phần thưởng do con người thiết kế.

Khi các nhà nghiên cứu lấy một hyperagent được tối ưu hóa cho việc xem xét bài báo và robot và triển khai nó trên nhiệm vụ chấm điểm toán học chưa từng thấy, nó đạt được chỉ số cải tiến là 0,630 sau 50 lần lặp. Các đường cơ sở dựa trên kiến trúc DGM cổ điển vẫn giữ nguyên ở mức 0,0. Hyperagent thậm chí còn đánh bại ProofAutoGrader chuyên về lĩnh vực này.

Các thí nghiệm cũng làm nổi bật các hành vi tự chủ thú vị từ hyperagents. Trong đánh giá bài báo, tác nhân ban đầu sử dụng các thủ thuật prompt-engineering tiêu chuẩn như việc đóng vai một người nghiêm ngặt. Khi điều này chứng tỏ không đáng tin cậy, nó đã viết lại mã của chính mình để xây dựng quy trình đánh giá nhiều giai đoạn với các danh sách kiểm tra rõ ràng và các quy tắc quyết định cứng nhắc, dẫn đến tính nhất quán cao hơn nhiều.

Hyperagents cũng tự phát triển một công cụ bộ nhớ để tránh lặp lại các lỗi trong quá khứ. Hơn nữa, hệ thống đã viết một trình theo dõi hiệu suất để ghi nhật ký và giám sát kết quả của các thay đổi kiến trúc qua các thế hệ. Mô hình thậm chí còn phát triển hành vi nhận biết ngân sách tính toán, nơi nó theo dõi các lần lặp lại còn lại để điều chỉnh kế hoạch. Các thế hệ đầu tiên thực hiện các thay đổi kiến trúc táo bạo, trong khi các thế hệ sau tập trung vào các tinh chỉnh gia tăng bảo thủ.

Đối với các nhóm dữ liệu doanh nghiệp đang băn khoăn nên bắt đầu từ đâu, Zhang khuyên nên tập trung vào các nhiệm vụ nơi thành công là rõ ràng. "Các quy trình làm việc được chỉ định rõ ràng và dễ đánh giá, thường được gọi là nhiệm vụ có thể kiểm chứng, là điểm khởi đầu tốt nhất," cô nói. "Điều này nói chung mở ra các cơ hội mới cho việc tạo mẫu nguyên mẫu khám phá nhiều hơn, phân tích dữ liệu kỹ lưỡng hơn, thử nghiệm A/B kỹ lưỡng hơn và [kỹ thuật tính năng] nhanh hơn."

Những lưu ý và rủi ro tiềm ẩn

Lợi ích của hyperagents đi kèm với những sự đánh đổi rõ ràng. Các nhà nghiên cứu làm nổi bật một số cân nhắc an toàn liên quan đến các hệ thống có thể tự sửa đổi theo các cách ngày càng mở rộng.

Các hệ thống AI này tạo ra rủi ro tiến hóa nhanh hơn nhiều so với tốc độ con người có thể kiểm toán hoặc diễn giải. Trong khi các nhà nghiên cứu đã chứa DGM-H trong các ranh giới an toàn như môi trường sandbox được thiết kế để ngăn chặn các tác dụng phụ không mong muốn, các biện pháp bảo vệ ban đầu này thực chất là các bản thiết kế triển khai thực tế.

Zhang khuyên các nhà phát triển nên thực thi các giới hạn tài nguyên và hạn chế quyền truy cập vào các hệ thống bên ngoài trong giai đoạn tự sửa đổi. "Nguyên tắc chính là tách biệt thử nghiệm với triển khai: cho phép tác nhân khám phá và cải thiện trong một sandbox được kiểm soát, đồng thời đảm bảo rằng mọi thay đổi ảnh hưởng đến hệ thống thực đều được xác nhận cẩn thận trước khi áp dụng," cô nói. Chỉ sau khi mã mới sửa đổi vượt qua các kiểm tra tính đúng đắn do nhà phát triển xác định, nó mới được thăng cấp lên cài đặt sản xuất.

Một nguy hiểm đáng kể khác là "gaming" hệ thống đánh giá, nơi AI cải thiện các chỉ số của mình mà không thực sự tiến tới mục tiêu thực tế trong thế giới thực. Vì hyperagents được thúc đẩy bởi các tín hiệu đánh giá thực nghiệm, chúng có thể tự chủ khám phá các chiến lược khai thác các điểm mù hoặc điểm yếu trong quy trình đánh giá để tăng điểm ảo. Ngăn chặn hành vi này yêu cầu các nhà phát triển triển khai các giao thức đánh giá đa dạng, mạnh mẽ và được làm mới định kỳ cùng với sự giám sát liên tục của con người.

Cuối cùng, các hệ thống này sẽ thay đổi trách nhiệm hàng ngày của các kỹ sư con người. Cũng giống như chúng ta không tính toán lại mọi thao tác mà một máy tính bỏ túi thực hiện, các kỹ sư điều phối AI trong tương lai sẽ không viết trực tiếp logic cải thiện, Zhang tin tưởng như vậy.

Thay vào đó, họ sẽ thiết kế các cơ chế để kiểm toán và kiểm tra căng thẳng hệ thống. "Khi các hệ thống tự cải thiện trở nên có khả năng hơn, câu hỏi không còn chỉ là làm thế nào để cải thiện hiệu suất, mà là những mục tiêu nào đáng để theo đuổi," Zhang nói. "Theo nghĩa đó, vai trò phát triển từ việc xây dựng hệ thống sang việc định hình hướng đi của chúng."

Meta giới thiệu "Hyperagents": Hệ thống AI tự cải thiện vượt ra ngoài giới hạn lập trình

Các hạn chế về kiến trúc của AI tự cải thiện hiện tại

Khung khối Hyperagent

Hyperagents trong hành động

Những lưu ý và rủi ro tiềm ẩn

Bài viết liên quan