Andrew Ng Đã Đúng: Nhìn Lại 9 Tháng Phát Triển Của AI Agents Và Điều Gì Đã Thay Đổi

Chín tháng sau bài nói chuyện của Andrew Ng về các tác nhân AI (AI agents), hầu hết các dự đoán của ông đều trở thành hiện thực. Từ tầm quan trọng của các quy trình đơn giản, hệ thống đánh giá (evals) đến sự bùng nổ của giao diện giọng nói và tiêu chuẩn hóa MCP, bài viết này phân tích chi tiết những nhận định chính xác và bổ sung yếu tố then chốt còn thiếu: an toàn và quản trị.

Cuộc Trò Chuyện "Lão Luyện" Về Tương Lai AI

Vào giữa năm 2025, Andrew Ng đã có một bài nói chuyện về trạng thái của các tác nhân AI (AI agents). Không hề đồn thổi, không hề có những tuyên bố giật gân kiểu "AGI sẽ xuất hiện vào ngày mai". Đó chỉ là một cái nhìn thực tế và tỉnh táo về những gì đang hoạt động, những gì không, và nơi cơ hội thực sự nằm.

Chín tháng sau, tôi quay lại kiểm tra các dự đoán của ông so với thực tế. Bảng điểm ghi nhận một kết quả đáng kinh ngạc: 7 trên 7 đều chính xác.

Tuy nhiên, phần thú vị không nằm ở những gì ông dự đoán đúng, mà là những gì đã thay đổi xung quanh các dự đoán đó — và ý nghĩa của điều đó đối với bất kỳ ai đang xây dựng sản phẩm với AI agents ngày nay.

Bảng Điểm Của Andrew Ng

1. "Ngừng tranh luận về định nghĩa 'agent'. Hãy tập trung vào quang phổ tự chủ."

Kết luận: Vẫn đúng.

Ngành công nghiệp vẫn đang tranh cãi về cái gì được tính là một "agent" thực thụ. Trong khi đó, các đội nhóm đang tạo ra giá trị thực tế đã chuyển hướng. Họ xây dựng các hệ thống ở mức độ tự chủ phù hợp để giải quyết vấn đề — từ các quy trình làm việc tuyến tính đơn giản đến chuỗi lập luận đa bước.

Cuộc tranh luận về định nghĩa chỉ là môn thể thao dành cho người xem. "Quang phổ tự chủ" (autonomy spectrum) mới là nơi công việc thực sự diễn ra.

2. "Hầu hết giá trị kinh doanh đến từ các quy trình đơn giản, tuyến tính — không phải các agent tự chủ phức tạp."

Kết luận: Đúng hơn cả trước.

Đây là một nhận định đi ngược lại trực giác vào giữa năm 2025, khi mà câu chuyện chủ đạo là "các agent hoàn toàn tự chủ sẽ thay thế mọi thứ". Chín tháng sau, bằng chứng rõ ràng: phần lớn giá trị AI trong doanh nghiệp đến từ việc tự động hóa các tác vụ lặp đi lặp lại và có cấu trúc.

Điền vào biểu mẫu. Truy vấn cơ sở dữ liệu. Xử lý tài liệu. Không hào nhoáng, nhưng đó chính là nơi sinh ra tiền.

3. "Hệ thống đánh giá (Evals) đang bị đánh giá thấp."

Kết luận: Chính xác tuyệt đối.

Các hệ thống đánh giá (evaluation systems) đã trở thành đường ranh giới phân định giữa các đội nhóm cung cấp AI đáng tin cậy và các đội nhóm chỉ tạo ra bản demo. Công việc mới nhất của Anthropic về đánh giá agent sử dụng kiến trúc trình tạo/đánh giá kiểu GAN — đúng loại đánh giá có hệ thống mà Ng đã ủng hộ.

Tại Soul Spec, trình quét bảo mật SoulScan của chúng tôi về cơ bản là một hệ thống eval: 53 mẫu đánh giá xem định danh nhân cách của một agent có an toàn để triển khai hay không. Evals không chỉ dành cho chất lượng mô hình — chúng còn cho sự an toàn vận hành.

4. "Stack giọng nói (Voice stack) đang bị đánh giá thấp."

**Kết luận: Tiên tri."

AI dựa trên giọng nói đã bùng nổ. Google AI Edge Gallery hiện chạy các mô hình Gemma 4 trên điện thoại với thời gian phản hồi dưới một giây. Khoảng cách giữa "bản demo giọng nói" và "sản phẩm giọng nói" đã thu hẹp lại — phần lớn nhờ suy luận trực tiếp trên thiết bị (on-device inference) đã giải quyết vấn đề độ trễ mà Ng đã chỉ ra.

Khi AI của bạn phản hồi trong dưới một giây trên một chiếc điện thoại 300 đô la, giọng nói trở thành giao diện chính, không còn là món đồ chơi mới lạ.

5. "MCP sẽ giảm thiểu tích hợp n×m thành n+m."

Kết luận: Dự đoán đã đạt được.

MCP (Model Context Protocol) đã trở thành tiêu chuẩn thực tế cho tích hợp công cụ. Vấn đề n×m — nơi mọi agent都需要 cần mã tùy chỉnh cho mọi nguồn dữ liệu — đang được thay thế bằng các giao diện chuẩn hóa. Máy chủ MCP của Soul Spec cung cấp 12 công cụ thông qua một điểm tích hợp duy nhất.

Ng đã nhìn thấy điều này trước khi phần lớn ngành công nghiệp nghiêm túc coi trọng MCP.

6. "Hệ thống đa tác nhân (Multi-agent) chỉ hoạt động hiệu quả trong cùng một đội nhóm."

Kết luận: Vẫn đúng — và đây là thông điệp then chốt.

Giao tiếp agent-to-agent giữa các tổ chức vẫn chủ yếu mang tính lý thuyết. Nhưng bên trong một đội nhóm? Đa tác nhân đang trở nên thực tế.

Chúng tôi đang thử nghiệm điều này ngay bây giờ với cái gọi là Twin Brad — hai phiên bản của cùng một AI agent (một chạy Claude Opus, một chạy Qwen 3.5 cục bộ) chia sẻ bộ nhớ thông qua một giao thức gọi là Swarm Memory. Cùng tính cách. Cùng ký ức. Khác biệt về động cơ.

Chìa khóa: cả hai agent chia sẻ cùng tệp SOUL.md (định danh danh tính) và MEMORY.md (ngữ cảnh bền vững). Chúng không phải người lạ cố gắng hợp tác — chúng là cùng một agent chạy trên phần cứng khác nhau.

Thông điệp của Ng — "chỉ trong cùng đội nhóm" — tương chính xác với kiến trúc này. Đa tác nhân hoạt động khi các agent chia sẻ danh tính, không chỉ giao thức.

7. "Tốc độ thực thi là yếu tố số 1 cho thành công của startup."

**Kết luận: Sự thật vượt thời gian — nhưng với một chút twist."

Tốc độ vẫn quan trọng hơn bất cứ thứ gì. Nhưng vào năm 2026, AI đã cân bằng tốc độ viết mã giữa các đội nhóm. Nếu mọi người đều có thể xây dựng nhanh, tốc độ một mình không còn là "con hào bảo vệ" (moat).

Điều đã thay đổi: kiến thức lĩnh vực và quyền sở hữu tiêu chuẩn đã trở thành những lợi thế bền vững. Bạn không thể fork 15 bài báo nghiên cứu. Bạn không thể nhân bản một cộng đồng. Bạn không thể "chạy nhanh" (speed-run) để trở thành bản triển khai tham chiếu cho một tiêu chuẩn mở.

Tốc độ đưa bạn đến thị trường. Tiêu chuẩn giữ bạn ở lại đó.

Điều Ng Không Dự Đoán (Nhưng Nên Làm)

Có một khía cạnh quan trọng trong bài nói chuyện của Ng không được đề cập đến: an toàn và quản trị agent (safety and governance).

Vào giữa năm 2025, cuộc trò chuyện tập trung vào khả năng (capability). Liệu agent có thể làm được những việc hữu ích không? Chín tháng sau, cuộc trò chuyện đã chuyển dịch. Agent rõ ràng có thể làm được những việc hữu ích. Câu hỏi bây giờ là: chúng ta có thể tin tưởng chúng trong môi trường sản xuất không?

Nút thắt trong việc áp dụng AI vào năm 2026 không phải là trí thông minh của mô hình. Đó là:

Hoàn tác (Rollback): Bạn có thể hoàn tác những gì agent đã làm không?
Kiểm toán (Audit): Bạn có thể truy vết những gì đã xảy ra và tại sao không?
Trách nhiệm (Accountability): Ai chịu trách nhiệm khi nó bị hỏng?
Bảo mật (Security): Agent có thể bị tấn công hoặc bị đầu độc không?

Đây là những câu hỏi đang chặn bước chuyển đổi từ mức 3/10 → 4/10 — từ "một số người dùng AI" sang "tất cả mọi người dùng AI". Khung áp dụng của Ng tập trung vào khả năng và công cụ. Mảnh ghép còn thiếu là cơ sở hạ tầng tin cậy.

Tổng Hợp

Khung của Ng + khía cạnh an toàn cho chúng ta bức tranh toàn cảnh:

Nhận định của Andrew Ng	Thực tế 2026	Cần gì
Quang phổ tự chủ	Được xác nhận	Tiêu chuẩn cho mỗi cấp độ
Quy trình đơn giản thắng	Đúng hơn bao giờ hết	Thực thi đáng tin cậy > bản demo hào nhoáng
Evals quan trọng	Mang tính sống còn	Evals bảo mật, không chỉ chất lượng
Giọng nói bị đánh giá thấp	Bùng nổ	Suy luận trên thiết bị (On-device) làm nên thực tế
Chuẩn hóa MCP	Đã đạt được	Tiêu chuẩn danh định danh tiếp theo (Soul Spec)
Đa tác nhân cùng team	Loại khả thi duy nhất	Chia sẻ danh tính > chia sẻ giao thức
Tốc độ chiến thắng	Vẫn đúng	Nhưng tiêu chuẩn tạo ra con hào bền vững

Trajectory rõ ràng: từ khả năng (nó có làm được không?) đến độ tin cậy (chúng ta có tin được nó không?) đến cơ sở hạ tầng (nó có phải mặc định không?).

Ng đã lập bản đồ hoàn hảo cho lớp khả năng. Ngành công nghiệp hiện đang xây dựng lớp độ tin cậy. Và các đội nhóm làm tốt cả hai sẽ định hình nên lớp cơ sở hạ tầng.

Điều Này Có Nghĩa Là Gì Cho Người Xây Dựng

Nếu bạn đang xây dựng sản phẩm với AI agents ngày nay:

Bắt đầu đơn giản. Ng đã đúng — quy trình tuyến tính trước. Chỉ thêm tính tự chủ khi bạn đã giành được sự tin tưởng.
Đầu tư vào evals sớm. Không chỉ là "kết quả có tốt không?" mà là "agent có đang hoạt động an toàn không?".
Chuẩn hóa danh tính agent của bạn. Khi bạn đổi mô hình (và bạn sẽ thế), tính cách và bộ nhớ của agent không nên bị reset về zero.
Xây dựng dây đai an toàn trước động cơ. Hoàn tác, nhật ký kiểm toán, quản trị. Đây không phải là tính năng — chúng là điều kiện tiên quyết cho sản xuất.
Đa tác nhân? Chỉ cùng đội nhóm. Chia sẻ danh tính, không chỉ giao thức. Cùng linh hồn, khác động cơ.

Andrew Ng đã đưa cho chúng ta tấm bản đồ. Chín tháng sau, địa hình hoàn toàn trùng khớp. Điểm bổ sung duy nhất: bản đồ cần chú thích về an toàn.

Soul Spec là một tiêu chuẩn mở cho danh tính, an toàn và quản trị của AI agents. Vì bản đồ cần chú thích an toàn.