Tương lai "Headless" cho AI cá nhân: Khi giao diện dòng lệnh lên ngôi

Các ứng dụng và dịch vụ đang chuyển hướng sang mô hình "headless" (không giao diện đồ họa) để phục vụ các tác nhân AI cá nhân hiệu quả hơn. Các công cụ dòng lệnh (CLI) đang trở nên phổ biến nhờ tính linh hoạt, khả năng kết hợp và an toàn hơn so với việc để AI tự điều khiển trình duyệt. Thiết kế giao diện trong tương lai sẽ tập trung vào thương hiệu thay vì hành trình người dùng, đồng thời các dịch vụ tài chính và chính phủ cũng cần cung cấp CLI để tăng cường bảo mật.

Rất có thể các ứng dụng và dịch vụ trong tương lai sẽ buộc phải chuyển sang trạng thái "headless": tức là chúng phải cung cấp quyền truy cập và công cụ cho các tác nhân AI cá nhân mà không cần bất kỳ giao diện người dùng (UI) trực quan nào mà con người vẫn sử dụng hiện nay.

Khi nói đến dịch vụ, tôi đang nói đến những việc như: làm hộ chiếu mới, tìm và đặt khách sạn hoặc vé máy bay, quản lý tài khoản ngân hàng, hay mua sắm những chiếc áo thun có trọng lượng cotton tối thiểu từ các thương hiệu tương tự như bạn đã từng mua.

Tại sao lại như vậy? Bởi vì sử dụng AI cá nhân mang lại trải nghiệm tốt hơn cho người dùng so với việc sử dụng trực tiếp các dịch vụ; và các dịch vụ headless hoạt động nhanh hơn, đáng tin cậy hơn đối với AI cá nhân so với việc để chúng phải click chuột qua lại trên một giao diện đồ họa (GUI) bằng một con bot điều khiển.

Điều này sẽ dẫn thiết kế của các dịch vụ đi về đâu? Chà, tôi có một vài suy nghĩ về điều đó.

Dịch vụ Headless đang diễn ra ngay lúc này

Thực tế là đã có MCP (Model Context Protocol), như đã thảo luận trước đây (năm 2025), một loại API web dành riêng cho AI. Ví dụ, ứng dụng ghi âm cuộc gọi hàng đầu Granola gần đây đã phát hành MCP của họ và giờ đây bạn có thể yêu cầu Claude trích xuất các hành động từ cuộc họp và tìm kiếm trong tài liệu cá nhân của bạn để trả lời tất cả các câu hỏi. Đó là một sự tích hợp tuyệt vời.

Ngoài ra, các công cụ dòng lệnh (CLI) đang ngày càng trở nên phổ biến, dù trước đây chúng chỉ dành cho các nhà phát triển. Giờ đây, bạn có thể tạo một bảng tính bằng cách gõ lệnh trong terminal:

gws sheets spreadsheets create --json '{"properties": {"title": "Ngân sách Quý 1"}}'

Dưới đây là một số công cụ CLI mới được ra mắt gần đây:

gws: Google Workspace CLI, bao gồm Drive, Gmail, Calendar và mọi API của Workspace. Không có mã mẫu (boilerplate) nào cả. Đầu ra JSON có cấu trúc. Bao gồm hơn 40 kỹ năng cho tác nhân.
Obsidian CLI: Cho phép làm mọi thứ bạn có thể làm với ứng dụng ghi chú cực kỳ phổ biến này — như ghi chú hàng ngày, theo dõi và đánh dấu nhiệm vụ, tìm kiếm — ngay từ CLI.
Salesforce CLI: Và nhìn này, tôi không thực sự hiểu hệ điều hành kinh doanh của Salesforce làm gì, nhưng việc nó cũng có một CLI là một dấu hiệu đáng chú ý.
Và CLI-Anything (31k sao trên GitHub), công cụ này tự động tạo CLI cho bất kỳ cơ sở mã nào.

Tại sao lại là CLI?

Hóa ra là nơi tốt nhất để các AI cá nhân chạy là trên một chiếc máy tính. Có thể là một máy ảo trên đám mây, nhưng lý tưởng nhất là máy tính của chính bạn. Như vậy, chúng có thể xem thấy các tài liệu mà bạn thấy được và sử dụng các công cụ mà bạn sử dụng. Vì vậy, những gì chúng muốn không phải là các API (kết nối máy chủ web) mà là những ứng dụng nhỏ mà chúng có thể sử dụng trực tiếp. Các công cụ CLI chính là những ứng dụng nhỏ hoàn hảo.

CLI có tính kết hợp (composable) nên chúng phù hợp hơn với những gì người dùng thực sự làm.

Bằng "kết hợp", tôi có nghĩa là bạn có thể: truy vấn ghi chú của mình, sau đó nhảy sang bảng tính, sau đó nghiên cứu trên web, rồi quay lại bảng tính, sau đó nhắn tin cho người dùng một câu hỏi làm rõ, và kiểm tra lại ghi chú — tất cả chỉ bằng cách chuyển đổi giữa các CLI trong cùng một phiên làm việc.

Một thời gian trước, thiết kế ứng dụng bị ám ảnh bởi "hành trình người dùng". Như hành trình của một người dùng tìm khách sạn rồi đặt khách sạn, ở lại và để lại đánh giá.

Nhưng người dùng không sống trong các "hành trình". Họ đa nhiệm; họ nói chuyện với mọi người và quay lại việc cũ; họ có những thói quen riêng biệt. Hãy thử lấy kết quả tìm kiếm từ ứng dụng Airbnb và gửi nó vào một tin nhắn chat trên WhatsApp của gia đình, sau đó quay lại nó hai ngày sau. Rất phiền phức và bạn phải dùng đến ảnh chụp màn hình vì các ứng dụng và "hành trình người dùng" của chúng không thể kết hợp được.

CLI có thể kết hợp vì chúng xuất phát từ Unix và đó là triết lý của các công cụ Unix: các công cụ được thiết kế để có thể hoạt động cùng nhau.

Các AI cá nhân như Openclaw hay Poke sẽ làm những gì người dùng muốn và không tuân theo các "hành trình người dùng" được thiết kế sẵn, và kết quả là trải nghiệm kết hợp đó mang tính cá nhân hơn và tốt hơn nhiều. CLI là một công nghệ nền tảng tuyệt vời cho điều này.

CLI an toàn hơn ứng dụng thông thường

CLI nhỏ hơn các ứng dụng thông thường nên việc bảo mật chúng dễ dàng hơn.

Phương án thay thế cho việc cung cấp các công cụ đặc biệt cho AI là để các AI sử dụng các ứng dụng dựa trên trình duyệt giống như chúng ta, và đó là một viễn cảnh đáng sợ.

Một là, AI rất giỏi tìm ra lỗ hổng bảo mật. Mô hình Mythos mới của Anthropic giỏi đến mức phát hiện các lỗ hổng bảo mật đến mức nó đã bị giữ lại không phát hành công khai và các chính phủ đang họp khẩn với các ngân hàng lớn.

Và việc bao gồm một giao diện người dùng làm tăng độ phức tạp và làm cho lỗ hổng bảo mật dễ xuất hiện hơn.

Dưới đây là một ví dụ gây sốc gần đây. Companies House là sổ đăng ký quốc gia của tất cả các công ty, giám đốc và tài khoản tại Anh và xứ Wales. Người dùng có thể xem và chỉnh sửa tài khoản của bất kỳ người dùng nào:

một giám đốc công ty đã đăng nhập có thể khai thác lỗ hổng này bằng cách bắt đầu từ bảng điều khiển của chính họ và sau đó cố gắng đăng nhập vào tài khoản của một công ty khác.

Khi họ chạm đến chặn 2FA, điều mà họ không thể vượt qua, tất cả những gì cần làm là nhấn nút "Back" (Quay lại) của trình duyệt vài lần. Thông thường, người dùng sẽ được đưa trở lại bảng điều khiển của chính họ, nhưng lỗi này lại đưa họ trở lại công ty mà họ đã cố gắng đăng nhập nhưng không thành công.

Lỗi này đã tồn tại từ tháng 10 năm 2025.

Hãy tưởng tượng một tương lai nơi các AI cá nhân đang nộp hồ sơ công ty, và một trong số chúng phát hiện ra lỗ hổng bảo mật này qua đêm và đăng bài về nó trên moltbook hoặc bất kỳ mạng xã hội nào dành riêng cho tác nhân đang phổ biến nhất. Các tác nhân khác sẽ khai thác hệ thống tấp nập trước khi đội ngũ kỹ thuật tỉnh giấc.

Giải pháp khả thi duy nhất là các dịch vụ cần được củng cố bảo mật, và để làm được điều đó, chúng cần được đơn giản hóa và thu nhỏ tối đa. Một lần nữa, các công cụ CLI là sự lựa chọn hoàn hảo.

Điều này có nghĩa gì cho thiết kế Front-end?

Thiết kế sẽ không đi đâu cả.

Chắc chắn, front-end nên điều khiển các công cụ CLI giống như tác nhân sử dụng.

Có thể nói rằng nó còn quan trọng hơn bao giờ hết: người dùng sẽ tiếp xúc với các dịch vụ, tìm ra những gì chúng có thể làm và nắm bắt được "cảm xúc" (vibe) của dịch vụ đó khi sử dụng ứng dụng, giống như bây giờ.

Sau đó, họ sẽ nói với AI cá nhân của mình về dịch vụ đó và sẽ không bao giờ nhìn thấy front-end nữa, hoặc kết hợp nó vào phần mềm cá nhân hóa.

Vì vậy, từ góc độ khả năng sử dụng, tôi coi front-end là thứ gì đó hy sinh. Các tác nhân AI sẽ đi thẳng qua nó; người dùng chỉ gặp nó một hoặc hai lần; nó sẽ được tùy chỉnh hoặc cá nhân hóa; tất cả công việc tối ưu hóa "hành trình người dùng" không còn quan trọng nữa.

Nhưng từ góc độ "cảm xúc", các dịch vụ không thể thay thế cho nhau. Ví dụ, nếu bạn đang tìm một nhà hàng thì Yelp, Google Maps, Resy và The Infatuation đều tương đương nhau để trả lời câu hỏi đó nhưng rõ ràng chúng hoàn toàn khác nhau và bạn sẽ sử dụng các dịch vụ khác nhau vào những thời điểm khác nhau.

Việc hiểu rằng một dịch vụ dành cho bạn là 50% là một quá trình vô thức — chúng ta gọi đó là thương hiệu — và tôi mong đợi thiết kế front-end cho các ứng dụng và dịch vụ sẽ tối ưu hóa cho thương hiệu thay vì sự dễ sử dụng.

Nếu tôi là một ngân hàng, tôi sẽ phát hành một công cụ CLI được củng cố bảo mật ngay lập tức.

Còn rất nhiều điều cần phải tìm ra:

Quyền hạn hoạt động như thế nào? Người dùng có nhận được thông báo từ ứng dụng điện thoại khi tác nhân hoạt động ngoài hành vi bình thường không?
Sự liền kề hoạt động ra sao? Ngân hàng của tôi cho tôi một tài khoản thanh toán để đổi lấy việc đặt một nút "này, hãy vay tiền!" trên màn hình chính ứng dụng. Làm thế nào để bạn đưa ra lời mời chào cho một tác nhân?

Ngân hàng Headless.

Chính phủ Headless?

Tôi rất muốn chỉ cho bạn một ví dụ thực tế ở đây. Tôi đã tạo ra một bộ gồm bốn công cụ CLI bao bốn dịch vụ khác nhau từ các bộ phận chính phủ Anh.

Nếu tôi thuê một ngôi nhà, tôi sẽ đặt tác nhân của mình để tìm hiểu về các khu phố bằng một trong những công cụ này. Một công cụ khác sẽ hữu ích lần tới khi tôi mua một chiếc xe cũ. (Cũng có công cụ dòng lệnh Companies House nữa).

Nhưng tôi sẽ không chỉ cho bạn các công cụ đó vì tôi không muốn chịu trách nhiệm bảo trì và hỗ trợ chúng.

Tôi ước gì Monzo có một CLI chính thức. Tôi ước gì Booking.com có một CLI. Tôi cá là, chỉ một năm nữa, họ sẽ có.