Tại sao AI cục bộ (Local AI) cần trở thành tiêu chuẩn mới

Xu hướng phụ thuộc vào các API AI đám mây đang khiến phần mềm trở nên mong manh và kém bảo mật. Bài viết phân tích lợi ích của việc chạy AI trực tiếp trên thiết bị để tận dụng sức mạnh phần cứng, đảm bảo quyền riêng tư và tính ổn định.

Một trong những xu hướng phổ biến trong phát triển phần mềm hiện nay là các nhà phát triển thường thêm một lệnh gọi API đến OpenAI hoặc Anthropic để tích hợp tính năng vào ứng dụng. Dù có thể tranh luận về việc những tính năng này thực sự mang lại giá trị gì cho người dùng, nhưng vấn đề cốt lõi ở đây là sự phụ thuộc vào các mô hình AI được lưu trữ trên đám mây.

Sự lười biếng trong thiết kế này đang tạo ra một thế hệ phần mềm mong manh, xâm phạm quyền riêng tư và về bản chất là bị lỗi thời. Chúng ta đang xây dựng những ứng dụng sẽ ngừng hoạt động ngay lập tức khi máy chủ gặp sự cố hoặc khi thẻ tín dụng thanh toán dịch vụ hết hạn.

Giao diện chính của ứng dụng Brutalist Report trên iOS

Chúng ta cần quay lại thói quen xây dựng phần mềm nơi thiết bị cục bộ thực hiện công việc xử lý. Con chip trong chiếc điện thoại trên tay bạn hiện nay có tốc độ xử lý đáng kinh ngạc so với một thập kỷ trước. Nó sở hữu một Neural Engine (Bộ xử lý thần kinh) chuyên dụng nằm đó, phần lớn thời gian rảnh rỗi, trong khi chúng ta lại chờ đợi một phản hồi JSON từ một máy chủ ở Virginia. Điều đó thực sự vô lý.

Ngay cả khi ý định của bạn tốt đẹp, ngay khi bạn truyền tải nội dung của người dùng cho một nhà cung cấp AI bên thứ ba, bạn đã thay đổi bản chất của sản phẩm. Bạn giờ đây phải đối mặt với các câu hỏi về lưu trữ dữ liệu và tất cả những rắc rối đi kèm như sự đồng thuận, kiểm toán, lộ dữ liệu, yêu cầu từ chính phủ và việc đào tạo mô hình.

Hơn nữa, bạn còn làm phức tạp thêm hệ thống của mình một cách không cần thiết vì tính năng giờ đây phụ thuộc vào điều kiện mạng, thời gian hoạt động của nhà cung cấp, giới hạn tốc độ, thanh toán tài khoản và sức khỏe của backend riêng bạn.

Chúc mừng! Bạn vừa biến một tính năng UX (trải nghiệm người dùng) thành một hệ thống phân tán tốn kém.

Nếu tính năng đó có thể thực hiện được tại chỗ, việc chọn cách làm phức tạp trên chính là tự gây thương tích cho mình. "AI ở khắp mọi nơi" không phải là mục tiêu. Mục tiêu là phần mềm hữu ích.

Gần đây, tôi đã phát triển một ứng dụng iOS gốc cho dự án phụ tên là The Brutalist Report, một dịch vụ tổng hợp tin tức lấy cảm hứng từ phong cách web những năm 1990. Mục tiêu thiết kế là đảm bảo nó vẫn là một trải nghiệm đọc tin tức có mật độ thông tin cao. Các tiêu đề được liệt kê rõ ràng, chế độ đọc loại bỏ những yếu tố thừa thãi của web hiện đại và (tùy chọn) chế độ "trí tuệ" tạo ra tóm tắt của bài viết.

Tuy nhiên, điểm mấu chốt ở đây là: bản tóm tắt được tạo ra ngay trên thiết bị bằng cách sử dụng các API mô hình cục bộ của Apple. Không có vòng qua máy chủ, không có nhật ký lời nhắc hay người dùng, không cần tài khoản nhà cung cấp và không cần những dòng ghi chú nhỏ "chúng tôi lưu trữ nội dung của bạn trong 30 ngày".

Việc sử dụng AI phía máy chủ đã trở nên quá bình thường với mọi người. Chúng ta cần nhiều nỗ lực để đảo ngược tình thế này như một ngành công nghiệp.

Tôi không phủ nhận rằng đôi khi các trường hợp sử dụng đòi hỏi trí tuệ mà chỉ có mô hình đám mây mới cung cấp được, nhưng điều đó không đúng với mọi trường hợp bạn đang cố gắng giải quyết. Chúng ta cần suy nghĩ thấu đáo ở đây.

Chế độ xem AI tóm tắt bài viết ngay trên thiết bị

Tôi chỉ có thể nói về các công cụ có sẵn trong hệ sinh thái Apple vì đó là nơi tôi tập trung nỗ lực phát triển ban đầu. Trong năm qua, Apple đã đầu tư mạnh mẽ vào đây để cho phép các nhà phát triển dễ dàng sử dụng mô hình AI tích hợp sẵn.

Đối với nội dung dài hơn, chúng ta có thể chia nhỏ văn bản thuần túy (khoảng 10k ký tự mỗi đoạn), tạo ra các ghi chú "chỉ chứa sự thật" ngắn gọn cho mỗi đoạn, sau đó chạy lần lượt thứ hai để kết hợp chúng thành bản tóm tắt cuối cùng.

Đây chính là loại công việc mà các mô hình cục bộ hoàn hảo để thực hiện. Dữ liệu đầu vào đã có trên thiết bị (vì người dùng đang đọc nó). Đầu ra nhẹ nhàng. Nó nhanh chóng và riêng tư. Không sao cả nếu nó không phải là trí tuệ siêu phàm ở mức tiến sĩ vì nó đang tóm tắt trang bạn vừa tải, không phải phát minh ra kiến thức thế giới.

AI cục bộ thực sự tỏa sáng khi công việc của mô hình là chuyển đổi dữ liệu thuộc sở hữu của người dùng, thay vì đóng vai trò là công cụ tìm kiếm cho cả vũ trụ.

Có rất nhiều tính năng AI mà mọi người muốn nhưng không tin tưởng. Tóm tắt email, trích xuất các mục hành động từ ghi chú, phân loại tài liệu, v.v.

Cách tiếp cận đám mây thông thường biến mỗi thứ trong số đó thành một bài kiểm tra niềm tin. "Vui lòng gửi dữ liệu của bạn đến máy chủ của chúng tôi. Chúng tôi hứa sẽ xử lý nó tử tế."

AI cục bộ thay đổi điều đó. Thiết bị của bạn đã có dữ liệu. Chúng tôi sẽ thực hiện công việc ngay tại đây.

Bạn không xây dựng lòng tin với người dùng bằng cách viết một chính sách quyền riêng tư dài 2.000 từ. Bạn xây dựng lòng tin bằng cách không cần nó từ đầu.

Các công cụ có sẵn trên nền tảng này còn đi xa hơn nữa.

Một trong những bước đi tốt nhất của Apple gần đây là đẩy "đầu ra AI" ra khỏi các khối văn bản không cấu trúc và hướng tới dữ liệu có kiểu (typed data).

Thay vì "yêu cầu mô hình trả về JSON và cầu nguyện", mô hình mới và tốt hơn là định nghĩa một cấu trúc Swift (struct) đại diện cho thứ bạn muốn. Đưa ra hướng dẫn cho mô hình cho từng trường bằng ngôn ngữ tự nhiên. Yêu cầu mô hình tạo ra một thể hiện của kiểu đó.

Bây giờ, giao diện người dùng của bạn không phải cạo các điểm danh sách ra khỏi Markdown hay hy vọng mô hình nhớ lược đồ JSON của bạn. Bạn nhận được một kiểu thực sự với các trường thực sự, và bạn có thể hiển thị nó nhất quán. Nó tạo ra đầu ra có cấu trúc mà ứng dụng của bạn thực sự có thể sử dụng. Và tất cả đều chạy cục bộ!

Đây không chỉ là sự thuận tiện về ergonomics. Nó là một cải tiến kỹ thuật.

Và nếu bạn đang xây dựng một ứng dụng ưu tiên cục bộ (local-first), đây là sự khác biệt giữa "AI như một sự mới lạ" và "AI như một hệ thống con đáng tin cậy".

Hầu hết các tính năng ứng dụng không cần một mô hình có thể viết văn học Shakespeare, giải thích cơ học lượng tử và vượt qua kỳ luận thi luật sư. Chúng cần một mô hình có thể thực hiện một cách đáng tin cậy một trong các việc sau: tóm tắt, phân loại, trích xuất, viết lại hoặc chuẩn hóa.

Và đối với những nhiệm vụ đó, các mô hình cục bộ có thể thực sự xuất sắc.

Nếu bạn cố gắng sử dụng mô hình cục bộ để thay thế cho toàn bộ internet, bạn sẽ thất vọng. Nếu bạn sử dụng nó như một "bộ chuyển đổi dữ liệu" nằm trong ứng dụng của mình, bạn sẽ tự hỏi tại sao mình lại gửi thứ này đến máy chủ.

Hãy chỉ sử dụng các mô hình đám mây khi chúng thực sự cần thiết. Giữ dữ liệu của người dùng ở nơi nó thuộc về. Và khi bạn sử dụng AI, đừng chỉ dán nó vào như một hộp thoại chat. Hãy sử dụng nó như một hệ thống con thực sự với đầu ra có kiểu và hành vi có thể dự đoán được.

Hãy ngừng vận hành các hệ thống phân tán khi ý định của bạn chỉ là vận hành một tính năng.

Tại sao AI cục bộ (Local AI) cần trở thành tiêu chuẩn mới

Bài viết liên quan