Prompt API: Cổng chạm mới để tích hợp AI trực tiếp vào trình duyệt Chrome

Google đã giới thiệu Prompt API, cho phép các nhà phát triển gửi yêu cầu ngôn ngữ tự nhiên đến mô hình Gemini Nano ngay trên trình duyệt Chrome mà không cần máy chủ. API này hỗ trợ đa phương thức (văn bản, hình ảnh, âm thanh) và mở ra cơ hội xây dựng các ứng dụng web AI mạnh mẽ, bảo mật và hoạt động ngoại tuyến.

Google đang tiếp tục đẩy mạnh khả năng trí tuệ nhân tạo (AI) trực tiếp trên trình duyệt thông qua việc giới thiệu Prompt API. Đây là một phần của hệ sinh thái Built-in AI trong Chrome, cho phép các nhà phát triển tích hợp sức mạnh của mô hình ngôn ngữ Gemini Nano vào các ứng dụng web một cách mượt mà.

Với Prompt API, việc xử lý ngôn ngữ tự nhiên giờ đây có thể diễn ra ngay tại thiết bị của người dùng mà không cần gửi dữ liệu về máy chủ, giúp tăng tốc độ phản hồi và nâng cao tính riêng tư.

Khả năng và ứng dụng tiềm năng

Prompt API mở ra vô số khả năng sáng tạo cho các nhà phát triển web. Thay vì chỉ phụ thuộc vào các API dựa trên đám mây, họ có thể xây dựng các tính năng AI hoạt động hoàn toàn ngoại tuyến hoặc bán ngoại tuyến.

Một số trường hợp sử dụng điển hình bao gồm:

Tìm kiếm hỗ trợ bởi AI: Trả lời câu hỏi dựa trực tiếp trên nội dung của trang web hiện tại.
Bộ lọc nội dung tùy chỉnh: Phân tích và tự động làm mờ hoặc ẩn các nội dung không mong muốn dựa trên chủ đề do người dùng định nghĩa.
Tạo sự kiện lịch: Phát triển tiện ích mở rộng Chrome tự động trích xuất chi tiết sự kiện từ trang web để người dùng dễ dàng thêm vào lịch.
Trích xuất danh bạ: Tự động lấy thông tin liên hệ từ các trang web doanh nghiệp.

Yêu cầu phần cứng và hệ thống

Để chạy các mô hình AI cục bộ như Gemini Nano, Prompt API yêu cầu cấu hình phần cứng nhất định để đảm bảo hiệu suất. Các yêu cầu này áp dụng cho cả nhà phát triển và người dùng cuối:

Hệ điều hành: Windows 10 hoặc 11, macOS 13+ (Ventura trở đi), Linux, hoặc ChromeOS (trên các thiết bị Chromebook Plus).
Bộ nhớ: Cần ít nhất 22 GB dung lượng trống trên ổ đĩa chứa hồ sơ Chrome.
GPU hoặc CPU:
- GPU: Cần hơn 4 GB VRAM.
- CPU: Cần 16 GB RAM trở lên và 4 nhân CPU trở lên.
Mạng: Kết nối không giới hạn dữ liệu (để tải xuống mô hình lần đầu).

Lưu ý rằng các API này hiện chưa hỗ trợ Chrome trên Android, iOS hay ChromeOS tiêu chuẩn (không phải Chromebook Plus).

Tích hợp đa phương thức (Multimodal)

Một trong những điểm nổi bật của Prompt API là khả năng hỗ trợ đa phương thức, cho phép xử lý không chỉ văn bản mà còn cả hình ảnh và âm thanh.

Nhờ đó, các ứng dụng web có thể thực hiện các tác vụ phức tạp như:

Chuyển đổi giọng nói thành văn bản (transcribe) cho các tin nhắn thoại.
Mô tả hình ảnh người dùng tải lên để tạo chú thích (caption) hoặc văn bản thay thế (alt text).

API này hỗ trợ nhiều định dạng đầu vào khác nhau như AudioBuffer, HTMLImageElement, HTMLVideoElement và HTMLCanvasElement.

Quản lý phiên làm việc và ngữ cảnh

Prompt API cung cấp các công cụ mạnh mẽ để quản lý ngữ cảnh cuộc hội thoại thông qua các phiên (session).

Tạo phiên: Sử dụng hàm LanguageModel.create() để khởi tạo một phiên làm việc mới.
Thêm ngữ cảnh ban đầu: Bạn có thể cung cấp lịch sử chat hoặc hướng dẫn hệ thống (system prompt) ngay khi tạo phiên để AI duy trì tính liên tục.
Luồng dữ liệu (Streaming): Với các phản hồi dài, hàm promptStreaming() cho phép hiển thị kết quả từng phần một, cải thiện trải nghiệm người dùng.
Quản lý bộ nhớ: Mỗi phiên có giới hạn số token (context window). Khi ngữ cảnh bị đầy, các tin nhắn cũ nhất sẽ bị loại bỏ để nhường chỗ cho tin nhắn mới, trừ khi đó là system prompt.

Ngoài ra, API còn hỗ trợ cấu trúc đầu ra bằng JSON Schema, giúp đảm bảo AI trả về dữ liệu theo định dạng mà ứng dụng yêu cầu, ví dụ như một giá trị boolean hoặc một đối tượng JSON cụ thể.

Bắt đầu với Prompt API

Để thử nghiệm Prompt API trên môi trường localhost, nhà phát triển cần bật các cờ tính năng sau trong Chrome:

chrome://flags/#optimization-guide-on-device-model
chrome://flags/#prompt-api-for-gemini-nano-multimodal-input

Sau khi khởi động lại trình duyệt, bạn có thể bắt đầu tích hợp API vào mã nguồn của mình. Google cũng cung cấp các bản demo như "Prompt API playground" và các tiện ích mở rộng mẫu trên GitHub để cộng đồng tham khảo và học hỏi.

Sự ra mắt của Prompt API đánh dấu một bước tiến quan trọng trong việc đưa AI đến gần hơn với người dùng thông qua nền tảng web, giảm sự phụ thuộc vào hạ tầng server đắt đỏ và phức tạp.