Step 3.7 Flash: Mô hình AI hiệu suất cao chuyên biệt cho tác nhân thực tế

Phần mềm29 tháng 5, 2026·5 phút đọc

StepFun vừa ra mắt Step 3.7 Flash, một mô hình AI thế hệ mới tập trung tối đa vào hiệu quả hoạt động của các tác nhân (agents). Với khả năng đa phương thức vượt trội, kỹ năng lập trình cải thiện đáng kể và chế độ Advisor giúp tối ưu chi phí, Step 3.7 Flash hứa hẹn thay đổi cách chúng ta triển khai tự động hóa trong doanh nghiệp.

Step 3.7 Flash: Mô hình AI hiệu suất cao chuyên biệt cho tác nhân thực tế

Step 3.7 Flash: Mô hình AI hiệu suất cao chuyên biệt cho tác nhân thực tế

StepFun đã chính thức công bố Step 3.7 Flash, phiên bản mới nhất trong dòng mô hình AI của họ, đặt trọng tâm hoàn toàn vào việc nâng cao hiệu quả của các tác nhân (agent efficiency). Trong bối cảnh các mô hình nền tảng đang chuyển dịch từ việc đơn thuần trả lời câu hỏi sang việc thực hiện hành động, Step 3.7 Flash được định vị là một giải pháp hiệu suất cao dành cho các tác nhân hoạt động trong môi trường thực tế.

Mô hình AI Step 3.7 FlashMô hình AI Step 3.7 Flash

Khả năng đa phương thức và tương tác công cụ

Điểm nổi bật của Step 3.7 Flash nằm ở khả năng hiểu và hành động đa phương thức (multimodal) nguyên bản. Mô hình này có khả năng xử lý hình ảnh ở phạm vi rộng, từ giao diện người dùng (UI) của sản phẩm, tài liệu, biểu đồ đến các cảnh quan tự nhiên. Sau khi nhận diện, nó có thể tự viết mã code hoặc gọi các công cụ để thực hiện hành động dựa trên những gì nhìn thấy.

Bên cạnh đó, khả năng tìm kiếm Web và Hình ảnh được nâng cấp đáng kể. Step 3.7 Flash không chỉ truy cập sâu hơn vào nhiều nguồn dữ liệu mà còn nhận diện được các thực thể ngách (long-tail entities) và các khái niệm mới xuất hiện mà các hệ thống khác thường bỏ sót.

Đặc biệt, mô hình này thể hiện sự ổn định cao trong việc sử dụng và điều phối các công cụ (Tool Use & Orchestration). Nó có thể điều khiển terminal, trình duyệt, bộ công cụ Office và nhiều tiện ích khác mà vẫn giữ được tính mạch lạc trong suốt quá trình vận hành, giảm thiểu tình trạng "trôi dạt" hay các cuộc gọi công cụ bị lỗi.

Hiệu suất lập trình và Chế độ Advisor

Lập trình được xem là nền tảng của sự tác nghiệp kỹ thuật số, và Step 3.7 Flash đã được đầu tư mạnh mẽ vào khía cạnh này. So với phiên bản tiền nhiệm Step 3.5 Flash, phiên bản mới đã cải thiện 5% trên điểm số SWE-Bench Pro và 6.1% trên Terminal-Bench 2.1.

Một tính năng đáng chú ý là Advisor Mode. Để nâng cao chất lượng mà không làm tăng chi phí quá mức, Step 3.7 Flash có thể tự điều hành quy trình từ đầu đến cuối và chỉ tham vấn một mô hình tư vấn (advisor model) lớn hơn tại những điểm ngoặt quan trọng. Theo StepFun, với Advisor Mode được bật, Step 3.7 Flash có thể đạt tới 97% hiệu năng lập trình của Claude Opus 4.6, nhưng với chi phí chỉ bằng khoảng một phần chín ($0.19 so với $1.76 cho mỗi tác vụ).

Tối ưu cho tác vụ doanh nghiệp và Tìm kiếm sâu

Step 3.7 Flash được xây dựng để xử lý các công việc doanh nghiệp phức tạp, phụ thuộc vào hai trụ cột: thực thi nhiệm vụ tự chủ trong môi trường động và kiến thức chuyên sâu theo chiều dọc. Mô hình kết hợp thực thi tác nhân mạnh mẽ với khả năng hiểu ý định chính xác và tri giác đa phương thức phong phú.

Về khả năng tìm kiếm, thay vì cố nhồi nhét mọi kiến thức thế giới vào các tham số, Step 3.7 Flash tập trung vào việc lập kế hoạch tìm kiếm, lọc bằng chứng và tổng hợp thông tin. Kết quả là mô hình đạt điểm ấn tượng trên các tiêu chuẩn đánh giá yêu cầu tìm kiếm nặng như HLE với Tools (47.20%) và BrowseComp (75.82%), tiệm cận với các mô hình có quy mô lớn hơn nhiều.

Tìm kiếm thông tin pháp lý với AITìm kiếm thông tin pháp lý với AI

Ví dụ, trong một tình huống giả định về xung đột lợi ích của luật sư tại Ontario, Step 3.7 Flash đã mở rộng tìm kiếm xung quanh các khái niệm chuyên ngành, kết hợp bằng chứng từ các bài báo, tài liệu khóa học, quy tắc chính thức và phân tích vụ việc để đưa ra kết quả chính xác.

Tác nhân có khả năng "Nhìn thấy" (Vision)

Step 3.7 Flash được thiết kế như một mô hình nền tảng cho tác nhân với hỗ trợ đầu vào thị giác. Để bù đắp cho sự hạn chế về kích thước mô hình, StepFun đã tăng cường khả năng gọi công cụ Visual Search. Trên các tác vụ nhận diện hình ảnh như SimpleVQA, Step 3.7 Flash kết hợp với Visual Search đạt hiệu suất ngang bằng với các mô hình có kích thước gấp năm lần.

Đối với các nhiệm vụ thị giác phức tạp đòi hỏi suy luận, mô hình được cung cấp một không gian hành động phong phú thông qua giao diện code Python (crop, zoom, vẽ pixel). Điều này giúp Step 3.7 Flash đạt điểm cao trên các benchmark khó như V* (95.29%) và HR-Bench.

Khả dụng và Triển khai

Step 3.7 Flash hiện đã có sẵn trên nền tảng API của StepFun (toàn cầu và Trung Quốc), OpenRouter và NVIDIA NIM. Người dùng cũng có thể trải nghiệm trực tiếp qua phiên bản Web hoặc ứng dụng di động.

Về triển khai, mô hình hỗ trợ linh hoạt từ đám mây, trung tâm dữ liệu đến môi trường cục bộ. Đối với triển khai tại chỗ hoặc trạm làm việc, Step 3.7 Flash có thể chạy trên các thiết bị có bộ nhớ lớn như NVIDIA DGX Station, hệ thống dựa trên AMD Ryzen AI Max+ 395, hoặc Mac Studio/MacBook Pro với ít nhất 128GB unified memory.

Hệ sinh thái mã nguồn mở cũng đã sẵn sàng hỗ trợ Step 3.7 Flash thông qua các công cụ như vLLM, SGLang, Hugging Face Transformers và llama.cpp, cũng như sự tích hợp trong hệ sinh thái NVIDIA Nemo.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗