xAI ra mắt Grok 4.3 với giá cực rẻ và bộ công cụ sao chép giọng nói mạnh mẽ

xAI vừa tung ra mô hình ngôn ngữ lớn Grok 4.3 với khả năng suy luận tích hợp và mức giá API cực kỳ cạnh tranh. Công ty cũng giới thiệu tính năng Custom Voices cho phép sao chép giọng nói chất lượng cao chỉ trong vài phút, đánh dấu bước tiến mới trong cuộc đua AI.

Trong bối cảnh Elon Musk đang đối đầu với người đồng nghiệp cũ và đồng sáng lập OpenAI Sam Altman tại tòa án, công ty đối thủ xAI của ông không hề chậm chân trong việc tung ra các sản phẩm và dịch vụ cạnh tranh mới.

Đêm qua, xAI đã chính thức phát hành mô hình ngôn ngữ lớn (LLM) sở hữu mới Grok 4.3, cùng với một bộ công cụ sao chép giọng nói trên nền web. Sự ra mắt của các sản phẩm này diễn ra sau nhiều tháng biến động tại xAI, chứng kiến sự ra đi của tất cả 10 đồng sáng lập ban đầu và hàng chục nhà nghiên cứu khác, cũng như việc Grok bị vượt qua về hiệu suất bởi nhiều LLM đối thủ đến từ OpenAI, Anthropic, Google và các công ty Trung Quốc như DeepSeek, Moonshot (Kimi), Alibaba (Qwen).

Mặc dù Grok 4.3 đánh dấu một bước nhảy vọt về hiệu suất trên các benchmark của bên thứ ba so với người tiền nhiệm Grok 4.2, theo công ty đánh giá mô hình AI độc lập Artificial Analysis, nó vẫn đứng sau các mô hình tiên tiến nhất (SOTA) của OpenAI và Anthropic.

Tuy nhiên, điểm nổi bật nhất của thương hiệu Grok — ngoài tính cách phóng khoáng và chính sách tạo hình ảnh — ngày càng nằm ở mức giá thấp khi truy cập thông qua API. Xu hướng này được Grok 4.3 tiếp tục phát huy với mức giá chỉ 1,25 USD cho mỗi triệu token đầu vào và 2,50 USD cho mỗi triệu token đầu ra (giảm so với mức 2/6 USD của Grok 4.2).

Khả năng suy luận tích hợp và sử dụng công cụ dạng tác nhân

Cốt lõi của Grok 4.3 là sự thay đổi căn bản trong cách mô hình xử lý thông tin. Khác với các phiên bản trước đó nơi "chuỗi suy luận" (chain-of-thought) có thể được bật/tắt, Grok 4.3 được xây dựng với khả năng suy luận ở trạng thái hoạt động thường trực.

Điều này có nghĩa là mô hình được thiết kế để "nghĩ" trước khi "nói" cho mọi truy vấn, nhằm tối đa hóa độ chính xác về mặt sự thật và khả năng xử lý các chỉ dẫn phức tạp, nhiều bước.

Bộ nhớ của mô hình cũng rất rộng lớn với cửa sổ ngữ cảnh 1 triệu token. Để dễ hình dung, một triệu token tương đương với vài cuốn tiểu thuyết dày hoặc toàn bộ mã nguồn của một ứng dụng vừa và nhỏ. Điều này cho phép Grok 4.3 duy trì tính mạch lạc trên các tập dữ liệu khổng lồ, mặc dù xAI áp dụng cơ chế giá cao hơn cho các yêu cầu vượt quá ngưỡng 200.000 token.

Về mặt kỹ thuật, mô hình chấp nhận cả đầu vào văn bản và hình ảnh, và trả về đầu ra văn bản. Nó được tối ưu hóa đặc biệt cho quy trình tác nhân (agentic workflows) — nơi AI không chỉ trả lời câu hỏi mà đóng vai trò là một tác nhân tự chủ để hoàn thành nhiệm vụ.

Dưới đây là một số bằng chứng về khả năng mới của Grok:

Kỹ thuật bảng tính: Mô hình đã dành 6 phút 22 giây để "nghĩ" và xây dựng một trình phân tích DPS chiến đấu thuyền buồm OSRS hoàn chỉnh. File kết quả .xlsx không chỉ là một bảng đơn giản mà là một bảng điều khiển nhiều trang tính với các công thức tính toán tự động.
Tài liệu chuyên nghiệp: Grok hiện có thể tạo các tệp PDF được định dạng, chẳng hạn như báo cáo 12 trang về sản phẩm của SpaceX, bao gồm thương hiệu, logo và bảng có cấu trúc.
Trình chiếu hình ảnh: Mô hình có thể thiết kế bộ slide PowerPoint 9 trang, sử dụng cấu trúc "Sandwich" và tích hợp các ma trận quyết định dựa trên dữ liệu.

Mặc dù có giới hạn về kiến thức thế giới (cutoff date là tháng 12/2025), nhưng nhờ tích hợp tìm kiếm web, Grok có thể tham khảo và sử dụng thông tin cập nhật. Hệ sinh thái công cụ của xAI hiện bao gồm:

Tìm kiếm Web và X: Giúp Grok vượt qua giới hạn kiến thức bằng cách duyệt web trực tiếp hoặc tìm kiếm bài đăng trên X.
Thực thi mã: Chạy mã Python trong môi trường sandbox để giải toán hoặc xử lý dữ liệu.
Tìm kiếm tệp và bộ sưu tập: Hệ thống RAG tích hợp cho phép truy vấn các tài liệu đã tải lên.

Custom Voices: Sao chép giọng nói chất lượng cao trong tích tắc

Bên cạnh văn bản, xAI đã giới thiệu Custom Voices, một bộ API và công cụ sao chép giọng nói trên web tinh vi. Sản phẩm này cho phép các nhà phát triển sao chép giọng nói từ một đoạn âm thanh tham chiếu ngắn chỉ 120 giây.

Tài liệu của xAI nhấn mạnh rằng công nghệ này không chỉ bắt chước âm sắc mà còn nắm bắt cả ngữ điệu truyền đạt. Nếu bạn ghi âm một đoạn với phong cách "hỗ trợ khách hàng", giọng AI kết quả sẽ bắt chước ngữ điệu chuyên nghiệp và hữu ích đó.

Do lo ngại về quyền riêng sinh trắc học, tính năng này hiện chỉ khả dụng tại Hoa Kỳ (trừ Illinois). Quyền truy cập lập trình qua API hiện được dành cho các gói Enterprise.

Chiến lược giá API thấp gây sốc

Khía cạnh gây ấn tượng mạnh nhất của Grok 4.3 là cấu trúc định giá. Với mức giá 1,25 USD (đầu vào) và 2,50 USD (đầu ra) cho mỗi triệu token, Grok 4.3 rẻ hơn đáng kể so với các đối thủ Mỹ và tiệm cận với các mô hình nguồn mở từ Trung Quốc.

Tuy nhiên, bản chất "suy luận" của mô hình cũng giới thiệu một danh mục tính phí mới: Reasoning tokens. Đây là các token được tạo ra trong quá trình suy nghĩ nội bộ của mô hình và được tính phí với mức giá tương tự token hoàn thành. Người dùng thực sự trả tiền cho việc AI "nghĩ" trước khi đưa ra câu trả lời cuối.

xAI cũng áp dụng các loại phí độc đáo khác:

Prompt Caching: Lưu trữ câu lệnh lặp lại với giá rẻ hơn (0,20 USD/triệu token).
Tool Invocations: Phí cố định cho việc gọi công cụ (5,00 USD/1.000 lần gọi cho Tìm kiếm Web/Thực thi mã).
Phí vi phạm hướng dẫn sử dụng: Phí 0,05 USD cho các yêu cầu bị bộ lọc an toàn chặn.

Đánh giá hiệu suất và Lời khuyên cho doanh nghiệp

Sự đón nhận Grok 4.3 khá trái chiều. Theo Vals AI, Grok 4.3 hiện đứng thứ 1 về lập luận pháp lý (CaseLaw v2) và tài chính doanh nghiệp (CorpFin). Điều này cho thấy kiến trúc "suy luận luôn bật" rất phù hợp với các cấu trúc logic phức tạp của luật và tài chính.

Ngược lại, người dùng tập trung vào lập trình và tác nhân tổng hợp lại báo cáo những thiếu sót. Andon Labs mô tả mô hình có vấn đề "ngủ gật", thường xuyên thụ động thay vì hành động trong các bài kiểm tra mô phỏng. Vals AI cũng ghi nhận Grok vẫn yếu trong các bài toán khó và lập trình nói chung.

Việc ra mắt Grok 4.3 là một cược tính toán của xAI rằng thị trường cần sự xuất sắc chuyên biệt và hiệu quả chi phí cực đoan hơn là một mô hình tổng cân bằng hoàn hảo. Đối với các doanh nghiệp cần xử lý hàng triệu token tài liệu pháp lý với chi phí thấp, Grok 4.3 là lựa chọn hàng đầu. Tuy nhiên, đối với các tác nhân tự chủ tần suất cao hoặc giải quyết toán học phức tạp, mô hình này có thể vẫn cần thêm tinh chỉnh.