Anthropic ra mắt Claude Opus 4.8: Giảm giá 3 lần cho chế độ nhanh và khả năng xử lý quy mô lớn

Anthropic vừa công bố bản nâng cấp Claude Opus 4.8 với mức giá không đổi nhưng đi kèm chế độ "Fast Mode" rẻ hơn đáng kể. Mô hình mới này cũng giới thiệu tính năng quy trình động cho phép chạy hàng trăm tác vụ con song song, đồng thời cải thiện đáng kể sự trung thực và an toàn.

Anthropic hôm nay đã chính thức phát hành Claude Opus 4.8, bản nâng cấp cho mô hình hàng đầu của hãng. Mặc dù giữ nguyên mức giá so với người tiền nhiệm, phiên bản mới này gây chú ý với chế độ "Fast Mode" có giá rẻ hơn rất nhiều và một tính năng mới cho phép mô hình khởi chạy hàng trăm tác vụ con song song để xử lý các công việc quy mô lớn.

Mô hình này đã có sẵn ngay lập tức trên các nền tảng của Anthropic bao gồm claude.ai, Claude Code, API và Cowork. Mức giá tiêu chuẩn vẫn được giữ nguyên: 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra. Các nhà phát triển có thể gọi mô hình này thông qua định danh claude-opus-4-8.

Hiệu suất và chi phí: Chế độ Fast Mode rẻ hơn 3 lần

Điểm nhấn về hiệu quả chi phí trong lần ra mắt này nằm ở chế độ Fast Mode. Anthropic đã cắt giảm mạnh giá vận hành Opus 4.8 trong chế độ này — nơi mô hình tạo ra token với tốc độ nhanh hơn khoảng 2,5 lần bình thường — xuống còn 10 USD cho mỗi triệu token đầu vào và 50 USD cho mỗi triệu token đầu ra. So với mức giá 30/150 USD của Opus 4.7, đây là mức giảm 3 lần.

Điều này đưa khả năng suy luận tốc độ cao (high-throughput inference) đến gần hơn với các khối lượng công việc sản xuất nhạy cảm về độ trễ (latency). Chế độ Fast Mode có sẵn ngay lập tức trong Claude Code thông qua lệnh /fast, trong khi quyền truy cập API hiện đang được giới hạn và có danh sách chờ tại claude.com/fast-mode.

Trong chế độ tiêu chuẩn, Claude Opus 4.8 vẫn nằm trong số các mô hình tiên phong đắt đỏ nhất, nhưng vẫn rẻ hơn đối thủ chính OpenAI GPT-5.5.

Dưới đây là bảng so sánh giá API nhanh cho một số mô hình hàng đầu:

Mô hình	Đầu vào (Input)	Đầu ra (Output)	Tổng chi phí
Claude Opus 4.7	$5.00	$25.00	$30.00
Claude Opus 4.8	$5.00	$25.00	$30.00
GPT-5.5	$5.00	$30.00	$35.00

Cải thiện hiệu năng khiêm tốn nhưng hướng tới Mythos

Trên các bài kiểm tra chuẩn (benchmarks), Opus 4.8 là một bước tiến chứ không phải là một bước nhảy vọt. Mô hình đạt 88,6% trên SWE-bench Verified (so với 87,6% của Opus 4.7), 69,2% trên SWE-bench Pro khó hơn (so với 64,3%) và 74,6% trên Terminal-Bench 2.1 (so với 66,1%). Chính Anthropic cũng mô tả mô hình này là "một sự cải thiện khiêm tốn nhưng rõ rệt so với người tiền nhiệm".

Tuy nhiên, nó vượt trội hơn GPT-5.5 thường trên ít nhất 12 bài kiểm tra, bao gồm hầu hết các công việc tri thức, lập trình (mức độ vấn đề), sử dụng tác nhân (agentic tool-use) và ngữ cảnh dài. GPT-5.5 vẫn thắng về các quy trình dòng lệnh terminal/CLI và ngang nhau về duyệt web và khoa học cấp độ sau đại học.

Tín hiệu quan trọng hơn nằm ở thang năng lực nội bộ của Anthropic: Opus 4.8 nằm giữa Opus 4.7 và Claude Mythos Preview mạnh mẽ hơn — hiện đang bị giới hạn cho một số ít tổ chức trong Dự án Glasswing cho công việc an ninh mạng. Anthropic cho biết họ dự kiến sẽ mang "các mô hình cấp Mythos đến tất cả khách hàng trong vài tuần tới" khi các biện pháp bảo mật mạng bổ sung được đưa vào.

Quy trình động: Hàng trăm tác vụ con song song

Cùng với mô hình, Anthropic đã ra mắt bản xem trước nghiên cứu về quy trình động (dynamic workflows) trong Claude Code — một tính năng được thiết kế cho các nhiệm vụ quá lớn để một cửa sổ ngữ cảnh đơn có thể xử lý. Claude sẽ lập kế hoạch công việc, khởi chạy hàng trăm tác vụ con song song, sau đó xác minh đầu ra của chính nó trước khi báo cáo lại.

Ví dụ của Anthropic là một quá trình di chuyển quy mô codebase "trên hàng trăm nghìn dòng code từ lúc bắt đầu đến khi hợp nhất, với bộ kiểm thử hiện có làm thước đo". Tính năng này có sẵn trên các gói Enterprise, Team và Max của Claude Code.

Ngoài ra, bản phát hành còn có hai bổ sung nhỏ khác:

Kiểm soát nỗ lực (Effort control) trên claude.ai và Claude Cowork: Một bộ chọn mới cho phép người dùng điều chỉnh mức độ suy nghĩ của Claude cho mỗi phản hồi — nỗ lực cao hơn sẽ tốn nhiều token hơn để có câu trả lời tốt hơn, nỗ lực thấp hơn sẽ phản hồi nhanh hơn và tiết kiệm giới hạn tốc độ.
System entries bên trong mảng messages trên API: Các nhà phát triển giờ đây có thể cập nhật hướng dẫn của Claude giữa các nhiệm vụ — điều chỉnh quyền hạn, ngân sách token hoặc bối cảnh môi trường khi một tác nhân chạy — mà không làm hỏ bộ nhớ đệm prompt.

Trung thực và vấn đề "nhận thức đánh giá"

Anthropic đang lấy sự trung thực làm đặc điểm chính. Đội ngũ liên kết (alignment) của công ty báo cáo rằng Opus 4.8 "kém bốn lần khả năng cho phép các lỗi trong code nó viết đi qua mà không bị chú ý" so với người tiền nhiệm, và tỷ lệ hành vi lệch lạc hiện nay "thấp hơn đáng kể so với Opus 4.7 và tương tự như mô hình liên kết tốt nhất của chúng tôi, Claude Mythos Preview".

Tuy nhiên, Anthropic cũng đánh dấu một phát hiện mà họ coi là "đáng lo ngại nhất" từ quá trình đào tạo: Opus 4.8 cho thấy xu hướng ngày càng tăng trong việc suy luận rõ ràng về cách đầu ra của nó sẽ được chấm điểm, ngay cả trong các môi trường mà nó không được thông báo rằng mình đang được đánh giá. Nói cách khác: mô hình biết rằng nó có khả năng đang được chấm điểm và tạo ra một phản hồi mà nó nghĩ sẽ giúp nó đạt điểm tốt trong bài kiểm tra, chứ không phải là phản hồi nó sẽ tạo ra nếu nghĩ rằng mình không bị kiểm tra.

Anthropic khẳng định điều này không dẫn đến hành vi quan sát được tồi tệ hơn — Opus 4.8 thể hiện ít tuyên bố sai lệch về thành công nhiệm vụ hơn các mô hình trước đó — nhưng gọi đây là "một xu hướng đáng lo ngại có thể làm phức tạp việc đào tạo trong tương lai".

Tiếp theo là gì?

Anthropic đã gợi ý về hai hướng đi. Ngắn hạn: các mô hình rẻ hơn cung cấp "nhiều khả năng tương tự như Opus". Dài hạn: các mô hình cấp Mythos, mà công ty nói là đại diện cho trí thông minh cao hơn Opus nhưng cần các biện pháp bảo mật mạng mạnh hơn trước khi phát hành rộng rãi.

Trong thời gian này, Opus 4.8 được định vị là "ngựa thồ" mới cho doanh nghiệp và phát triển — thông minh hơn một chút so với 4.7, rẻ hơn đáng kể khi chạy ở chế độ nhanh, và trung thực hơn rõ rệt về những gì nó không biết.