Anthropic và OpenAI có thể đang lỗ nặng: Chi $1000 để phục vụ mỗi $100 người dùng trả?

Bài viết phân tích sâu về chi phí thực tế khi sử dụng các mô hình AI lớn như Claude hay OpenAI để lập trình. Mặc dù mang lại hiệu suất ấn tượng, mô hình kinh tế này đang được trợ giá mạnh và có thể không bền vững trong dài hạn. Người dùng có thể không nhận ra rằng chi phí tính toán thực tế cho các tác vụ phức tạp cao gấp nhiều lần so với phí thuê bao hàng tháng.

Sau một thời gian gián đoạn 15 tháng, chúng tôi quay lại viết về Trí tuệ Nhân tạo tạo sinh (Generative AI) và các Mô hình Ngôn ngữ Lớn (LLM). Hôm nay, chúng ta sẽ bắt đầu với một trong hai bài viết về chủ đề “lập trình với các Mô hình Ngôn ngữ Lớn”, một lĩnh vực đang được định vị là “ứng dụng sát thủ” của LLM.

Tuy nhiên, trước khi đi sâu vào chủ đề chính, hãy dành một chút thời gian để bàn về bài đăng blog gần đây của Anthropic có tên “Khi AI tự xây dựng chính nó”.

Anthropic có đang thuê nhân viên marketing của Google không?

Bài đăng blog của Anthropic thực sự là một bài học kinh điển về cách viết văn mang tính gợi ý. Các cảnh báo có ở đó, nhưng chúng bị ẩn hoặc “kẹp” giữa những tuyên bố cường điệu. Một câu nói “chúng tôi có thể sai” xuất hiện, nhưng vai trò của nó là gì khi nó chỉ là một câu đơn lẻ giữa hàng ngàn từ văn bản giả định rằng họ không sai?

Các điểm chuẩn (benchmarks) rất đáng ngờ. Tỷ lệ thành công 50% hay thậm chí 80% trên một tác vụ lập trình so với con người thực tế là vô dụng trong lập trình tự động hoàn toàn (không có con người trong vòng lặp). Việc kiểm tra (check-in) gấp 8 lần số dòng mã mỗi ngày có thực sự là điều tốt? Điều gì xảy ra nếu mỗi ngày bạn thay thế những gì không ổn vào ngày hôm trước? Và nếu LLM chỉnh sửa theo cách mà số dòng mã trở thành thước đo kém tin cậy hơn bao giờ hết thì sao? Tất cả những điều này nhắc tôi nhớ đến những bài nói chuyện đầy lừa dối của Google về chip tính toán lượng tử ‘Willow’ của họ.

TL;DR — Lập trình với LLM có vẻ sẽ không bao giờ rẻ cả

Tôi đã thực hiện một số thử nghiệm. Thử nghiệm của tôi là: “Claude Code thực sự tốt đến mức nào?”. Thử nghiệm này vẫn đang diễn ra và Claude Code đã tạo ra khoảng 40.000 dòng mã và một ứng dụng hoạt động (dù chưa hoàn thiện). Trong quá trình đó, tôi nhận ra vấn đề về chi phí và nó dẫn đến một dự án nghiên cứu nhỏ với nhiều quan sát và kết luận thú vị.

Hãy bắt đầu với một quan sát quan trọng: Nhờ sự kết hợp giữa Claude Code và nền tảng lập trình của riêng tôi, tôi đã để Claude Code tạo ra ứng dụng này (chưa hoàn thiện nhưng hoạt động) mà nếu không có nó, tôi sẽ không thể tạo ra trong thời gian ngắn như vậy. Đối với một lập trình viên có kinh nghiệm, trải nghiệm ban đầu cực kỳ ấn tượng vì họ hiểu rõ lượng hiểu biết cần thiết để tạo ra mã như vậy.

Nhưng… lập trình với LLM không khả thi về mặt kinh tế đối với hầu hết các trường hợp sử dụng. Nó khả thi hiện tại vì các gói thuê bao đang được trợ giá mạnh. Nếu bạn sử dụng gói Claude Max giá $100/tháng và sử dụng nó đến giới hạn hàng tuần bằng cách thực hiện “lập trình tác nhân” (agentic coding — gần như không có con người can thiệp), bạn sẽ sử dụng lượng token có giá trị hơn $1000 theo giá API. Anthropic dường như đang bận rộn (với Opus 4.7, 4.8) để ngăn chặn việc chảy máu tài chính này, và ngay cả khi thành công mà không làm giảm chất lượng, điều đó cũng báo hiệu sự kết thúc của những cải tiến đáng kể.

Biểu đồ chi phí theo nhiệm vụ

Trong khi các cuộc trò chuyện đơn giản với các mô hình giá rẻ hoặc tiên phong đã trở nên “rẻ đến mức không cần đo đếm”, thì các công dụng nghiêm túc (như lập trình, lý luận phức tạp) yêu cầu các mô hình đệ quy/suy nghĩ đã bùng nổ về mức sử dụng token, khiến chúng trở nên rất đắt đỏ. Một nhiệm vụ đơn lẻ của một mô hình đệ quy hàng đầu với mức nỗ lực cao ước tính tốn khoảng $75 theo tỷ lệ API. Tôi đã từng thấy một truy vấn sử dụng một triệu token, tương đương tối đa $25 theo giá API.

Chi phí thực tế bị che giấu

Mô hình kinh tế được trình bày với thế giới dường như dựa trên sự kết hợp giữa giá trị của các nhiệm vụ yêu cầu lượng sức mạnh tính toán khổng lồ để xấp xỉ kết quả tốt trên bất kỳ thứ gì phức tạp, trong khi che giấu chi phí thực tế hoặc nói về việc “rẻ đến mức không cần đo đếm”.

Vì vậy: Hãy tận hưởng “âm nhạc” trong khi con tàu này chưa chìm, và hãy chuẩn bị một chiếc bè cứu sinh tốt.

Tôi đã xây dựng thử nghiệm “vibe coding” (một thuật ngữ tôi không thích lắm) của mình trong 4 tháng. Tôi bắt đầu với một dự án rất nhỏ để làm quen với lập trình bằng LLM, cuối cùng chọn Claude Code sử dụng Opus 4.6 ở chế độ nỗ lực trung bình. Nếu tôi dùng cài đặt cao hơn, nó thường bị lạc lối. Cài đặt thấp hơn thì kết quả kém.

Quản lý chi phí cũng là một phần của trải nghiệm. Đầu tiên, tôi đăng ký gói $20/tháng. Tôi nhanh chóng gặp giới hạn sử dụng. Bạn có giới hạn đặt lại mỗi 5 giờ và một giới hạn đặt lại mỗi tuần, bạn có thể vượt quá giới hạn bằng cách mua token theo giá API. Tôi nhận thấy việc sử dụng token mua thêm với chi phí API đắt hơn nhiều so với việc nằm trong giới hạn sử dụng. Khi tôi còn ở gói $20/tháng, tôi đã mua khoảng $80 token trong vài ngày để hoàn thành công việc. Lúc đó, tôi nhận ra việc trả $100/tháng là một món hời khổng lồ so với việc sử dụng tùy chọn rẻ nhất và thêm tiền khi cần.

Sự bùng nổ của chi phí tính toán

Điều quan trọng cần lưu ý là mọi người không muốn kết quả của một truy vấn đơn lẻ, điều đó chỉ đúng với các tác vụ đơn giản nhất. Trong thực tế, họ thường thực hiện nhiều truy vấn và có qua lại nhiều lần trước khi chấp nhận kết quả.

Và sau đó là tất cả những token bạn không nhìn thấy. Có những token không nằm trong hóa đơn, có những “token tối” (dark tokens), và với các mô hình “suy nghĩ” bị gắn nhãn sai, có một khối lượng khổng lồ các quá trình đệ quy và thử và sai trong nền, những thứ bạn không thấy dưới dạng đầu vào hoặc đầu ra nhưng đều tiêu tốn một lượng lớn token.

Chi phí lập trình phức tạp

Để có ý tưởng về chi phí, Opus 4.6 khi trả tiền theo token sẽ tính phí $5 cho mỗi triệu token đầu vào và $25 cho mỗi triệu token dữ liệu được tạo ra (bao gồm cả việc tạo ra trong các nỗ lực đệ quy trong nền).

Hôm nay, các mô hình hàng đầu như Claude Opus 4.6 có giá $5 cho mỗi triệu token bạn đưa vào và $25 cho mỗi triệu token mà nó tạo ra. Nghe có vẻ rất rẻ, nhưng ở đây “những thứ bạn không nhìn thấy” sẽ đóng một vai trò quan trọng.

Có hai loại nhiệm vụ mà mọi người sử dụng LLM. Một loại là “dung lỗi” (fault-tolerant): độ chính xác không quá quan trọng, giống như “quần áo giá rẻ”: không quá tốt nhưng rẻ. Các yêu cầu như vậy sẽ có ít truy vấn theo dõi hơn và mọi người đơn giản chấp nhận những gì LLM tạo ra.

Nhưng có những lĩnh vực mà độ chính xác cực kỳ quan trọng: lập trình là một ví dụ. Công nghệ thông tin cực kỳ mong manh. Một lỗi nhỏ có thể khiến một hãng hàng không grounded. Những nhiệm vụ như vậy là “không dung lỗi”. Các mô hình ngân sách nhanh và thực sự rẻ cho những thứ đơn giản, nhưng nếu để chúng xử lý các vấn đề nghiêm túc, kết quả theo định nghĩa là không đáng tin cậy.

Chi phí cho lập trình nghiêm túc

Các mô hình “suy nghĩ” (thực chất là đệ quy) có thể sử dụng hàng chục nghìn, thậm chí hàng triệu token cho một nhiệm vụ đơn lẻ tùy thuộc vào nhiệm vụ. Tôi từng gặp tình huống Claude 4.6 Opus sử dụng ~1 triệu token cho một truy vấn đơn giản (với con người) trên một cơ sở mã khoảng 36.000 dòng. Đó là $25 cho một truy vấn đơn lẻ theo giá API.

Có khía cạnh thứ ba dễ bị bỏ qua: sự khác biệt giữa kết quả “đúng” và kết quả “được chấp nhận”. Trong một số trường hợp, việc xác minh tính đúng đắn dễ hơn nhiều (ví dụ: toán học, một phần mã — “nó có biên dịch không?”, “nó có chạy không?”) so với những thứ khác như nghiên cứu.

Khi ChatGPT ra đời cuối năm 2022, truy vấn trung bình có thể khoảng 200 token, câu trả lời khoảng 400. Nhưng những gì chúng ta làm với các mô hình “tiên phong” ngày nay hoàn toàn không thể thực hiện được với các mô hình 3 năm trước. Chúng ta không xem xét nhiều lịch sử của “chi phí trên mỗi token”, mà là lịch sử của “chi phí trên mỗi nhiệm vụ”.

Tôi đã vẽ biểu đồ lịch sử ước tính của “chi phí trên mỗi nhiệm vụ” cho các danh mục sau:

Hội thoại ngân sách (dung lỗi).
Hội thoại tiên phong (dung lỗi).
Lý luận phức tạp — Đúng.
Lý luận phức tạp — Được chấp nhận.
Lập trình đơn giản — Đúng.
Lập trình đơn giản — Được chấp nhận.
Lập trình đa tệp phức tạp — Đúng.
Lập trình đa tệp phức tạp — Được chấp nhận.

Những gì chúng ta thấy là trong khi chi phí cho những việc đơn giản đã giảm xuống, thì nỗ lực — và do đó chi phí — cho các nhiệm vụ/phức tạp hơn đã tăng vọt. Có một sự sụt giảm lớn khi giá token của Claude Opus đột ngột giảm xuống một phần ba.

Nhưng lập trình nghiêm túc trên các cơ sở mã quy mô hợp lý là một câu chuyện hoàn toàn khác. Những việc thực sự khó — chẳng hạn như thực hiện các thay đổi đúng đắn trong một cơ sở mã cỡ trung bình khoảng 40k dòng — dường như đã bùng nổ về chi phí, vì làm điều đó tốt đòi hỏi tính toán theo cấp số nhân nhiều hơn.

Điều này ngụ ý rằng chi phí lập trình thực tế trên mỗi nhiệm vụ đã bùng nổ. Chúng ta đang nói về việc giải quyết một nhiệm vụ đơn lẻ trong một cơ sở mã theo giá API tốn somewhere in the neighbourhood of $65. Một công việc lập trình với con người trong vòng lặp có thể thấy vài nhiệm vụ như vậy trong một ngày.

Kết luận: Bữa tiệc không thể kéo dài mãi

Quay lại thử nghiệm của tôi. Khi tôi chuyển sang gói thuê bao $100/tháng, tôi gần như không bao giờ chạm đến giới hạn sử dụng nữa. Nhưng tại một thời điểm — sau một thay đổi lớn trong toàn bộ cơ sở mã — tôi lại chạm đến giới hạn 5 giờ. Điều đó cho phép tôi tiếp tục với mức chi phí API: tôi nạp $20 và 20 phút sau số tiền đó đã hết.

Vâng: $20 trong 20 phút. Và lưu ý, điều đó không hoàn thành việc giải quyết toàn bộ thay đổi lớn mà Claude đang bận thực hiện. Một kỹ sư phần mềm nghiêm túc làm việc toàn thời gian trên một cơ sở mã quy mô hợp lý có thể thực hiện 5-10 nhiệm vụ như vậy mỗi ngày.

Vào đầu năm 2023, chúng ta nói về khoảng 200 token đầu vào và 400 token đầu ra cho một truy vấn. Bây giờ, việc mở rộng quy mô đã bùng nổ, và việc sử dụng nước và năng lượng cũng vậy.

Từ thử nghiệm của mình, tôi có thể tự tin nói rằng hệ số trợ giá cho tài khoản Max thực sự được sử dụng để lập trình là khoảng 2.5. Nhưng tôi cũng biết mình đã sử dụng bao nhiêu giới hạn hàng tuần, khoảng 20%. Vì vậy, tối đa đến giới hạn hàng tuần (sử dụng không kiềm chế) và hệ số trợ giá tối đa sẽ trở thành khoảng 12.

Tóm lại: việc dùng sức mạnh thô (brute force) cho những thứ thực sự phức tạp, như chỉnh sửa mã, có thể là “ứng dụng sát thủ” hiện đang được dùng để bán kinh doanh Generative AI cho thế giới. Nhưng chi phí thực tế bị che giấu khỏi nhiều người dùng nếu họ sử dụng các gói thuê bao.

Vậy thì những kết luận sơ bộ của tôi là gì?

Bữa tiệc “chỉnh sửa mã bằng sức mạnh thô” này không thể kéo dài. Thật sự là không thể. Liệu họ có thể tiếp tục trợ giá hỗ trợ lập trình ở mức này không? Chắc chắn là không. Bữa tiệc này có thể sẽ kéo dài cho đến khi các IPO (phát hành cổ phiếu lần đầu ra công chúng) diễn ra, khi đó thực tế kinh tế sẽ gõ cửa.

Tôi nghi ngờ rằng một trong những động lực thúc đẩy sự phát triển của Anthropic kể từ Opus 4.6 là vấn đề chi phí. Cả Opus 4.7 và 4.8 rõ ràng không áp dụng nhiều sức mạnh thô đệ quy như Opus 4.6. Phỏng đoán cá nhân của tôi là hệ số trợ giá đã trở thành một vấn đề rất lớn đối với Anthropic (và OpenAI) và họ đang vật lộn để duy trì chất lượng tốt nhất mà không đốt cháy quá nhiều tiền mặt trước khi IPO.

Không cung cấp Mythos cho công chúng nói chung có thể một phần đơn giản là vì việc chạy nó quá đắt đỏ. Có những báo cáo cho biết các nhiệm vụ đơn lẻ điều tra mã của riêng họ có thể tốn tới $35k chi phí API. Đó là 1,4 tỷ — với chữ ‘b’ — token cho một nhiệm vụ đơn lẻ.

Vì vậy:

Hãy tận hưởng nó trong khi bữa tiệc còn kéo dài (và với tôi, nó có thể kết thúc khi họ ngừng Opus 4.6 hoặc có IPO và thực tế kinh tế ập đến).

Và hãy chuẩn bị cho khi nó kết thúc, và bạn có thể phải bảo trì mã mà “sức mạnh thô” được trợ giá mạnh đã mang lại cho bạn.

Anthropic và OpenAI có thể đang lỗ nặng: Chi $1000 để phục vụ mỗi $100 người dùng trả?

Anthropic có đang thuê nhân viên marketing của Google không?

TL;DR — Lập trình với LLM có vẻ sẽ không bao giờ rẻ cả

Chi phí thực tế bị che giấu

Sự bùng nổ của chi phí tính toán

Chi phí cho lập trình nghiêm túc

Kết luận: Bữa tiệc không thể kéo dài mãi

Bài viết liên quan