Lãng phí Token: Thuế ẩn đối với mọi công cụ AI
ChatGPT, Claude, Gemini – cả ba đều tính phí theo token. Cả ba đều âm thầm bị đội giá do cách hầu hết mọi người viết lời nhắc (prompt). Dưới đây là nghiên cứu, chi phí thực tế và một công cụ miễn phí giúp khắc phục vấn đề này.
Mức phí mỗi triệu token của các AI lớn:
Nguồn: Tài liệu của Anthropic, trang giá API của Google Gemini, các hướng dẫn về giá đã công bố. Giá tính đến tháng 5/2026. Mô hình định giá AI đơn giản một cách đáng ngờ: bạn trả tiền theo token. Điều mà hầu hết các kỹ sư không nhận ra là một phần đáng kể số token họ đang trả tiền không mang lại giá trị thông tin nào. Chúng là những từ đệm, những từ rào đón.
Lãng phí Token: Thuế ẩn đối với mọi công cụ AI
ChatGPT, Claude, Gemini – cả ba đều tính phí theo token. Cả ba đều âm thầm bị đội giá do cách hầu hết mọi người viết lời nhắc (prompt). Dưới đây là nghiên cứu, chi phí thực tế và một công cụ miễn phí giúp khắc phục vấn đề này.
Mức phí mỗi triệu token của các AI lớn:
Nguồn: Tài liệu của Anthropic, trang giá API của Google Gemini, hướng dẫn giá đã công bố. Giá tính đến tháng 5 năm 2026. Mô hình định giá AI đơn giản một cách lừa dối: người dùng trả tiền theo token. Điều mà hầu hết các kỹ sư không nhận ra là một phần đáng kể số token họ đang trả tiền không mang lại giá trị thông tin nào. Chúng là những từ đệm, những câu nói rào đón, những lời lịch sự. Chúng là ngữ cảnh mà mô hình không cần. Chúng là những hướng dẫn định dạng chưa bao giờ được cung cấp, khiến mô hình đoán và tạo ra lượng đầu ra gấp đôi mức cần thiết.
Đây không phải là một vấn đề lý thuyết. Giám đốc điều hành của OpenAI đã công khai xác nhận điều này. Một bài báo nghiên cứu đã được bình duyệt đã định lượng nó. Và trên mọi nền tảng AI lớn – ChatGPT, Claude, Gemini – cùng một sự lãng phí cấu trúc âm thầm tích tụ trong mọi quy trình sản xuất.
Bằng chứng: cả ba nền tảng, số liệu thực tế
Tại hội nghị Stripe Sessions 2024, một người đã hỏi Sam Altman về chi phí của OpenAI khi người dùng nói "làm ơn" và "cảm ơn" với ChatGPT. Câu trả lời của ông là: "hàng chục triệu đô la" chi phí điện toán. [1] Ông gọi đó là "số tiền đáng giá". Nhưng con số này tiết lộ một điều quan trọng – ngay cả hình thức kém hiệu quả nhất của lời nhắc, với hàng tỷ truy vấn mỗi ngày, cũng trở thành một chi phí đáng kể.
Một bài báo arXiv đã được bình duyệt đã đi xa hơn. [2] Các nhà nghiên cứu phát hiện ra rằng cách diễn đạt lịch sự không chỉ làm tăng token đầu vào mà còn làm tăng token đầu ra một cách có hệ thống, vì mô hình phản ánh giọng điệu của đầu vào. Token đầu ra có chi phí cao hơn token đầu vào trên mọi nền tảng. Nghiên cứu ước tính rằng riêng hiệu ứng ngôn ngữ này tạo ra tới 11 triệu đô la mỗi tháng doanh thu bổ sung cho OpenAI – trực tiếp từ hóa đơn của người dùng.
"Mỗi khi bạn nói 'làm ơn' với ChatGPT – đó giống như một xu hoặc gì đó. Khi bạn cộng dồn điều đó trên hàng tỷ người dùng, đó là hàng chục triệu đô la điện toán."
— Sam Altman, CEO của OpenAI, Stripe Sessions 2024 [1]
Người dùng Claude phải đối mặt với động lực tương tự, với rủi ro cao hơn. Token đầu ra của Claude Sonnet có giá 15 đô la mỗi triệu – gấp năm lần so với mức GPT-4o tính cho đầu vào. [3] Tài liệu của Anthropic dành cho Claude Code ước tính chi phí trung bình của nhà phát triển là 100–200 đô la mỗi tháng, với "sự khác biệt lớn tùy thuộc vào số lượng phiên bản người dùng đang chạy." [3] Sự khác biệt đó gần như hoàn toàn do cách viết lời nhắc.
Gemini bổ sung thêm một khía cạnh khác. Gemini 2.5 Pro tăng gấp đôi giá khi vượt quá 200.000 token – từ 1,25 đô la lên 2,50 đô la mỗi triệu token đầu vào, và từ 10 đô la lên 15 đô la cho đầu ra. [4] Sự phình to ngữ cảnh, một trong những lỗi nhắc phổ biến nhất, tự động kích hoạt ngưỡng này. Các nhóm chèn toàn bộ tệp thay vì các đoạn trích có liên quan sẽ vượt qua ngưỡng mà không hề hay biết.
Vấn đề tích lũy ở quy mô lớn
Sự lịch sự là trường hợp nổi bật vì nó dễ hiểu. Nhưng nó thực sự là một trong những yếu tố gây lãng phí nhỏ hơn. Những yếu tố lớn hơn – phạm vi mơ hồ, thiếu hướng dẫn định dạng, các tệp được chèn quá mức – tạo ra nhiều token lãng phí hơn trên mỗi cuộc gọi, và chúng ảnh hưởng đến token đầu ra, không chỉ đầu vào.
Hãy xem xét một nhóm đang thực hiện 10 triệu cuộc gọi API mỗi ngày trên Claude Sonnet. Lời nhắc trung bình: 200 token. Nếu 40% là phần đệm không cần thiết, đó là 80 token lãng phí trên mỗi cuộc gọi. Phép tính:
200 token × 40% lãng phí = 80 token lãng phí trên mỗi cuộc gọi
10 triệu cuộc gọi/ngày × 80 token = 800 triệu token lãng phí/ngày
800 triệu token × 3 đô la/1 triệu = 2.400 đô la/ngày lãng phí chỉ riêng cho đầu vào
→ 876.000 đô la mỗi năm
Theo nhiều nghiên cứu độc lập, các câu lệnh (prompt) được cấu trúc tốt giúp giảm 40–70% lượng token sử dụng mà không làm thay đổi chất lượng đầu ra. [5,6]
Vấn đề sâu xa hơn là phản hồi vô hình. Các kỹ sư gửi câu lệnh, nhận phản hồi và tiếp tục công việc. Không có tín hiệu nào cho họ biết câu lệnh của họ có hiệu quả hay không. Chỉ 51% tổ chức có thể tự tin đánh giá lợi tức đầu tư (ROI) từ chi tiêu AI của mình, theo báo cáo Tình hình Chi phí AI năm 2025 của CloudZero. [7] Lãng phí tích tụ vì nó không bao giờ hiển thị.
prompt-coach: Vòng phản hồi còn thiếu
Chúng tôi đã xây dựng prompt-coach như một kỹ năng của Claude để khắc phục chính xác khoảng trống này. Nó tự động phân tích mọi câu lệnh bạn gửi, chấm điểm theo năm khía cạnh dựa trên khuôn khổ kỹ thuật câu lệnh của Anthropic và thêm một ghi chú hướng dẫn ngắn gọn sau mỗi phản hồi – mà không làm gián đoạn câu trả lời của bạn. Không cần lệnh. Không cần thiết lập. Nó tự động chạy trên mọi tin nhắn.
GitHub: prompt-coach — Mã nguồn mở · Giấy phép MIT
Sau mỗi phản hồi, bạn sẽ thấy một dòng như sau:
Một dòng. Sự lãng phí chính xác. Cách khắc phục chính xác. Khía cạnh bạn đã vi phạm. Qua các phiên làm việc, các mẫu hình làm tăng chi phí ở quy mô lớn sẽ không còn là mặc định vô hình mà trở thành những lựa chọn có ý thức.
5 nguyên tắc được chấm điểm — với các khác biệt thực tế
Mỗi câu lệnh được chấm điểm theo năm khía cạnh (mỗi khía cạnh 20 điểm): Rõ ràng (Clarity), Súc tích (Concision), Ngữ cảnh (Context), Cấu trúc (Structure) và Cụ thể (Specificity) — được ánh xạ theo khuôn khổ kỹ thuật câu lệnh chính thức của Anthropic. [8] Các nguyên tắc tương tự cũng áp dụng cho ChatGPT, Claude và Gemini.
01 — Rõ ràng: Bắt đầu bằng một động từ mệnh lệnh
02 — Cụ thể: Giới hạn định dạng đầu ra của bạn
03 — Ngữ cảnh: Chỉ đưa vào những gì thay đổi câu trả lời
04 — Cấu trúc: Sử dụng thẻ XML cho các câu lệnh nhiều phần
05 — Cụ thể: Nêu rõ tiêu chí hoàn thành ngay từ đầu
Bảng điều khiển trực tiếp
Gõ "show dashboard" bất cứ lúc nào và prompt-coach sẽ hiển thị toàn bộ phân tích phiên tương tác — xu hướng điểm số trên mỗi câu lệnh, lượng token đã sử dụng so với tối ưu, các vấn đề lặp lại hàng đầu của bạn và bảng điểm kỹ thuật câu lệnh (PE scorecard) trên cả năm khía cạnh.
Bảng điều khiển lấy dữ liệu thực từ phiên làm việc của bạn. Mọi con số đều được tính toán từ các câu lệnh thực tế của bạn — không phải ước tính. Nó cho bạn thấy chính xác lượng token của bạn đang đi đâu, những thói quen nào đang gây tốn kém nhất và điểm số của bạn đang có xu hướng như thế nào trong cuộc trò chuyện.
Cài đặt prompt-coach trong 60 giây
prompt-coach là một kỹ năng của Claude. Cài đặt một lần trong một Dự án (Project) và nó sẽ tự động hướng dẫn mọi cuộc trò chuyện. Nó là mã nguồn mở và miễn phí.
# Claude.ai (được khuyến nghị)
1. Dự án (Projects) → Dự án mới (New Project)
2. Dán nội dung SKILL.md vào
Nguồn tin: Medium Towards AI — Tác giả: Sudiksha Acharya. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.