Bỏ qua tới nội dung chính
Quay lại tin tức

Anthropic ra mắt Claude Opus 4.8 với tư cách là một "cải tiến khiêm tốn nhưng hữu hình", vượt trội hơn GPT-5.5 trong hầu hết các bài kiểm tra hiệu năng.

The Decoder· Matthias Bastian· 28/5/2026general

Anthropic đã phát hành Claude Opus 4.8, vượt trội hơn GPT-5.5 và Gemini 3.1 Pro trong hầu hết các thử nghiệm đánh giá. Mô hình này cũng tự phát hiện lỗi mã hóa thường xuyên gấp bốn lần so với phiên bản tiền nhiệm. Cùng với việc ra mắt, Anthropic đang triển khai các quy trình làm việc động có khả năng tạo ra hàng trăm tác nhân phụ song song để xử lý các tác vụ như di chuyển toàn bộ cơ sở mã. Bài viết "Anthropic ra mắt Claude Opus 4.8 như một 'cải tiến khiêm tốn nhưng hữu hình' vượt trội GPT-5.5 trong hầu hết các thử nghiệm đánh giá" lần đầu tiên xuất hiện trên The Decoder.

AI trong thực tiễn Anthropic ra mắt Claude Opus 4.8 với tư cách là một "cải tiến khiêm tốn nhưng hữu hình" vượt trội hơn GPT-5.5 trong hầu hết các tiêu chuẩn. Matthias Bastian Ngày 28/5/2026 Những điểm chính Anthropic đã phát hành Claude Opus 4.8, một mô hình ngôn ngữ AI mới mà công ty tuyên bố vượt trội hơn các đối thủ cạnh tranh như GPT-5.5 của OpenAI trên hầu hết các tiêu chuẩn, đồng thời truyền đạt tốt hơn những điểm không chắc chắn của chính nó. Anthropic cũng giới thiệu các quy trình làm việc động cho phép lập lịch tác vụ và khởi chạy hàng trăm tác nhân phụ song song, cùng với một điều khiển mới cho phép người dùng xác định mức độ nỗ lực mà AI nên bỏ ra để tạo ra phản hồi. Giá API không thay đổi so với phiên bản tiền nhiệm, Opus 4.7, ở mức 5 USD/triệu token đầu vào và 25 USD/triệu token đầu ra. Mô hình hàng đầu mới nhất của Anthropic, Claude Opus 4.8, dẫn đầu hầu hết các tiêu chuẩn và được thiết kế để thẳng thắn hơn về những sai sót của chính nó. Anthropic cho biết Opus 4.8 đánh bại cả phiên bản tiền nhiệm và GPT-5.5 của OpenAI cũng như Gemini 3.1 Pro của Google trên hầu hết các hạng mục được thử nghiệm. Về mã hóa tác nhân (SWE-Bench Pro), mô hình đạt 69,2%, tăng từ 64,3% của Opus 4.7 và 58,6% của GPT-5.5. Đối với lý luận đa ngành (Humanity's Last Exam), Opus 4.8 đạt 49,8% không có công cụ và 57,9% có công cụ, là điểm số cao nhất trong lĩnh vực này. Opus 4.8 so với Opus 4.7, GPT-5.5 và Gemini 3.1 Pro. | Hình ảnh: Anthropic Ít tiến bộ giả tạo hơn, trung thực hơn Anthropic gọi sự trung thực được cải thiện của mô hình là một trong những nâng cấp đáng chú ý nhất. Các mô hình AI có thói quen vội vàng kết luận và tuyên bố những tiến bộ không đúng khi xem xét kỹ hơn. Đây là một vấn đề phổ biến. "Những người thử nghiệm ban đầu báo cáo rằng Opus 4.8 có nhiều khả năng báo hiệu những điểm không chắc chắn về công việc của nó và ít có khả năng đưa ra những tuyên bố không có căn cứ", Anthropic cho biết. Công ty đã chứng minh điều đó bằng các đánh giá mã hóa của riêng mình, trong đó mô hình để lỗi lọt qua mà không bình luận ít hơn khoảng bốn lần so với Opus 4.7. Mô hình cũng đạt mức cao mới về các đặc điểm thân thiện với xã hội như hỗ trợ quyền tự chủ của người dùng. Các nỗ lực lừa dối và các hành vi không phù hợp khác được cho là ở cấp độ Claude Mythos. Chi tiết có trong Thẻ hệ thống Claude Opus 4.8. Các mô hình lớp Mythos đầu tiên dự kiến sẽ được triển khai cho tất cả khách hàng trong những tuần tới, sau khi tất cả các biện pháp an toàn được thực hiện, công ty cho biết. Quy trình làm việc động và kiểm soát nỗ lực chiếm ưu thế Các tính năng mới mà Anthropic đã phát hành cùng với mô hình có thể quan trọng hơn bản cập nhật mô hình, mà công ty gọi là "khiêm tốn nhưng hữu hình". Lớn nhất là "quy trình làm việc động". Mô hình có thể lập kế hoạch một tác vụ và sau đó tạo ra hàng trăm tác nhân phụ song song trong một phiên duy nhất. Anthropic cho biết Claude Code với Opus 4.8 hiện có thể xử lý các di chuyển trên toàn bộ cơ sở mã trên hàng trăm nghìn dòng, từ lập kế hoạch cho đến hợp nhất. Tính năng này có sẵn trên các gói Enterprise, Team và Max. Trên claude.ai và trong Cowork, hiện có một điều khiển nỗ lực bên cạnh bộ chọn mô hình. Nó cho phép bạn quyết định mức độ Claude làm việc trên một phản hồi nhất định. Tăng nó lên để suy nghĩ sâu hơn và có kết quả tốt hơn. Giảm nó xuống để có câu trả lời nhanh hơn và sử dụng ít giới hạn tốc độ của bạn hơn. Opus 4.8 mặc định ở chế độ "high". Đối với các tác vụ khó, Anthropic khuyến nghị sử dụng chế độ "extra" (được gọi là "xhigh" trong Claude Code) hoặc "max". Các chế độ này tiêu tốn nhiều token hơn, nhưng Anthropic cho biết giới hạn tốc độ cao hơn dành cho người dùng Claude Code giúp bù đắp phần nào. Lời khuyên của Anthropic là chọn mức độ phù hợp với từng tác vụ. Giá API không đổi, chế độ nhanh rẻ hơn Chế độ nhanh (Fast Mode), chạy Opus 4.8 với tốc độ nhanh gấp 2,5 lần, hiện có giá bằng một phần ba so với các mô hình trước đây. Giá hiện tại là 10 USD cho mỗi triệu token đầu vào và 50 USD cho mỗi triệu token đầu ra. Giá tiêu chuẩn không thay đổi so với Opus 4.7: 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra. Tuy nhiên, trên thực tế, 4.7 đã đắt hơn khoảng 30 đến 40% so với phiên bản tiền nhiệm 4.6, vì nó tiêu tốn nhiều token hơn mà không mang lại lợi ích đáng kể cho nhiều tác vụ hàng ngày. Opus 4.8 có thể thực sự có chi phí vận hành thấp hơn Theo Artificial Analysis, Opus 4.8 có thể giảm bớt mức tăng giá của 4.7. Trên điểm chuẩn GDPval-AA, kiểm tra các tác vụ công việc tri thức trong thế giới thực, mô hình này cần ít hơn 15% số lượt chạy cho mỗi tác vụ và ít hơn 35% token đầu ra so với Opus 4.7. Trên thực tế, điều đó có thể có nghĩa là chi phí thấp hơn đáng kể. Tuy nhiên, Opus 4.8 vẫn sử dụng nhiều lượt chạy hơn khoảng 30% so với GPT-5.5 của OpenAI, mô hình đứng thứ hai. Ở mức độ nỗ lực "max", Opus 4.8 đạt 1.890 điểm trên GDÜVvall-AA, cao hơn 137 điểm so với Opus 4.7 và cao hơn 121 điểm so với GPT-5.5, với tỷ lệ thắng khoảng 67% khi đối đầu trực tiếp với GPT-5.5.

Nguồn tin: The Decoder — Tác giả: Matthias Bastian. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.