Bỏ qua tới nội dung chính
Quay lại tin tức

AI Model Release Tracker: Tỷ lệ sai lệch của Opus 4.8 tương tự Claude Mythos Preview

ZDNet AI· 28/5/2026general

Không phải mọi mô hình mới đều đạt được kỳ vọng. Công cụ theo dõi của chúng tôi đặt mỗi bản phát hành trong bối cảnh so sánh với các mô hình cùng loại, giúp bạn biết được mô hình nào đáng để đầu tư thời gian.

Đổi mới Trang chủ Đổi mới Trí tuệ nhân tạo Theo dõi phát hành mô hình AI: Tỷ lệ sai lệch của Opus 4.8 tương tự Claude Mythos Preview Không phải mọi mô hình mới đều đạt được kỳ vọng. Công cụ theo dõi của chúng tôi đặt mỗi bản phát hành trong bối cảnh so sánh với các mô hình cùng loại, giúp bạn biết mô hình nào đáng để tìm hiểu. Bài viết của Radhika Rajkumar, Biên tập viên cấp cao Ngày 28/5/2026 lúc 14:11 giờ PT Elyse Betters Picaro/ZDNET Theo dõi ZDNET: Thêm chúng tôi làm nguồn ưu tiên trên Google. Các phòng thí nghiệm AI liên tục phát hành các mô hình mới. Tuy nhiên, ngoài việc tốt hơn và nhanh hơn các phiên bản tiền nhiệm, không phải mọi mô hình mới đều đảm bảo tạo ra một bước nhảy vọt lớn, bất kể bộ phận PR của công ty có ca ngợi đến đâu. Sức mạnh của mô hình thực sự nổi bật trong bối cảnh: Các mô hình cạnh tranh đang thiếu sót hay vượt trội ở điểm nào? Mô hình nào có chuyên môn xuất sắc, và mô hình nào chỉ đang bắt kịp các tiêu chuẩn ngành? Ngoài ra: Cách chúng tôi kiểm tra AI tại ZDNET Công cụ theo dõi phát hành mô hình của chúng tôi giúp bạn hiểu rõ vị trí của các mô hình so với nhau và liệu chúng có đáng để tìm hiểu sâu hơn hay không. Mặc dù chúng tôi không kiểm tra mọi mô hình hoặc bản cập nhật mô hình trong danh sách này, chúng tôi sẽ luôn bao gồm các yếu tố chính bạn cần biết, cùng với các bài kiểm tra thực tế của chuyên gia, nếu có. Chúng tôi cũng bao gồm Điểm chuyên gia cho một số mô hình nhất định. Bạn tò mò về cách chúng tôi kiểm tra AI? Hãy xem phân tích quy trình của chúng tôi tại đây. Dưới đây là một số bản phát hành mô hình lớn nhất năm 2026 cho đến nay và những điều cần biết về chúng. Chúng tôi sẽ cập nhật danh sách này bất cứ khi nào một mô hình mới đáng chú ý xuất hiện. Claude Opus 4.8 Anthropic | Ngày 28/5/2026 Chức năng: Thay thế Opus 4.7 bắt đầu từ hôm nay (với cùng mức giá), Opus 4.8 cung cấp các chế độ xử lý nhanh hơn với chi phí bằng một phần ba so với phiên bản trước, theo Anthropic. Giống như hầu hết các mô hình của Anthropic, 4.8 ưu tiên khả năng lập trình, đạt điểm cao hơn 4.7 trên hai tiêu chuẩn lập trình nhưng chưa hoàn toàn vượt trội so với GPT 5.5 của OpenAI. Mô hình này cũng "đạt đến những đỉnh cao mới trong các thước đo về đặc điểm thân thiện với xã hội như hỗ trợ quyền tự chủ của người dùng và hành động vì lợi ích tốt nhất của người dùng", công ty lưu ý trong thông cáo, mặc dù định nghĩa về điều đó vẫn còn mơ hồ. Ngoài ra: Anthropic ra mắt Opus 4.8, với tính trung thực là tính năng nổi bật Tại sao nó quan trọng: Anthropic luôn ưu tiên an toàn và khả năng giải thích của mô hình, nhưng dường như đang nhấn mạnh hơn nữa tiêu chuẩn đó với bản phát hành này. Công ty cho biết Opus 4.7 có tỷ lệ trung thực 92%, ngoài việc ít nịnh hót và ít bị ảo giác hơn nói chung. Việc công ty tuyên bố 4.8 cho thấy tỷ lệ sai lệch "thấp hơn đáng kể" so với 4.7 cho thấy một tiêu chuẩn ngày càng cao về an toàn mô hình, đặc biệt là vì Anthropic đã so sánh sự phù hợp của 4.8 với Mythos Preview. GPT-5.5 Instant OpenAI | Ngày 5/5/2026 Chức năng: OpenAI cho biết trong thông báo của mình rằng phiên bản nhẹ hơn của GPT-5.5 vừa được phát hành của OpenAI ít dài dòng hơn so với phiên bản tiền nhiệm, GPT-5.3 Instant. Công ty cũng ca ngợi việc giảm ảo giác và cải thiện tính xác thực, nói rằng "GPT-5.5 Instant tạo ra ít hơn 52,5% các tuyên bố ảo giác so với GPT-5.3 Instant trên các lời nhắc có rủi ro cao bao gồm các lĩnh vực như y học, luật và tài chính." Ngoài ra, cơ quan an toàn AI báo cáo: Mythos của Anthropic đang phát triển nhanh hơn dự kiến. Ý nghĩa: GPT-5.5 Instant thay thế GPT-5.3 làm mô hình mặc định trong ChatGPT. Một lần nữa, trong khi kỳ vọng là mỗi mô hình AI mới sẽ hiệu quả hơn, dễ sử dụng hơn và ít tạo ra thông tin sai lệch hơn, thì việc cải thiện đáng kể tình trạng "ảo giác" đối với một mô hình mà hầu hết mọi người sử dụng cho các truy vấn nhanh có thể đồng nghĩa với việc giảm thiểu thông tin sai lệch lan truyền trong cộng đồng. Điều này đặc biệt quan trọng khi có rất nhiều người đang sử dụng ChatGPT cho các câu hỏi sức khỏe hàng ngày, chẳng hạn. (Tiết lộ: Ziff Davis, công ty mẹ của ZDNET, đã đệ đơn kiện OpenAI vào tháng 4/2025, cáo buộc công ty này vi phạm bản quyền của Ziff Davis trong việc đào tạo và vận hành các hệ thống AI của mình.) Nemotron 3 Nano Omni Nvidia | Ngày 28/4/2026 Chức năng: Là phiên bản mới nhất trong dòng Nemotron mở của Nvidia, mô hình này cung cấp cho các tác nhân khả năng nhập liệu đa phương thức. Điều đó có nghĩa là chúng có thể "nhận thức và suy luận dựa trên các đầu vào hình ảnh, âm thanh và văn bản trong một vòng lặp nhận thức-hành động chung duy nhất", theo Nvidia, từ đó hợp nhất nhiều khả năng vào một hệ thống duy nhất. Ngoài ra: AI là một cuộc chạy đua vũ trang, và Mỹ muốn 9 tỷ USD siêu chip Nvidia để theo kịp. Ý nghĩa: Thông thường, các hệ thống tác nhân cần sử dụng các mô hình riêng biệt cho giọng nói, hình ảnh và văn bản, nghĩa là chúng phải chuyển đổi giữa các tài liệu, video và âm thanh để hoàn thành các tác vụ đa bước. Điều đó làm chậm quy trình làm việc, làm suy yếu ngữ cảnh mà các tác nhân thu thập và làm tăng chi phí suy luận. Cách tiếp cận của Nvidia, nếu thành công, sẽ hợp lý hóa quy trình này và giảm việc sử dụng token, giúp tiết kiệm chi phí. Hãy thử nghiệm trên Hugging Face. GPT-5.5 OpenAI | Ngày 23/4/2026 Điểm chuyên gia: 93/100 Chức năng: David Gewirtz, chuyên gia thử nghiệm tại ZDNET, đã chấm điểm A- cho GPT-5.5, nhưng cho biết nó "có thể được mô tả một cách đơn giản là tốt hơn và nhanh hơn GPT-5.4", đây hy vọng là kỳ vọng tối thiểu đối với một mô hình mới. Cụ thể, mô hình này đã cải thiện khả năng mã hóa tác nhân, xác định rõ ràng các khái niệm, nghiên cứu khoa học và độ chính xác thực tế. Ngoài ra: Tôi đã thử nghiệm GPT-5.5 qua 10 vòng: Nó đạt 93/100, chỉ mất điểm vì quá nhiệt tình. Ý nghĩa: Mặc dù bản thân mô hình có thể không vượt trội hơn nhiều so với phiên bản tiền nhiệm trực tiếp, nhưng tốc độ ra mắt nhanh chóng từ 5.4 đến 5.4 – chưa đầy hai tháng – cho thấy tốc độ mã hóa tác nhân đang thúc đẩy chu kỳ phát hành mô hình của OpenAI nhanh chóng như thế nào. Như David Gewirtz đã phân tích, công ty, giống như các phòng thí nghiệm tiên phong khác sử dụng AI để xây dựng AI, đang phát hành các bản cập nhật với tốc độ tăng theo cấp số nhân. ChatGPT Images 2 OpenAI | Ngày 23/4/2026

Nguồn tin: ZDNet AI. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.