Bỏ qua tới nội dung chính
Quay lại tin tức

Claude Fable 5 và những câu chuyện ngụ ngôn mới về an toàn AI

Interconnects Newsletter· Nathan Lambert· 9/6/2026models

Hôm nay, Anthropic đã phát hành mô hình Claude Fable 5 của họ tới người dùng cá nhân và doanh nghiệp. Đây là biến thể truy cập chung của các mô hình Mythos-class của họ. Cùng với đó, Anthropic đã triển khai một loạt các biện pháp an toàn – một số được công bố rõ ràng cho người dùng và một số sửa đổi mô hình mà không thông báo cho người dùng. Việc bước tiến lớn tiếp theo trong khả năng AI đi kèm với các biện pháp an toàn chặt chẽ hơn, cho thấy ý định của Anthropic nhằm bảo vệ hoặc củng cố vị trí dẫn đầu hiện tại của họ, lẽ ra không nên gây ngạc nhiên như vậy. Các chính sách an toàn được Anthropic triển khai một cách không đồng đều đang trên đà

Hôm nay, Anthropic đã phát hành mô hình Claude Fable 5 của họ cho người dùng cá nhân và doanh nghiệp. Đây là phiên bản truy cập chung của các mô hình thuộc lớp Mythos của họ. Cùng với đó, Anthropic đã triển khai một loạt các biện pháp an toàn – một số được công bố rõ ràng cho người dùng và một số sửa đổi mô hình mà không thông báo cho người dùng. Việc bước tiến lớn tiếp theo trong khả năng AI đi kèm với các biện pháp an toàn chặt chẽ hơn, cho thấy ý định của Anthropic nhằm bảo vệ, hoặc củng cố, vị trí dẫn đầu hiện tại của họ, lẽ ra không nên gây ngạc nhiên như vậy. Các chính sách an toàn được Anthropic áp dụng không đồng đều đang trên đà trở thành một câu chuyện ngụ ngôn cảnh báo kinh điển về việc các khái niệm an toàn và kiểm soát hẹp hòi, tự thỏa mãn hiếm khi mang lại hiệu quả. Chia sẻ Mô hình thông minh nhất thế giới Trước khi đi sâu vào các sắc thái của các yếu tố an toàn, điều quan trọng là phải xác định chất lượng của mô hình này. Chất lượng của mô hình cho thấy tầm quan trọng của ngày hôm nay – vì các tính năng an toàn này đang thay đổi đáng kể hình thức tiếp cận AI tiên tiến, điều chưa từng xảy ra với các LLM hiện đại mà chúng ta biết. Thứ hai, các khả năng cho thấy câu chuyện này chỉ đang tăng tốc. Tự cải thiện đệ quy không hoàn toàn là mô hình tư duy đúng đắn về tiến bộ từ đây, nhưng Claude Fable 5 nên làm rõ rằng không có rào cản tức thời nào trong việc đào tạo LLM. Để bắt đầu – Claude Fable 5 chắc chắn là mô hình thông minh nhất hiện có cho công chúng – một bước nhảy vọt đáng kể trên hầu hết mọi tiêu chuẩn liên quan hiện nay – với giá chỉ gấp 2 lần so với các mô hình Opus hiện tại (vẫn thấp hơn phiên bản GPT 5.5 Pro). Riêng điều này đã là một khoảnh khắc quan trọng đối với lĩnh vực này. Việc một phiên bản mô hình có bước tiến đáng kể như vậy về khả năng, vài năm sau cuộc đua LLM hậu ChatGPT, là điều đáng kinh ngạc. Không có đột phá rõ ràng nào liên quan đến mô hình này, chẳng hạn như mở rộng quy mô thời gian suy luận hoặc RL, và nhận định chung là điều này đạt được nhờ những tiến bộ trên toàn bộ hệ thống (tất nhiên, chúng ta không thể biết chắc chắn – nó không được ghi lại). Đây là một thành tựu kỹ thuật lớn và các nhân viên đã xây dựng mô hình này nên rất tự hào về công việc của họ. Mô hình này đã bị trì hoãn hơn 2 tháng sau khi hoàn thành đào tạo trước khi được công bố rộng rãi. Với động lực cạnh tranh của nền kinh tế AI, phiên bản thông minh hơn của mô hình này đã được triển khai tốt. Tiếp theo, các tiêu chuẩn của mô hình được trình bày dưới đây. Một lưu ý về các điểm số này là chúng không nhất thiết là điểm số mà công chúng sẽ nhận được, vì một số lời nhắc (prompt) sẽ bị hạ cấp xuống Opus 4.8 với các bộ lọc an toàn hiện tại trên mô hình. Đây là loại bước nhảy vọt trong điểm chuẩn mà tôi thậm chí không cần phải thử nghiệm mô hình một cách đáng kể để biết rằng đây là một công cụ đáng kinh ngạc. Hãy nhớ rằng Anthropic cũng là phòng thí nghiệm AI có thành tích ít quan tâm nhất đến các điểm chuẩn (đặc biệt là khi so sánh với OpenAI và Gemini). Hãy nhớ lại một bình luận tôi đã đưa ra vào tháng 6 năm 2025: Đây là một con đường khác cho ngành và sẽ có một hình thức truyền thông khác so với những gì chúng ta đã quen. Nhiều bản phát hành sẽ giống như Claude 4 của Anthropic, nơi các cải tiến về điểm chuẩn là nhỏ và các cải tiến trong thế giới thực là một bước tiến lớn. Có rất nhiều hàm ý khác đối với chính sách, đánh giá và tính minh bạch đi kèm với điều này. Sẽ cần nhiều sắc thái hơn để hiểu liệu tốc độ tiến bộ có tiếp tục hay không, đặc biệt là khi các nhà phê bình AI sẽ nắm bắt cơ hội các đánh giá chững lại để nói rằng AI không còn hoạt động nữa. Rõ ràng, một vài khía cạnh của động lực tiến bộ đã thay đổi, nhưng đó là một bài viết cho một ngày khác. Tôi đã viết nhiều bài viết về các mô hình mới trong năm nay, đặc biệt là về việc khó tin tưởng các điểm chuẩn (và một phần vì các điểm chuẩn không thay đổi nhiều). Nhìn chung, đây là một sự xác nhận lớn cho những người lao động am hiểu AI, những người nhận ra rằng họ có thể sẽ không bao giờ viết mã có ý nghĩa nữa và cần phát triển các quy trình làm việc mới xung quanh các tác nhân (agent). Interconnects AI là một ấn phẩm được độc giả hỗ trợ. Hãy cân nhắc trở thành người đăng ký. Các mô hình thông minh hơn tạo ra các trò chơi an toàn mới. Có nhiều công cụ an toàn liên quan đến bản phát hành này, bao gồm nhưng không giới hạn ở các chính sách lưu giữ dữ liệu bắt buộc và các bộ lọc nhắc nhở được thêm vào. Thông qua phân tích này, điều đặc biệt quan trọng là phải chính xác và rõ ràng về những phần nào trong số này đang gây hại, và tại sao các yếu tố đơn lẻ bị sai lệch trong một chính sách toàn diện lại gây tổn hại nghiêm trọng đến quy trình an toàn tổng thể. Đối với các lĩnh vực trọng tâm về an ninh mạng, chắt lọc mô hình có mục tiêu và sinh học nghiên cứu, Anthropic đã trình bày chi tiết các bộ phân loại an toàn mới trong bài đăng trên blog của họ: Fable 5 đi kèm với một bộ phân loại mới: các hệ thống AI riêng biệt phát hiện khả năng lạm dụng, bao gồm các nỗ lực vượt rào (jailbreak), và ngăn mô hình chính (trong trường hợp này là Fable 5) phản hồi. Chúng tôi đã chạy các bộ phân loại trên các mô hình của mình một thời gian, và các bộ phân loại của Fable 5 là một phần mở rộng của công việc trước đây này với phạm vi bao phủ bổ sung. Khi các bộ phân loại của Fable phát hiện một yêu cầu liên quan đến an ninh mạng, sinh học và hóa học, hoặc chắt lọc, phản hồi sẽ tự động được xử lý bởi Claude Opus 4.8. Người dùng sẽ được thông báo bất cứ khi nào điều này xảy ra. Opus 4.8 là một mô hình có khả năng cao: một phản hồi quay lại Opus là một trải nghiệm tốt hơn nhiều so với việc Fable từ chối hoàn toàn. Dữ liệu ban đầu của chúng tôi cho thấy hơn 95% các phiên Fable không có bất kỳ sự quay lại nào – đối với các phiên đó, hiệu suất của Fable 5 thực sự giống với Mythos 5. Các ví dụ về các bộ lọc an toàn chính về an ninh mạng và sinh học – những bộ lọc thông báo rõ ràng cho người dùng khi chúng được kích hoạt – đã lan truyền trực tuyến và có vẻ khá nhạy cảm. Điều này có thể gây khó chịu cho người dùng, nhưng Anthropic hoàn toàn có quyền làm điều này và nhất quán về mặt trí tuệ khi làm như vậy. Phần gây tổn hại của câu chuyện an toàn nằm ở chỗ.

Nguồn tin: Interconnects Newsletter — Tác giả: Nathan Lambert. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.