Anthropic cho biết những chủ đề này quá nguy hiểm để mô hình…

Ngày 21/5, Anthropic đã công bố phát hành Claude Fable 5, mẫu mô hình "Mythos-class" đầu tiên mà công ty này cho biết vượt trội hơn các mẫu Opus trước đây về năng lực tổng thể. Tuy nhiên, việc ra mắt mô hình này đi kèm với các biện pháp bảo vệ được thiết kế để ngăn chặn nó trả lời các truy vấn về các chủ đề như an ninh mạng, sinh học và hóa học, những lĩnh vực mà công ty đã công khai lo ngại về khả năng "tiếp tay" cho các tác nhân độc hại. Anthropic cho biết Fable 5 hoạt động trên "cùng một mô hình cơ bản" với Mythos 5, mô hình này sẽ kết thúc giai đoạn "Mythos Preview" kéo dài nhiều tháng vào ngày hôm nay, nhưng chỉ dành cho "một nhóm nhỏ các chuyên gia an ninh mạng".

Ngày 16/5, Anthropic đã công bố phát hành Claude Fable 5, mô hình "Mythos-class" đầu tiên của hãng mà theo công ty là vượt trội hơn các mô hình Opus tiền nhiệm về năng lực tổng thể. Tuy nhiên, việc ra mắt mô hình này đi kèm với các biện pháp bảo vệ được thiết kế để ngăn chặn nó trả lời các truy vấn về các chủ đề như an ninh mạng, sinh học và hóa học, những lĩnh vực mà công ty đã công khai lo ngại về khả năng "tiếp tay" cho các tác nhân độc hại. Anthropic cho biết Fable 5 hoạt động trên "cùng một mô hình cơ bản" với Mythos 5, mô hình này đang kết thúc giai đoạn "Mythos Preview" kéo dài nhiều tháng vào ngày 16/5, nhưng chỉ dành cho "một nhóm nhỏ các chuyên gia an ninh mạng" được đánh giá là đáng tin cậy thông qua Project Glasswing hiện có. Tuy nhiên, không giống như Mythos 5, Fable 5 có thể truy cập công khai được thiết kế để chuyển các truy vấn về một số chủ đề nhạy cảm nhất định sang mô hình Claude Opus 4.8 trước đó và cảnh báo người dùng khi điều này xảy ra. Trong số nhiều cải tiến về hiệu suất được tuyên bố cho Fable 5, cải tiến liên quan đến an ninh mạng là một bước nhảy vọt đặc biệt lớn. Nguồn: Anthropic Anthropic cho biết họ đã điều chỉnh các biện pháp bảo vệ này "nghiêm ngặt hơn mức lý tưởng", nghĩa là hệ thống đôi khi có thể từ chối "các yêu cầu vô hại" theo cách mà công ty thừa nhận có thể gây khó chịu cho người dùng thông thường. Tuy nhiên, Anthropic cho biết các trường hợp dương tính giả như vậy chỉ chiếm chưa đến 5% tổng số phiên trong thử nghiệm và đáng giá để tránh các tình huống mà Mythos có thể hỗ trợ các tác nhân độc hại trong việc "gây ra thiệt hại nghiêm trọng mà họ không thể nhận được từ các nguồn khác".

Anthropic cho biết những chủ đề này quá nguy hiểm để mô hình Fable 5 của họ đề cập đến.