Anthropic cung cấp bản nâng cấp Mythos cho các đối tác an ninh…

Anthropic đang phát hành Claude Mythos 5 cho các tổ chức đáng tin cậy và Claude Fable 5 cho công chúng. Công ty khẳng định phiên bản này không thể bị sử dụng cho các cuộc tấn công mạng.

Anthropic ra mắt hai mô hình AI mới mang tên Claude Fable 5 và Claude Mythos 5 vào thứ Ba, với khả năng vượt trội hơn so với mô hình Mythos Preview được phát hành vào tháng 4 cho một số đối tác công nghệ giới hạn. Anthropic cho biết việc phát hành ban đầu, giới hạn này xuất phát từ lo ngại rằng khả năng của mô hình có thể bị kẻ xấu lợi dụng để phát triển các công cụ tấn công mạng, gây bất ngờ cho các nhà phòng thủ. Anthropic hiện chỉ phát hành Claude Mythos 5 cho một số đối tác công nghiệp giới hạn, nhiều đối tác trong số đó đã được tiếp cận Mythos Preview, và công ty cho biết đang hợp tác với chính phủ Hoa Kỳ trong quá trình triển khai. Claude Fable 5, được phát hành rộng rãi, sử dụng cùng một mô hình cơ bản với Mythos 5, nhưng sẽ có các "hàng rào bảo vệ" được thiết lập ngay từ đầu, công ty cho biết vào thứ Ba, nhằm ngăn chặn mô hình trả lời nhiều câu hỏi của người dùng liên quan đến an ninh mạng, sinh học và hóa học. Các yêu cầu này sẽ được chuyển hướng đến một mô hình AI cũ hơn, Claude Opus 4.8. Nếu Anthropic nghi ngờ người dùng đang cố gắng thực hiện chưng cất – đào tạo một mô hình AI nhỏ hơn dựa trên phản hồi của một mô hình AI lớn hơn – trên Claude Fable 5, các yêu cầu đó cũng sẽ được chuyển hướng đến Claude Opus 4.8, công ty cho biết. Trong một cuộc phỏng vấn với WIRED, trưởng bộ phận quản lý sản phẩm của Anthropic, Diane Penn, cho biết công ty đã phải vật lộn với câu hỏi về cách xử lý khả năng phát hiện lỗ hổng phần mềm của Mythos và các khả năng tiên tiến khác kể từ trước khi phát hành vào tháng 4, nhưng việc thử nghiệm và phản hồi của người dùng kể từ đó đã giúp hoàn thiện chiến lược. Bà Penn cho biết: "Chúng tôi đang cố gắng cải thiện theo cách có lợi, ngay cả khi chúng tôi chưa có giải pháp hoàn hảo cho mọi trường hợp sử dụng ngay từ đầu. Trong số tất cả các cách tiếp cận khác nhau, đây nổi lên là cách khả thi và tốt nhất. Cuối cùng, chúng tôi cảm thấy đây là lựa chọn sản phẩm tốt nhất để người dùng nhận được giá trị tối đa từ Fable 5." Hiện tại, bà Penn cho biết cơ chế bảo vệ được xây dựng để ưu tiên sự thận trọng, nghĩa là một số truy vấn của người dùng có thể được chuyển đến mô hình AI kém khả năng hơn ngay cả khi chúng vô hại. Theo thời gian, Anthropic hy vọng sẽ làm cho các bộ phân loại của mình chính xác hơn, nhưng bà Penn cho biết đây là cách an toàn duy nhất mà công ty có thể phát hành mô hình rộng rãi vào thời điểm này. Công ty cho biết vào thứ Ba rằng ngoài việc cung cấp Claude Mythos 5 cho các đối tác của Project Glasswing, họ cũng cấp quyền truy cập cho "các nhà nghiên cứu sinh học được chọn". Ngoài ra, Anthropic lưu ý trong bài đăng trên blog về việc ra mắt vào thứ Ba rằng họ đang cung cấp các phiên bản không giới hạn cho các nhóm khách hàng nhỏ này "cho đến khi chương trình truy cập đáng tin cậy của chúng tôi có sẵn", ám chỉ các kế hoạch trong tương lai để mở rộng quyền truy cập hơn nữa. Kể từ khi ra mắt Mythos vào tháng 4, Anthropic đã nhiều lần nhấn mạnh rằng cuối cùng các đối thủ cạnh tranh của họ trong cả không gian riêng tư và thậm chí cả không gian mã nguồn mở cũng sẽ cung cấp các mô hình có khả năng tương đương Mythos. Khả năng của Claude Mythos và các mô hình AI mới khác trong việc thiết kế công cụ tấn công có thể tìm và khai thác lỗ hổng trong cả phần mềm mới và cũ đã buộc các công ty công nghệ và chính phủ trên thế giới phải tăng cường phòng thủ phần mềm trước khi các mô hình AI ở cấp độ này được cung cấp rộng rãi cho những kẻ tấn công. Anthropic lần đầu tiên phát hành Mythos cho các đối tác trong ngành theo một liên minh có tên Project Glasswing, với ý tưởng rằng điều này có thể giúp các thành viên có lợi thế ban đầu trong việc chuẩn bị hệ thống của riêng họ và cân nhắc các giải pháp toàn cầu đối với mối đe dọa trước khi phát hành rộng rãi hơn. Anthropic đã viết trong một bản cập nhật về Project Glasswing vào tuần trước: “Chúng tôi đang nỗ lực hết sức để phát hành an toàn các khả năng cấp độ Mythos cho mọi người dùng. Để làm được điều đó, chúng tôi sẽ cần các biện pháp bảo vệ cực kỳ mạnh mẽ nhằm ngăn chặn việc lạm dụng các khả năng an ninh mạng của mô hình – những biện pháp bảo vệ mà chúng tôi (và theo hiểu biết của chúng tôi, tất cả các nhà phát triển AI khác) vẫn chưa phát triển được.” Anthropic cho biết Claude Fable 5 – được đặt tên theo thể loại văn học, tương tự như các mô hình Haiku, Sonnet và Opus hiện có của công ty – mang lại hiệu suất tăng cường trong kỹ thuật phần mềm và các tác vụ yêu cầu hiểu biết trực quan. Tuy nhiên, hiệu suất tăng thêm đó đi kèm với một cái giá. Claude Fable 5 và Claude Mythos 5 sẽ có giá 10 USD cho mỗi triệu token đầu vào và 50 USD cho mỗi triệu token đầu ra đối với các nhà phát triển – gấp đôi so với các mô hình AI công khai của Anthropic nhưng rẻ hơn Mythos Preview. Việc phát hành Claude Fable 5 đã được điều chỉnh cho thấy sự căng thẳng trong kinh doanh của Anthropic khi muốn phát hành một mô hình AI cấp độ Mythos để sử dụng chung trước khi ngành công nghệ giải quyết được các lo ngại về an ninh mạng của các mô hình này. Vào tháng 4, OpenAI cũng đã ra mắt riêng một mô hình mà họ cho biết có khả năng an ninh mạng tiên tiến và triệu tập một nhóm làm việc tương tự như Project Glasswing. Cả OpenAI và Anthropic đều đã bí mật nộp hồ sơ IPO và đang chạy đua để gây ấn tượng với các nhà đầu tư tiềm năng trước khi trở thành công ty đại chúng ngay trong năm nay. Tuy nhiên, ngay cả khi là một giải pháp tạm thời, vẫn còn phải xem các biện pháp bảo vệ của Claude Fable 5 có hiệu quả như thế nào trong thực tế. Anthropic cho biết trong hơn 1.000 giờ thử nghiệm tấn công (red-teaming), các chuyên gia của họ không tìm thấy lỗ hổng jailbreak phổ quát nào cho mô hình. Mặc dù vậy, những lo ngại về khả năng phát triển các biện pháp bảo vệ đầy đủ đã củng cố lý do ban đầu của công ty về việc không phát hành các mô hình cấp độ Mythos ra công chúng vào tháng 4, và những lo ngại này dường như vẫn còn tồn tại.

Anthropic cung cấp bản nâng cấp Mythos cho các đối tác an ninh mạng và phiên bản “an toàn” cho những người dùng còn lại.