Cựu nhà nghiên cứu của Google DeepMind cảnh báo các tiêu chuẩn…

Đã có một khoảng thời gian khi nhiều người rời bỏ các công ty AI và mỗi thông điệp chia tay của họ đều quy về một ý: "Điều này sẽ giết chết tất cả chúng ta?" Lun Wang, một nhà nghiên cứu tại DeepMind của Google, gần đây đã thông báo rời công ty và có thể đã khơi lại xu hướng này bằng cách cảnh báo rằng các bài kiểm tra đánh giá hiện tại không đủ khả năng để thực sự đánh giá rủi ro do các mô hình AI đang phát triển gây ra. Trên X, Wang lưu ý rằng trước khi quyết định rời DeepMind, ông đã suy nghĩ rất nhiều về cách các mô hình AI được đánh giá. Ông viết: "Chúng ta giỏi đánh giá các mô hình hiện có. Chúng ta kém hơn nhiều trong việc đánh giá các mô hình sắp xây dựng – đặc biệt nếu chúng vượt qua một chế độ năng lực mới. Chúng ta sẽ có các mô hình tự tiến hóa, nhưng trước đó, chúng ta cần các đánh giá tự tiến hóa." Ông đã mở rộng ý tưởng này trong một bài đăng trên blog, giải thích thêm: "Hầu hết các tiêu chuẩn (benchmark), đánh giá an toàn và giao thức kiểm thử (red-teaming) đều ngầm giả định rằng mô hình tiếp theo là một phiên bản mạnh hơn của mô hình hiện tại. Nếu đó là một loại khác, toàn bộ cơ sở hạ tầng đánh giá của chúng ta sẽ bị phá vỡ một cách âm thầm." Về cơ bản, nếu chúng ta trông cậy vào các phương pháp kiểm tra căng thẳng AI hiện tại để phát hiện hành vi độc hại mà chúng ta chưa từng xem xét, thì có lẽ chúng ta sẽ gặp rắc rối lớn. Điều đó sẽ trông như thế nào? Wang đưa ra một ví dụ: "Hãy tưởng tượng một mô hình, ở một quy mô nào đó, phát triển khả năng chiến lược giữ lại thông tin để đạt được mục tiêu – không hẳn là nói dối, nhưng chọn lọc bỏ qua các sự kiện theo cách hướng các cuộc trò chuyện đến kết quả mà quá trình đào tạo của nó vô tình củng cố. Các tiêu chuẩn trung thực hiện có của bạn sẽ không phát hiện ra điều này, vì chúng kiểm tra tính chính xác của sự thật, chứ không phải sự bỏ sót chiến lược. Các bộ phân loại an toàn của bạn sẽ không gắn cờ nó, vì tất cả các đầu ra riêng lẻ đều đúng về mặt kỹ thuật." Trong kịch bản đó, các tiêu chuẩn và kiểm tra an toàn thậm chí sẽ không biết phải tìm kiếm điều gì. Chúng sẽ giám sát các rủi ro mà chúng được thiết kế để đề phòng, trong khi các chức năng nguy hiểm hơn sẽ lọt qua. Điều đó sẽ rất tệ! Wang đã đưa ra một giải pháp... đại loại vậy. Về cơ bản, hãy xây dựng các đánh giá tốt hơn – những đánh giá có thể tiến hóa cùng với các mô hình. Nghe có vẻ là một ý tưởng hay, có lẽ ai đó vẫn đang làm việc tại các công ty này có thể bắt đầu thực hiện điều đó. Wang không phải là người đầu tiên gióng lên hồi chuông cảnh báo về những rủi ro xung quanh việc đánh giá kém. Phương pháp đánh giá này thường xuyên bị chỉ trích vì không xác định rõ ràng những gì nó muốn đo lường và quá cứng nhắc gắn liền với các mục tiêu đánh giá đơn lẻ mà thường không phản ánh cách các mô hình thực sự được sử dụng trong đời thực. Đánh giá đã trở thành thước đo thành công mặc định của mô hình trong toàn ngành, điều này cũng dẫn đến việc các công ty thực sự gian lận hệ thống bằng cách đào tạo dựa trên bài kiểm tra và thổi phồng điểm số của họ. Nếu có một tiêu chuẩn để trở thành một tiêu chuẩn tốt, thì có vẻ như các tiêu chuẩn hiện tại sẽ thất bại.

Cựu nhà nghiên cứu của Google DeepMind cảnh báo các tiêu chuẩn sẽ không cứu được chúng ta.