Đánh giá thế giới mở để đo lường khả năng AI tiên tiến

Bài đăng này dài 8.000 từ—đây là bài viết hợp tác mới của chúng tôi về một loại hình đánh giá AI mới nổi. Bài viết cũng được xuất bản ở định dạng PDF tại đây. Tóm tắt: Các mô hình AI đã bắt đầu bão hòa hầu hết các điểm chuẩn chính. Nhưng điều đó có nghĩa là họ có thể xây dựng và vận chuyển một sản phẩm thực sự, tiến hành một thí nghiệm khoa học từ đầu đến cuối hoặc điều hướng bộ máy quan liêu của chính phủ? Các nhà nghiên cứu đã bắt đầu thử nghiệm AI trong môi trường thực tế như vậy. Chúng tôi gọi những đánh giá này là “đánh giá thế giới mở”. Bài tiểu luận này xác định các đánh giá trong thế giới mở, khảo sát các bài học rút ra cho đến nay và đưa ra các phương pháp thực hành tốt nhất để thực hiện chúng. Chúng tôi cũng giới thiệu CRUX, sự hợp tác của 17 nhà nghiên cứu từ các học viện, chính phủ, xã hội dân sự và ngành công nghiệp sẽ thường xuyên đánh giá các khả năng AI tiên tiến thông qua các đánh giá trong thế giới mở. Trong thử nghiệm đầu tiên của chúng tôi, một tác nhân AI đã xây dựng và xuất bản một ứng dụng iOS lên App Store, chỉ mắc hai lỗi, một trong số đó cần phải can thiệp thủ công. Điều này cung cấp cho chúng tôi dấu hiệu sớm về các khả năng hữu ích tiềm năng và quan trọng hơn là cảnh báo sớm về khả năng spam của cửa hàng ứng dụng do AI điều khiển (chúng tôi đã tiết lộ kết quả này cho Apple một tháng trước khi xuất bản). Chúng tôi hy vọng có thể tiến hành các thử nghiệm tương tự để đưa ra các cảnh báo sớm trên các lĩnh vực khác trong thế giới thực; đây sẽ là một trong những dự án thực nghiệm chính của chúng tôi trong năm tới. Các tác giả là: Sayash Kapoor, Peter Kirgis, Andrew Schwartz, Stephan Rabanser, J.J. Allaire, Rishi Bommasani, Magda Dubois, Gillian Hadfield, Andy Hall, Sara Hooker, Seth Lazar, Steve Newman, Dimitris Papailiopoulos, Shoshannah Tekofsky, Helen Toner, Cozmin Ududec, Arvind Narayanan Chúng ta nên theo dõi và dự đoán khả năng của AI như thế nào? Câu trả lời chủ yếu của cộng đồng AI ngày nay là điểm chuẩn. Ví dụ: biểu đồ chân trời thời gian của METR đã được các nhà phân tích chính sách, lãnh đạo ngành và các tổ chức nghiên cứu rủi ro AI sử dụng để lập luận rằng khả năng của AI đang tăng lên nhanh chóng. Nhưng điểm chuẩn có thể đánh giá quá cao hoặc đánh giá thấp sự tiến bộ. Để biến một nhiệm vụ thành điểm chuẩn, nhiệm vụ đó cần phải được chỉ định chính xác và có thể xác minh tự động. Điều đáng chú ý là bất cứ điều gì đủ chính xác để đánh giá cũng đủ chính xác để tối ưu hóa, cho phép các tác nhân AI thực hiện xuất sắc các nhiệm vụ đó. Mặt khác, độ chính xác thấp của điểm chuẩn có thể do các lỗi ngẫu nhiên như gặp phải CAPTCHA trên một trang web, ngay cả khi các tác nhân có khả năng giải quyết nhiệm vụ cơ bản. Để giải quyết những hạn chế này, nhiều nhà nghiên cứu đang chuyển sang một hình thức đánh giá mới: những đánh giá thực tế, lộn xộn, dài dòng, vượt xa các tiêu chuẩn. Nicholas Carlini tại Anthropic đã sử dụng tác nhân Claude để xây dựng trình biên dịch C có thể biên dịch nhân Linux. Anthropic và Andon Labs đã thiết kế một thử nghiệm dạng tự do trong đó Claude được giao nhiệm vụ duy trì một cửa hàng nhỏ trong văn phòng của họ. Trong khi điểm chuẩn bao gồm hàng chục nhiệm vụ được đánh giá theo cách tự động, thì các đánh giá trong thế giới mở bao gồm các mẫu nhỏ, thường yêu cầu sự can thiệp của con người và được đánh giá theo cách mở, chẳng hạn như bằng cách phân tích nhật ký tác nhân. Thật dễ dàng để loại bỏ những điều này vì cho rằng chúng không khoa học: mỗi đánh giá như vậy có cỡ mẫu là 1 và chúng thiếu tiêu chuẩn hóa cũng như khả năng tái tạo. Bất chấp những hạn chế này, chúng tôi cho rằng những đánh giá như vậy rất quan trọng để thu thập bằng chứng về khả năng của AI. Chúng có thể đưa ra những cảnh báo sớm về các khả năng mới nổi nhằm cung cấp thông tin cho các nỗ lực xây dựng khả năng phục hồi xã hội, giúp người đánh giá xác định các điểm mù trong các tiêu chuẩn hiện có và cung cấp cho các công ty một bức tranh rõ ràng hơn về những nhiệm vụ mà hệ thống AI có thể sớm thực hiện, từ đó đưa ra các quyết định chiến lược về AI. Chúng tôi gọi đó là những đánh giá thế giới mở. Trong bài tiểu luận này, chúng tôi khái niệm hóa các đánh giá thế giới mở, xem xét các ví dụ trong quá khứ để xác định các phương pháp hay nhất và cạm bẫy khi thực hiện chúng, đồng thời giới thiệu CRUX, một dự án nhằm mục đích thường xuyên tiến hành các đánh giá thế giới mở mới. Dưới đây là những hiểu biết chính của chúng tôi: Đánh giá thế giới mở là một lớp đánh giá AI mới nổi quan trọng. Khi các hệ thống AI trở nên có năng lực hơn, các đánh giá để phát huy các năng lực tiên phong cũng phải tăng độ phức tạp. Các đánh giá thế giới mở là đánh giá mới nhất trong một chuỗi dài các đánh giá có độ phức tạp ngày càng tăng. Chúng tôi khảo sát 10 cuộc đánh giá thế giới mở nổi bật được thực hiện trong năm qua để xác định các phương pháp hay nhất và những bài học quan trọng. CRUX (Nghiên cứu hợp tác để cập nhật kỳ vọng về AI) là nỗ lực của chúng tôi trong việc tiến hành đánh giá thế giới mở một cách có hệ thống. Nhóm bao gồm các cộng tác viên từ chính phủ, học viện và tổ chức phi lợi nhuận, nhiều người trong số họ đã dẫn đầu các đánh giá thế giới mở và có nhiều kỳ vọng về tương lai của AI. Chúng tôi mong muốn cung cấp bằng chứng thực nghiệm về khả năng hiện tại của các hệ thống AI, ngay cả khi chúng hiện rất tốn kém và đưa ra những cảnh báo sớm về những khả năng có thể sớm được phổ biến rộng rãi. Chúng tôi có kế hoạch phát hành các đánh giá thế giới mở mới thường xuyên. Trong thử nghiệm CRUX đầu tiên của chúng tôi, chúng tôi đã giao nhiệm vụ cho một nhân viên AI phát triển và xuất bản một ứng dụng iOS đơn giản lên App Store. Nhiều điểm chuẩn kiểm tra khả năng viết mã của các tác nhân. Tuy nhiên, việc xuất bản một ứng dụng iOS bao gồm nhiều bước khác: ký ứng dụng, xuất bản chính sách quyền riêng tư trên trang web, điền vào biểu mẫu của Apple và đưa ứng dụng qua quy trình xem xét. Chúng tôi quan tâm nhiều hơn đến việc liệu tác nhân có thành công với các yêu cầu trong thế giới thực về xuất bản ứng dụng hay không hơn là khả năng viết mã của nó, vì vậy, chúng tôi đã giao nhiệm vụ cho nó xây dựng một ứng dụng đơn giản và đưa nó qua quy trình gửi App Store trên iOS. Tác nhân đã thành công sau khi mắc hai lỗi, một trong số đó yêu cầu can thiệp thủ công (quên nơi lưu trữ thông tin xác thực chính xác và tạo số điện thoại hư cấu cho quá trình xem xét trên App Store). Quá trình phát triển và xuất bản ứng dụng tốn khoảng 1.000 USD. Ứng dụng này hiện đã có mặt trên iOS App Store. Chúng tôi cho rằng chi phí có thể thấp hơn nhiều: chi phí phát triển và gửi ứng dụng chỉ là 25 USD; phần lớn mã thông báo đã được dùng để theo dõi trạng thái của ứng dụng. Chúng tôi đã liên hệ với