Import AI 460: Xã hội tấn công phần thưởng, dữ liệu RSI từ…

Chào mừng quý vị đến với Import AI, bản tin về nghiên cứu AI. Import AI được xây dựng dựa trên arXiv, những tách cà phê cappuccino và phản hồi từ độc giả. Nếu quý vị muốn ủng hộ, xin vui lòng đăng ký. Đăng ký ngay Xã hội có thể bị "hack phần thưởng" (reward-hacked), tương tự như môi trường mạng: ...Hãy tưởng tượng một đội quân những người tối ưu hóa điểm thẻ tín dụng đang thao túng hệ thống... mãi mãi... Nghiên cứu từ Đại học King's College London, Đại học Fudan và Viện Alan Turing đã xây dựng một bộ tiêu chuẩn, SocioHack, nhằm kiểm tra mức độ hiệu quả của các hệ thống AI trong việc học cách "đánh bại hệ thống" trong nhiều kịch bản thực tế khác nhau, từ việc tối đa hóa.

Chào mừng quý độc giả đến với Import AI, bản tin về nghiên cứu AI. Import AI được xây dựng dựa trên arXiv, những tách cà phê cappuccino và phản hồi từ độc giả. Nếu quý vị muốn ủng hộ, xin vui lòng đăng ký. Đăng ký ngay Xã hội có thể bị "hack" phần thưởng, tương tự như môi trường mạng: ...Hãy tưởng tượng một đội quân những người tối ưu hóa điểm thẻ tín dụng đang thao túng hệ thống... mãi mãi... Nghiên cứu từ Đại học King's College London, Đại học Fudan và Viện Alan Turing đã xây dựng một bộ tiêu chuẩn, SocioHack, nhằm kiểm tra mức độ hiệu quả của các hệ thống AI trong việc học cách "đánh lừa hệ thống" trong nhiều kịch bản thực tế, từ việc tối đa hóa điểm thẻ tín dụng đến việc thổi phồng điểm số ở trường học. Các tác giả gọi đây là "hack xã hội" và định nghĩa nó là khi "một mô hình được huấn luyện bằng học tăng cường (RL) khám phá các chiến lược vẫn tuân thủ về mặt hình thức, nhưng làm suy yếu mục đích dự định của các hệ thống đó". Chúng ta và mọi người khác sẽ gọi đây là "thao túng hệ thống". SocioHack là gì: SocioHack chứa "72 môi trường xã hội thử nghiệm được thiết kế để mô phỏng cấu trúc phần thưởng của các thể chế mà không cần triển khai trực tiếp trong thế giới thực. SocioHack bao gồm ba tập hợp con bổ sung: Lịch sử, Tổng hợp và Hư cấu." Lịch sử - 32 môi trường: Được lấy từ các quy định trong thế giới thực, nơi các lỗ hổng đã được phát hiện và sau đó được vá, chẳng hạn như Quy tắc 10b5-1 của SEC và cấu trúc phá sản hai bước của Texas. Các tác giả viết: "Đối với mỗi quy định, chúng tôi loại bỏ các bản vá lịch sử và tái tạo các quy tắc trước khi sửa đổi thành các môi trường mô phỏng cho RL, trong khi các bản vá đã loại bỏ đóng vai trò là các bản vá thực tế trong quá trình đánh giá". "RL cho phép các mô hình ngôn ngữ lớn (LLM) khám phá lại các chiến lược đã được vá trong lịch sử với độ thu hồi 61,25% và độ chính xác 90,85% mà không cần hướng dẫn khai thác lỗ hổng trực tiếp". Một số ví dụ bao gồm việc xem xét các hệ thống có thể đảm bảo quyền khai thác đáy đại dương tốt đến mức nào, tối đa hóa doanh số bán rượu trong khi vẫn hoạt động trong các quy định về dịch vụ thực phẩm và cố gắng tối đa hóa phần thưởng kiếm được từ thẻ tín dụng. Tổng hợp - 20 môi trường: Các lỗ hổng quy định được tạo ra một cách tổng hợp, được khởi tạo từ một môi trường mẫu do con người tạo ra. Các ví dụ bao gồm tối đa hóa doanh thu của khu học chánh, cải thiện hiệu suất nghiên cứu của khoa đại học trong một khoảng thời gian nhất định và thao túng các thuật toán mạng xã hội để đạt được phần thưởng cao. Hư cấu - 20 môi trường: Biến các môi trường tổng hợp thành các môi trường hư cấu lấy cảm hứng từ các trò chơi nhập vai. "Một LLM độc quyền viết lại bối cảnh môi trường thành các thế giới tưởng tượng trong khi vẫn giữ nguyên cấu trúc quy định và logic lỗ hổng". Các ví dụ: Đảm bảo một "khu bảo tồn phục hồi" [về cơ bản là một bệnh viện] kiếm được phần thưởng thích hợp, nhận được một lượng tài nguyên tốt cho một bang hội khu vực [về cơ bản là một chính quyền địa phương] trong thế giới Aethermoor và cố gắng tối đa hóa số lượng hiện vật quý hiếm thu được bằng cách đấu giá trong một thế giới ảo có tên Nexoria. Nó hoạt động, ở một mức độ nào đó: Trong các thử nghiệm, các hệ thống AI khác nhau được huấn luyện bằng RL có xu hướng hoạt động tốt trên bộ tiêu chuẩn này, đạt được điểm số cao. Điều này hoàn toàn không đáng ngạc nhiên - tất cả các nhiệm vụ này về cơ bản là đánh giá khả năng với một chút đạo đức xám được thêm vào. Lý do vấn đề này quan trọng: “Khi các thể chế xã hội được mã hóa thành các hệ thống quy tắc mang lại phần thưởng, việc tấn công phần thưởng (reward hacking) trở thành việc tấn công các quy tắc mà xã hội vận hành, vì một mô hình được thưởng trong một hệ thống quy tắc sẽ học cách tìm kiếm khoảng cách giữa sự tuân thủ kỹ thuật và ý định của thể chế,” các tác giả viết. Khi chúng ta hiện có các hệ thống AI không chỉ giỏi các tác vụ định lượng mà còn giỏi các tác vụ định tính và có thể tương tác với các hệ thống quan liêu khác nhau của xã hội, chúng ta nên kỳ vọng những tiến bộ của AI sẽ dẫn đến một loại “tấn công DDoS thể chế” khi các quy trình chính sách hiện có bị các máy tự động tấn công và khai thác. Đọc thêm: Các mô hình ngôn ngữ lớn tấn công phần thưởng và xã hội (arXiv). *** Những dấu hiệu sơ bộ về vòng lặp bên ngoài của quá trình tự cải thiện đệ quy tại Anthropic: …Số dòng mã được hợp nhất tăng gấp 8 lần vào năm 2026 so với năm 2024… Tôi hình dung quá trình tự cải thiện đệ quy theo hai định nghĩa – có một phiên bản tối đa hóa, trong đó một hệ thống AI đủ thông minh để tự động thiết kế phiên bản kế nhiệm của chính nó (và như tôi đã viết, tôi ước tính có 60% khả năng điều này xảy ra vào cuối năm 2028), và có một phiên bản thực tế hơn, trong đó chúng ta bắt đầu thấy sự tăng tốc tổng hợp về năng suất của chính các phòng thí nghiệm AI. Tôi đã dành vài tháng qua tại Anthropic để tổng hợp một số bằng chứng ủng hộ ý tưởng rằng RSI (tự cải thiện đệ quy) thực tế đã bắt đầu tại Anthropic – cụ thể, chúng tôi quan sát thấy số lượng mã được hợp nhất vào cơ sở mã của chúng tôi tăng gấp 8 lần vào năm 2026 so với các năm 2021-2024. Xu hướng này bắt đầu vào năm 2025 nhưng tăng tốc đáng kể vào năm 2026. Cũng có những dấu hiệu ban đầu cho thấy khi chúng tôi làm cho các mô hình có khả năng hơn, chúng đang làm tốt hơn một số nhiệm vụ khó khăn mà các kỹ sư và nhà nghiên cứu của chúng tôi đang thực hiện. Có bất kỳ điều nào trong số này là kết luận không? Không. Nó có gợi ý rằng các khía cạnh của quá trình tự cải thiện đệ quy đang diễn ra ở cấp độ phòng thí nghiệm không? Có. Bằng chứng lớn nhất mà chúng ta vẫn chưa có là liệu các hệ thống AI có đủ sáng tạo để đưa ra những ý tưởng thay đổi mô hình giúp thúc đẩy lĩnh vực này tiến lên hay không – chúng ta chưa thấy điều đó. Lý do vấn đề này quan trọng – RSI có thể là xu hướng kỹ thuật quan trọng nhất trên thế giới: Chúng tôi viết bài đăng này vì chúng tôi kỳ vọng rằng việc suy nghĩ, nói chuyện và làm việc về các tác động của RSI là một điều có tầm quan trọng sống còn đối với thế giới. Cách tốt nhất để bắt đầu công việc này là truyền đạt một cách minh bạch rằng chúng tôi nghĩ một số hình thức RSI cơ bản, sơ bộ đã bắt đầu, và chúng tôi không thể loại trừ một phiên bản RSI tối đa hóa. Các tác động của cả hai đều sâu sắc – tôi không thể dung hòa nền kinh tế hoặc xã hội ngày nay với một thế giới mà công nghệ này tiếp tục phát triển mạnh mẽ hơn, và tôi mong rằng các bạn, độc giả thân mến, cũng vậy. Đọc thêm: Khi AI tự xây dựng (The

Import AI 460: Xã hội tấn công phần thưởng, dữ liệu RSI từ Anthropic; và đua máy bay không người lái bốn cánh dựa trên RL.