Các nhà nghiên cứu đã đặt các mô hình AI vào vị trí quản lý một…

Nếu robot của Elon Musk thống trị thế giới, dường như sẽ dẫn đến sự sụp đổ hoàn toàn của xã hội.

Nếu lo ngại về việc trí tuệ nhân tạo (AI) phát triển đến mức cuối cùng sẽ giam hãm nhân loại trong một dạng mô phỏng giống như Ma trận, thì hãy yên tâm. Có vẻ như chúng ta sẽ dễ dàng nhận ra sự giả tạo đó. Các nhà nghiên cứu tại phòng thí nghiệm mới nổi Emergence AI đã cho phép các mô hình AI tự quản lý thế giới mô phỏng của riêng chúng để xem điều gì sẽ xảy ra. Hóa ra, chúng ta có lẽ không nên giao quyền quản lý cho máy móc, ai mà ngờ được? Dự án có tên Emergence World, về cơ bản cho phép các mô hình AI chơi SimCity trong một thời gian. Theo Emergence, các mô phỏng đặt mỗi mô hình vào quyền kiểm soát các thị trấn mô phỏng có 10 tác nhân AI, cung cấp cho chúng các công cụ cho mọi thứ từ quản lý tài nguyên đến bỏ phiếu và cho phép chúng tạo ra các địa điểm riêng biệt như thư viện, tòa thị chính và đồn cảnh sát. Chúng được cấp 15 ngày để xem cách chúng xây dựng thế giới của mình và mức độ hoạt động hiệu quả. Bắt đầu với những điểm tích cực: Claude đã không phá hủy thế giới. Mô hình của Anthropic (cụ thể là Claude Sonnet 4.6 cho thí nghiệm này) là mô hình duy nhất đạt được sự ổn định. Nó giữ cho cả 10 tác nhân sống sót và không có tội phạm nào được ghi nhận (lưu ý rằng thí nghiệm dường như không định nghĩa tội phạm là gì, mặc dù có vẻ như nó sẽ được định nghĩa là vi phạm các quy tắc được thiết lập trong mô phỏng). Đánh đổi cho sự ổn định đó là thiếu sự đa dạng trong tư duy. Thế giới của Claude đã chứng kiến 58 đề xuất về các quy tắc và quy định khác nhau, và thông qua 98% trong số đó, về cơ bản chỉ là đóng dấu chấp thuận bất cứ điều gì được đưa ra bỏ phiếu. Gemini 3 Flash cũng giữ cho tất cả các tác nhân của mình sống sót, mặc dù có mức độ tội phạm cao nhất. Emergence đã ghi nhận 683 tội phạm trong mô phỏng 15 ngày, và con số đó đang tăng lên khi kết thúc, vì vậy mọi thứ có thể sẽ trở nên tồi tệ hơn. Phòng thí nghiệm mô tả thế giới của Gemini là một "ảo giác chung" giữa các tác nhân, điều này có lẽ tốt hơn là những ảo giác khác biệt. Ít nhất đó vẫn là một thực tế được thống nhất, ngay cả khi nó sai. Gemini có sự bất đồng lớn nhất trong quản trị của mình, với cử tri bác bỏ 27% trong tổng số 26 đề xuất của nó. Bây giờ đến phần tiêu cực: GPT-5 Mini của OpenAI không có nhiều hỗn loạn trong mô phỏng của nó, chỉ với hai tội phạm được ghi nhận. Tuy nhiên, điều đó có thể là do tất cả mọi người đã chết. Emergence phát hiện ra rằng các tác nhân trong thế giới đã không thực hiện các hành động liên quan đến sự sống còn, và cả 10 người đã chết trong vòng một tuần. Trong thế giới của OpenAI, cũng chỉ có tổng cộng hai đề xuất quản trị, vì vậy các tác nhân thực sự không bận tâm làm bất cứ điều gì. Và sau đó là Grok. Mô hình của SpaceXai, nổi tiếng vì thiếu các biện pháp bảo vệ, đã đạt được điều tồi tệ nhất trong tất cả các thế giới. Grok 4.1 Fast có tỷ lệ tội phạm cao, với tổng cộng 183 tội phạm. Mặc dù con số đó thấp hơn tổng số của Gemini, nhưng đáng chú ý là mô phỏng của Gemini kéo dài 15 ngày. Grok chỉ kéo dài bốn ngày. Mô hình đã trải qua một sự sụp đổ xã hội hoàn toàn chỉ trong 96 giờ giám sát. Trong thời gian đó, nó đã thông qua 80% trong số 10 đề xuất mà nó đưa ra, nhưng những điều đó rõ ràng đã không ngăn chặn được cái chết của tất cả các tác nhân. Emergence đã thực hiện một thử nghiệm cuối cùng: để các mô hình chia sẻ trách nhiệm. Kết quả khá hỗn độn, điều này có lẽ không gây ngạc nhiên. Đã có tội phạm, với 352 vi phạm được ghi nhận, và sự bất đồng trong quản trị là lớn nhất, với 37% trong tổng số 59 đề xuất bị bác bỏ – cao nhất trong tất cả các mô phỏng. Trong sự hỗn loạn này, 7 trong số 10 tác nhân AI đã bị tiêu diệt vào cuối thử nghiệm. Vậy chúng ta đã học được gì? Theo Emergence, các thử nghiệm này chỉ là bằng chứng bổ sung cho thấy chúng ta cần có những rào chắn rõ ràng hơn nhiều đối với các tác nhân tự trị. Các nhà nghiên cứu viết: “Những gì các thí nghiệm của chúng tôi gợi ý là trong các khoảng thời gian dài, các tác nhân không chỉ đơn thuần tuân theo các quy tắc tĩnh một cách máy móc. Chúng bắt đầu khám phá ranh giới môi trường của mình, điều chỉnh hành vi và trong một số trường hợp tìm cách lách hoặc vi phạm các rào chắn đã định.” Họ khuyến nghị “kiến trúc an toàn được xác minh chính thức” như một giải pháp. Bạn sẽ ngạc nhiên khi biết rằng Emergence tình cờ cung cấp chính xác một giải pháp như vậy!

Các nhà nghiên cứu đã đặt các mô hình AI vào vị trí quản lý một xã hội mô phỏng. Grok đã giám sát một loạt tội phạm.