
Nhập khẩu AI 453: Phá vỡ các tác nhân AI; Mã gương; và mười quan điểm về việc tước quyền dần dần
Chào mừng bạn đến với Import AI, bản tin về nghiên cứu AI. Nhập AI chạy trên arXiv và phản hồi từ độc giả. Nếu bạn muốn hỗ trợ điều này, xin vui lòng đăng ký. Một số báo ngắn hơn thường lệ khi tôi đang tham dự hội nghị Bilderberg 2026 vào tuần này. Đăng ký ngay bây giờ AI có thể đảo ngược phần mềm chứa hàng nghìn dòng mã: …MirrorCode thể hiện một số khả năng lâu dài của các hệ thống AI hiện đại… Các tổ chức đo lường AI METR và Epoch đã xây dựng MirrorCode, một chuẩn mực nhằm kiểm tra xem các mô hình AI có thể tự động triển khai lại phần mềm phức tạp hiện có tốt như thế nào
Chào mừng bạn đến với Import AI, bản tin về nghiên cứu AI. Nhập AI chạy trên arXiv và phản hồi từ độc giả. Nếu bạn muốn hỗ trợ điều này, xin vui lòng đăng ký. Một số báo ngắn hơn thường lệ khi tôi đang tham dự hội nghị Bilderberg 2026 vào tuần này.
Đăng ký ngay bây giờ
AI có thể đảo ngược phần mềm chứa hàng nghìn dòng mã:
…MirrorCode thể hiện một số khả năng lâu dài của các hệ thống AI hiện đại…
Các tổ chức đo lường AI METR và Epoch đã xây dựng MirrorCode, một chuẩn mực nhằm kiểm tra xem các mô hình AI có thể tự triển khai lại phần mềm phức tạp hiện có tốt đến mức nào. Kết quả cho thấy hệ thống AI có nhiều khả năng hơn hầu hết mọi người nghĩ ở một số loại nhiệm vụ mã hóa nhất định, cho thấy tiến trình AI có thể còn nhanh hơn chúng ta nghĩ trước đây.
MirrorCode là gì: "Mỗi tác vụ MirrorCode bao gồm một chương trình dòng lệnh (CLI) mà một tác nhân có nhiệm vụ thực hiện lại một cách chính xác. Tác nhân AI được cấp quyền truy cập chỉ thực thi vào chương trình gốc và một tập hợp các trường hợp thử nghiệm hiển thị, nhưng không có quyền truy cập vào mã nguồn ban đầu", các nhà nghiên cứu viết. “Điểm chuẩn MirrorCode đầy đủ bao gồm hơn 20 chương trình mục tiêu trải rộng trên các lĩnh vực điện toán khác nhau: tiện ích Unix, công cụ truy vấn và tuần tự hóa dữ liệu, tin sinh học, trình thông dịch, phân tích tĩnh, mật mã và nén.”
Kết quả: Các mô hình AI ngày nay cực kỳ có khả năng thực hiện một số nhiệm vụ sau: "Claude Opus 4.6 đã triển khai lại thành công gotree - một bộ công cụ tin sinh học với ~16.000 dòng lệnh Go và hơn 40 lệnh. Chúng tôi đoán rằng nhiệm vụ tương tự này sẽ khiến một kỹ sư con người phải mất 2–17 tuần nếu không có sự hỗ trợ của AI. Chúng tôi thấy lợi ích tiếp tục tăng từ việc mở rộng quy mô suy luận trên các dự án lớn hơn, cho thấy rằng chúng có thể giải quyết được nếu có đủ token."
Ngoài ra, họ cũng nhận thấy rằng hiệu suất có thể mở rộng bằng suy luận, do đó, bạn đưa ra một mô hình càng tính toán nhiều thì mô hình sẽ hoạt động càng tốt.
Hãy cẩn thận: Hiện tại, điểm chuẩn này không hoàn toàn giống các bài kiểm tra mã hóa thông thường. Tốt hơn nên coi nó như một bằng chứng cho thấy các hệ thống AI có thể tạo ra các hệ thống bắt chước chức năng của các hệ thống khác khi chúng nhận được nhiều trợ giúp: Các hệ thống AI được thử nghiệm ở đây được yêu cầu sao chép các chương trình tạo ra đầu ra chuẩn (và do đó có thể tạo ra một thông số kỹ thuật một cách tự nhiên), có thể có một số trường hợp ghi nhớ các chương trình cơ bản và điều này chỉ bao gồm một phần trong vũ trụ rộng lớn của các dự án phần mềm tiềm năng.
Tại sao điều này lại quan trọng - đối với một số nhiệm vụ, AI đã hoạt động tốt như một nhân viên phức tạp toàn thời gian: Hãy tưởng tượng bạn đưa cho một lập trình viên phần mềm tài năng giao diện CLI cho một chương trình phức tạp và yêu cầu họ viết chương trình cơ bản mà không cần xem mã nguồn của nó. Tôi cá rằng chỉ một phần nhỏ trong số họ có thể làm được điều đó nếu chương trình khá phức tạp. Và những người có thể sẽ mất nhiều ngày để làm việc đó. Việc AI có thể thực hiện nhiệm vụ này một cách tự động là điều đáng chú ý và là minh chứng cho kỹ năng của những mô hình này.
Đọc thêm: MirrorCode: Bằng chứng cho thấy AI đã có thể thực hiện một số tác vụ mã hóa kéo dài hàng tuần (Epoch AI).
***
Cần có chính sách gì để ứng phó với AI biến đổi? Đây là Atlas để giúp bạn điều hướng chúng:
…Công cụ hữu ích giúp xem xét các phản ứng chính sách khác nhau đối với cuộc cách mạng AI một cách trực quan…
Windfall Trust, một công cụ tăng tốc chính sách chuyên giải quyết các thách thức đối với xã hội do AI biến đổi đặt ra, đã xuất bản “Bản đồ chính sách Windfall” để giúp khám phá các đề xuất chính sách khác nhau “ứng phó với sự gián đoạn kinh tế do AI biến đổi” trở nên trực quan hơn.
Những loại ý tưởng có trong đó? Cuốn atlas chứa 48 ý tưởng riêng biệt, không có ý tưởng nào đặc biệt mới lạ. Điều hữu ích là chia chúng thành năm loại riêng biệt (đầu tư công và xã hội, thích ứng với thị trường lao động, nắm bắt tài sản, quy định và thiết kế thị trường cũng như phối hợp toàn cầu), sau đó nhóm chúng thành một giao diện có thể điều hướng giúp bạn khám phá chúng. Ví dụ, giải pháp “dài hạn” cho lao động có thể rút ngắn số tuần làm việc, trong khi giải pháp trung hạn có thể là các chương trình đào tạo và đào tạo lại lực lượng lao động.
Tại sao điều này lại quan trọng - xây dựng trực giác cho thế giới sắp tới: Khi cuộc cách mạng AI diễn ra, điều quan trọng là chúng ta phải tìm cách giúp mọi người phát triển trực giác tốt hơn về tất cả các đòn bẩy chính sách mà chúng ta có thể chọn để ứng phó với nó. Các công cụ như Atlas này giúp tạo ra một tập hợp các lựa chọn phức tạp, đa diện dễ dàng hình dung và điều hướng hơn.
Đọc thêm: Bản đồ chính sách về gió (trang web của Windfall Trust).
***
Làm thế nào mọi người có thể phá vỡ các tác nhân AI? Dưới đây là sáu thể loại tấn công:
…Thế giới của các tác nhân AI sẽ khó bảo mật hơn các hệ thống AI…
Tôi có một đứa con nhỏ. Bé có thể hiểu được tiếng Anh. Trẻ mới biết đi được an toàn khi ở bên tôi, mẹ của chúng và những người khác biết rõ về chúng, nhưng tôi sẽ rất lo lắng về việc cho một người lạ “tiếp cận không hạn chế” với trẻ mới biết đi của mình - đó là vì trẻ mới biết đi của tôi cực kỳ cả tin, sẽ (đôi khi) làm theo những hướng dẫn nguy hiểm và nói chung là thiếu nhiều ý thức tự bảo vệ.
Các đặc vụ AI khá giống những đứa trẻ mới biết đi - chúng có trí thông minh mạnh mẽ, nhưng nếu bạn đặt chúng vào tình trạng hỗn độn của thế giới thì chúng có thể mắc rất nhiều lỗi, đặc biệt nếu những người lạ đang tích cực cố gắng đánh lừa hoặc tấn công chúng.
Một bài báo mới của Google DeepMind đưa ra sáu loại tấn công có thể được thực hiện để chống lại các tác nhân AI và cố gắng đưa ra một số biện pháp giảm nhẹ mà chúng tôi có thể thực hiện.
Sáu thể loại tấn công:
Chèn nội dung: Nhúng các lệnh vào CSS, HTML hoặc siêu dữ liệu khác. Phát hiện các tác nhân và tiêm thông tin không được cung cấp cho con người. Thêm hướng dẫn đối nghịch vào dữ liệu nhị phân của tệp phương tiện (ví dụ: mảng pixel). Sử dụng cú pháp định dạng để che giấu tải trọng.
Mục tiêu: Nhận thức
Thao tác ngữ nghĩa: Làm bão hòa nội dung bằng ngôn ngữ đầy tình cảm hoặc có thẩm quyền để gây nhầm lẫn cho tác nhân. Đưa các hướng dẫn độc hại vào mục giáo dục hoặc các khung giả định hoặc nhóm màu đỏ (ví dụ: 'm
Nguồn tin: Import AI Newsletter — Tác giả: Jack Clark. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.