Các tác nhân AI của Google có thực sự xây dựng một hệ điều hành…

Bởi Stephan Rabanser, Sayash Kapoor, Rishi Bommasani, Andrew Schwartz, Arvind Narayanan Tại hội nghị nhà phát triển của Google vào đầu tuần này, công ty đã ra mắt mô hình mới nhất của mình, Gemini 3.5 Flash, cùng với một ứng dụng tác nhân (agent app) mới, Antigravity 2.0. Để giới thiệu khả năng của thiết lập tác nhân mới này, Google tuyên bố rằng một nhóm tác nhân đã xây dựng toàn bộ một hệ điều hành. Nỗ lực này được cho là chỉ yêu cầu một lời nhắc duy nhất, tiêu tốn khoảng 900 USD phí API và được thực hiện bởi vài chục tác nhân phụ (subagents) làm việc cùng nhau. Điều này có nghĩa là các phần mềm phức tạp giờ đây có thể được xây dựng với chi phí thấp bởi AI không?

Theo Stephan Rabanser, Sayash Kapoor, Rishi Bommasani, Andrew Schwartz, Arvind Narayanan Tại hội nghị nhà phát triển của Google vào đầu tuần này, công ty đã ra mắt mô hình mới nhất của mình, Gemini 3.5 Flash, cùng với một ứng dụng tác nhân mới, Antigravity 2.0. Để giới thiệu khả năng của thiết lập tác nhân mới này, Google tuyên bố rằng một nhóm tác nhân đã xây dựng toàn bộ một hệ điều hành. Nỗ lực này được cho là chỉ yêu cầu một lời nhắc duy nhất, tiêu tốn khoảng 900 USD phí API và được thực hiện bởi vài chục tác nhân phụ làm việc cùng nhau. Điều này có nghĩa là các phần mềm phức tạp giờ đây có thể được AI xây dựng với chi phí thấp? Không nhanh đến vậy: Tuyên bố "một lời nhắc duy nhất" là gây hiểu lầm. Bài đăng trên blog nói rằng hệ điều hành được xây dựng từ một lời nhắc duy nhất. Nhưng giữa chừng bài đăng, Google tiết lộ rằng lời nhắc "cuối cùng dài hàng nghìn dòng". Cần bao nhiêu lần thử để tạo ra lời nhắc đó? Các hướng dẫn cho tác nhân cụ thể đến mức nào? Nếu không có những chi tiết quan trọng này, rất khó để biết liệu bí quyết thành công là một mô hình tốt hơn hay chỉ là nỗ lực nhiều hơn trong việc tạo lời nhắc cho mô hình. Hơn nữa, quá trình chạy được thực hiện trên một scaffold (khung) với các vai trò chuyên biệt, ủy quyền cho các tác nhân phụ và một tác nhân để phát hiện và ngăn chặn gian lận. Trong bài đăng ra mắt, Google coi scaffold là một tính năng sản phẩm. Nhưng chúng ta không biết liệu scaffold có được điều chỉnh quá mức cho nhiệm vụ xây dựng hệ điều hành từ đầu này hay không, hoặc liệu nó có hoạt động tốt trên các nhiệm vụ kỹ thuật phần mềm phức tạp khác hay không. Bài viết của Google không rõ ràng về những gì được coi là sự can thiệp của con người. Bài đăng đề cập rằng lần chạy cuối cùng để phát triển hệ điều hành không yêu cầu "hướng dẫn hoặc chỉnh sửa bổ sung nào từ con người". Nhưng nó không định nghĩa tiêu chuẩn đó. Nó mô tả cơ sở hạ tầng để tiêu diệt và khởi động lại các tác nhân bị kẹt. Bài đăng đề cập đến một lần chạy trước đó trong đó các tác nhân dường như gian lận, sau đó nhóm đã thêm các biện pháp chống gian lận và chạy lại nhiệm vụ. Nhưng nó không báo cáo các lần chạy thử như một phần của phương pháp luận. Nó cũng không nói rõ liệu có tác nhân nào đã leo thang lên con người hay không, liệu lần chạy cuối cùng có yêu cầu bất kỳ lần khởi động lại, phê duyệt hoặc sửa chữa thủ công nào hay không, hoặc cần bao nhiêu lần thử lại cho đến khi tác nhân thành công. Bài viết không báo cáo bất kỳ nỗ lực nào để phân tích xem các tác nhân đã viết mã từ đầu hay sao chép mã hiện có từ internet. Công bằng mà nói với Google, bài đăng trên blog lưu ý rằng các hệ điều hành đồ chơi là các dự án khóa học đại học phổ biến và các triển khai công khai rất dễ tìm thấy. Bản thân bài đăng đã nêu lên mối lo ngại rằng tác nhân có thể đã lặp lại thông tin thay vì xây dựng hệ điều hành từ đầu. Nhưng nó không giải quyết mối lo ngại này – không có phân tích tương đồng hoặc phân tích nhật ký để kiểm tra xem tác nhân có sao chép mã hiện có hay không. Ngay cả khi không có sao chép trực tiếp, việc viết một hệ điều hành có thể tương đối dễ dàng đối với các tác nhân vì các mẫu được ghi nhớ trong dữ liệu đào tạo, vì vậy điều này không cho chúng ta biết nhiều về khả năng của các tác nhân trong việc tạo ra các phần mềm mới lạ. Google chưa công bố lời nhắc (prompt) dài, mã (code) mà các tác nhân (agent) đã viết, hoặc nhật ký (log) từ quá trình chạy, điều này khiến việc đánh giá độc lập các tuyên bố trở nên bất khả thi. Việc công bố mã nguồn hoặc nhật ký tác nhân có thể cho phép các nhà nghiên cứu độc lập đánh giá chất lượng của các tạo phẩm và trả lời các câu hỏi như liệu tác nhân có sao chép mã hiện có hay không. Bài đăng trên blog chỉ bao gồm một video ngắn ghi lại một khoảnh khắc của tiến độ phát triển và câu chuyện tổng thể của thí nghiệm. Mặt khác, bài đăng trên blog có báo cáo chính xác số tiền để xây dựng hệ điều hành (916,92 USD), cùng với tổng ngân sách token (tổng cộng 2,6 tỷ token). Những số liệu này cung cấp bối cảnh hữu ích, điều mà chúng tôi muốn ghi nhận Google. Nhiều đánh giá mà chúng tôi đã khảo sát trước đây không tiết lộ chi phí, điều này khiến các tuyên bố chính của họ khó so sánh với các đánh giá khác. Tuy nhiên, bài đăng trên blog của Google thực chất là một thông cáo báo chí. Chúng tôi nhận thấy rằng việc mong đợi nó có tính khoa học nghiêm ngặt là không thực tế. Các đánh giá như thế này, tức là một nhiệm vụ thực tế dài hạn được đánh giá trên một lần chạy duy nhất với người thử nghiệm tường thuật những gì tác nhân đã làm, đã trở nên phổ biến. Vì nhiều trong số đó được thực hiện bởi các công ty AI, nên dễ dàng bác bỏ toàn bộ thể loại này là sự thổi phồng. Nhưng đó sẽ là một sai lầm. Chúng tôi gọi mô hình mới nổi này là các đánh giá thế giới mở, và chúng tôi nhận ra xu hướng này trong một bài báo gần đây (và một bài đăng trên blog đi kèm). Điều quan trọng là, chúng tôi lập luận rằng các đánh giá thế giới mở đòi hỏi một bộ quy tắc phương pháp luận mới. Nếu được thực hiện đúng, chúng có thể cung cấp một góc nhìn có giá trị mà đánh giá dựa trên tiêu chuẩn (benchmark) không thể có được. Thí nghiệm của Google bổ sung vào bằng chứng ngày càng tăng rằng các tác nhân hoặc nhóm tác nhân có thể tự động hoặc gần như tự động thực hiện một số loại nhiệm vụ trong thời gian rất dài, đạt được tiến bộ mà không bị mắc kẹt hoặc bối rối. Như chúng tôi lập luận trong bài báo của mình, việc đánh giá tiêu chuẩn thực sự là không thể đối với loại nhiệm vụ này vì nhiều lý do bao gồm chi phí. Vì vậy, đây là thời điểm thú vị để các nhà đánh giá độc lập từ giới học thuật, các tổ chức phi lợi nhuận và chính phủ tham gia và cung cấp loại sự chặt chẽ và đáng tin cậy cho các đánh giá thế giới mở mà khó có thể tìm thấy trong các tuyên bố của các nhà cung cấp AI. 1 Một giàn giáo (scaffold) là lớp mã, lời nhắc và công cụ được xây dựng xung quanh một mô hình AI, giúp nó có khả năng hoạt động tự chủ, xử lý các vấn đề như bộ nhớ, truy cập công cụ và khả năng tương tác với môi trường của nó. Ví dụ, Claude Code là giàn giáo cho phép các mô hình Claude của Anthropic hoạt động như các tác nhân mã hóa.

Các tác nhân AI của Google có thực sự xây dựng một hệ điều hành với chi phí 916 USD không?