Bỏ qua tới nội dung chính
Quay lại tin tức

Các nhà nghiên cứu đã để Claude Code khám phá các thuật toán mở rộng quy mô AI mà con người có lẽ đã không thiết kế.

The Decoder· Jonathan Kemper· 24/5/2026general

Các nhà nghiên cứu từ UMD, Google, Meta và các tổ chức khác đã sử dụng AutoTTS để cho phép một tác nhân mã hóa tự động khám phá các thuật toán điều khiển cho suy luận AI. Thuật toán được tìm thấy đã cắt giảm khoảng 70% điện toán so với phương pháp tự nhất quán tiêu chuẩn, đồng thời vẫn duy trì độ chính xác tương đương. Toàn bộ quá trình tìm kiếm tiêu tốn 40 USD và mất 160 phút. Bài viết "Các nhà nghiên cứu đã để Claude Code khám phá các thuật toán mở rộng quy mô AI mà con người có lẽ sẽ không thiết kế" lần đầu tiên xuất hiện trên The Decoder.

Nghiên cứu AI Sao chép URL vào khay nhớ tạm Chia sẻ bài viết này Đến phần bình luận Các nhà nghiên cứu đã để Claude Code khám phá các thuật toán mở rộng quy mô AI mà con người có thể sẽ không thiết kế Jonathan Kemper Xem hồ sơ LinkedIn của Jonathan Kemper Ngày 24/5/2026 Nano Banana Pro được THE DECODER gợi ý Thay vì tự viết các quy tắc để suy luận AI hiệu quả hơn, các nhà nghiên cứu đã để một tác nhân mã hóa tìm kiếm các thuật toán kiểm soát tốt hơn trong một môi trường mô phỏng. Kết quả này vượt trội so với các phương pháp đã có trong khi tiêu tốn ít tài nguyên tính toán hơn nhiều. Mở rộng quy mô thời gian thử nghiệm (TTS) nhằm mục đích làm cho các mô hình ngôn ngữ lớn hoạt động tốt hơn bằng cách cho phép chúng dành nhiều tài nguyên tính toán hơn cho một phản hồi, ví dụ, bằng cách chạy song song nhiều đường dẫn giải pháp hoặc mở rộng chuỗi suy nghĩ. Cho đến nay, các quy tắc do con người viết gần như luôn quyết định khi nào một mô hình bắt đầu một đường dẫn giải pháp mới, tập trung vào một đường dẫn đầy hứa hẹn hoặc loại bỏ nó. Một nhóm nghiên cứu từ UMD, UVA, WUSTL, UNC, Google và Meta đã thay đổi điều đó với AutoTTS. Con người không viết thuật toán. Thay vào đó, họ xây dựng sân chơi nơi một tác nhân AI tự tìm ra các thuật toán. Bài báo lập luận rằng nhiều phương pháp đã biết thực chất chỉ là các trường hợp đặc biệt trong một không gian kiểm soát chung được xác định bởi chiều rộng (số lượng đường dẫn giải pháp chạy cùng lúc) và chiều sâu (mỗi đường dẫn đi được bao xa). Vậy tại sao, các tác giả đặt câu hỏi, các nhà nghiên cứu vẫn tiếp tục vạch ra các đường dẫn trong không gian này bằng tay thay vì để máy móc tìm kiếm? Mô phỏng quá trình tìm kiếm giúp giảm chi phí Cốt lõi của AutoTTS là một môi trường ngoại tuyến. Đối với mỗi tác vụ, nhóm nghiên cứu tạo trước một số đường dẫn giải pháp từ mô hình ngôn ngữ và lưu trữ chúng. Một thuật toán kiểm soát mới quyết định cách sử dụng tài nguyên tính toán dựa trên dữ liệu đã có. Bằng cách đó, hàng nghìn biến thể có thể chạy mà không cần khởi động mô hình ngôn ngữ thực tế mỗi lần. AutoTTS chuyển vai trò của con người từ thiết kế thuật toán sang thiết kế môi trường: thay vì xác định các quy tắc phân nhánh, cắt tỉa và dừng, các nhà nghiên cứu xác định các trạng thái, hành động và phản hồi. Sau đó, một tác nhân tự tìm kiếm bộ điều khiển trong môi trường đó. | Hình ảnh: Zheng và cộng sự. Claude Code thực hiện việc tìm kiếm. Qua nhiều vòng, tác nhân xem xét những gì đã có trước đó, phát hiện ra những điểm yếu trong các đề xuất trước đó và viết một thuật toán kiểm soát mới trực tiếp bằng mã. Để ngăn quá trình tìm kiếm bị lạc trong hàng nghìn nút điều khiển nhỏ, mỗi đề xuất chỉ có thể hiển thị một bộ điều khiển cấp cao ra bên ngoài. Bộ điều khiển đó tự đặt tất cả các ngưỡng khác. Nhật ký đầy đủ từ mỗi lần chạy cũng cho tác nhân biết những nỗ lực trước đó đã tiêu tốn tài nguyên tính toán một cách vô ích ở đâu. Nhiều phương pháp mở rộng quy mô thời gian thử nghiệm đã được thiết lập ánh xạ tới các đường dẫn khác nhau thông qua cùng một không gian kiểm soát về chiều rộng và chiều sâu. AutoTTS tìm kiếm các đường dẫn mới chính xác trong không gian này. | Hình ảnh: Zheng và cộng sự. Thuật toán do tác nhân viết vượt trội so với các thuật toán do con người thiết kế Trên các điểm chuẩn toán học như AIME và HMMT, thuật toán mà tác nhân đưa ra đạt được độ chính xác tốt hơn trên mỗi đơn vị tính toán so với các phương pháp đã có. Cài đặt tinh gọn này cắt giảm việc sử dụng token khoảng 70% so với tính nhất quán tự động tiêu chuẩn, chỉ tạo ra 64 câu trả lời song song và chọn người chiến thắng bằng cách bỏ phiếu đa số. Độ chính xác vẫn ổn định. Thuật toán cũng được áp dụng cho một mô hình khác (DeepSeek-R1-Distill-Llama-8B) và một điểm chuẩn không phải toán học (GPQA-Diamond). Toàn bộ quá trình khám phá tốn khoảng 40 USD và mất 160 phút. Trên bốn kích cỡ mô hình và hai tiêu chuẩn toán học, thuật toán AutoTTS được tìm thấy mang lại độ chính xác tốt hơn hoặc tương đương với mức sử dụng token thấp hơn so với các phương pháp thủ công. | Hình ảnh: Zheng et al. Một logic mà con người có lẽ sẽ không nghĩ ra Điều thú vị hơn những con số thô là cách chương trình được phát hiện thực sự hoạt động. Nó theo dõi cách độ tin cậy của mô hình thay đổi qua nhiều vòng. Các phương pháp khác sẽ dừng lại ngay khi đa số câu trả lời nghiêng về một phía. Nếu độ tin cậy hầu như không thay đổi, thuật toán sẽ mở thêm các đường dẫn giải pháp. Nếu nó tăng nhanh, nó sẽ bỏ qua các đường dẫn mới. Các đường dẫn giải pháp có kết quả tạm thời phù hợp với đa số hiện tại sẽ nhận được thêm tính toán. Thuật toán chỉ loại bỏ các đường dẫn bị phân kỳ nếu chúng tiếp tục đi sai hướng qua nhiều vòng. Các tác giả gọi loại phối hợp này là điều gần như không thể thiết kế thủ công. Một nghiên cứu cắt bỏ cho thấy mức độ phụ thuộc vào hai lựa chọn thiết kế: loại bỏ bộ điều khiển cấp cao duy nhất, và tác nhân sẽ quay trở lại các lối tắt cực đoan giúp tiết kiệm rất nhiều tính toán trong thử nghiệm nhưng làm giảm độ chính xác trên các tác vụ mới. Nếu không có nhật ký chi tiết, thuật toán được phát hiện sẽ tiêu tốn nhiều tính toán hơn với độ chính xác kém hơn, vì vậy một kết quả cuối cùng đơn thuần là không đủ để tìm ra điều gì đã sai. Từ viết thuật toán đến xây dựng không gian tìm kiếm Các tác giả đặt AutoTTS cùng hàng với các công trình như FunSearch, AlphaEvolve và ADAS, tất cả đều sử dụng các mô hình ngôn ngữ làm công cụ tìm kiếm chương trình. Điều mới ở đây là áp dụng ý tưởng đó vào việc mở rộng quy mô thời gian thử nghiệm, vốn chủ yếu được thực hiện thủ công trước đây. Phiên bản hiện tại chỉ bao gồm sự đánh đổi giữa chiều rộng và chiều sâu. Nó không thể xử lý các cấu trúc phức tạp hơn như tìm kiếm cây. Mức độ tốt của khám phá cũng phụ thuộc vào tác nhân mã hóa. Các tác giả không nói liệu các lựa chọn thay thế mã nguồn mở có hoạt động tốt tương tự hay không. Bài học lớn hơn là công việc này thay đổi vai trò của con người: thay vì tự mình phát minh ra các quy tắc, các nhà nghiên cứu thiết lập môi trường tìm kiếm mà các quy tắc đó tồn tại. Chiến lược thực tế sau đó xuất hiện dưới dạng mã mà một mô hình ngôn ngữ viết và tinh chỉnh. Ngay từ năm 2024, các nhà nghiên cứu từ Hugging Face đã chỉ ra rằng các mô hình ngôn ngữ nhỏ có thể sánh ngang với các mô hình lớn hơn nhiều thông qua việc mở rộng quy mô tính toán thời gian thử nghiệm thông minh, mặc dù với các chiến lược tìm kiếm được thiết kế thủ công. Meta và các đối tác gần đây đã giới thiệu hyperagents, các hệ thống AI tự tối ưu hóa quá trình cải tiến của chính chúng. Tin tức AI không cường điệu – Được tuyển chọn bởi con người Đăng ký THE DECODER để đọc không quảng cáo, nhận bản tin AI hàng tuần, báo cáo biên giới "AI Radar" độc quyền của chúng tôi sáu lần.

Nguồn tin: The Decoder — Tác giả: Jonathan Kemper. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.