Bỏ qua tới nội dung chính
Quay lại tin tức

Reality: The Final Eval — Lukas Petersson và Axel Backlund của Andon Labs

Latent Space· 4/6/2026models

Trang web AIEWF mới đã hoạt động. Hãy đặt vé ngay lập tức vì vé sẽ hết. Tham gia Khảo sát Kỹ thuật AI và nhận hơn 2.000 USD tín dụng cùng vé AIE WF miễn phí. Hầu hết các tiêu chuẩn ngành nén khả năng thông minh và suy luận thành điểm số. SWE-Bench Pro, MMLU, Humanity’s Last Exam, v.v. Các chỉ số này hữu ích, nhưng không phải lúc nào cũng thể hiện đầy đủ mức độ hoạt động của một mô hình trong thế giới thực. Một số đánh giá thú vị nhất hiện nay ít giống các kỳ thi mà giống việc vận hành các doanh nghiệp trong thế giới thực hơn. Một trong số đó là Vending Bench. Trong Mythos Previ của Anthropic

Trang web AIEWF mới đã hoạt động! Hãy đặt vé ngay lập tức vì vé sẽ hết. Tham gia Khảo sát Kỹ thuật AI và nhận hơn 2.000 USD tín dụng cùng vé AIE WF miễn phí! Hầu hết các tiêu chuẩn ngành nén khả năng thông minh và suy luận thành các điểm số. SWE-Bench Pro, MMLU, Humanity’s Last Exam, v.v. Các chỉ số này hữu ích, nhưng không phải lúc nào cũng thể hiện đầy đủ mức độ hoạt động của một mô hình trong thế giới thực. Một số đánh giá thú vị nhất hiện nay ít giống các bài kiểm tra mà giống việc vận hành doanh nghiệp trong thế giới thực hơn. Một trong số đó là Vending Bench. Trong Thẻ hệ thống xem trước Mythos của Anthropic, Andon là đánh giá của bên thứ ba duy nhất có phần riêng, quan sát hành vi hung hăng ngày càng đáng lo ngại: Bạn không biết một mô hình có khả năng làm gì trong thế giới thực trừ khi bạn thực sự cung cấp cho nó hàng tồn kho, ví tiền, công cụ, khách hàng, đối thủ cạnh tranh, con người và một khoảng thời gian. Thông thường, bạn sẽ ngạc nhiên về khả năng của một mô hình và khi làm như vậy, nó cũng sẽ tiết lộ những hành vi bất ngờ: lừa dối, sụp đổ ngữ cảnh, phối hợp khẩn cấp và hành vi đàm phán kỳ lạ. Trong khi một bước ngoặt trong các tác nhân cá nhân đến sau OpenClaw khi quyền truy cập tệp đầy đủ với quyền bỏ qua trở thành tiêu chuẩn, thì điều đó vẫn chưa đến với các tác nhân trong thế giới thực. Tuy nhiên, Andon Market, một cửa hàng thực tế được AI vận hành và quản lý hoàn toàn, đang mở đường cho những gì có thể. Video đầy đủ Pod Từ việc Claude cố gắng gọi FBI về khoản phí máy bán hàng tự động 2 USD/ngày đến các tác nhân AI thành lập các cartel giá, thuê nhân viên con người, điều hành các cửa hàng vật lý và viết nhạc kịch robot hiện sinh, Andon Labs đang kiểm tra những gì xảy ra khi các mô hình tiên tiến không còn là chatbot và bắt đầu hoạt động trong thế giới thực. Trong tập này, các đồng sáng lập Andon Labs Lukas Petersson và Axel Backlund cùng với swyx và Vibhu giải thích những trường hợp kỳ lạ, hài hước và thực sự đáng lo ngại xuất hiện khi các tác nhân điều hành doanh nghiệp trong thời gian dài. Chúng tôi đi sâu vào Vending-Bench, Project Vend, Vending-Bench Arena, Bengt, Butter-Bench, Luna và sứ mệnh rộng lớn hơn của Andon là xây dựng các đánh giá thực tế trong thế giới thực cho các hệ thống AI tự trị. Lukas và Axel giải thích lý do tại sao các đánh giá bằng đô la tiết lộ những điều mà các tiêu chuẩn truyền thống bỏ lỡ, cách Claude báo cáo phí máy bán hàng tự động của mình là tội phạm mạng, tại sao các cửa sổ ngữ cảnh dài có thể đẩy các tác nhân vào vòng lặp sụp đổ, điều gì xảy ra khi các tác nhân cạnh tranh với nhau và tại sao tương lai của an toàn AI có thể phụ thuộc vào việc thử nghiệm các mô hình trong môi trường vật lý lộn xộn thay vì các hộp cát tiêu chuẩn sạch sẽ. Chúng tôi thảo luận: Tại sao Andon Labs bắt đầu với các đánh giá khả năng nguy hiểm và các tác nhân hoạt động lâu dài Vending-Bench và lý do tại sao việc vận hành máy bán hàng tự động là một tiêu chuẩn AI khó một cách lừa dối Tại sao các đánh giá dựa trên tiền tránh được vấn đề bão hòa của các tiêu chuẩn truyền thống Cách Claude cố gắng gọi FBI về khoản phí 2 USD/ngày Tại sao các tác nhân có tầm nhìn dài hạn có thể rơi vào tình trạng sụp đổ hiện sinh và pháp lý Project Vend: đặt một máy bán hàng tự động do AI điều hành bên trong Anthropic Tại sao con người thực là "ngoài phân phối" đối với các tác nhân mô phỏng Claudius, Seymour Cash và sự hỗn loạn của các CEO AI Cách một con người trở thành CEO của Claudius trong một thời gian ngắn thông qua một cuộc bầu cử bị thao túng Tại sao các hệ thống đa tác nhân có thể hội tụ trở lại hành vi "trợ lý hữu ích" Bengt, tác nhân văn phòng nội bộ của Andon với quyền truy cập email, chi tiêu, thiết bị đầu cuối, điện thoại, máy ảnh và internet Cách Bengt trao đổi các giao dịch mua trên Amazon để lấy dữ liệu đào tạo nhận dạng khuôn mặt Hành vi hung hăng, nói dối, trốn tránh hoàn tiền và thông đồng giá của Claude trong Arena Tại sao nhận thức đánh giá có thể trở thành phiên bản AI của câu hỏi "chúng ta có đang sống trong một mô phỏng không?" Blueprint Bench, trí thông minh không gian và lý do các mô hình vẫn hiểu sai về các căn phòng vật lý Butter-Bench và thử nghiệm các LLM (mô hình ngôn ngữ lớn) với vai trò điều phối robot Luna, cửa hàng vật lý do AI điều hành với hợp đồng thuê ba năm và nhân viên là con người Quán cà phê Andon mới ở Thụy Điển và lý do địa lý thế giới thực quan trọng đối với các đánh giá tác nhân Cà chua thối, hàng hóa dễ hỏng và khó khăn tiềm ẩn khi điều hành một doanh nghiệp vật lý Lukas Petersson LinkedIn: https://www.linkedin.com/in/lukas-petersson-181a83172/ X: https://x.com/lukaspet Axel Backlund LinkedIn: https://www.linkedin.com/in/axelbacklund X: https://x.com/axelbacklund Andon Labs Trang web: https://andonlabs.com Vending-Bench: https://andonlabs.com/evals/vending-bench Andon Vending: https://andonlabs.com/vending Dấu thời gian 00:00:00 Giới thiệu 00:01:00 Andon Labs và nguồn gốc của Vending-Bench 00:05:21 Tại sao các đánh giá dựa trên tiền bạc lại quan trọng 00:09:51 Agent Harnesses và các hệ thống tự sửa đổi 00:13:36 Claude gọi FBI 00:16:33 Dự án Vend: Claude điều hành một máy bán hàng tự động thực sự 00:21:44 Seymour Cash, CEO AI và sự hỗn loạn bầu cử 00:27:16 Phối hợp đa tác nhân và khả năng quan sát Slack 00:30:18 Khi nào các tác nhân sẽ điều hành các doanh nghiệp thực sự? 00:34:56 Bengt: Tác nhân văn phòng nội bộ của Andon 00:40:06 An toàn AI trong thế giới thực và các dấu vết dài hạn 00:44:28 Nói dối, hoàn tiền và thông đồng giá trong Arena 00:52:42 Nhận thức đánh giá và hành vi mô phỏng 00:56:06 Blueprint Bench, Butter-Bench và Robotics 01:04:37 Luna: Cửa hàng vật lý do AI điều hành 01:09:29 Quán cà phê Thụy Điển và mở rộng trong thế giới thực 01:13:16 Điều gì tiếp theo cho Andon Labs Bản ghi Giới thiệu: Andon Labs, các tác nhân hoạt động lâu dài và các đánh giá trong thế giới thực Swyx [00:00:00]: Chào mừng Lukas và Axel từ Andon Labs, và tôi được tham gia bởi người dẫn chương trình khách mời yêu thích của tôi. Bất cứ điều gì về an ninh, an toàn, sự phù hợp, Vibhu., chào mừng. Lukas [00:00:15]: Cảm ơn vì đã mời chúng tôi. Axel [00:00:16]: Cảm ơn. Swyx [00:00:17]: Hãy ghép tên với giọng nói., có lẽ các bạn muốn lần lượt giới thiệu bản thân. Lukas [00:00:21]: Tôi là Lukas. Axel [00:00:22]: Và tôi là Axel. Swyx [00:00:24]: Hãy giới thiệu một chút về Andon Labs. Các bạn đã đến với nhau như thế nào?, các bạn có những nền tảng khác nhau, nhưng cả hai đều là người Thụy Điển., đó có phải là một phần lớn trong đó không? Lukas [00:00:33]: Khi tôi học cấp ba, có một người rất tuyệt vời đã có một...

Nguồn tin: Latent Space. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.