Reality: The Final Eval — Lukas Petersson và Axel Backlund của Andon Labs
Trang web AIEWF mới đã hoạt động. Hãy đặt vé ngay lập tức vì vé sẽ hết. Tham gia Khảo sát Kỹ thuật AI và nhận hơn 2.000 USD tín dụng cùng vé AIE WF miễn phí. Hầu hết các tiêu chuẩn ngành nén khả năng thông minh và suy luận thành điểm số. SWE-Bench Pro, MMLU, Humanity’s Last Exam, v.v. Các chỉ số này hữu ích, nhưng không phải lúc nào cũng thể hiện đầy đủ mức độ hoạt động của một mô hình trong thế giới thực. Một số đánh giá thú vị nhất hiện nay ít giống các kỳ thi mà giống việc vận hành các doanh nghiệp trong thế giới thực hơn. Một trong số đó là Vending Bench. Trong Mythos Previ của Anthropic
Trang web AIEWF mới đã hoạt động! Hãy đặt vé ngay lập tức vì vé sẽ hết. Tham gia Khảo sát Kỹ thuật AI và nhận hơn 2.000 USD tín dụng cùng vé AIE WF miễn phí!
Hầu hết các tiêu chuẩn ngành nén khả năng thông minh và suy luận thành các điểm số.
SWE-Bench Pro, MMLU, Humanity’s Last Exam, v.v. Các chỉ số này hữu ích, nhưng không phải lúc nào cũng thể hiện đầy đủ mức độ hoạt động của một mô hình trong thế giới thực. Một số đánh giá thú vị nhất hiện nay ít giống các bài kiểm tra mà giống việc vận hành doanh nghiệp trong thế giới thực hơn. Một trong số đó là Vending Bench.
Trong Thẻ hệ thống xem trước Mythos của Anthropic, Andon là đánh giá của bên thứ ba duy nhất có phần riêng, quan sát hành vi hung hăng ngày càng đáng lo ngại:
Bạn không biết một mô hình có khả năng làm gì trong thế giới thực trừ khi bạn thực sự cung cấp cho nó hàng tồn kho, ví tiền, công cụ, khách hàng, đối thủ cạnh tranh, con người và một khoảng thời gian. Thông thường, bạn sẽ ngạc nhiên về khả năng của một mô hình và khi làm như vậy, nó cũng sẽ tiết lộ những hành vi bất ngờ: lừa dối, sụp đổ ngữ cảnh, phối hợp khẩn cấp và hành vi đàm phán kỳ lạ.
Trong khi một bước ngoặt trong các tác nhân cá nhân đến sau OpenClaw khi quyền truy cập tệp đầy đủ với quyền bỏ qua trở thành tiêu chuẩn, thì điều đó vẫn chưa đến với các tác nhân trong thế giới thực. Tuy nhiên, Andon Market, một cửa hàng thực tế được AI vận hành và quản lý hoàn toàn, đang mở đường cho những gì có thể.
Video đầy đủ Pod
Từ việc Claude cố gắng gọi FBI về khoản phí máy bán hàng tự động 2 USD/ngày đến các tác nhân AI thành lập các cartel giá, thuê nhân viên con người, điều hành các cửa hàng vật lý và viết nhạc kịch robot hiện sinh, Andon Labs đang kiểm tra những gì xảy ra khi các mô hình tiên tiến không còn là chatbot và bắt đầu hoạt động trong thế giới thực. Trong tập này, các đồng sáng lập Andon Labs Lukas Petersson và Axel Backlund cùng với swyx và Vibhu giải thích những trường hợp kỳ lạ, hài hước và thực sự đáng lo ngại xuất hiện khi các tác nhân điều hành doanh nghiệp trong thời gian dài.
Chúng tôi đi sâu vào Vending-Bench, Project Vend, Vending-Bench Arena, Bengt, Butter-Bench, Luna và sứ mệnh rộng lớn hơn của Andon là xây dựng các đánh giá thực tế trong thế giới thực cho các hệ thống AI tự trị. Lukas và Axel giải thích lý do tại sao các đánh giá bằng đô la tiết lộ những điều mà các tiêu chuẩn truyền thống bỏ lỡ, cách Claude báo cáo phí máy bán hàng tự động của mình là tội phạm mạng, tại sao các cửa sổ ngữ cảnh dài có thể đẩy các tác nhân vào vòng lặp sụp đổ, điều gì xảy ra khi các tác nhân cạnh tranh với nhau và tại sao tương lai của an toàn AI có thể phụ thuộc vào việc thử nghiệm các mô hình trong môi trường vật lý lộn xộn thay vì các hộp cát tiêu chuẩn sạch sẽ.
Chúng tôi thảo luận:
Tại sao Andon Labs bắt đầu với các đánh giá khả năng nguy hiểm và các tác nhân hoạt động lâu dài
Vending-Bench và lý do tại sao việc vận hành máy bán hàng tự động là một tiêu chuẩn AI khó một cách lừa dối
Tại sao các đánh giá dựa trên tiền tránh được vấn đề bão hòa của các tiêu chuẩn truyền thống
Cách Claude cố gắng gọi FBI về khoản phí 2 USD/ngày
Tại sao các tác nhân có tầm nhìn dài hạn có thể rơi vào tình trạng sụp đổ hiện sinh và pháp lý
Project Vend: đặt một máy bán hàng tự động do AI điều hành bên trong Anthropic
Tại sao con người thực là "ngoài phân phối" đối với các tác nhân mô phỏng
Claudius, Seymour Cash và sự hỗn loạn của các CEO AI
Cách một con người trở thành CEO của Claudius trong một thời gian ngắn thông qua một cuộc bầu cử bị thao túng
Tại sao các hệ thống đa tác nhân có thể hội tụ trở lại hành vi "trợ lý hữu ích"
Bengt, tác nhân văn phòng nội bộ của Andon với quyền truy cập email, chi tiêu, thiết bị đầu cuối, điện thoại, máy ảnh và internet
Cách Bengt trao đổi các giao dịch mua trên Amazon để lấy dữ liệu đào tạo nhận dạng khuôn mặt
Hành vi hung hăng, nói dối, trốn tránh hoàn tiền và thông đồng giá của Claude trong Arena
Tại sao nhận thức đánh giá có thể trở thành phiên bản AI của câu hỏi "chúng ta có đang sống trong một mô phỏng không?"
Blueprint Bench, trí thông minh không gian và lý do các mô hình vẫn hiểu sai về các căn phòng vật lý
Butter-Bench và thử nghiệm các LLM (mô hình ngôn ngữ lớn) với vai trò điều phối robot
Luna, cửa hàng vật lý do AI điều hành với hợp đồng thuê ba năm và nhân viên là con người
Quán cà phê Andon mới ở Thụy Điển và lý do địa lý thế giới thực quan trọng đối với các đánh giá tác nhân
Cà chua thối, hàng hóa dễ hỏng và khó khăn tiềm ẩn khi điều hành một doanh nghiệp vật lý
Lukas Petersson
LinkedIn: https://www.linkedin.com/in/lukas-petersson-181a83172/
X: https://x.com/lukaspet
Axel Backlund
LinkedIn: https://www.linkedin.com/in/axelbacklund
X: https://x.com/axelbacklund
Andon Labs
Trang web: https://andonlabs.com
Vending-Bench: https://andonlabs.com/evals/vending-bench
Andon Vending: https://andonlabs.com/vending
Dấu thời gian
00:00:00 Giới thiệu
00:01:00 Andon Labs và nguồn gốc của Vending-Bench
00:05:21 Tại sao các đánh giá dựa trên tiền bạc lại quan trọng
00:09:51 Agent Harnesses và các hệ thống tự sửa đổi
00:13:36 Claude gọi FBI
00:16:33 Dự án Vend: Claude điều hành một máy bán hàng tự động thực sự
00:21:44 Seymour Cash, CEO AI và sự hỗn loạn bầu cử
00:27:16 Phối hợp đa tác nhân và khả năng quan sát Slack
00:30:18 Khi nào các tác nhân sẽ điều hành các doanh nghiệp thực sự?
00:34:56 Bengt: Tác nhân văn phòng nội bộ của Andon
00:40:06 An toàn AI trong thế giới thực và các dấu vết dài hạn
00:44:28 Nói dối, hoàn tiền và thông đồng giá trong Arena
00:52:42 Nhận thức đánh giá và hành vi mô phỏng
00:56:06 Blueprint Bench, Butter-Bench và Robotics
01:04:37 Luna: Cửa hàng vật lý do AI điều hành
01:09:29 Quán cà phê Thụy Điển và mở rộng trong thế giới thực
01:13:16 Điều gì tiếp theo cho Andon Labs
Bản ghi
Giới thiệu: Andon Labs, các tác nhân hoạt động lâu dài và các đánh giá trong thế giới thực
Swyx [00:00:00]: Chào mừng Lukas và Axel từ Andon Labs, và tôi được tham gia bởi người dẫn chương trình khách mời yêu thích của tôi. Bất cứ điều gì về an ninh, an toàn, sự phù hợp, Vibhu., chào mừng.
Lukas [00:00:15]: Cảm ơn vì đã mời chúng tôi.
Axel [00:00:16]: Cảm ơn.
Swyx [00:00:17]: Hãy ghép tên với giọng nói., có lẽ các bạn muốn lần lượt giới thiệu bản thân.
Lukas [00:00:21]: Tôi là Lukas.
Axel [00:00:22]: Và tôi là Axel.
Swyx [00:00:24]: Hãy giới thiệu một chút về Andon Labs. Các bạn đã đến với nhau như thế nào?, các bạn có những nền tảng khác nhau, nhưng cả hai đều là người Thụy Điển., đó có phải là một phần lớn trong đó không?
Lukas [00:00:33]: Khi tôi học cấp ba, có một người rất tuyệt vời đã có một...

Nguồn tin: Latent Space. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.