
Công cụ mới của Microsoft cho phép nhà phát triển tạo các bài kiểm tra hành vi AI bằng mô tả văn bản
Ngày 18/6, Microsoft đã công bố Adaptive Spec-driven Scoring for Evaluation and Regression Testing (ASERT), một khuôn khổ mã nguồn mở để triển khai các đánh giá AI.
Các nhà nghiên cứu và phòng thí nghiệm AI đã đạt được những bước tiến vượt bậc trong việc đánh giá các mô hình AI về mọi mặt, từ an toàn và tuân thủ đến xu nịnh và căn chỉnh. Tuy nhiên, dường như các công ty và nhà phát triển đang đối mặt với một nhu cầu mới, cụ thể: đảm bảo hệ thống AI của họ hoạt động đúng như dự định cho sản phẩm hoặc dịch vụ cụ thể của họ.
Trong nỗ lực đơn giản hóa quy trình thử nghiệm đó, Microsoft hôm thứ Ba đã công bố ASSERT, viết tắt của Adaptive Spec-driven Scoring for Evaluation and Regression Testing (Chấm điểm thích ứng theo đặc tả để đánh giá và kiểm thử hồi quy).
Microsoft cho biết, khuôn khổ mã nguồn mở này giúp việc đánh giá hành vi AI dành riêng cho ứng dụng trở nên dễ dàng bằng cách sử dụng AI để biến các mô tả cấp cao, ngôn ngữ tự nhiên về mục tiêu, chính sách hoặc hành vi dự định thành các bài kiểm tra kỹ lưỡng, được chấm điểm có thể điều tra.
ASSERT lấy các mô tả bằng ngôn ngữ đơn giản về hành vi và chính sách dự kiến của mô hình AI, biến chúng thành một tập hợp cấu trúc các hành vi chấp nhận được và không chấp nhận được, tạo ra các kịch bản vấn đề và trường hợp thử nghiệm, chạy chúng trên hệ thống mục tiêu và chấm điểm kết quả. Nó cũng có thể ghi lại các đường dẫn mà hệ thống AI thực hiện, bao gồm các hành động trung gian và các lệnh gọi công cụ, để các nhà phát triển có thể kiểm tra nơi xảy ra lỗi.
Các nhà phát triển cũng có thể cung cấp ngữ cảnh hệ thống, công cụ và ràng buộc nếu họ muốn tùy chỉnh thêm những gì các đánh giá bao gồm.
Ví dụ, một nhà phát triển có thể chỉ định rằng một tác nhân AI nghiên cứu tài liệu không nên gửi email cho những người bên ngoài công ty, và nó nên giới hạn thông tin bí mật cho các giám đốc điều hành cấp C và cung cấp các bản tóm tắt ngắn gọn có tính đến ngữ cảnh trước đó. ASSERT sẽ sử dụng các quy tắc đó để tạo ra các trường hợp thử nghiệm kiểm tra xem hệ thống có tuân thủ các quy tắc đó một cách liên tục hay không.
Tín dụng hình ảnh: Microsoft
Theo Microsoft, khuôn khổ này lấp đầy một khoảng trống mà các đánh giá rộng hơn, tổng quát hơn không thể làm được khi các mô hình AI được thiết kế để hoạt động theo cách được định hình bởi ngữ cảnh, chính sách và công cụ của một ứng dụng hoặc sản phẩm.
“Một trong những điều chúng tôi đã học được là các đánh giá là cực kỳ quan trọng để đưa ra các quyết định đúng đắn”, Sarah Bird, Giám đốc sản phẩm AI có trách nhiệm tại Microsoft cho biết. “Bởi vì nếu bạn không hiểu hành vi của hệ thống AI, rất khó để biết liệu nó có đáp ứng tiêu chuẩn của tổ chức bạn hay không… Điều chúng tôi nhận thấy là nếu bạn thực sự muốn có một hệ thống đáng tin cậy, bạn nên đánh giá nhiều khía cạnh hơn dành riêng cho ứng dụng.”
Bird cho biết ASSERT có thể được sử dụng để đánh giá các hệ thống khi chúng đang được xây dựng, sau khi triển khai và thậm chí để giám sát liên tục.
Bản phát hành này diễn ra trong bối cảnh một sự thay đổi dần dần nhưng rộng lớn hơn trong ngành AI. Khi các mô hình ngày càng có khả năng hơn, các nhà nghiên cứu đang tập trung vào thử nghiệm lặp lại và kiểm tra hồi quy, với HELM của Stanford, AILuminate của MLCommons và các nhóm đánh giá như METR đang đưa ra các tiêu chuẩn để đo lường cách các mô hình hoạt động trong các điều kiện khác nhau.
Ram là phóng viên và biên tập viên chuyên về tài chính và công nghệ. Ông đã đưa tin về các thương vụ M&A (mua bán và sáp nhập), thị trường vốn cổ phần, tin tức về quy định và thị trường nợ ở Bắc Mỹ và châu Âu tại Reuters và Acuris Global. Ông cũng đã viết về du lịch, giải trí và sách.
Bạn có thể liên hệ hoặc xác minh thông tin từ Ram qua địa chỉ email ram.iyer@techcrunch.com.
Xem tiểu sử
Ngày 18 tháng 6
Los Angeles
Hãy cùng tìm hiểu những yếu tố cần thiết để phát triển và thành công từ các nhà lãnh đạo tại Mach Industries, Founders Fund và Shinkei Systems. Thông qua các buổi trò chuyện thân mật và hoạt động kết nối hiệu quả, bạn sẽ thu được những kiến thức giá trị và các mối quan hệ mới.
ĐĂNG KÝ NGAY
Được quan tâm nhất
“Thật nực cười”: Hệ thống tính phí dựa trên token mới của GitHub Copilot gây bức xúc trong giới lập trình viên
Lucas Ropek
Tôi đã thử nghiệm trợ lý AI Gemini Spark 24/7 của Google và nó thực sự khá hữu ích
Sarah Perez
Tên lửa New Glenn của Blue Origin phát nổ trong quá trình thử nghiệm ở Florida
Sean O'Kane
Anthropic phát hành Opus 4.8 với công cụ “quy trình làm việc động” mới
Russell Brandom
Robotaxi mới nhất của Waymo được sản xuất tại Trung Quốc, hướng đến mục tiêu lợi nhuận và hiện đã đón khách
Kirsten Korosec
RSI là AGI mới – và cũng khó xác định như vậy
Russell Brandom
Kỹ sư Google bị buộc tội giao dịch nội gián sau khi kiếm được 1,2 triệu USD từ Polymarket
Amanda Silberling


Nguồn tin: TechCrunch AI — Tác giả: Ram Iyer. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.