Tác nhân nào gây ra lỗi nhiệm vụ và khi nào? Các nhà nghiên cứu…

Chia sẻ nghiên cứu của tôi là chuyên mục của Synced chào đón các học giả chia sẻ những đột phá nghiên cứu của riêng họ với hơn 1,5 triệu người đam mê AI trên toàn cầu. Ngoài những tiến bộ về công nghệ, Share My Research còn kêu gọi những câu chuyện thú vị đằng sau nghiên cứu và những ý tưởng nghiên cứu thú vị. Liên hệ với chúng tôi: chain.zhang@jiqizhixin.com Gặp gỡ các tác giả Các tổ chức: Đại học bang Pennsylvania, Đại học Duke, Google DeepMind, Đại học Washington, Meta, Đại học công nghệ Nanyang và Đại học bang Oregon. Các tác giả đồng đầu tiên là Shaokun Zhang của Đại học bang Pennsylvania và Ming Yin của Đại học Duke. Trong những năm gần đây, hệ thống LLM Multi-Agent đã thu hút được sự chú ý rộng rãi nhờ cách tiếp cận hợp tác để giải quyết các vấn đề phức tạp. Tuy nhiên, trường hợp phổ biến là các hệ thống này không thực hiện được một nhiệm vụ nào mặc dù có rất nhiều hoạt động. Điều này đặt ra cho các nhà phát triển một câu hỏi quan trọng: tác nhân nào, vào thời điểm nào, chịu trách nhiệm cho sự thất bại? Việc sàng lọc các nhật ký tương tác rộng lớn để xác định nguyên nhân gốc rễ có cảm giác như mò kim đáy bể—một nỗ lực tốn nhiều thời gian và công sức. Đây là nỗi thất vọng quen thuộc của các nhà phát triển. Trong các hệ thống Đa tác nhân ngày càng phức tạp, lỗi không chỉ phổ biến mà còn cực kỳ khó chẩn đoán do tính chất tự trị của sự cộng tác giữa các tác nhân và chuỗi thông tin dài. Nếu không có cách nào để nhanh chóng xác định nguồn gốc của lỗi, quá trình lặp lại và tối ưu hóa hệ thống sẽ bị đình trệ. Để giải quyết thách thức này, các nhà nghiên cứu từ Đại học bang Pennsylvania và Đại học Duke, phối hợp với các tổ chức bao gồm Google DeepMind, đã giới thiệu vấn đề nghiên cứu mới về “Phân bổ lỗi tự động”. Họ đã xây dựng tập dữ liệu chuẩn đầu tiên cho nhiệm vụ này, Ai&Khi nào, đồng thời đã phát triển và đánh giá một số phương pháp phân bổ tự động. Công việc này không chỉ nêu bật tính phức tạp của nhiệm vụ mà còn mở ra một con đường mới hướng tới việc nâng cao độ tin cậy của hệ thống LLM Multi-Agent. Bài viết đã được chấp nhận làm bài thuyết trình Tiêu điểm tại hội nghị máy học hàng đầu, ICML 2025, đồng thời mã và tập dữ liệu hiện hoàn toàn là nguồn mở. Giấy:https://arxiv.org/pdf/2505.00212 Mã: https://github.com/mingyin1/Agents_Failure_Attribution Bộ dữ liệu: https://huggingface.co/datasets/Kevin355/Who_and_When Bối cảnh nghiên cứu và thách thức Các hệ thống Đa tác nhân do LLM điều khiển đã chứng tỏ tiềm năng to lớn trên nhiều lĩnh vực. Tuy nhiên, những hệ thống này rất mong manh; sai sót của một tác nhân, sự hiểu lầm giữa các tác nhân hoặc sai sót trong việc truyền tải thông tin có thể dẫn đến thất bại của toàn bộ nhiệm vụ. Hiện tại, khi hệ thống bị lỗi, các nhà phát triển thường sử dụng các phương pháp gỡ lỗi thủ công và không hiệu quả: Khảo cổ học nhật ký thủ công : Nhà phát triển phải xem xét thủ công nhật ký tương tác dài dòng để tìm ra nguồn gốc của vấn đề. Sự phụ thuộc vào chuyên môn : Quá trình gỡ lỗi phụ thuộc rất nhiều vào sự hiểu biết sâu sắc của nhà phát triển về hệ thống và nhiệm vụ trước mắt. Cách tiếp cận gỡ lỗi “mò kim đáy bể” này không chỉ không hiệu quả mà còn cản trở nghiêm trọng việc lặp lại hệ thống nhanh chóng và cải thiện độ tin cậy của hệ thống. Cần có một phương pháp tự động, có hệ thống để xác định nguyên nhân thất bại, thu hẹp khoảng cách giữa “kết quả đánh giá” và “cải tiến hệ thống” một cách hiệu quả. Đóng góp cốt lõi Bài viết này đưa ra một số đóng góp mang tính đột phá nhằm giải quyết các thách thức trên: 1. Xác định một vấn đề mới: Bài viết này là bài viết đầu tiên chính thức hóa “phân bổ lỗi tự động” như một nhiệm vụ nghiên cứu cụ thể. Nhiệm vụ này được xác định bằng cách xác định tác nhân chịu trách nhiệm về lỗi và bước lỗi quyết định dẫn đến lỗi của nhiệm vụ. 2. Xây dựng Tập dữ liệu điểm chuẩn đầu tiên: Ai&Khi nào : Tập dữ liệu này bao gồm nhiều loại nhật ký lỗi được thu thập từ 127 hệ thống LLM Multi-Agent, được các chuyên gia tạo ra theo thuật toán hoặc được tạo thủ công để đảm bảo tính chân thực và đa dạng. Mỗi nhật ký lỗi được kèm theo các chú thích chi tiết của con người về: Ai: Tác nhân chịu trách nhiệm về sự thất bại. Khi nào: Bước tương tác cụ thể nơi xảy ra lỗi quyết định. Tại sao: Giải thích bằng ngôn ngữ tự nhiên về nguyên nhân thất bại. 3. Khám phá các phương pháp “Phân bổ tự động” ban đầu: Sử dụng tập dữ liệu Ai&Khi nào, bài viết thiết kế và đánh giá ba phương pháp riêng biệt để phân bổ lỗi tự động: – Tất cả cùng một lúc: Phương pháp này cung cấp cho LLM truy vấn của người dùng và nhật ký lỗi hoàn chỉnh, yêu cầu LLM xác định tác nhân chịu trách nhiệm và bước lỗi quyết định trong một lần chuyển. Mặc dù hiệu quả về mặt chi phí nhưng nó có thể gặp khó khăn trong việc xác định chính xác các lỗi trong bối cảnh dài. – Từng bước: Cách tiếp cận này bắt chước việc gỡ lỗi thủ công bằng cách yêu cầu LLM xem xét nhật ký tương tác một cách tuần tự, đưa ra phán quyết ở mỗi bước cho đến khi tìm thấy lỗi. Nó chính xác hơn trong việc xác định bước lỗi nhưng phát sinh chi phí cao hơn và rủi ro tích lũy lỗi. – Tìm kiếm nhị phân: Sự thỏa hiệp giữa hai phương pháp đầu tiên, chiến lược này liên tục chia nhật ký làm đôi, sử dụng LLM để xác định phân đoạn nào chứa lỗi. Sau đó, nó sẽ tìm kiếm đệ quy phân khúc đã xác định, đưa ra sự cân bằng giữa chi phí và hiệu suất. Kết quả thí nghiệm và những phát hiện chính Các thử nghiệm được tiến hành ở hai cài đặt: một trong đó LLM biết câu trả lời thực tế cơ bản cho vấn đề mà hệ thống Đa tác nhân đang cố gắng giải quyết (Với sự thật cơ bản) và một trong đó LLM không biết (Không có sự thật cơ bản). Mẫu chính được sử dụng là GPT-4o, mặc dù các mẫu khác cũng đã được thử nghiệm. Việc đánh giá có hệ thống các phương pháp này trên tập dữ liệu Ai&Khi nào mang lại một số hiểu biết quan trọng: – Còn một chặng đường dài phía trước: Các phương pháp hiện tại còn lâu mới hoàn hảo. Ngay cả phương pháp duy nhất hoạt động tốt nhất cũng chỉ đạt được độ chính xác chỉ khoảng 53,5% trong việc xác định tác nhân chịu trách nhiệm và chỉ 14,2% trong việc xác định chính xác bước lỗi. Một số phương pháp thậm chí còn tệ hơn cả việc đoán ngẫu nhiên.

Tác nhân nào gây ra lỗi nhiệm vụ và khi nào? Các nhà nghiên cứu từ PSU và Duke khám phá việc phân bổ lỗi tự động của Hệ thống đa tác nhân LLM