Bỏ qua tới nội dung chính
Quay lại tin tức

Hệ thống bộ nhớ LLM: Khả năng gợi nhớ cao, độ chính xác gần bằng 0 đối với các hệ thống đã thử nghiệm

Hacker News LLM· decorner· 4/6/2026general

Điểm: 3 Bình luận: 0

Khoa học Máy tính > Truy xuất thông tin arXiv:2605.11325 (cs) [Đệ trình ngày 11/5/2026 (v1), sửa đổi lần cuối ngày 27/5/2026 (phiên bản này, v2)] Tiêu đề: Trạng thái niềm tin có cấu trúc và điểm chuẩn nhận biết độ chính xác đầu tiên cho truy xuất bộ nhớ LLM Tác giả: Jeffrey Flynt Xem bản PDF của bài báo có tiêu đề Trạng thái niềm tin có cấu trúc và điểm chuẩn nhận biết độ chính xác đầu tiên cho truy xuất bộ nhớ LLM, của Jeffrey Flynt Xem PDF HTML (thử nghiệm) Tóm tắt: Mọi điểm chuẩn chính cho hệ thống bộ nhớ LLM, nổi bật nhất là LoCoMo, đều đo lường liệu một mô hình có trả lời đúng hay không, chứ không phải liệu hệ thống bộ nhớ có truy xuất đúng hay không. Một hệ thống trả về toàn bộ kho niềm tin của nó đạt được độ thu hồi 1.0 và vượt qua đánh giá chất lượng câu trả lời. Đây là sự khác biệt giữa kiểm thử đơn vị và kiểm thử tích hợp: chất lượng truy xuất phải được đo lường độc lập với mô hình tạo sinh mà nó cung cấp dữ liệu, và không có điểm chuẩn hiện có nào thực hiện điều này. Chúng tôi chứng minh rằng lỗi này vẫn tồn tại ngay cả khi việc trích xuất thực thể hoàn toàn trung thực. Các đường cơ sở bộ nhớ đạt độ chính xác truy xuất trung bình chỉ từ 0,05 đến 0,08 đối với các trường hợp tham chiếu các trích xuất của chính chúng. Lỗi này mang tính cấu trúc: độ tương đồng cosine trên một tập dữ liệu chuyên biệt không thể phân biệt các niềm tin liên quan với các niềm tin có ngữ nghĩa gần gũi, một sự bất biến được xác nhận trên dải tỷ lệ mô hình nhúng 20 lần. Đánh giá đa lượt cho thấy một lỗi chồng chất; sau khi chủ đề thay đổi, các hệ thống so sánh cho phép khối lượng ngữ nghĩa tràn qua các lượt, dẫn đến điểm thay đổi cao khi quay lại. Các chỉ số một lượt che giấu chi phí này: Hindsight báo cáo độ trễ một lượt dưới 700ms nhưng vượt quá 2.700ms trung bình mỗi lượt phiên, với p95 trên 6.000ms. Dưới đánh giá LLM-as-a-Judge, những lỗi này vẫn không thể nhìn thấy. Chúng tôi trình bày hai đóng góp: PrecisionMemBench, một điểm chuẩn 89 trường hợp đo lường độ chính xác truy xuất độc lập với các mô hình tạo sinh trên các khẳng định về phạm vi, đột biến và cô lập đa dạng; và Tenure, một kho niềm tin có cấu trúc ưu tiên cục bộ sử dụng BM25 đa đường với bất đối xứng bộ phân tích, tăng cường khác biệt và cô lập phạm vi cứng. Tenure vượt qua 89/89 trường hợp với độ chính xác trung bình 1.0 và độ trễ truy xuất dưới 15ms. Các nhà cung cấp so sánh hoạt động kém hơn đường cơ sở vector thô mà chúng được xây dựng, với không lượt truy xuất hoạt động và chi phí nhập dữ liệu từ 98 đến 897 giây, những lỗi mà các điểm chuẩn chất lượng câu trả lời không thể phát hiện. Bình luận: v2 đánh giá ba hệ thống bộ nhớ sản xuất, bằng chứng để đưa ra tuyên bố có thể bị bác bỏ và điểm chuẩn có thể tái sử dụng Chủ đề: Truy xuất thông tin (cs.IR); Trí tuệ nhân tạo (cs.AI) Trích dẫn dưới dạng: arXiv:2605.11325 [cs.IR] (hoặc arXiv:2605.11325v2 [cs.IR] cho phiên bản này) https://doi.org/10.48550/arXiv.2605.11325 Tập trung để tìm hiểu thêm DOI do arXiv cấp thông qua DataCite Lịch sử đệ trình Từ: Jeffrey Flynt [xem email] [v1] Thứ Hai, 11/5/2026 23:22:36 UTC (28 KB) [v2] Thứ Tư, 27/5/2026 05:14:16 UTC (23 KB) Liên kết toàn văn: Truy cập bài báo: Xem bản PDF của bài báo có tiêu đề Trạng thái niềm tin có cấu trúc và điểm chuẩn nhận biết độ chính xác đầu tiên cho truy xuất bộ nhớ LLM, của Jeffrey Flynt Xem PDF HTML (thử nghiệm) Nguồn TeX xem giấy phép Các tính năng bổ sung Tóm tắt âm thanh Ngữ cảnh duyệt hiện tại: cs.IR < trước | tiếp theo > mới | gần đây | 2026-05 Thay đổi để duyệt theo: cs cs.AI Tài liệu tham khảo & Trích dẫn NASA ADS Google Scholar Semantic Scholar Xuất trích dẫn BibTeX Đang tải... Trích dẫn định dạng BibTeX × đang tải... Dữ liệu được cung cấp bởi: Đánh dấu Công cụ thư mục Công cụ thư mục và trích dẫn Chuyển đổi Trình khám phá thư mục Trình khám phá thư mục (Trình khám phá là gì?) Chuyển đổi Connected Papers Connected Papers (Connected Papers là gì?) Chuyển đổi Litmaps Litmaps (Litmaps là gì?) Chuyển đổi scite.ai Trích dẫn thông minh scite (Trích dẫn thông minh là gì?) Mã, dữ liệu, phương tiện Mã, dữ liệu và phương tiện liên quan đến bài viết này Chuyển đổi alphaXiv alphaXiv (alphaXiv là gì?) Chuyển đổi Liên kết đến mã Công cụ tìm mã CatalyzeX cho các bài báo (CatalyzeX là gì?) Chuyển đổi DagsHub DagsHub (DagsHub là gì?) Chuyển đổi GotitPub Gotit.pub (GotitPub là gì?) Chuyển đổi Huggingface Hugging Face (Huggingface là gì?) Chuyển đổi ScienceCast ScienceCast (ScienceCast là gì?) Bản trình diễn Bản trình diễn Chuyển đổi Replicate Replicate (Replicate là gì?) Chuyển đổi Spaces Hugging Face Spaces (Spaces là gì?) Chuyển đổi Spaces TXYZ.AI (TXYZ.AI là gì?) Các bài báo liên quan Công cụ đề xuất và tìm kiếm Liên kết đến Influence Flower Influence Flower (Influence Flowers là gì?) Chuyển đổi công cụ đề xuất CORE Công cụ đề xuất CORE (CORE là gì?) Tác giả Địa điểm Tổ chức Chủ đề Giới thiệu về arXivLabs arXivLabs: các dự án thử nghiệm với các đối tác cộng đồng arXivLabs là một khuôn khổ cho phép các đối tác phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi. Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng. Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng arXiv không? Tìm hiểu thêm về arXivLabs. Tác giả nào của bài báo này là người xác nhận? | Vô hiệu hóa MathJax (MathJax là gì?)

Nguồn tin: Hacker News LLM — Tác giả: decorner. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.