Hệ thống bộ nhớ LLM: Khả năng gợi nhớ cao, độ chính xác gần bằng 0 đối với các hệ thống đã thử nghiệm
Điểm: 3 Bình luận: 0
Khoa học Máy tính > Truy xuất thông tin
arXiv:2605.11325 (cs)
[Đệ trình ngày 11/5/2026 (v1), sửa đổi lần cuối ngày 27/5/2026 (phiên bản này, v2)]
Tiêu đề: Trạng thái niềm tin có cấu trúc và điểm chuẩn nhận biết độ chính xác đầu tiên cho truy xuất bộ nhớ LLM
Tác giả: Jeffrey Flynt
Xem bản PDF của bài báo có tiêu đề Trạng thái niềm tin có cấu trúc và điểm chuẩn nhận biết độ chính xác đầu tiên cho truy xuất bộ nhớ LLM, của Jeffrey Flynt
Xem PDF
HTML (thử nghiệm)
Tóm tắt: Mọi điểm chuẩn chính cho hệ thống bộ nhớ LLM, nổi bật nhất là LoCoMo, đều đo lường liệu một mô hình có trả lời đúng hay không, chứ không phải liệu hệ thống bộ nhớ có truy xuất đúng hay không. Một hệ thống trả về toàn bộ kho niềm tin của nó đạt được độ thu hồi 1.0 và vượt qua đánh giá chất lượng câu trả lời. Đây là sự khác biệt giữa kiểm thử đơn vị và kiểm thử tích hợp: chất lượng truy xuất phải được đo lường độc lập với mô hình tạo sinh mà nó cung cấp dữ liệu, và không có điểm chuẩn hiện có nào thực hiện điều này.
Chúng tôi chứng minh rằng lỗi này vẫn tồn tại ngay cả khi việc trích xuất thực thể hoàn toàn trung thực. Các đường cơ sở bộ nhớ đạt độ chính xác truy xuất trung bình chỉ từ 0,05 đến 0,08 đối với các trường hợp tham chiếu các trích xuất của chính chúng. Lỗi này mang tính cấu trúc: độ tương đồng cosine trên một tập dữ liệu chuyên biệt không thể phân biệt các niềm tin liên quan với các niềm tin có ngữ nghĩa gần gũi, một sự bất biến được xác nhận trên dải tỷ lệ mô hình nhúng 20 lần. Đánh giá đa lượt cho thấy một lỗi chồng chất; sau khi chủ đề thay đổi, các hệ thống so sánh cho phép khối lượng ngữ nghĩa tràn qua các lượt, dẫn đến điểm thay đổi cao khi quay lại. Các chỉ số một lượt che giấu chi phí này: Hindsight báo cáo độ trễ một lượt dưới 700ms nhưng vượt quá 2.700ms trung bình mỗi lượt phiên, với p95 trên 6.000ms. Dưới đánh giá LLM-as-a-Judge, những lỗi này vẫn không thể nhìn thấy.
Chúng tôi trình bày hai đóng góp: PrecisionMemBench, một điểm chuẩn 89 trường hợp đo lường độ chính xác truy xuất độc lập với các mô hình tạo sinh trên các khẳng định về phạm vi, đột biến và cô lập đa dạng; và Tenure, một kho niềm tin có cấu trúc ưu tiên cục bộ sử dụng BM25 đa đường với bất đối xứng bộ phân tích, tăng cường khác biệt và cô lập phạm vi cứng. Tenure vượt qua 89/89 trường hợp với độ chính xác trung bình 1.0 và độ trễ truy xuất dưới 15ms. Các nhà cung cấp so sánh hoạt động kém hơn đường cơ sở vector thô mà chúng được xây dựng, với không lượt truy xuất hoạt động và chi phí nhập dữ liệu từ 98 đến 897 giây, những lỗi mà các điểm chuẩn chất lượng câu trả lời không thể phát hiện.
Bình luận:
v2 đánh giá ba hệ thống bộ nhớ sản xuất, bằng chứng để đưa ra tuyên bố có thể bị bác bỏ và điểm chuẩn có thể tái sử dụng
Chủ đề:
Truy xuất thông tin (cs.IR); Trí tuệ nhân tạo (cs.AI)
Trích dẫn dưới dạng:
arXiv:2605.11325 [cs.IR]
(hoặc arXiv:2605.11325v2 [cs.IR] cho phiên bản này)
https://doi.org/10.48550/arXiv.2605.11325
Tập trung để tìm hiểu thêm
DOI do arXiv cấp thông qua DataCite
Lịch sử đệ trình
Từ: Jeffrey Flynt [xem email]
[v1]
Thứ Hai, 11/5/2026 23:22:36 UTC (28 KB)
[v2]
Thứ Tư, 27/5/2026 05:14:16 UTC (23 KB)
Liên kết toàn văn:
Truy cập bài báo:
Xem bản PDF của bài báo có tiêu đề Trạng thái niềm tin có cấu trúc và điểm chuẩn nhận biết độ chính xác đầu tiên cho truy xuất bộ nhớ LLM, của Jeffrey Flynt
Xem PDF
HTML (thử nghiệm)
Nguồn TeX
xem giấy phép
Các tính năng bổ sung
Tóm tắt âm thanh
Ngữ cảnh duyệt hiện tại:
cs.IR
< trước
|
tiếp theo >
mới
|
gần đây
| 2026-05
Thay đổi để duyệt theo:
cs
cs.AI
Tài liệu tham khảo & Trích dẫn
NASA ADS
Google Scholar
Semantic Scholar
Xuất trích dẫn BibTeX
Đang tải...
Trích dẫn định dạng BibTeX
×
đang tải...
Dữ liệu được cung cấp bởi:
Đánh dấu
Công cụ thư mục
Công cụ thư mục và trích dẫn
Chuyển đổi Trình khám phá thư mục
Trình khám phá thư mục (Trình khám phá là gì?)
Chuyển đổi Connected Papers
Connected Papers (Connected Papers là gì?)
Chuyển đổi Litmaps
Litmaps (Litmaps là gì?)
Chuyển đổi scite.ai
Trích dẫn thông minh scite (Trích dẫn thông minh là gì?)
Mã, dữ liệu, phương tiện
Mã, dữ liệu và phương tiện liên quan đến bài viết này
Chuyển đổi alphaXiv
alphaXiv (alphaXiv là gì?)
Chuyển đổi Liên kết đến mã
Công cụ tìm mã CatalyzeX cho các bài báo (CatalyzeX là gì?)
Chuyển đổi DagsHub
DagsHub (DagsHub là gì?)
Chuyển đổi GotitPub
Gotit.pub (GotitPub là gì?)
Chuyển đổi Huggingface
Hugging Face (Huggingface là gì?)
Chuyển đổi ScienceCast
ScienceCast (ScienceCast là gì?)
Bản trình diễn
Bản trình diễn
Chuyển đổi Replicate
Replicate (Replicate là gì?)
Chuyển đổi Spaces
Hugging Face Spaces (Spaces là gì?)
Chuyển đổi Spaces
TXYZ.AI (TXYZ.AI là gì?)
Các bài báo liên quan
Công cụ đề xuất và tìm kiếm
Liên kết đến Influence Flower
Influence Flower (Influence Flowers là gì?)
Chuyển đổi công cụ đề xuất CORE
Công cụ đề xuất CORE (CORE là gì?)
Tác giả
Địa điểm
Tổ chức
Chủ đề
Giới thiệu về arXivLabs
arXivLabs: các dự án thử nghiệm với các đối tác cộng đồng
arXivLabs là một khuôn khổ cho phép các đối tác phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi.
Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng.
Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng arXiv không? Tìm hiểu thêm về arXivLabs.
Tác giả nào của bài báo này là người xác nhận? | Vô hiệu hóa MathJax (MathJax là gì?)
Nguồn tin: Hacker News LLM — Tác giả: decorner. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.