Công cụ nén để đọc LLM. Ước tính. Token ít hơn 60-95%

URL bài viết: https://github.com/chopratejas/headroom URL nhận xét: https://news.ycombinator.com/item?id=48155888 Điểm: 3 # Bình luận: 0

██╗ ██╗███████╗ █████╗ ██████╗ ██████╗ ██████╗ ██████╗ ███╗ ███╗ ██║ ██║██╔════╝██╔══██╗██╔══██╗██ ╔══██╗██╔═══██╗██╔═══██╗████╗ ████║ ███████║█████╗ ███████║██║ ██║██████╔╝██║ ██║██║ ██║██╔████╔██║ ██╔══██║██╔══╝ ██╔══██║██║ ██║██╔══██╗██║ ██║██║ ██║██║╚██╔╝██║ ██║ ██║███████╗██║ ██║██████╔╝██║ ██║╚██████╔╝╚██████╔╝██║ ╚═╝ ██║ ╚═╝ ╚═╝╚══════╝╚═╝ ╚═╝╚═════╝ ╚═╝ ╚═╝ ╚═════╝ ╚═════╝ ╚═╝ ╚═╝ Lớp nén ngữ cảnh cho tác nhân AI Giảm 60–95% mã thông báo · thư viện · proxy · MCP · 6 thuật toán · ưu tiên cục bộ · có thể đảo ngược Tài liệu · Cài đặt · Bằng chứng · Đại lý · Bất hòa · llms.txt Tác nhân AI/LLM: đọc /llms.txt tại đây hoặc tìm nạp chỉ mục trực tiếp/blob tài liệu đầy đủ. Headroom nén mọi thứ mà tác nhân AI của bạn đọc — đầu ra công cụ, nhật ký, khối RAG, tệp và lịch sử hội thoại — trước khi đến LLM. Câu trả lời giống nhau, một phần của mã thông báo. Trực tiếp: 10.144 → 1.260 mã thông báo — đã tìm thấy cùng một FATAL. Nó làm gì Thư viện - nén (tin nhắn) bằng Python hoặc TypeScript, nội tuyến trong bất kỳ ứng dụng nào Proxy — proxy khoảng không --port 8787, không thay đổi mã, bất kỳ ngôn ngữ nào Gói đặc vụ — gói khoảng không claude|codex|cursor|aider|copilot trong một lệnh Máy chủ MCP - headroom_compress, headroom_retrieve, headroom_stats cho bất kỳ máy khách MCP nào Bộ nhớ đa tác nhân - cửa hàng dùng chung trên Claude, Codex, Gemini, tự động trích xuất headroom learn — khai thác các phiên bị lỗi, ghi các bản sửa lỗi vào CLAUDE.md / AGENTS.md Có thể đảo ngược (CCR) — bản gốc không bao giờ bị xóa; LLM truy xuất theo yêu cầu Cách thức hoạt động (30 giây) Đại lý / ứng dụng của bạn (Mã Claude, Con trỏ, Codex, LangChain, Agno, Strands, mã của riêng bạn…) │ lời nhắc · đầu ra công cụ · nhật ký · kết quả RAG · tập tin ▼ ┌────────────────────────── ──────────────────────────┐ │ Headroom (chạy cục bộ — dữ liệu của bạn vẫn ở đây) │ │ ─────────────────────── ──────────────────────── │ │ CacheAligner → ContentRouter → CCR │ │ ├─ Máy nghiền thông minh (JSON) │ │ ├─ CodeCompressor (AST) │ │ └─ Kompress-base (văn bản, HF) │ │ │ │ Bộ nhớ liên tác nhân · Tìm hiểu khoảng trống · MCP │ └────────────────────────── ──────────────────────────┘ │ lời nhắc nén + công cụ truy xuất ▼ Nhà cung cấp LLM (Anthropic · OpenAI · Bedrock · …) ContentRouter - phát hiện loại nội dung, chọn máy nén phù hợp SmartCrusher / CodeCompressor / Kompress-base - nén JSON, AST hoặc văn xuôi CacheAligner - ổn định tiền tố để bộ đệm KV của nhà cung cấp thực sự đạt được CCR — lưu trữ bản gốc tại địa phương; LLM gọi headroom_retrieve nếu cần → Kiến trúc · Nén đảo ngược CCR · Thẻ mô hình cơ sở Kompress Bắt đầu (60 giây) # 1 - Cài đặt cài đặt pip "headroom-ai[all]" # Python npm cài đặt headroom-ai # Node / TypeScript # 2 - Chọn chế độ của bạn headroom bọc Claude # quấn một tác nhân mã hóa proxy khoảng không --port 8787 # proxy thả vào, không thay đổi mã # hoặc: nén nhập từ headroom # thư viện nội tuyến # 3 - Xem khoản tiết kiệm số liệu thống kê về khoảng không Tính năng bổ sung chi tiết: [proxy], [mcp], [ml], [agno], [langchain], [evals]. Yêu cầu Python 3.10+. Bằng chứng Tiết kiệm khối lượng công việc của đại lý thực: Khối lượng công việc trước đây Sau Tiết kiệm Tìm kiếm mã (100 kết quả) 17.765 1,408 92% Gỡ lỗi sự cố SRE 65.694 5.118 92% Phân loại vấn đề GitHub 54.174 14.761 73% Khám phá cơ sở mã 78.502 41.254 47% Độ chính xác được bảo toàn trên điểm chuẩn tiêu chuẩn: Điểm chuẩn Danh mục N Đường cơ sở khoảng không Đồng bằng GSM8K Toán học 100 0,870 0,870 ±0,000 QA trung thực thực tế 100 0,530 0,560 +0,030 SQuAD v2 QA 100 — 97% nén 19% BFC Công cụ 100 — 97% nén 32% Tái sản xuất: python -m headroom.evals suite --tier 1 · Điểm chuẩn & phương pháp luận đầy đủ Hơn 60 tỷ token được cộng đồng lưu lại — bảng xếp hạng trực tiếp → Ma trận tương thích tác nhân đại lý bọc khoảng không Ghi chú Mã Claude ● --bộ nhớ · --code-graph Codex ● chia sẻ ký ức với Claude Con trỏ ● in cấu hình - dán một lần Người trợ giúp ● bắt đầu proxy + khởi chạy Phi công phụ CLI ● bắt đầu proxy + khởi chạy OpenClaw ● cài đặt dưới dạng plugin ContextEngine Mọi ứng dụng khách tương thích với OpenAI đều hoạt động thông qua proxy khoảng không. MCP-bản địa: cài đặt mcp khoảng không. Khi nào nên sử dụng · Khi nào nên bỏ qua Rất phù hợp nếu bạn… chạy các tác nhân mã hóa AI hàng ngày và muốn tiết kiệm mà không cần thay đổi mã của bạn làm việc trên nhiều tác nhân và muốn chia sẻ bộ nhớ cần nén có thể đảo ngược - bản gốc luôn có thể truy xuất được thông qua CCR Hãy bỏ qua nếu bạn… chỉ sử dụng tính năng nén gốc của một nhà cung cấp duy nhất và không cần bộ nhớ tác nhân chéo làm việc trong môi trường hộp cát nơi các quy trình cục bộ không thể chạy Tích hợp - thả Headroom vào bất kỳ ngăn xếp nào Thiết lập của bạn Kết nối với Bất kỳ ứng dụng Python nào nén(tin nhắn, mô hình=…) Bất kỳ ứng dụng TypeScript nào đang chờ nén(tin nhắn, { model }) SDK nhân loại / OpenAI withHeadroom(new Anthropic()) · withHeadroom(new OpenAI()) SDK AI của Vercel quấnLanguageModel({ model, middleware: headroomMiddleware() }) LiteLLM litellm.callbacks = [HeadroomCallback()] LangChain HeadroomChatModel(your_llm) Agno HeadroomAgnoModel(your_model) sợi Hướng dẫn sợi Ứng dụng ASGI app.add_middleware(CompressionMiddleware) Đa tác nhân SharedContext().put / .get Khách hàng MCP cài đặt mcp khoảng không Có gì bên trong SmartCrusher - JSON phổ quát: mảng ký tự, đối tượng lồng nhau, kiểu hỗn hợp. CodeCompressor - Nhận biết AST cho Python, JS, Go, Rust, Java, C++. Kompress-base — mô hình HuggingFace của chúng tôi, được đào tạo về dấu vết tác nhân. Nén hình ảnh - Giảm 40–90% thông qua bộ định tuyến ML được đào tạo. CacheAligner - ổn định các tiền tố để bộ nhớ đệm Anthropic/OpenAI KV thực sự hoạt động. IntelligenceContext - bối cảnh dựa trên điểm số phù hợp với tầm quan trọng đã học. CCR - nén thuận nghịch; LLM lấy bản gốc theo yêu cầu. Bộ nhớ tác nhân chéo - cửa hàng dùng chung, nguồn gốc tác nhân, tự động loại bỏ. SharedContext - ngữ cảnh nén truyền qua quy trình làm việc của nhiều tác nhân. headroom learn — khai thác lỗi dựa trên plugin cho Claude, Codex, Gemini. Nội bộ đường ống Headroom hiển thị một vòng đời yêu cầu ổn định trên nén(), SDK và proxy: Thiết lập → Bắt đầu trước → Sau khi bắt đầu → Đã nhận đầu vào → Đã lưu vào bộ đệm đầu vào → Định tuyến đầu vào → Đã nén đầu vào → Đã ghi nhớ đầu vào → Gửi trước → Gửi sau → Đã nhận phản hồi Các biến đổi thực hiện công việc: CacheAligner, ContentRouter, Sm