Công cụ nén để đọc LLM. Ước tính. Token ít hơn 60-95%
URL bài viết: https://github.com/chopratejas/headroom URL nhận xét: https://news.ycombinator.com/item?id=48155888 Điểm: 3 # Bình luận: 0
██╗ ██╗███████╗ █████╗ ██████╗ ██████╗ ██████╗ ██████╗ ███╗ ███╗
██║ ██║██╔════╝██╔══██╗██╔══██╗██ ╔══██╗██╔═══██╗██╔═══██╗████╗ ████║
███████║█████╗ ███████║██║ ██║██████╔╝██║ ██║██║ ██║██╔████╔██║
██╔══██║██╔══╝ ██╔══██║██║ ██║██╔══██╗██║ ██║██║ ██║██║╚██╔╝██║
██║ ██║███████╗██║ ██║██████╔╝██║ ██║╚██████╔╝╚██████╔╝██║ ╚═╝ ██║
╚═╝ ╚═╝╚══════╝╚═╝ ╚═╝╚═════╝ ╚═╝ ╚═╝ ╚═════╝ ╚═════╝ ╚═╝ ╚═╝
Lớp nén ngữ cảnh cho tác nhân AI
Giảm 60–95% mã thông báo · thư viện · proxy · MCP · 6 thuật toán · ưu tiên cục bộ · có thể đảo ngược
Tài liệu ·
Cài đặt ·
Bằng chứng ·
Đại lý ·
Bất hòa ·
llms.txt
Tác nhân AI/LLM: đọc /llms.txt tại đây hoặc tìm nạp chỉ mục trực tiếp/blob tài liệu đầy đủ.
Headroom nén mọi thứ mà tác nhân AI của bạn đọc — đầu ra công cụ, nhật ký, khối RAG, tệp và lịch sử hội thoại — trước khi đến LLM. Câu trả lời giống nhau, một phần của mã thông báo.
Trực tiếp: 10.144 → 1.260 mã thông báo — đã tìm thấy cùng một FATAL.
Nó làm gì
Thư viện - nén (tin nhắn) bằng Python hoặc TypeScript, nội tuyến trong bất kỳ ứng dụng nào
Proxy — proxy khoảng không --port 8787, không thay đổi mã, bất kỳ ngôn ngữ nào
Gói đặc vụ — gói khoảng không claude|codex|cursor|aider|copilot trong một lệnh
Máy chủ MCP - headroom_compress, headroom_retrieve, headroom_stats cho bất kỳ máy khách MCP nào
Bộ nhớ đa tác nhân - cửa hàng dùng chung trên Claude, Codex, Gemini, tự động trích xuất
headroom learn — khai thác các phiên bị lỗi, ghi các bản sửa lỗi vào CLAUDE.md / AGENTS.md
Có thể đảo ngược (CCR) — bản gốc không bao giờ bị xóa; LLM truy xuất theo yêu cầu
Cách thức hoạt động (30 giây)
Đại lý / ứng dụng của bạn
(Mã Claude, Con trỏ, Codex, LangChain, Agno, Strands, mã của riêng bạn…)
│ lời nhắc · đầu ra công cụ · nhật ký · kết quả RAG · tập tin
▼
┌────────────────────────── ──────────────────────────┐
│ Headroom (chạy cục bộ — dữ liệu của bạn vẫn ở đây) │
│ ─────────────────────── ──────────────────────── │
│ CacheAligner → ContentRouter → CCR │
│ ├─ Máy nghiền thông minh (JSON) │
│ ├─ CodeCompressor (AST) │
│ └─ Kompress-base (văn bản, HF) │
│ │
│ Bộ nhớ liên tác nhân · Tìm hiểu khoảng trống · MCP │
└────────────────────────── ──────────────────────────┘
│ lời nhắc nén + công cụ truy xuất
▼
Nhà cung cấp LLM (Anthropic · OpenAI · Bedrock · …)
ContentRouter - phát hiện loại nội dung, chọn máy nén phù hợp
SmartCrusher / CodeCompressor / Kompress-base - nén JSON, AST hoặc văn xuôi
CacheAligner - ổn định tiền tố để bộ đệm KV của nhà cung cấp thực sự đạt được
CCR — lưu trữ bản gốc tại địa phương; LLM gọi headroom_retrieve nếu cần
→ Kiến trúc · Nén đảo ngược CCR · Thẻ mô hình cơ sở Kompress
Bắt đầu (60 giây)
# 1 - Cài đặt
cài đặt pip "headroom-ai[all]" # Python
npm cài đặt headroom-ai # Node / TypeScript
# 2 - Chọn chế độ của bạn
headroom bọc Claude # quấn một tác nhân mã hóa
proxy khoảng không --port 8787 # proxy thả vào, không thay đổi mã
# hoặc: nén nhập từ headroom # thư viện nội tuyến
# 3 - Xem khoản tiết kiệm
số liệu thống kê về khoảng không
Tính năng bổ sung chi tiết: [proxy], [mcp], [ml], [agno], [langchain], [evals]. Yêu cầu Python 3.10+.
Bằng chứng
Tiết kiệm khối lượng công việc của đại lý thực:
Khối lượng công việc
trước đây
Sau
Tiết kiệm
Tìm kiếm mã (100 kết quả)
17.765
1,408
92%
Gỡ lỗi sự cố SRE
65.694
5.118
92%
Phân loại vấn đề GitHub
54.174
14.761
73%
Khám phá cơ sở mã
78.502
41.254
47%
Độ chính xác được bảo toàn trên điểm chuẩn tiêu chuẩn:
Điểm chuẩn
Danh mục
N
Đường cơ sở
khoảng không
Đồng bằng
GSM8K
Toán học
100
0,870
0,870
±0,000
QA trung thực
thực tế
100
0,530
0,560
+0,030
SQuAD v2
QA
100
—
97%
nén 19%
BFC
Công cụ
100
—
97%
nén 32%
Tái sản xuất: python -m headroom.evals suite --tier 1 · Điểm chuẩn & phương pháp luận đầy đủ
Hơn 60 tỷ token được cộng đồng lưu lại — bảng xếp hạng trực tiếp →
Ma trận tương thích tác nhân
đại lý
bọc khoảng không
Ghi chú
Mã Claude
●
--bộ nhớ · --code-graph
Codex
●
chia sẻ ký ức với Claude
Con trỏ
●
in cấu hình - dán một lần
Người trợ giúp
●
bắt đầu proxy + khởi chạy
Phi công phụ CLI
●
bắt đầu proxy + khởi chạy
OpenClaw
●
cài đặt dưới dạng plugin ContextEngine
Mọi ứng dụng khách tương thích với OpenAI đều hoạt động thông qua proxy khoảng không. MCP-bản địa: cài đặt mcp khoảng không.
Khi nào nên sử dụng · Khi nào nên bỏ qua
Rất phù hợp nếu bạn…
chạy các tác nhân mã hóa AI hàng ngày và muốn tiết kiệm mà không cần thay đổi mã của bạn
làm việc trên nhiều tác nhân và muốn chia sẻ bộ nhớ
cần nén có thể đảo ngược - bản gốc luôn có thể truy xuất được thông qua CCR
Hãy bỏ qua nếu bạn…
chỉ sử dụng tính năng nén gốc của một nhà cung cấp duy nhất và không cần bộ nhớ tác nhân chéo
làm việc trong môi trường hộp cát nơi các quy trình cục bộ không thể chạy
Tích hợp - thả Headroom vào bất kỳ ngăn xếp nào
Thiết lập của bạn
Kết nối với
Bất kỳ ứng dụng Python nào
nén(tin nhắn, mô hình=…)
Bất kỳ ứng dụng TypeScript nào
đang chờ nén(tin nhắn, { model })
SDK nhân loại / OpenAI
withHeadroom(new Anthropic()) · withHeadroom(new OpenAI())
SDK AI của Vercel
quấnLanguageModel({ model, middleware: headroomMiddleware() })
LiteLLM
litellm.callbacks = [HeadroomCallback()]
LangChain
HeadroomChatModel(your_llm)
Agno
HeadroomAgnoModel(your_model)
sợi
Hướng dẫn sợi
Ứng dụng ASGI
app.add_middleware(CompressionMiddleware)
Đa tác nhân
SharedContext().put / .get
Khách hàng MCP
cài đặt mcp khoảng không
Có gì bên trong
SmartCrusher - JSON phổ quát: mảng ký tự, đối tượng lồng nhau, kiểu hỗn hợp.
CodeCompressor - Nhận biết AST cho Python, JS, Go, Rust, Java, C++.
Kompress-base — mô hình HuggingFace của chúng tôi, được đào tạo về dấu vết tác nhân.
Nén hình ảnh - Giảm 40–90% thông qua bộ định tuyến ML được đào tạo.
CacheAligner - ổn định các tiền tố để bộ nhớ đệm Anthropic/OpenAI KV thực sự hoạt động.
IntelligenceContext - bối cảnh dựa trên điểm số phù hợp với tầm quan trọng đã học.
CCR - nén thuận nghịch; LLM lấy bản gốc theo yêu cầu.
Bộ nhớ tác nhân chéo - cửa hàng dùng chung, nguồn gốc tác nhân, tự động loại bỏ.
SharedContext - ngữ cảnh nén truyền qua quy trình làm việc của nhiều tác nhân.
headroom learn — khai thác lỗi dựa trên plugin cho Claude, Codex, Gemini.
Nội bộ đường ống
Headroom hiển thị một vòng đời yêu cầu ổn định trên nén(), SDK và proxy:
Thiết lập → Bắt đầu trước → Sau khi bắt đầu → Đã nhận đầu vào → Đã lưu vào bộ đệm đầu vào → Định tuyến đầu vào → Đã nén đầu vào → Đã ghi nhớ đầu vào → Gửi trước → Gửi sau → Đã nhận phản hồi
Các biến đổi thực hiện công việc: CacheAligner, ContentRouter, Sm
Nguồn tin: Hacker News LLM — Tác giả: botacode. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.