Giới thiệu OpenJarvis: Một khuôn khổ ưu tiên cục bộ dành cho…

Các nhà nghiên cứu tại Đại học Stanford và Lambda Labs đã công bố bài báo khoa học về OpenJarvis, một khung công tác mã nguồn mở chạy suy luận, tác nhân, bộ nhớ và học tập hoàn toàn trên thiết bị. Các mô hình mã nguồn mở được cấu hình thông qua OpenJarvis đạt hiệu suất trung bình chỉ kém 3,2 điểm phần trăm so với mô hình đám mây tốt nhất, với chi phí API biên trên mỗi truy vấn thấp hơn khoảng 800 lần và độ trễ thấp hơn khoảng 4 lần theo giao thức đánh giá của nghiên cứu. Công trình nghiên cứu này dựa trên nghiên cứu "Intelligence Per Watt" trước đây của nhóm, báo cáo rằng các mô hình cục bộ đã xử lý 88,7% các truy vấn trò chuyện và suy luận một lượt với độ trễ tương tác, với hiệu quả thông minh tăng 5,3 lần từ năm 2023 đến năm 2025. Tổng quan và truy cập mô hình OpenJarvis không phải là một mô hình đơn lẻ. Đây là một khung công tác kết hợp bất kỳ mô hình được hỗ trợ nào với một ngăn xếp tác nhân có thể cấu hình, được đánh giá trên 11 mô hình cục bộ từ bốn họ. | Thuộc tính | Giá trị | |---|---| | Giấy phép | Apache 2.0 | | Phát hành khung công tác | Ngày 12/3/2026 | | Bài báo | arXiv:2605.17172 (đăng ngày 16/5/2026) | | Kho lưu trữ | github.com/open-jarvis/OpenJarvis | | Số lượt gắn sao / phân nhánh | ~5.400 / ~1.200 (tháng 6/2026) | | Ngôn ngữ | Python (~83%), Rust (~9%), TypeScript (~7%) | | Các mô hình được đánh giá | 11 mô hình cục bộ thuộc 4 họ: Qwen3.5, Gemma4, Nemotron, Granite | | Các mô hình đám mây cơ sở | Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro | | Các công cụ được hỗ trợ | Ollama, vLLM, SGLang, llama.cpp, Apple Foundation Models, Exo (trong số những công cụ khác) | | Cửa sổ ngữ cảnh | Phụ thuộc vào mô hình | | Cài đặt | Một lệnh duy nhất; ~3 phút trên băng thông rộng | | Phần cứng | Đã thử nghiệm trên 7 nền tảng, từ Mac Mini M4 đến NVIDIA DGX Spark | Kiến trúc: Năm yếu tố cơ bản và một đặc tả OpenJarvis phân tách một hệ thống AI cá nhân thành năm yếu tố cơ bản có kiểu dữ liệu, được kết hợp thông qua một đối tượng cấu hình khai báo duy nhất gọi là đặc tả (spec). Trí tuệ (Intelligence) — mô hình, trọng số, tham số tạo sinh và định dạng lượng tử hóa. Công cụ (Engine) — thời gian chạy suy luận (Ollama, vLLM, SGLang, v.v.), phân lô, cài đặt bộ nhớ đệm KV và đường dẫn phần cứng. Tác nhân (Agents) — vòng lặp suy luận (ReAct hoặc CodeAct), lời nhắc hệ thống, chính sách sử dụng công cụ và giới hạn lượt. Công cụ & Bộ nhớ (Tools & Memory) — giao diện bên ngoài, phần phụ trợ truy xuất, hơn 25 trình kết nối dữ liệu và hơn 32 kênh nhắn tin, với hỗ trợ MCP gốc và các phần phụ trợ bộ nhớ có thể hoán đổi. Học tập (Learning) — bộ tối ưu hóa cập nhật đặc tả từ các dấu vết. Khe này chấp nhận LoRA, DSPy, GEPA hoặc tìm kiếm đặc tả có hướng dẫn của LLM. Mỗi yếu tố cơ bản có thể hoán đổi độc lập và một đặc tả sẽ tuần tự hóa cả năm yếu tố thành một tệp TOML. Hai đặc tả có thể chia sẻ cùng cấu hình tác nhân và công cụ, chỉ khác nhau về mô hình và công cụ, do đó cùng một hành vi chạy trên Mac Mini và máy trạm mà không cần viết lại lời nhắc. Tìm kiếm đặc tả có hướng dẫn của LLM là đóng góp thứ hai. Đây là sự hợp tác giữa cục bộ và đám mây: một mô hình đám mây tiên tiến đóng vai trò là giáo viên tại thời điểm tìm kiếm, đọc các dấu vết, chẩn đoán các cụm lỗi và đề xuất chỉnh sửa trên các yếu tố Trí tuệ, Công cụ, Tác nhân và Công cụ & Bộ nhớ. Một chỉnh sửa chỉ được chấp nhận nếu nó cải thiện cụm lỗi mục tiêu mà không gây ra các hồi quy đáng kể ở nơi khác — nhóm nghiên cứu gọi đây là cổng (ngưỡng dung sai mặc định 1%). Đặc tả được tối ưu hóa sau đó chạy hoàn toàn trên thiết bị tại thời điểm suy luận, không có cuộc gọi đám mây nào. Giáo viên chỉ được sử dụng tại thời điểm tìm kiếm; với 100 truy vấn mỗi ngày, chi phí giáo viên được khấu hao giảm xuống dưới 0,001 USD mỗi truy vấn trong vòng sáu tháng. Các nghiên cứu trước đây (GEPA, DSPy, LoRA) tối ưu hóa từng nguyên thủy một, và các trình tối ưu hóa lời nhắc (prompt optimizers) chỉ thu hẹp khoảng 5 điểm phần trăm (pp) khoảng cách giữa hiệu suất trên đám mây và trên thiết bị cục bộ. Tìm kiếm thông số kỹ thuật (spec search) có hướng dẫn bởi LLM (mô hình ngôn ngữ lớn) thu hẹp 13–32 pp vì nó chỉnh sửa đồng thời trên nhiều nguyên thủy, với chi phí tối ưu hóa thấp hơn 7–11 lần so với các phương pháp cơ bản chỉ tối ưu hóa một nguyên thủy. Không gian di chuyển bốn nguyên thủy đóng góp 5,5–16,5 pp, và bộ đề xuất LLM bổ sung trung bình khoảng 10 pp so với tìm kiếm tiến hóa trong cùng không gian di chuyển. https://arxiv.org/pdf/2605.17172v1 Khả năng & Hiệu suất OpenJarvis được đánh giá trên 8 bộ tiêu chuẩn bao gồm 508 tác vụ: gọi công cụ (ToolCall-15), quy trình làm việc của tác nhân (PinchBench), lập trình (LiveCodeBench), dịch vụ khách hàng (τ-Bench V2, τ²-Bench Telecom), hỗ trợ chung (GAIA), và nghiên cứu chuyên sâu (LiveResearchBench, DeepResearchBench). Kiểm tra hoán đổi: Thay thế mô hình đám mây dự kiến bằng Qwen3.5-9B trong các khung hiện có (OpenClaw, Hermes Agent) làm giảm độ chính xác 25–39 pp. Với cùng một mô hình theo thông số kỹ thuật của OpenJarvis, mức giảm còn lại thu hẹp xuống 5,6–16,5 pp — phục hồi 56–77% tổn thất khả năng di động. Giới hạn độ chính xác: Mô hình cục bộ tốt nhất, Qwen3.5-122B, đạt độ chính xác trung bình 80,3% so với Claude Opus 4.6 ở mức 83,5% — khoảng cách 3,2 pp. Các thông số kỹ thuật cục bộ phù hợp hoặc vượt trội so với đám mây trên 4 trong số 8 bộ tiêu chuẩn: ToolCall-15, PinchBench, LiveCodeBench và τ-Bench V2. Chi phí và độ trễ: Các cấu hình cục bộ tạo thành giới hạn độ chính xác–hiệu quả. Qwen3.5-122B mang lại 80,3% độ chính xác với chi phí khoảng một phần nghìn xu cho mỗi truy vấn, so với 0,009 USD cho mỗi truy vấn đối với Claude Opus 4.6 — lợi thế chi phí API biên khoảng 800 lần. Độ trễ đầu cuối giảm khoảng 4 lần trên các tác vụ tác nhân, mặc dù bài báo lưu ý rằng các lời nhắc một lần có thể ưu tiên phục vụ trên đám mây. Lợi ích tìm kiếm: Tìm kiếm thông số kỹ thuật có hướng dẫn bởi LLM cải thiện mô hình học sinh Qwen3.5-9B lên 100% trên PinchBench, 83% trên LiveCodeBench và 91% trên LiveResearchBench. Trên toàn bộ bộ 8 bộ tiêu chuẩn, mức tăng trung bình cho mỗi mô hình học sinh dao động từ 13,1 đến 31,5 pp. Các tác giả báo cáo rằng những lợi ích này vẫn tồn tại sau các kiểm tra độ bền của họ (các biến thể trọng số phần thưởng, phương sai hạt giống tìm kiếm và khởi động lại ngẫu nhiên). Cách sử dụng Cài đặt chỉ cần một lệnh. Trên macOS, Linux hoặc WSL2: Sao chép Mã Đã sao chépSử dụng Trình duyệt khác curl -fsSL https://open-jarvis.github.io/OpenJarvis/install.sh | bash Người dùng Windows chạy một tập lệnh PowerShell tương đương (irm … | iex). Trình cài đặt cung cấp uv, một môi trường ảo Python, Ollama và một mô hình khởi động trong khoảng ba phút trên băng thông rộng. Giao diện người dùng đồ họa (GUI) dành cho máy tính để bàn được cung cấp dưới dạng tệp .dmg, .exe, .deb, .rpm hoặc .AppImage từ trang phát hành. Sau khi cài đặt, jarvis bắt đầu một phiên trò chuyện. Các cài đặt sẵn khởi đầu bao gồm các quy trình làm việc phổ biến: Sao chép Mã Đã sao chépSử dụng Trình duyệt khác jarvis init --preset morning-digest-mac # tóm tắt hàng ngày

Giới thiệu OpenJarvis: Một khuôn khổ ưu tiên cục bộ dành cho các tác nhân AI cá nhân trên thiết bị với công cụ, bộ nhớ và khả năng học hỏi