Bỏ qua tới nội dung chính
Quay lại tin tức

Hermes mở khóa các tác nhân AI tự cải tiến, được hỗ trợ bởi PC NVIDIA RTX và DGX Spark

NVIDIA AI Blog· Abhishek Gore· 13/5/2026models

Agentic AI đang thay đổi cách người dùng hoàn thành công việc. Sau thành công của OpenClaw, cộng đồng đang đón nhận các khung tác nhân nguồn mở mới. Mới nhất là Hermes Agent, đã vượt qua 140.000 sao GitHub trong vòng chưa đầy ba tháng và tính đến tuần trước, là tác nhân được sử dụng nhiều nhất trên thế giới theo OpenRouter. Được phát triển bởi Nous Research, Hermes được thiết kế nhằm mang lại độ tin cậy và khả năng tự hoàn thiện - hai phẩm chất mà trước đây các đại lý khó đạt được. Đó là thiết kế không phụ thuộc vào nhà cung cấp và mô hình, đồng thời được tối ưu hóa để sử dụng cục bộ luôn, khiến PC NVIDIA RTX, NVIDIA RTX PRO trở nên tuyệt vời hơn.

Agentic AI đang thay đổi cách người dùng hoàn thành công việc. Sau thành công của OpenClaw, cộng đồng đang đón nhận các khung tác nhân nguồn mở mới. Mới nhất là Hermes Agent, đã vượt qua 140.000 sao GitHub trong vòng chưa đầy ba tháng và tính đến tuần trước, là tác nhân được sử dụng nhiều nhất trên thế giới theo OpenRouter. Được phát triển bởi Nous Research, Hermes được thiết kế nhằm mang lại độ tin cậy và khả năng tự hoàn thiện - hai phẩm chất mà trước đây các đại lý khó đạt được. Đó là thiết kế không phụ thuộc vào nhà cung cấp và mô hình, đồng thời được tối ưu hóa để sử dụng cục bộ luôn, biến PC NVIDIA RTX, máy trạm NVIDIA RTX PRO và NVIDIA DGX Spark trở thành phần cứng lý tưởng để chạy ở tốc độ tối đa suốt ngày đêm. Qwen 3.6, một loạt mô hình ngôn ngữ lớn (LLM) có trọng lượng mở, hiệu suất cao mới của Alibaba, rất lý tưởng để điều hành các đại lý địa phương như Hermes. Các mô hình tham số Qwen 3.6 27B và 35B đang hoạt động tốt hơn các mô hình tham số 120B và 400B thế hệ trước và chạy trên NVIDIA RTX và DGX Spark để tăng tốc AI tác nhân. Hermes: Năng lực của đặc vụ AI địa phương được tăng tốc Giống như các đại lý phổ biến khác, Hermes tích hợp với các ứng dụng nhắn tin, có thể truy cập các tệp và ứng dụng cục bộ và hoạt động 24/7. Nhưng có bốn khả năng nổi bật khiến nó trở nên khác biệt: Kỹ năng tự phát triển: Hermes viết và hoàn thiện các kỹ năng của riêng mình. Mỗi khi nhân viên gặp một nhiệm vụ phức tạp hoặc nhận được phản hồi, nó sẽ lưu lại những kiến ​​thức đã học được dưới dạng kỹ năng để có thể thích ứng và cải thiện theo thời gian. Các đại lý phụ được quản lý: Hermes coi các đại lý phụ như những công nhân tồn tại trong thời gian ngắn, bị cô lập chuyên thực hiện một nhiệm vụ phụ - với bối cảnh tập trung và bộ công cụ. Điều này giúp tổ chức nhiệm vụ gọn gàng, giảm thiểu sự nhầm lẫn cho tổng đài viên và cho phép Hermes chạy với các cửa sổ ngữ cảnh nhỏ hơn, lý tưởng cho các mô hình địa phương. Độ tin cậy theo thiết kế: Nous Research quản lý và kiểm tra căng thẳng mọi kỹ năng, công cụ và plugin đi kèm với Hermes. Kết quả: Hermes chỉ hoạt động — ngay cả với các mô hình cục bộ loại 30 tỷ tham số — mà không cần phải gỡ lỗi liên tục như hầu hết các khung tác nhân khác yêu cầu. Cùng một mô hình, kết quả tốt hơn: Các so sánh của nhà phát triển sử dụng các mô hình giống hệt nhau trên các khung luôn cho kết quả tốt hơn ở Hermes. Sự khác biệt nằm ở khung: Hermes là một lớp điều phối tích cực, không phải là một lớp bao bọc mỏng, cho phép các tác nhân trên thiết bị hoạt động liên tục thay vì thực thi từng tác vụ một. Cả đại lý Hermes và LLM cơ bản đều được xây dựng để chạy cục bộ - có nghĩa là chất lượng phần cứng quyết định trực tiếp đến chất lượng trải nghiệm của người dùng. GPU NVIDIA RTX được thiết kế chuyên dụng cho loại khối lượng công việc này. Qwen 3.6: Thông minh cấp trung tâm dữ liệu, cục bộ Các mô hình Qwen 3.6 mới nhất được xây dựng trên dòng Qwen 3.5 nổi tiếng nhằm mang lại một bước nhảy vọt khác cho các đại lý AI địa phương. Mẫu Qwen 3.6 35B mới chạy trên bộ nhớ khoảng 20GB trong khi vượt qua các mẫu có 120 tỷ tham số, vốn yêu cầu hơn 70GB bộ nhớ. Ngoài ra, Qwen 3.6 27B là một mô hình mới, dày đặc với nhiều tham số hoạt động hơn — phù hợp với độ chính xác của các mô hình 400 tỷ tham số như Qwen 3.5 397B trong khi có kích thước bằng 1/16. Chạy trên GPU RTX cao cấp mang lại cho model sức mạnh tính toán cần thiết để có trải nghiệm nhanh chóng. Những mô hình này lý tưởng cho các đại lý địa phương như Hermes và GPU NVIDIA và DGX Spark là cách nhanh nhất để chạy chúng. NVIDIA Tensor Cores tăng tốc khả năng suy luận AI để mang lại thông lượng cao hơn và độ trễ thấp hơn — để Hermes có thể thực hiện một nhiệm vụ nhiều bước hoặc tinh chỉnh một trong các kỹ năng của chính mình chỉ trong vài giây thay vì vài phút. DGX Spark: Máy tính Agentic luôn bật Các đặc vụ như Hermes được xây dựng để hoạt động liên tục - đáp ứng các yêu cầu, lập kế hoạch cho các nhiệm vụ nhiều bước, thực hiện một cách tự chủ và tự cải thiện. NVIDIA DGX Spark là người bạn đồng hành lý tưởng — một cỗ máy độc lập nhỏ gọn, hiệu quả được thiết kế cho các quy trình làm việc tổng hợp bền vững cả ngày. Với 128GB bộ nhớ hợp nhất và hiệu suất AI 1 petaflop, NVIDIA DGX Spark có thể chạy 120 tỷ tham số của các mô hình chuyên gia hỗn hợp cả ngày. Và mẫu Qwen 3.6 35B mới mang lại trí thông minh tương đương với thiết kế gọn gàng hơn — chạy nhanh hơn và mang lại cho người dùng khả năng chạy khối lượng công việc đồng thời. Để tối đa hóa hiệu suất và tính dễ sử dụng, hãy đọc cẩm nang Hermes DGX Spark. Ngoài ra, hãy đăng ký các buổi thực hành sắp tới trong loạt bài AI tác nhân “Build It Yourself” của NVIDIA để tìm hiểu cách xây dựng các tác nhân AI tự trị bằng NemoClaw và OpenShell. NVIDIA DGX Spark có sẵn để đặt hàng từ các đối tác sản xuất của NVIDIA — hãy truy cập thị trường. Bắt đầu với Hermes trên phần cứng NVIDIA Chạy Hermes cục bộ trên phần cứng NVIDIA rất đơn giản. Hãy truy cập kho lưu trữ Hermes GitHub để bắt đầu và ghép nối nó với mô hình và thời gian chạy cục bộ ưa thích. Chạy Hermes cùng với Qwen 3.6 thông qua llama.cpp, LM Studio hoặc Ollama. Đại lý Hermes đi kèm với sự hỗ trợ của LM Studio và Ollama ngay lập tức để có con đường đơn giản nhất đến đại lý địa phương. Cho dù dành cho người đam mê AI tại địa phương đang khám phá biên giới của các đại lý cá nhân hay nhà phát triển đang xây dựng công cụ địa phương cho quy trình công việc của họ, Hermes trên phần cứng NVIDIA đều cung cấp nền tảng đáng tin cậy và có khả năng độc đáo. Hãy theo dõi để biết thêm thông tin cập nhật từ RTX AI Garage về các mẫu và tác nhân mở mới nhất được tối ưu hóa cho phần cứng NVIDIA RTX. #ICYMI: Tin tức mới nhất từ RTX AI Garage GPU NVIDIA RTX PRO cung cấp khả năng tạo mã thông báo nhanh hơn gấp 3 lần khi chạy các mẫu Qwen 3.6 với llama.cpp. Có được khả năng phản hồi theo thời gian thực cần thiết cho AI cục bộ, nơi các tổng đài viên có thể giải quyết các nhiệm vụ nhiều bước và tinh chỉnh các kỹ năng của mình để đảm bảo quy trình làm việc được liền mạch. Các mẫu Gemma 4 26B và 31B của Google hiện có sẵn dưới dạng điểm kiểm tra NVFP4 để có hiệu suất nhanh hơn nữa trên GPU NVIDIA Blackwell. Ghép nối các điểm kiểm tra NVFP4 với công cụ soạn thảo Dự đoán nhiều mã thông báo mới của Google để suy luận nhanh hơn gấp 3 lần với chất lượng đầu ra giống hệt nhau, cho phép lý luận cấp cao nhất chạy cục bộ trên GPU NVIDIA. Phiên bản Mistral Medium 3.5, cũng được phát hành vào tháng 4, bao gồm các bản cập nhật tương thích với llama.cpp và Ollama, cho phép người dùng chạy trên hệ thống NVIDIA RTX PRO và DGX Spark. NVIDIA gần đây tôi

Nguồn tin: NVIDIA AI Blog — Tác giả: Abhishek Gore. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.