Làm quen với Nền tảng đại lý LiteLLM: Lớp cơ sở hạ tầng tự lưu trữ, dựa trên Kubernetes dành cho Hộp cát tác nhân biệt lập và Quản lý phiên liên tục trong sản xuất
Việc chạy các tác nhân AI bằng tập lệnh cục bộ rất đơn giản. Việc vận hành chúng một cách đáng tin cậy trong quá trình sản xuất giữa các nhóm, trong các lần khởi động lại, với các môi trường biệt lập cho mỗi bối cảnh lại là một vấn đề hoàn toàn khác. BerriAI, công ty đứng sau Cổng AI LiteLLM, hiện đang cung cấp nguồn mở cho một câu trả lời được xây dựng có mục đích cho vấn đề đó: Nền tảng đại lý LiteLLM. Nền tảng này được mô tả là một nền tảng cơ sở hạ tầng đơn giản, tự lưu trữ để chạy nhiều tác nhân trong sản xuất.
Nó giải quyết được vấn đề gì?
Nó giúp hiểu được điều gì sẽ xảy ra khi bạn cố gắng mở rộng quy mô tác nhân ra ngoài một quy trình duy nhất. Đại lý có trạng thái: họ
Việc chạy các tác nhân AI bằng tập lệnh cục bộ rất đơn giản. Việc vận hành chúng một cách đáng tin cậy trong quá trình sản xuất giữa các nhóm, trong các lần khởi động lại, với các môi trường biệt lập cho mỗi bối cảnh lại là một vấn đề hoàn toàn khác. BerriAI, công ty đứng sau Cổng AI LiteLLM, hiện đang cung cấp nguồn mở cho một câu trả lời được xây dựng có mục đích cho vấn đề đó: Nền tảng đại lý LiteLLM. Nền tảng này được mô tả là một nền tảng cơ sở hạ tầng đơn giản, tự lưu trữ để chạy nhiều tác nhân trong sản xuất.
Nó giải quyết được vấn đề gì?
Nó giúp hiểu được điều gì sẽ xảy ra khi bạn cố gắng mở rộng quy mô tác nhân ra ngoài một quy trình duy nhất. Tác nhân có trạng thái: chúng mang theo lịch sử phiên, kết quả lệnh gọi công cụ và lý luận trung gian qua các lượt. Nếu vùng chứa đang chạy tác nhân của bạn gặp sự cố, khởi động lại hoặc bị thay thế trong quá trình triển khai thì trạng thái phiên đó sẽ biến mất trừ khi có thứ gì đó quản lý nó một cách rõ ràng. Đồng thời, các nhóm khác nhau thường cần các môi trường thời gian chạy khác nhau, các công cụ khác nhau, bí mật khác nhau, phạm vi truy cập khác nhau, điều đó có nghĩa là bạn không thể đưa tất cả tác nhân vào một vùng chứa chung.
Nền tảng này quản lý hai thứ: hộp cát theo nhóm và theo ngữ cảnh, cũng như tính liên tục của phiên khi khởi động lại và nâng cấp nhóm. Hai khả năng này là cơ sở hạ tầng cốt lõi mà nền tảng cung cấp.
Ngăn xếp kiến trúc và kỹ thuật
Nền tảng này là một bảng điều khiển Next.js độc lập dành cho các tổng đài viên được quản lý LiteLLM v2, bao gồm các phiên trò chuyện, CRUD của tổng đài viên và trạng thái trực tiếp. Cơ sở mã chủ yếu là TypeScript (92,8%), với các tập lệnh Shell để cung cấp, Dockerfile để chứa và CSS cho giao diện người dùng trang tổng quan.
Kiến trúc phân tách các mối quan tâm một cách rõ ràng. Một quy trình web chạy trên cổng 3000 và phục vụ bảng điều khiển Next.js. Một quy trình công nhân xử lý các tác vụ tác nhân không đồng bộ. Postgres được sử dụng làm kho lưu trữ sao lưu liên tục và quá trình di chuyển lược đồ chạy dưới dạng bộ chứa init khi khởi động — vì vậy cơ sở dữ liệu luôn ở trạng thái chính xác trước khi ứng dụng khởi động.
Đối với lớp hộp cát — môi trường thời gian chạy biệt lập nơi các tác nhân thực sự thực thi — hộp cát chạy trên Kubernetes thông qua kubernetes-sigs/agent-sandbox CRD. Phát triển địa phương sử dụng loại. Nếu bạn chưa quen với nó: kind (Kubernetes trong Docker) cho phép bạn tạo một cụm Kubernetes đầy đủ cục bộ bằng cách sử dụng bộ chứa Docker làm nút mà không cần nhà cung cấp đám mây. CRD Agent-sandbox (Định nghĩa tài nguyên tùy chỉnh) là một tiện ích mở rộng Kubernetes từ kubernetes-sig mà nền tảng cài đặt để quản lý vòng đời của từng môi trường sandbox riêng lẻ.
Nền tảng này cũng bao gồm một hệ thống khai thác dưới dạng khai thác/mã mở, chứa cấu hình để chạy các tác nhân mã hóa — chẳng hạn như Claude Code hoặc OpenAI Codex — bên trong các hộp cát biệt lập có proxy vault để quản lý thông tin xác thực. Nhóm BerriAI cũng duy trì một kho lưu trữ thời gian chạy tác nhân litellm riêng biệt, được mô tả là thời gian chạy tác nhân mã hóa chạy bên trong các máy ảo mỗi phiên được cung cấp bởi proxy LiteLLM, chung theo thiết kế, với việc tùy chỉnh diễn ra thông qua cấu hình khai thác hoặc tải trọng hydrat.
Một chi tiết thực tế đáng chú ý là cách xử lý các biến môi trường trên các vùng chứa hộp cát. Mọi thứ trong .env có tiền tố CONTAINER_ENV_ đều được đưa vào mọi vùng chứa hộp cát đã bị loại bỏ tiền tố — ví dụ: CONTAINER_ENV_GITHUB_TOKEN=ghp_... có nghĩa là vùng chứa nhìn thấy GITHUB_TOKEN=ghp_... Điều này mang lại cho các nhóm một cách rõ ràng để chuyển bí mật vào các phiên tác nhân được đóng hộp cát mà không sửa đổi hình ảnh vùng chứa.
https://github.com/BerriAI/litellm-agent-platform
Bắt đầu
Các điều kiện tiên quyết để phát triển cục bộ là Docker Desktop, kind, kubectl, helm và cổng LiteLLM. Không cần thông tin xác thực trên đám mây để bắt đầu cục bộ. Khởi động nhanh là hai lệnh:
Sao chép mãĐã sao chépSử dụng trình duyệt khác
bin/kind-up.sh
docker soạn thảo
bin/kind-up.sh là bình thường — nó cung cấp một cụm loại có tên là Agent-sbx, cài đặt bộ điều khiển hộp cát tác nhân và tải hình ảnh khai thác. docker soạn khởi động Postgres, chạy di chuyển lược đồ và bắt đầu quy trình web trên cổng 3000 cùng với nhân viên.
Để triển khai sản xuất, đường dẫn được đề xuất là AWS EKS cho cụm hộp cát và Kết xuất cho web và các quy trình công nhân. bin/eks-up.sh cung cấp cụm EKS và Bản thiết kế kết xuất cung cấp tùy chọn triển khai bằng một cú nhấp chuột.
Mối quan hệ với Cổng LiteLLM
Nền tảng đại lý là một lớp nằm trên hệ sinh thái LiteLLM hiện có, không phải là lớp thay thế cho nó. Cốt lõi của LiteLLM là SDK Python và Máy chủ proxy - Cổng AI - gọi hơn 100 API LLM ở định dạng OpenAI, với tính năng theo dõi chi phí, rào chắn, cân bằng tải và ghi nhật ký, các nhà cung cấp hỗ trợ bao gồm Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, SageMaker, HuggingFace, vLLM và NVIDIA NIM. Nền tảng đại lý sử dụng cổng LiteLLM đang chạy làm phần phụ thuộc và xây dựng cơ sở hạ tầng điều phối tác nhân và quản lý phiên trên đó. Định tuyến mô hình, theo dõi chi phí và giới hạn tốc độ vẫn ở lớp cổng. Việc cách ly hộp cát, tính liên tục của phiên và bảng thông tin quản lý đều do Nền tảng đại lý xử lý.
Trình giải thích trực quan của Marktechpost
Nền tảng đại lý LiteLLM
Hướng dẫn cơ sở hạ tầng đại lý tự lưu trữ
Alpha
Tổng quan
Khái niệm
Kiến trúc
Điều kiện tiên quyết
Bắt đầu nhanh
Sản xuất
01 / 06
Nền tảng đại lý LiteLLM là gì?
BerriAI đã mở nguồn nền tảng này vào ngày 8 tháng 5 năm 2026. Đây là lớp cơ sở hạ tầng tự lưu trữ để chạy nhiều tác nhân AI trong sản xuất, được xây dựng dựa trên Cổng AI LiteLLM.
Tự lưu trữ
Chạy hoàn toàn trên cơ sở hạ tầng của riêng bạn. Không có dữ liệu rời khỏi môi trường của bạn. Phù hợp với các ngành và nhóm được quản lý có yêu cầu về nơi lưu trữ dữ liệu.
Đa tác nhân
Được thiết kế để chạy song song nhiều tác nhân, với sự tách biệt hoàn toàn giữa các nhóm và bối cảnh bằng cách sử dụng hộp cát mỗi phiên.
Tính liên tục của phiên
Phiên tác nhân vẫn tồn tại trong suốt quá trình khởi động lại và nâng cấp nhóm, do đó, công việc có trạng thái không bị mất khi thay thế vùng chứa.
Nguồn mở (MIT)
Hoàn toàn hoạt động
Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.