
Phát hành Weaviate 1.37
Weaviate v1.37 hiện có sẵn ở dạng mã nguồn mở và trên Weaviate Cloud. Bản phát hành này nhằm mục đích mở rộng những gì Weaviate có thể làm — từ cách nó nói chuyện với các tác nhân AI, đến cách nó phân tích văn bản cho đến cách nó xử lý các hoạt động quy mô lớn. Bốn tính năng xem trước mới tham gia bản phát hành: Máy chủ MCP tích hợp cho phép LLM và IDE giao tiếp với cơ sở dữ liệu của bạn một cách tự nhiên, Mã thông báo mở rộng với tính năng gấp dấu và đặt trước từ dừng tùy chỉnh, Tìm kiếm đa dạng (MMR) để có kết quả vectơ ít dư thừa hơn và Hồ sơ truy vấn để phân tích thời gian trên mỗi phân đoạn. Cùng với đó, Sao lưu gia tăng giúp sao lưu bộ sưu tập lớn
Weaviate v1.37 hiện có sẵn ở dạng mã nguồn mở và trên Weaviate Cloud.
Bản phát hành này nhằm mục đích mở rộng những gì Weaviate có thể làm — từ cách nó nói chuyện với các tác nhân AI, đến cách nó phân tích văn bản cho đến cách nó xử lý các hoạt động quy mô lớn. Bốn tính năng xem trước mới tham gia bản phát hành: Máy chủ MCP tích hợp cho phép LLM và IDE giao tiếp với cơ sở dữ liệu của bạn một cách tự nhiên, Mã thông báo mở rộng với tính năng gấp dấu và đặt trước từ dừng tùy chỉnh, Tìm kiếm đa dạng (MMR) để có kết quả vectơ ít dư thừa hơn và Hồ sơ truy vấn để phân tích thời gian trên mỗi phân đoạn. Cùng với đó, Sao lưu gia tăng giúp việc sao lưu các bộ sưu tập lớn trở nên thiết thực, âm thanh Gemini tham gia mô-đun multi2vec-google và loại thuộc tính BlobHash mới chỉ lưu trữ hàm băm thay vì toàn bộ blob.
Dưới đây là những điểm nổi bật phát hành!
Máy chủ MCP (Xem trước)
Mã thông báo mở rộng (Xem trước)
Tìm kiếm đa dạng với MMR (Xem trước)
Hồ sơ truy vấn (Xem trước)
Sao lưu gia tăng
Hỗ trợ âm thanh của Song Tử
Loại thuộc tính BlobHash
Nhiều cải tiến và sửa lỗi hiệu suất
Đóng góp của cộng đồng
Máy chủ MCP (Xem trước)
Weaviate v1.37 giới thiệu máy chủ Giao thức bối cảnh mô hình (MCP) tích hợp sẵn, hiện có sẵn dưới dạng bản xem trước. MCP là một tiêu chuẩn mở cho phép Mô hình ngôn ngữ lớn và tác nhân AI tương tác an toàn với các hệ thống bên ngoài. Bằng cách triển khai nó trực tiếp trong Weaviate, bạn có thể cắm cơ sở dữ liệu của mình vào các máy khách tương thích — Claude Code, Claude Desktop, Cursor, VS Code và bất kỳ công cụ nhận biết MCP nào khác — mà không cần viết bất kỳ mã keo nào.
Điều này chuyển Weaviate từ công cụ truy xuất thụ động sang bộ nhớ dài hạn chủ động dành cho quy trình làm việc tổng thể: LLM có thể kiểm tra lược đồ bộ sưu tập, chạy tìm kiếm kết hợp và ghi dữ liệu trở lại phiên bản của bạn, tất cả đều được thực thi bằng xác thực và ủy quyền tiêu chuẩn của Weaviate.
Nó hoạt động như thế nào
Máy chủ được triển khai dưới dạng điểm cuối HTTP có thể phát trực tuyến tại /v1/mcp trên cùng một cổng với API REST. Nó bị tắt theo mặc định; kích hoạt nó với một biến môi trường duy nhất:
MCP_SERVER_ENABLED: 'đúng'
# Tùy chọn - bật công cụ ghi
MCP_SERVER_WRITE_ACCESS_ENABLED: 'đúng'
Sau khi được bật, máy chủ sẽ hiển thị bốn công cụ:
ToolDescriptionweaviate-collections-get-configKiểm tra lược đồ bộ sưu tậpweaviate-tenants-listLiệt kê đối tượng thuê cho bộ sưu tập nhiều đối tượng thuêweaviate-query-hybridChạy kết hợp (vector + từ khóa) searchweaviate-objects-upsertChèn hoặc cập nhật đối tượng (chỉ khi quyền truy cập ghi được bật)
Quyền chi tiết
Nếu bạn đang sử dụng RBAC, quyền truy cập MCP bị chi phối bởi ba quyền mới — read_mcp, create_mcp và update_mcp — vì vậy bạn có thể cấp cho tổng đài viên chính xác những khả năng mà họ cần và không có gì hơn thế.
Mô tả công cụ tùy chỉnh
Bạn có thể điều chỉnh các mô tả công cụ mà LLM nhìn thấy bằng cách gắn tệp cấu hình YAML hoặc JSON tại MCP_SERVER_CONFIG_PATH. Điều này rất hữu ích để điều khiển các tác nhân hướng tới hình dạng dữ liệu cụ thể của bạn mà không cần đào tạo lại hoặc nhắc nhở các thủ thuật.
# mcp-config.yaml
công cụ:
dệt-truy vấn-lai:
description: 'Tìm kiếm danh mục sản phẩm của chúng tôi theo tên hoặc mô tả.'
lập luận:
truy vấn: "Truy vấn bằng ngôn ngữ tự nhiên của người mua hàng."
alpha: '0,0 = chỉ từ khóa, 1,0 = chỉ vectơ, 0,5 = cân bằng.'
Xem trước
Máy chủ MCP hiện là một tính năng xem trước. API và hành vi có thể thay đổi trong các bản phát hành trong tương lai.
Tài nguyên liên quan
Tài liệu: Weaviate máy chủ MCP
Giao thức bối cảnh mô hình
Mã thông báo mở rộng (Xem trước)
Chất lượng tìm kiếm từ khóa bắt đầu từ rất lâu trước khi BM25 chạy tính toán — điều này được quyết định bởi bộ phân tích biến văn bản thành mã thông báo. Ba bổ sung được gửi dưới dạng bản xem trước:
Gấp tạo điểm nhấn
Cờ textAnalyzer.asciiFold mới chuẩn hóa các ký tự Latinh có dấu (và các dấu phụ khác) thành các ký tự ASCII tương đương, trong cả quá trình lập chỉ mục và truy vấn. Tài liệu có chứa "Café Crème" sẽ có thể tìm kiếm được dưới dạng "cafe creme" — và ngược lại.
{
"tên": "mô tả",
"kiểu dữ liệu": ["văn bản"],
"mã thông báo": "từ",
"textAnalyzer": { "asciiFold": true }
}
Về cơ bản, Weaviate sử dụng tính năng phân tách Unicode NFD cộng với một bảng thay thế rõ ràng cho các chữ cái có cùng điểm mã (ł, æ, ø, ð, þ, đ, ß, v.v.). Cùng với đó bao gồm hơn 20 ngôn ngữ có chữ viết Latinh. Nếu bạn cần giữ lại các ký tự cụ thể — ví dụ: một é phân biệt hai tên sản phẩm — hãy sử dụng mảng asciiFoldIgnore để loại trừ chúng.
Mật khẩu tùy chỉnh và cho mỗi thuộc tính
Weaviate đã gửi trước đó với en và none làm tùy chọn mật khẩu duy nhất. Kể từ v1.37, bạn có thể khai báo các giá trị đặt trước mật khẩu được đặt tên trên bộ sưu tập và gán các giá trị đặt trước khác nhau cho từng thuộc tính — hoàn hảo cho các bộ sưu tập đa ngôn ngữ, trong đó, chẳng hạn, thuộc tính name_fr cần mật khẩu tiếng Pháp (le, la, et) trong khi thuộc tính name_en sử dụng tiếng Anh.
{
"invertedIndexConfig": {
"mật khẩu cài sẵn": {
"fr": ["le", "la", "les", "un", "une", "des", "du", "de", "et"]
}
}
}
Từ dừng vẫn được ghi vào chỉ mục đảo ngược — chúng chỉ được lọc ra tại thời điểm truy vấn — có nghĩa là bạn có thể thay đổi cấu hình mà không cần lập chỉ mục lại dữ liệu của mình.
Điểm cuối token hóa
Phần khó nhất khi điều chỉnh trình phân tích văn bản là biết nó thực sự tạo ra cái gì. Hai điểm cuối REST mới giúp quá trình mã hóa trở nên minh bạch:
POST /v1/tokenize - Mã hóa văn bản tùy ý với bất kỳ cấu hình mã thông báo và trình phân tích nào. Hoàn hảo để thử nghiệm trước khi cam kết với một lược đồ.
POST /v1/schema/{className}/properties/{propertyName}/tokenize — Mã hóa văn bản bằng cách sử dụng cấu hình chính xác của thuộc tính hiện có.
Cả hai đều trả về một phản hồi có cấu trúc nhằm phân tách các mã thông báo được lập chỉ mục (những gì đi vào chỉ mục đảo ngược) khỏi các mã thông báo truy vấn (những gì BM25 thực sự ghi được sau khi lọc từ dừng):
{
"mã thông báo": "từ",
"được lập chỉ mục": ["the", "hữu cơ", "cafe", "kem", "pha trộn"],
"truy vấn": ["hữu cơ", "cafe", "kem", "pha trộn"]
}
Xem trước
Mã thông báo mở rộng hiện là một tính năng xem trước. API và hành vi có thể thay đổi trong các bản phát hành trong tương lai.
Tài nguyên liên quan
Khái niệm: Chỉ số ngược - Gấp dấu
Hướng dẫn: Token hóa
Tìm kiếm đa dạng với MMR (Bản xem trước)
Tìm kiếm vectơ tiêu chuẩn có một tác dụng phụ đã biết: nó tập hợp các cụm gần như trùng lặp. Một truy vấn như "món ăn Ý" trả về năm hình ảnh bánh pizza; một ống RAG
Nguồn tin: Weaviate Blog. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.