Cách tôi xây dựng Glia: Một lớp bộ nhớ chia sẻ ưu tiên cục bộ…

Bạn đã bao giờ mất 15 phút để giải thích lại lược đồ cơ sở dữ liệu, kiến trúc hoặc các quyết định về cơ sở mã của mình cho Claude hoặc ChatGPT vì đã đạt đến giới hạn trò chuyện hoặc bạn đã mở một phiên mới chưa? Nếu bạn sử dụng các cuộc trò chuyện web AI và các tác nhân mã hóa IDE (Cursor, Windsurf, Claude Code), việc mất ngữ cảnh liên tục này là điểm khó khăn lớn nhất trong quá trình phát triển hàng ngày. Để giải quyết vấn đề này, tôi đã xây dựng Glia—một lớp bộ nhớ dùng chung cục bộ, ngoại tuyến 100% liên kết các cuộc trò chuyện trên trình duyệt và các công cụ mã hóa IDE của bạn bằng cách sử dụng một cơ sở dữ liệu cục bộ thống nhất. Trang web: https://glia-ai.vercel.app/ Cơ sở mã: https://github.com/Eshaan-Nair/Glia-AI

Bạn đã bao giờ mất 15 phút để giải thích lại lược đồ cơ sở dữ liệu, kiến trúc hoặc các quyết định về cơ sở mã của mình cho Claude hoặc ChatGPT vì đã đạt giới hạn trò chuyện hoặc bạn đã mở một phiên mới chưa? Nếu bạn sử dụng các cuộc trò chuyện web AI và các tác nhân mã hóa IDE (Cursor, Windsurf, Claude Code), việc mất ngữ cảnh liên tục này là điểm khó khăn lớn nhất trong quá trình phát triển hàng ngày. Để giải quyết vấn đề này, tôi đã xây dựng Glia—một lớp bộ nhớ chia sẻ hoạt động hoàn toàn ngoại tuyến, ưu tiên cục bộ, liên kết các cuộc trò chuyện trên trình duyệt và các công cụ mã hóa IDE của bạn bằng cách sử dụng một cơ sở dữ liệu cục bộ thống nhất. Trang web: https://glia-ai.vercel.app/ Cơ sở mã: https://github.com/Eshaan-Nair/Glia-AI Vấn đề cốt lõi: Chứng mất trí nhớ ngữ cảnh. Các trợ lý AI rất thông minh, nhưng chúng hoạt động trong các silo biệt lập. Khi bạn trò chuyện trên Claude.ai web, kế hoạch đó không hiển thị với tác nhân Cursor của bạn. Khi phiên trình duyệt của bạn được đặt lại, ngữ cảnh của bạn sẽ bị xóa sạch. Glia hoạt động như một bộ não cục bộ được chia sẻ. Bạn lưu cuộc trò chuyện web của mình bằng một tiện ích mở rộng trình duyệt và nó được các tác nhân mã hóa của bạn trong IDE gọi lại ngay lập tức. Kiến trúc: Được xây dựng cho tốc độ cục bộ và quyền riêng tư tuyệt đối. Tôi muốn một công cụ nhẹ chạy hoàn toàn ngoại tuyến mà không mất phí đám mây và bảo mật tuyệt đối. Đây là cách Glia hoạt động bên trong: Tiện ích mở rộng Chrome MV3 chạy trên Claude, ChatGPT, DeepSeek, Gemini, Grok, Mistral và Copilot. Nó chặn các điều hướng SPA để ngăn chặn rò rỉ ngữ cảnh, thực hiện làm sạch PII cục bộ (ẩn thông tin đăng nhập, email và mã thông báo) và tự động chèn ngữ cảnh liên quan vào hộp văn bản nhắc của bạn trước khi gửi. Express & SQLite Backend. Glia chạy một máy chủ cục bộ sử dụng sqlite-vec để tìm kiếm vector cục bộ 768 chiều (sử dụng nomic-embed-text qua Ollama) và SQLite FTS5 để khớp tiền tố từ khóa theo nghĩa đen. Chúng chạy song song và các điểm số được hợp nhất. Cắt ngữ cảnh chính xác. RAG truyền thống đổ các khối văn bản lớn làm phình to các lời nhắc. Glia lập chỉ mục văn bản ở cấp độ câu riêng lẻ. Khi gọi lại, nó chỉ trích xuất các câu cụ thể khớp với truy vấn của bạn. Trong các thử nghiệm, phương pháp chính xác này cắt giảm nhiễu lời nhắc tới 95%. Biểu đồ tri thức cục bộ. Một hàng đợi nền sử dụng LLM cục bộ (llama3.1:8b qua Ollama) để trích xuất các bộ ba thực thể (chủ ngữ-quan hệ-đối tượng) nhằm xây dựng một biểu đồ tri thức ngoại tuyến, có thể hiển thị trong một bảng điều khiển React + D3.js tương tác được phục vụ cục bộ. Máy chủ Giao thức ngữ cảnh mô hình (MCP). Một máy chủ MCP tích hợp hiển thị các công cụ như recall_context, store_memory và get_project_summary cho Cursor, Windsurf và Claude Code qua stdio, cho phép các tác nhân mã hóa tự động quản lý ngữ cảnh dự án. Thiết lập không cần Docker. Nếu bạn muốn dùng thử, bạn có thể thiết lập công cụ SQLite, tiện ích mở rộng Chrome và máy chủ MCP chỉ bằng một lệnh duy nhất: npx glia-ai-setup Glia hoàn toàn là mã nguồn mở (MIT). Hãy xem cơ sở mã, để lại một ngôi sao nếu bạn thích nó và cho tôi biết suy nghĩ của bạn về kiến trúc tìm kiếm vector ưu tiên cục bộ! GitHub: https://github.com/Eshaan-Nair/Glia-AI Trang web: https://glia-ai.vercel.app/

Cách tôi xây dựng Glia: Một lớp bộ nhớ chia sẻ ưu tiên cục bộ cho các cuộc trò chuyện trên trình duyệt và IDE