Reachy Mini hoạt động hoàn toàn cục bộ

Quay lại bài viết Reachy Mini hoạt động hoàn toàn cục bộ Đã xuất bản Ngày 27/5/2026 Cập nhật trên GitHub Được ủng hộ 22 +16 Amir Mahla A-Mahla Theo dõi Andres Marafioti andito Theo dõi Bắt đầu nhanh Phục vụ LLM cục bộ Thiết lập chuyển đổi lời nói sang lời nói Kết nối Reachy Mini với chuyển đổi lời nói sang lời nói Tìm hiểu sâu hơn Tại sao phải chạy máy chủ chuyển đổi lời nói sang lời nói của riêng bạn? Các cài đặt mặc định của chúng tôi: VAD, STT, TTS Chọn LLM của bạn Chạy công cụ trên máy tính xách tay của bạn, ứng dụng trên robot Tổng kết Sau khi xây dựng Reachy Mini, bạn sẽ cài đặt ứng dụng hội thoại và bắt đầu trò chuyện với nó. Cho đến nay, bạn phải gửi âm thanh của mình đến một máy chủ. Nhưng không còn nữa. Hôm nay chúng tôi sẽ hướng dẫn bạn cách chạy toàn bộ hệ thống cục bộ. Hệ thống này được cung cấp bởi chuyển đổi lời nói sang lời nói, đường ống VAD → STT → LLM → TTS theo tầng của chúng tôi, cung cấp một WebSocket /v1/realtime tương thích với API thời gian thực. Sau khi khởi chạy phần phụ trợ, hãy hướng robot đến đó từ giao diện người dùng. Các tầng là tùy chọn linh hoạt nhất trong bối cảnh mã nguồn mở hiện nay, và với các thành phần phù hợp, chúng cũng là nhanh nhất. Chúng tôi sẽ đề xuất các thành phần mà chúng tôi thích nhất, nhưng toàn bộ mục đích của một tầng là bạn có thể hoán đổi chúng. Các mô hình mới ra mắt hàng tuần. Tóm tắt Triển khai một phần phụ trợ giọng nói cục bộ cho Reachy Mini của bạn. Chúng tôi sử dụng thư viện chuyển đổi lời nói sang lời nói của mình, một phương pháp tiếp cận theo tầng. Đề xuất: llama.cpp với Gemma 4, Silero VAD, Parakeet-TDT 0.6B v3 STT, Qwen3-TTS. Bắt đầu nhanh Bài viết này hướng dẫn bạn cách chạy các cuộc hội thoại với Reachy Mini hoàn toàn cục bộ. Không có đám mây, không có khóa API, không có dữ liệu rời khỏi máy của bạn. Dưới đây là một video minh họa điều này trực tiếp: Phục vụ LLM cục bộ Để phục vụ LLM, chúng tôi sẽ sử dụng llama.cpp của Hugging Face. Nếu bạn cần cài đặt nó, cách đơn giản nhất là brew install llama.cpp hoặc winget install llama.cpp, để được trợ giúp thêm, hãy kiểm tra tài liệu. Đầu tiên, chúng ta sẽ chạy: llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full Và xong! Lần đầu tiên nó sẽ tải xuống mô hình, các lần khởi chạy tiếp theo sẽ nhanh chóng. Các cờ đó có tác dụng gì? -hf ggml-org/gemma-4-E4B-it-GGUF — kéo mô hình trực tiếp từ Hub. Lần chạy đầu tiên tải xuống, các lần chạy tiếp theo sử dụng bộ nhớ đệm. -np 2 — hai khe song song. Cho phép máy chủ xử lý yêu cầu thứ hai (ví dụ: một sự gián đoạn nhanh chóng) mà không bị chặn bởi yêu cầu đầu tiên. -c 65536 — cửa sổ ngữ cảnh 64k, được chia sẻ giữa các khe. Nhiều khoảng trống cho các cuộc hội thoại dài. -fa on — flash attention. Nhanh hơn và ít bộ nhớ hơn, về cơ bản là miễn phí trên phần cứng hiện đại. --swa-full — giữ toàn bộ bộ nhớ đệm chú ý cửa sổ trượt thay vì tính toán lại. Đánh đổi một chút RAM để xử lý lời nhắc nhanh hơn đáng kể trên Gemma. Thiết lập chuyển đổi lời nói sang lời nói Chúng ta sẽ bắt đầu bằng cách cài đặt thư viện uv pip install speech-to-speech Sau đó, trong khi chúng ta đang phục vụ LLM trong một terminal khác, chúng ta có thể đơn giản chạy: speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local Và bạn có thể bắt đầu trò chuyện với mô hình thông qua terminal của mình! Lần đầu tiên nó sẽ cần tải xuống Parakeet-TDT 0.6B v3 và Qwen3TTS, nhưng các lần khởi chạy tiếp theo sẽ nhanh chóng. Dưới đây là một video minh họa chế độ hội thoại cục bộ: Bây giờ, sau khi bạn đã thử nó ở chế độ --mode local, bạn có thể chạy lại lệnh mà không có tùy chọn đó để phục vụ chuyển đổi lời nói sang lời nói cho robot. Kết nối Reachy Mini với chuyển đổi lời nói sang lời nói Sau khi cài đặt llama.cpp và speech-to-speech, người dùng có thể khởi động robot bằng ứng dụng máy tính để bàn và mở ứng dụng hội thoại. Trong giao diện người dùng của ứng dụng hội thoại, cần chọn chế độ cục bộ bằng cách nhấp vào "edit connection" trong phần phụ trợ HF. Dưới đây là một video hướng dẫn cách thực hiện: Người dùng đã hoàn tất và có thể bắt đầu trò chuyện với robot. Mỗi giai đoạn của quy trình là một sự đánh đổi: có những mô hình TTS nhanh hơn với chất lượng thấp hơn, những mô hình STT chậm hơn với chất lượng cao hơn. Chúng tôi đã tối ưu hóa cho đa ngôn ngữ, người dùng có thể muốn tối ưu hóa cho một ngôn ngữ duy nhất. Phần còn lại của bài viết sẽ trình bày cách tùy chỉnh. **Đi sâu hơn** **Tại sao nên chạy máy chủ Speech-to-Speech của riêng bạn?** Các dịch vụ phụ trợ thời gian thực được lưu trữ rất tiện lợi, nhưng việc chạy công cụ của riêng bạn mang lại ba lợi ích: * **Quyền riêng tư.** Âm thanh không bao giờ rời khỏi mạng của bạn, toàn bộ quy trình chạy trên phần cứng mà bạn kiểm soát. * **Không tốn chi phí API.** Không có phí theo phút hoặc theo token. * **Kiểm soát hoàn toàn quy trình.** Thay thế bất kỳ thành phần nào: VAD, STT, LLM, TTS. Bất cứ khi nào có điều gì tốt hơn xuất hiện trên Hub 🤗. Kho lưu trữ speech-to-speech cung cấp tất cả những điều đó trong một giao diện dòng lệnh (CLI) duy nhất. Nó khởi động một máy chủ WebSocket tại /v1/realtime sử dụng cùng một giao thức mà Reachy Mini đã biết. **Các lựa chọn mặc định của chúng tôi: VAD, STT, TTS** Một quy trình giọng nói xếp tầng có bốn giai đoạn: VAD, STT, LLM và TTS. Đối với ba trong số đó, chúng tôi chọn các lựa chọn mặc định vững chắc để người dùng có thể tập trung vào LLM: | Giai đoạn | Lựa chọn | Lý do | | :-------- | :-------- | :---- | | VAD | Silero VAD v5 | Nhỏ gọn, chính xác, chạy trên CPU. Là lựa chọn mặc định trên thực tế trong thế giới tác nhân giọng nói mã nguồn mở. | | STT | Parakeet-TDT 0.6B v3 | Thân thiện với luồng, rất nhanh, chất lượng tuyệt vời trên tiếng Anh. | | TTS | Qwen3-TTS | Biểu cảm, độ trễ thấp, đa ngôn ngữ, hỗ trợ giọng nói tùy chỉnh. | Chúng tôi có quan điểm riêng về những lựa chọn này, người dùng có thể tự do thay thế chúng bằng lựa chọn của riêng mình nếu có sở thích. **Chọn LLM của bạn** LLM là lớp có tác động lớn nhất đến độ trễ và hiệu suất tổng thể của hệ thống. Chúng tôi hỗ trợ hai tùy chọn: chạy mô hình cục bộ (llama.cpp, MLX, Transformers, vLLM) hoặc sử dụng máy chủ với API phản hồi (OpenAI, Gemini, HF Inference Endpoints, llama.cpp, vLLM, v.v.). **API phản hồi: tách bộ não khỏi vòng lặp giọng nói** Nút thắt cổ chai chính trong hệ thống là độ trễ suy luận của LLM. Để giải quyết vấn đề đó, chúng tôi hỗ trợ các công cụ suy luận bên ngoài được hiển thị thông qua giao thức API phản hồi. Do đó, công cụ speech-to-speech hỗ trợ chế độ thứ hai, trong đó LLM nằm trong một tiến trình riêng biệt miễn là nó tuân thủ giao thức API phản hồi. Người dùng khởi động máy chủ mô hình của mình trong một thiết bị đầu cuối, khởi động vòng lặp giọng nói trong một thiết bị đầu cuối khác và hai thiết bị này giao tiếp qua HTTP. **Tùy chọn 1: llama.cpp**