
Bạn có thực sự cần trả tiền cho phần mềm phiên âm không?
Tôi đã thử nghiệm Wispr Flow và nhiều phần mềm phiên âm sử dụng AI khác nhau để đánh giá xem liệu bạn có nên đăng ký sử dụng các dịch vụ này hay chỉ cần dùng các dịch vụ miễn phí.
Justin Pot
Thiết bị
Ngày 30/5/2026 5:30 SA
Bạn có thực sự cần trả tiền cho phần mềm chuyển đổi giọng nói thành văn bản không?
Tôi đã thử nghiệm Wispr Flow và nhiều phần mềm chuyển đổi giọng nói thành văn bản được hỗ trợ bởi AI để xem liệu bạn có nên đăng ký hay chỉ sử dụng các dịch vụ miễn phí.
Ảnh: Karl-Josef Hildenbrand/Getty Images
Tải bình luận
Lưu câu chuyện này
Tải bình luận
Lưu câu chuyện này
Tôi liên tục thấy quảng cáo về Wispr Flow, một công cụ chuyển đổi giọng nói thành văn bản được hỗ trợ bởi AI. Lời chào mời – rằng bạn sẽ có thể viết nhanh hơn bằng cách nói to thay vì gõ phím – rất hấp dẫn, đặc biệt nếu bạn là người gõ chậm. Tiếp thị hứa hẹn bạn sẽ có thể “viết với tốc độ tư duy, nhanh gấp 4 lần so với bàn phím của bạn”.
Tôi đã gõ nhanh hơn tôi có thể nghĩ. (Người gõ nhanh, hay người suy nghĩ chậm? Bạn quyết định.) Nhưng lời hứa cốt lõi của Wispr Flow không chỉ là chuyển đổi giọng nói thành văn bản – đó là xử lý hậu kỳ. Công cụ này sử dụng hai bước. Đầu tiên, các công cụ chuyển đổi giọng nói thành văn bản AI hiện đại biến giọng nói của bạn thành văn bản; thứ hai, một mô hình ngôn ngữ lớn (LLM) loại bỏ các từ đệm và định dạng các từ của bạn thành các câu và đoạn văn hoàn chỉnh. Ý tưởng là bạn có thể nói ra ý tưởng của mình và xem chúng biến thành văn bản được định dạng đúng cách. Điều này hoạt động bên trong bất kỳ hộp văn bản nào trên máy tính hoặc điện thoại của bạn.
Tôi đã thử nghiệm điều này một vài lần và phải thừa nhận rằng kết quả khá tốt. Tính năng đọc chính tả của Apple, miễn phí trên tất cả các thiết bị của hãng, hoạt động đủ tốt – cũng như tính năng nhập liệu bằng giọng nói của Trợ lý Google trên điện thoại Pixel (sẽ sớm nhận được một bản nâng cấp AI khác). Nhưng có giá trị thực sự trong phần mềm loại bỏ các từ đệm và định dạng mọi thứ thành các đoạn văn. Và Wispr Flow được thiết kế tinh tế, hướng dẫn bạn qua quá trình thiết lập với đồ họa sắc nét.
Theo Wispr Flow
Vậy vấn đề là gì? Giá cả. WisprFlow có giá 144 USD mỗi năm (thanh toán hàng năm) hoặc 15 USD mỗi tháng sau một bản dùng thử miễn phí cực kỳ hạn chế. Nhưng công nghệ mà Wispr Flow được xây dựng – chuyển đổi giọng nói thành văn bản dựa trên AI và LLM – được phổ biến rộng rãi. Về mặt chuyển đổi giọng nói thành văn bản, Nvidia Canary và OpenAI Whisper đều là mã nguồn mở, nghĩa là chúng hoàn toàn miễn phí để chạy trên thiết bị của riêng bạn. Và hầu hết những người đam mê AI đã trả tiền cho OpenAI, Claude hoặc Google Gemini, bất kỳ công cụ nào trong số đó đều có thể xử lý phần xử lý hậu kỳ của Wispr Flow. Các công cụ cục bộ miễn phí như Ollama, Google Recorder hoặc Apple Intelligence cũng có thể làm được điều này.
Với những thông tin trên, tôi đã tự hỏi: Liệu có một giải pháp thay thế Wispr Flow tốt, miễn phí và không phụ thuộc nền tảng nào không? Tôi đã thử nghiệm một số ứng dụng và đây là những gì tôi tìm thấy.
Spokenly, Giải pháp thay thế miễn phí tốt nhất
Nếu bạn muốn tận dụng các lợi ích của Wispr Flow mà không cần đăng ký nhanh chóng, Spokenly là một lựa chọn không tồi, có sẵn trên cả macOS và Windows. Ứng dụng này không phải mã nguồn mở, nhưng được tải xuống miễn phí và không yêu cầu tài khoản để sử dụng. Có một gói Pro với chi phí 10 USD mỗi tháng hoặc 100 USD mỗi năm. Gói trả phí chỉ cần thiết nếu bạn sử dụng các mô hình đám mây của Spokenly. Bạn có thể chọn sử dụng mô hình cục bộ thay thế, hoàn toàn miễn phí. Ngoài ra, nếu bạn đã trả tiền cho một dịch vụ như OpenAI hoặc Groq, bạn có thể thêm khóa API của mình và sử dụng nó để chuyển đổi giọng nói thành văn bản – điều này miễn phí với Spokenly.
Spokenly cung cấp tính năng định dạng sau chuyển đổi giọng nói thành văn bản tùy chọn. Bạn cũng có thể chọn một nhà cung cấp LLM khác để định dạng văn bản sau chuyển đổi. Là người dùng Mac, tôi đã chọn sử dụng Apple Intelligence – hoàn toàn miễn phí và hoạt động rất tốt trong các thử nghiệm của tôi. Nhưng nó hỗ trợ OpenAI, Anthropic và Groq, cùng với một vài nhà cung cấp LLM khác. Ứng dụng cũng cho phép bạn viết bao nhiêu lời nhắc tùy chỉnh cho quá trình xử lý sau chuyển đổi giọng nói thành văn bản tùy thích, mỗi lời nhắc có phím tắt riêng.
Một trong những điều tôi yêu thích là Spokenly có thể hoạt động hoàn toàn ngoại tuyến. Nếu bạn sử dụng mô hình cục bộ để chuyển đổi giọng nói thành văn bản và mô hình cục bộ như Apple Intelligence để định dạng sau chuyển đổi, toàn bộ quá trình sẽ hoạt động mà không có bất kỳ dữ liệu nào rời khỏi máy tính của bạn. Điều này rất tốt từ góc độ quyền riêng tư và từ góc độ chức năng, tính năng này sẽ hoạt động ngay cả khi internet của bạn không ổn định.
Điều này, không nghi ngờ gì nữa, đòi hỏi nhiều công sức hơn so với việc thiết lập Wispr Flow. Tuy nhiên, khi hoàn tất, bạn sẽ có một ứng dụng hoạt động mà không cần đăng ký hàng tháng. Tôi khuyên bạn nên dùng thử.
Một vài giải pháp thay thế miễn phí khác
Như tôi đã nói trước đây: Chuyển đổi giọng nói thành văn bản bằng AI và LLM đều là những công nghệ được sử dụng rộng rãi. Do đó, không có gì ngạc nhiên khi có rất nhiều giải pháp thay thế Wispr Flow hiện nay.
Đối với người dùng Mac, MacParakeet hoàn toàn miễn phí và mã nguồn mở là một lựa chọn tuyệt vời. Ứng dụng này là mã nguồn mở và hoàn toàn miễn phí để tải xuống và sử dụng mà không cần tài khoản. Cũng không có bán thêm trong ứng dụng. Việc chuyển đổi giọng nói thành văn bản được xử lý bằng các mô hình cục bộ, hoặc Parakeet hoặc Whisper, và nhiều loại LLM – cả cục bộ và trực tuyến – đều được hỗ trợ cho bước định dạng. Đó là ứng dụng miễn phí hoàn toàn gần nhất với Wispr Flow mà tôi tìm thấy.
VoiceInk, một lựa chọn khác chỉ dành cho Mac, là phần mềm mã nguồn mở và miễn phí sử dụng nếu người dùng tải mã từ GitHub và tự biên dịch. Nếu không, ứng dụng có giá 25 USD một lần, sau đó người dùng có thể sử dụng tất cả các tính năng mà không phải trả thêm phí định kỳ. Lưu ý rằng bước định dạng cho ứng dụng này yêu cầu khóa API từ một dịch vụ như Gemini, Anthropic, OpenAI hoặc Claude.
Người dùng Windows và Linux nên tìm hiểu FOSS Voquill, một phần mềm mã nguồn mở hoàn toàn miễn phí (do đó có tên FOSS) và hoạt động ngoại tuyến. Ứng dụng này không cung cấp bước định dạng, điều này khá đáng tiếc, nhưng được đưa vào danh sách vì đây là lựa chọn miễn phí tốt nhất cho Windows và Linux mà không có bất kỳ quảng cáo bán thêm khó chịu nào.
Người dùng Windows và Mac không thích các lựa chọn trên vì bất kỳ lý do gì có thêm một lựa chọn khác: OpenWhispr. Công cụ mã nguồn mở này không yêu cầu tài khoản (nhưng người dùng sẽ phải tìm một nút nhỏ "Tiếp tục mà không cần tài khoản"). Ứng dụng cung cấp gói đăng ký, nhưng người dùng có thể chọn thiết lập các mô hình cục bộ và khóa API bên ngoài để tránh phải trả phí.
Bạn có thực sự cần gõ bằng giọng nói không?


Nguồn tin: Wired AI — Tác giả: Justin Pot. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.