Violin: Kỹ năng dịch video mã nguồn mở phá vỡ rào cản ngôn ngữ…

Violin là một công cụ dịch video AI mã nguồn mở kết hợp nhận dạng giọng nói, dịch LLM và chuyển văn bản sang giọng nói để giúp nội dung video có thể truy cập được bằng nhiều ngôn ngữ.

Video đã trở thành một trong những phương tiện phổ biến nhất để chia sẻ thông tin. Tuy nhiên, việc phân bổ ngôn ngữ của nội dung video phổ biến trên internet không nhất thiết phản ánh sự đa dạng của khán giả toàn cầu. Ví dụ: một nghiên cứu trước đây cho thấy 66% video từ 250 kênh YouTube hàng đầu là bằng tiếng Anh, trong khi tiếng Tây Ban Nha, ngôn ngữ phổ biến thứ hai, chỉ chiếm 15% [1,2], khiến phần lớn nội dung này không thể tiếp cận được với người xem trên toàn thế giới. Khoảng cách này nhấn mạnh sự cần thiết của các giải pháp dịch video có thể mở rộng. AI tiên tiến có thể giúp phá bỏ rào cản ngôn ngữ, giúp khán giả toàn cầu dễ tiếp cận nội dung video hơn không? Hôm nay, chúng tôi rất vui mừng được giới thiệu Violin — một công cụ dịch video hoàn toàn nguồn mở, được cung cấp bởi Together API. Quy trình violin sử dụng công nghệ nhận dạng giọng nói tiên tiến, mô hình ngôn ngữ lớn và tổng hợp giọng nói để đạt được bản dịch video chất lượng cao. Ngoài bản dịch tiêu chuẩn, chúng tôi còn phát triển các tính năng tương tác và cá nhân hóa, chẳng hạn như trợ lý trò chuyện nhận biết nội dung video và bộ chọn giọng nói ngôn ngữ tự nhiên. Chúng tôi hy vọng Violin có thể hỗ trợ người dùng ở nhiều ngôn ngữ truy cập thông tin dễ dàng hơn và có thể giúp nội dung video chất lượng cao được truyền đi xa hơn trên web. Violin: Phá vỡ rào cản ngôn ngữ trong việc chia sẻ video Để minh họa khả năng của Violin, chúng tôi đã lấy một bài nói chuyện kỹ thuật gần đây từ Together AI và dịch nó sang một ngôn ngữ khác. Trước khi dịch Sau khi dịch sang tiếng Trung Xem phần giới thiệu loạt bài Together Talks của Tiến sĩ Percy Liang trước khi dịch (Trái) và sau khi dịch sang tiếng Trung (Phải). ‍Trò chuyện với video. Violin cũng bao gồm một trợ lý trò chuyện đa phương thức tích hợp sẵn có thể trả lời các câu hỏi dựa trên nội dung của video. Người dùng có thể truy vấn thông tin chi tiết từ video, yêu cầu tóm tắt hoặc tìm hiểu sâu hơn về các chủ đề cụ thể — tất cả đều có trong cùng một giao diện. Trợ lý video violin: Đặt bất kỳ câu hỏi nào về video và nhận câu trả lời dựa trên nội dung âm thanh và hình ảnh. Đàn violin hoạt động như thế nào Cách thức hoạt động của Violin: Từ video đầu vào đến đầu ra được dịch hoàn toàn, Violin phối hợp ba giai đoạn cốt lõi: ASR (Nhận dạng giọng nói tự động), dịch LLM và tổng hợp giọng nói TTS (Chuyển văn bản sang giọng nói), đồng thời hỗ trợ trợ lý trò chuyện video và cá nhân hóa kiểu giọng nói. Tất cả đều có trong đám mây Together AI. Violon hoạt động theo ba giai đoạn đơn giản: Đầu tiên, nó trích xuất và chuyển âm thanh của video thành văn bản có dấu thời gian. Chúng tôi sử dụng điểm cuối lớn Whisper V3 của Together để cung cấp khả năng chép lời đa ngôn ngữ chất lượng cao với tốc độ tối ưu. Sau đó, một mô hình ngôn ngữ lớn sẽ dịch bản ghi đó. Ở đây chúng tôi tận dụng những tiến bộ mới nhất của Deepseek V4 Pro làm trình dịch mặc định. Chúng tôi cũng cho phép người dùng nhập danh sách quy tắc dịch được xác định trước để duy trì tính trung thực và chính xác. Cuối cùng, mô hình TTS tạo ra giọng nói được dịch, cho phép người dùng chỉ định các đặc điểm giọng nói mong muốn của họ ở dạng văn bản thuần túy. Sonic 3 của Cartesia được lưu trữ cùng nhau hỗ trợ nhiều giọng nói của người bản xứ như tiếng Hàn, tiếng Hà Lan, tiếng Ý và tiếng Trung, giúp video dịch có âm thanh tự nhiên. Lưu ý rằng chúng tôi không cho phép sao chép giọng nói trong công cụ của mình mà sử dụng một giọng nói khác biệt với giọng nói ban đầu và theo mặc định, phủ giọng nói mới lên trên giọng nói gốc ở mức âm lượng thấp. Ngoài ra, mô-đun trò chuyện video cho phép bạn đặt câu hỏi về video, được hỗ trợ bởi mô hình ngôn ngữ thị giác có thể hiểu cả những gì được nói bằng âm thanh và hiển thị trên màn hình. Điều này được thực hiện bằng cách lấy mẫu khung video gần đây cũng như bối cảnh phụ đề và gửi đến mô hình ngôn ngữ trực quan như Qwen3.5-397B-A17B để trả lời câu hỏi dạng tự do. Bằng cách này, mô hình có thể trả về phản hồi thích hợp dựa trên các bối cảnh này. Được thiết kế cho mọi người: Kỹ năng về ứng dụng web, CLI và tổng đài viên Chúng tôi đã xây dựng Violin với cốt lõi là khả năng sử dụng. Cho dù bạn là người sáng tạo nội dung thích giao diện web đơn giản, nhà phát triển làm việc bằng dòng lệnh hay người thực hành AI tích hợp các công cụ vào các tác nhân tự trị, Violin đều đáp ứng được nhu cầu của bạn: Ứng dụng web – Giao diện người dùng tối giản, gọn gàng để tải video lên, chọn tùy chọn dịch, xem trước kết quả và tương tác với trợ lý video. Không cần mã. Công cụ CLI – Giao diện dòng lệnh đơn giản để viết kịch bản, xử lý hàng loạt và tích hợp vào các quy trình hiện có. Kỹ năng của đặc vụ – Chúng tôi đã đóng gói các khả năng của Violin như một kỹ năng có thể được đưa vào các khung tác nhân thông thường. Mọi thứ — từ GUI đến các mô hình phụ trợ cho đến các kỹ năng của tác nhân — hoàn toàn là nguồn mở. Chúng tôi đang phát hành cơ sở mã theo giấy phép MIT cho phép, mời cộng đồng thích nghi, mở rộng và cải tiến. Chúng tôi tin rằng cộng tác mở là con đường nhanh nhất để tạo ra nội dung video thực sự không phụ thuộc vào ngôn ngữ. Tham gia Chúng tôi chỉ mới bắt đầu và chúng tôi rất mong nhận được sự giúp đỡ của bạn. Nếu bạn thấy Violin hữu ích hoặc nếu bạn có ý tưởng về cách nó có thể tốt hơn: Truy cập kho lưu trữ GitHub của chúng tôi: github.com/shang-zhu/violin Hãy liên hệ với chúng tôi tại: heyviolinai@gmail.com Mở một vấn đề trên GitHub hoặc bắt đầu một cuộc thảo luận — chúng tôi đánh giá cao mọi phản hồi. Hãy dùng thử ứng dụng demo của chúng tôi tại đây (ứng dụng này sẽ được lưu trữ trong một khoảng thời gian ngắn sau khi phát hành) Lời cảm ơn Chúng tôi rất biết ơn Martijn Bartelds, Yongchan Kwon, Federico Bianchi và Kaitlyn Chu vì những phản hồi chu đáo của họ. Chúng tôi cảm ơn những người xây dựng mô hình nguồn mở đằng sau Whisper, DeepSeek, Qwen và Cartesia, những người có công việc tạo nên nền tảng của Violin. Đặc biệt cảm ơn Hassan El Mghari và Percy Liang đã cung cấp video và phản hồi trong quá trình phát triển. Tuyên bố miễn trừ trách nhiệm Violin cung cấp công cụ dịch thuật; người dùng hoàn toàn chịu trách nhiệm về nội dung họ dịch, bao gồm việc tuân thủ bản quyền và các luật hiện hành khác. Video đã tải lên sẽ bị xóa sau 24 giờ trong ứng dụng demo. [1] Wikipedia, "Các ngôn ngữ được sử dụng trên Internet", truy cập ngày 8 tháng 5 năm 2026. https://en.wikipedia.org/wiki/Languages_used_on_the_Internet [2] Brian Yang, "6 đặc điểm chung của 250 kênh YouTube hàng đầu," Twinword, truy cập