
Giới thiệu công cụ tìm giọng nói — một công cụ mới giúp nhanh chóng tìm thấy giọng nói phù hợp cho ứng dụng của bạn từ hơn 600 giọng nói
Công cụ tìm giọng nói giúp các nhà phát triển tìm kiếm, so khớp, lọc và thử giọng hơn 600 giọng nói trên các mô hình Together AI TTS bằng cách sử dụng lời nhắc bằng ngôn ngữ tự nhiên hoặc mẫu âm thanh được tải lên.
Tóm tắt
Công cụ tìm giọng nói: Tìm kiếm hơn 600 giọng nói trên MiniMax, Cartesia, Deepgram, Rime và các mô hình khác có sẵn thông qua Together AI.
Tìm kiếm theo lời nhắc hoặc âm thanh: Mô tả giọng nói bạn cần hoặc tải lên một mẫu giọng nói ngắn để tìm những giọng nói tương tự với các đề xuất có thể chơi được.
Siêu dữ liệu nhận biết mô hình: Mỗi giọng nói được gắn thẻ trên hơn 15 thuộc tính, bao gồm cao độ, giọng, ngôn ngữ, độ tuổi, cảm xúc và phong cách nói.
Việc lựa chọn giọng nói phù hợp cho người lồng tiếng vẫn còn quá thủ công. Danh mục nhà cung cấp có thể bao gồm hàng chục hoặc hàng trăm giọng nói và tài liệu hiếm khi cho bạn biết giọng nói nào phù hợp với nhân viên hỗ trợ fintech, hướng dẫn thiền hoặc người dẫn chương trình trò chơi.
Công cụ tìm giọng nói cung cấp cho các nhà phát triển một cách nhanh hơn để tìm kiếm danh mục giọng nói Together AI. Nhập nội dung bạn đang xây dựng hoặc tải lên mẫu âm thanh ngắn của giọng nói mà bạn nghĩ đến, sau đó so sánh các đề xuất được xếp hạng, nghe nội tuyến và lọc theo các thuộc tính quan trọng đối với trường hợp sử dụng của bạn.
Nó hoạt động như thế nào
Công cụ tìm giọng nói lập chỉ mục hơn 600 giọng nói trên 10 mô hình TTS trên Together AI. Mỗi giọng nói có thể phát trực tiếp trong công cụ.
Đằng sau lớp xếp hạng, một mô hình đa dạng đã lắng nghe mọi giọng nói và tạo ra siêu dữ liệu có cấu trúc trên hơn 15 chiều, bao gồm cao độ, giới tính, giọng nói, ngôn ngữ, độ tuổi, cảm xúc và phong cách nói. Siêu dữ liệu đó hỗ trợ cả tìm kiếm bằng ngôn ngữ tự nhiên và lọc thủ công.
Một vài tìm kiếm ví dụ:
“giọng nữ trầm tĩnh cho ứng dụng thiền”
“tiếng nói tự tin của nhân viên hỗ trợ fintech”
“người dẫn chương trình đầy nhiệt huyết cho một game show”
“một giọng nói song ngữ ấm áp trong dịch vụ khách hàng”
Mục tiêu rất đơn giản: chuyển từ một trường hợp sử dụng sang một danh sách ngắn các giọng nói đủ nhanh để tiếp tục xây dựng.
Tại sao điều này lại quan trọng đối với các tác nhân thoại
Tác nhân thoại không chỉ phụ thuộc vào chất lượng của mô hình. Giọng nói phải phù hợp với sản phẩm, khách hàng và thời điểm. Đại lý tiếp nhận dịch vụ chăm sóc sức khỏe, đại lý đặt hàng nhà hàng và người bạn đồng hành giải trí nghe có vẻ không thể thay thế cho nhau.
AI cùng nhau mang đến cho các nhóm một nền tảng duy nhất để xây dựng các tác nhân thoại theo thời gian thực trên STT, LLM và TTS. Quy trình đầy đủ chạy cùng vị trí trên một đám mây, giữ độ trễ từ đầu đến cuối dưới 500 mili giây, đủ nhanh để thực hiện luân phiên theo thời gian thực. Trình tìm giọng nói giúp bước chọn mô hình trở nên dễ dàng hơn bằng cách cung cấp cho nhà phát triển một cách nhanh hơn để khám phá các giọng nói có sẵn trên ngăn xếp đó.
Bắt đầu
→ Dùng thử Công cụ tìm giọng nói tại findtherightvoice.com
→ Khám phá Nền tảng giọng nói AI cùng nhau
→ Đọc tài liệu về tác nhân thoại
→ Liên hệ với bộ phận bán hàng để biết các thiết bị đầu cuối chuyên dụng và triển khai sản xuất
Nguồn tin: Together AI Blog. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.