Bỏ qua tới nội dung chính
Quay lại tin tức

Các tác nhân giọng nói có thể xử lý khách hàng song ngữ không? Đánh giá chuẩn ASR tiên tiến trên lời nói chuyển đổi ngôn ngữ

Hugging Face Blog· 9/6/2026opensource
Quay lại các bài viết Các tác nhân giọng nói có thể xử lý khách hàng song ngữ không? Đánh giá ASR tiên tiến trên lời nói xen kẽ mã Bài viết doanh nghiệp được xuất bản Ngày 9/6/2026 Thích 30 +24 Shama Gupta shamagupta Theo dõi ServiceNow-AI Lindsay Brin lindsaybrin Theo dõi ServiceNow-AI Fanny Riols FannyRiols Theo dõi ServiceNow-AI Giới thiệu Quy trình dữ liệu chuẩn Phương pháp đánh giá Kết quả A. Các mô hình hoạt động tốt như thế nào trên chuẩn của chúng tôi đối với việc xen kẽ mã? Kết quả WER (càng thấp càng tốt) Kết quả SWER và AER (càng thấp càng tốt) B. Chi phí bổ sung mà việc xen kẽ mã gây ra so với lời nói đơn ngữ thuần túy là gì? C. Việc xen kẽ mã làm hỏng hệ thống ASR như thế nào? Hạn chế Kết luận Giới thiệu Hơn một nửa dân số thế giới nói nhiều hơn một ngôn ngữ. Đối với nhiều người nói song ngữ, việc xen kẽ mã – chuyển đổi liền mạch giữa các ngôn ngữ, thậm chí giữa câu – là một phần tự nhiên của giao tiếp hàng ngày. Dù trong các cuộc trò chuyện thông thường, trung tâm liên lạc hay bộ phận hỗ trợ IT, người nói đều linh hoạt thích nghi với ngôn ngữ nào cảm thấy tự nhiên nhất vào thời điểm đó. Mặc dù số lượng người nói song ngữ phổ biến trên toàn thế giới, nhưng có rất ít nghiên cứu tập trung vào cách các tác nhân giọng nói xử lý lời nói xen kẽ mã trong môi trường doanh nghiệp. Vì vậy, khi một khách hàng hỏi chúng tôi về hiệu suất của các tác nhân giọng nói đối với cơ sở khách hàng chủ yếu là song ngữ của họ, những người thường xuyên xen kẽ mã, chúng tôi đã quyết định xây dựng chuẩn và bộ dữ liệu riêng để đánh giá các mô hình. Chúng tôi tập trung vào nhận dạng giọng nói tự động (ASR) – bước đầu tiên trong bất kỳ quy trình tác nhân giọng nói nào – vì lỗi phiên âm sẽ lan truyền đến mọi thành phần hạ nguồn. Trong môi trường doanh nghiệp, nơi một yêu cầu bị định tuyến sai hoặc một câu hỏi chính sách bị hiểu lầm có thể gây ra hậu quả vận hành thực sự, việc có được bản ghi chính xác là một bước đặc biệt quan trọng của quy trình tác nhân giọng nói. Chuẩn của chúng tôi bao gồm bốn cặp ngôn ngữ phù hợp nhất với cơ sở khách hàng của chúng tôi: tiếng Tây Ban Nha-tiếng Anh, tiếng Pháp-tiếng Anh, tiếng Pháp Canada-tiếng Anh và tiếng Đức-tiếng Anh. Nó sử dụng ngôn ngữ không phải tiếng Anh làm khung ma trận, với tiếng Anh được nhúng ở các độ dài khác nhau. Dữ liệu bao gồm nhiều kịch bản Quản lý nguồn nhân lực (HR) và Quản lý dịch vụ IT (ITSM), bao gồm các yêu cầu của nhân viên về phúc lợi hoặc bảng lương, và các yêu cầu hỗ trợ như đặt lại mật khẩu, truy cập VPN hoặc khắc phục sự cố thiết bị. Để đo lường hiệu suất của các mô hình khác nhau, chúng tôi báo cáo ba chỉ số: Tỷ lệ lỗi từ (WER), Tỷ lệ lỗi từ ngữ nghĩa (SWER) và Tỷ lệ lỗi trả lời (AER). Chúng tôi chọn các chỉ số này để nắm bắt cả (1) độ chính xác chính xác của mô hình trong phiên âm, cũng như (2) khả năng của chúng trong việc duy trì ý nghĩa của câu nói cho các tác vụ hạ nguồn. Chúng tôi phát hành chuẩn và dữ liệu của mình thông qua công cụ đánh giá mô hình giọng nói của chúng tôi, AU-Harness. Chúng tôi cũng cung cấp kết quả từ bảy hệ thống ASR, bao gồm một số Mô hình ngôn ngữ âm thanh lớn (LALM), ASR tiên tiến và ASR mã nguồn mở. Phát hiện chính của chúng tôi là chi phí của việc xen kẽ mã thay đổi tùy thuộc vào cặp ngôn ngữ và mô hình được thử nghiệm. ElevenLabs Scribe V2, Gemini 3 Flash và Assembly AI Universal 3-Pro nổi lên là các mô hình hàng đầu trên các chỉ số cho tác vụ này. Chuẩn Quy trình dữ liệu Chúng tôi bắt đầu với một kho ngữ liệu nội bộ về các tương tác hỗ trợ CNTT và nhân sự. Để tạo ra mỗi phát ngôn chuyển đổi ngôn ngữ (code-switched utterance), chúng tôi bắt đầu với các phát ngôn song song của người dùng bằng tiếng Anh và một trong bốn ngôn ngữ không phải tiếng Anh của chúng tôi, sau đó lọc ra các ứng viên chuyển đổi ngôn ngữ phù hợp. Chúng tôi giữ lại các phát ngôn có độ dài từ 12 đến 40 từ – đủ ngắn để là các lượt nói tự nhiên, đủ dài để chứa các cơ hội chuyển đổi thực sự. Chúng tôi cũng loại trừ các phát ngôn mà các thực thể chiếm ưu thế – email, số điện thoại, ID hoặc URL khiến văn bản trở thành một nửa tiếng Anh do yêu cầu chứ không phải do lựa chọn song ngữ. Cuối cùng, chúng tôi yêu cầu ít nhất ba từ nội dung có thể chuyển đổi – danh từ, động từ hoặc tính từ không phải là thực thể hoặc tên sản phẩm – để cung cấp đủ tài liệu cho mô hình tạo ra một phiên bản chuyển đổi ngôn ngữ có ý nghĩa. Từ đây, chúng tôi đã thử nghiệm nhiều chiến lược khác nhau để kết hợp các ngôn ngữ một cách thực tế và cuối cùng đã chọn một lời nhắc nhân vật đơn giản được gửi đến một LLM (OpenAI/GPT-5) để tạo ra văn bản chuyển đổi ngôn ngữ. Sau đó, chúng tôi sử dụng một lượt chuyển đổi bằng lời nói của LLM để chuyển đổi văn bản thành dạng nói và sử dụng ElevenLabs Multilingual V2 để tổng hợp âm thanh. Mỗi phát ngôn sau đó được một nhà ngôn ngữ học AI/NLP là người bản xứ của ngôn ngữ gốc xem xét; các phát ngôn bị gắn cờ sẽ bị loại trừ hoặc tạo lại và xem xét lại. Bộ dữ liệu cuối cùng có 259 bản ghi tiếng Tây Ban Nha-tiếng Anh, 298 bản ghi tiếng Pháp-tiếng Anh, 188 bản ghi tiếng Pháp Canada-tiếng Anh và 173 bản ghi tiếng Đức-tiếng Anh. Phương pháp đánh giá Chúng tôi báo cáo ba chỉ số cho mỗi mô hình trên mỗi cặp ngôn ngữ, được chọn để nắm bắt độ chính xác của bản ghi, bảo toàn ý nghĩa và hiệu suất tác vụ hạ nguồn: Tỷ lệ lỗi từ (WER). Cùng với WER tổng thể cho mỗi cặp ngôn ngữ, chúng tôi báo cáo WER theo từng ngôn ngữ. WER ngữ nghĩa (SWER). Điểm này thể hiện tỷ lệ lỗi được đánh giá là có ý nghĩa ngữ nghĩa. Việc triển khai của chúng tôi chủ yếu dựa trên điểm chuẩn STT của Pipecat, và chúng tôi sử dụng Gemma-4-31B làm trọng tài. Tỷ lệ lỗi trả lời (AER). Chỉ số này trực tiếp nắm bắt liệu lỗi phiên âm có lan truyền thành các lỗi hạ nguồn hay không. Đây là một chỉ số hỏi-đáp tuân theo phương pháp luận trong Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456). Đối với mỗi phát ngôn, chúng tôi tạo ra ba câu hỏi hiểu hạ nguồn và đo lường liệu một LLM đọc bản ghi ASR có thể trả lời chúng một cách chính xác hay không. Luồng được thể hiện trong sơ đồ dưới đây. Kết quả Chúng tôi đã đánh giá các mô hình sau: AssemblyAI / Universal 3-Pro Deepgram / Nova 3 Multilang ElevenLabs / Scribe V2 Google / Gemini 3 Flash Mistral AI / Voxtral Small 24B-2507 Nvidia / Parakeet TDT 0.6b V3 OpenAI / Whisper Large V3 Turbo A. Các mô hình hoạt động tốt như thế nào trên điểm chuẩn của chúng tôi đối với việc chuyển đổi ngôn ngữ? Chúng tôi đã phân tích lỗi theo hai chiều: Độ chính xác cấp từ

Nguồn tin: Hugging Face Blog. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.