Mô hình chuyển văn bản thành giọng nói tiếng Māori đi ngược lại…

New Zealand là quốc gia nổi tiếng với những cảnh quan ngoạn mục, nhưng bối cảnh ngôn ngữ của nước này cũng thú vị không kém. Trong ba ngôn ngữ chính thức, chỉ có tiếng Māori (te reo Māori) được coi là bản địa. Mặc dù chỉ có 4,3% dân số nói trôi chảy ngôn ngữ này, thống kê quốc gia cho thấy khoảng 30% người New Zealand có thể nói được nhiều hơn một vài từ hoặc cụm từ tiếng Māori. Tuy nhiên, khi yêu cầu ChatGPT viết tiếng Māori, nó sẽ đáp ứng, trả lời trôi chảy các câu hỏi bằng dạng chuẩn của ngôn ngữ này được dạy trong trường học và phát sóng trên truyền hình quốc gia.

New Zealand là một quốc gia nổi tiếng với những cảnh quan ngoạn mục, nhưng bối cảnh ngôn ngữ của nước này cũng thú vị không kém. Trong ba ngôn ngữ chính thức, chỉ có tiếng Māori (te reo Māori) được coi là bản địa. Mặc dù chỉ có 4,3% dân số nói trôi chảy, thống kê quốc gia cho thấy khoảng 30% người New Zealand có thể nói được vài từ hoặc cụm từ của ngôn ngữ này. Tuy nhiên, khi yêu cầu ChatGPT viết tiếng Māori, nó sẽ thực hiện, trả lời trôi chảy các câu hỏi bằng dạng chuẩn hóa của ngôn ngữ được dạy trong trường học và phát sóng trên truyền hình quốc gia. Claude và Perplexity cũng có thể làm điều tương tự. Hiệu suất ngôn ngữ ấn tượng này được xây dựng dựa trên văn bản và âm thanh do các cộng đồng và học giả Māori tạo ra, được thu thập và đưa vào mà không có sự cho phép của họ, xử lý bên ngoài New Zealand và trả về cho người dùng thông qua các giao diện thuộc sở hữu của các công ty công nghệ lớn. Đối với người Māori, đó là một vấn đề. “Các công ty ở nước ngoài này có đủ nguồn lực để tạo ra các mô hình AI hoạt động tốt,” Te Taka Keegan, giáo sư tại Đại học Waikato và đồng giám đốc Viện Trí tuệ Nhân tạo của trường, cho biết. “Nhưng họ đã thu thập tất cả dữ liệu đó mà không có sự đóng góp từ chúng tôi, và chúng tôi không sở hữu đầu ra. Ngôn ngữ của chúng tôi là phương tiện truyền tải kiến thức quan trọng nhất mà chúng tôi có… tuy nhiên chúng tôi thấy công nghệ được phát triển bên ngoài Aotearoa [New Zealand] ngày càng kiểm soát việc truyền tải kiến thức đó.” Được thúc đẩy bởi nhu cầu về “hệ thống kỹ thuật số có chủ quyền” mà Keegan gọi, ông và Kingsley Eng, sinh viên thạc sĩ của Keegan vào thời điểm đó, đã bắt tay vào phát triển một giọng nói tổng hợp có độ trung thực cao – nói cách khác là một hệ thống chuyển văn bản thành giọng nói – cho một phương ngữ cụ thể của tiếng Māori. Mọi quyết định kỹ thuật mà Keegan và Eng đưa ra trong quá trình thực hiện đều bị chi phối bởi một ràng buộc cơ bản thường bị bỏ qua bởi ngành AI – rằng giọng nói tổng hợp này, và mọi thứ được sử dụng để xây dựng nó, phải thuộc sở hữu của những người nói phương ngữ đó. Họ hy vọng những gì họ tạo ra sẽ cung cấp một bản thiết kế có thể nhân rộng cho các cộng đồng ngôn ngữ thiểu số khác trên thế giới. Những thách thức trong mô hình giọng nói AI tiếng Māori Các mô hình giọng nói AI chủ yếu được xây dựng bằng tiếng Anh, vì vậy việc áp dụng các mô hình đó cho các ngôn ngữ khác có thể dẫn đến lỗi. Tiếng Māori có một số đặc điểm ngôn ngữ cụ thể, chẳng hạn như tầm quan trọng của độ dài nguyên âm, gây ra những thách thức bổ sung cho các hệ thống giọng nói AI. Ví dụ, các từ “bánh” (keke), “nách” (kēkē) và “kẽo kẹt” (kekē) chỉ khác nhau ở độ dài của âm nguyên âm. Các chữ ghép – hai chữ cái tạo thành một âm – cũng phổ biến và được phát âm khác với tiếng Anh; “wh” thường được phát âm là “f”. Trong tiếng Māori, phát âm không chính xác làm thay đổi nghĩa của từ. Ngoài ra, tiếng Māori được coi là ngôn ngữ có nguồn lực thấp, bởi vì, so với một ngôn ngữ như tiếng Anh hoặc tiếng Trung, có tương đối ít dữ liệu đào tạo tiềm năng dưới dạng văn bản, tập dữ liệu hoặc lời nói được ghi lại có sẵn ở định dạng kỹ thuật số. Để giải quyết vấn đề này, Keegan đã tuyển dụng Ngaringi Katipa – một dịch giả, nhà giáo dục và cố vấn ngôn ngữ – để trở thành giọng nói con người đồng ý đằng sau công cụ này. “Ngôn ngữ của chúng tôi là phương tiện truyền tải kiến thức quan trọng nhất mà chúng tôi có… tuy nhiên chúng tôi thấy công nghệ được phát triển bên ngoài Aotearoa ngày càng kiểm soát việc truyền tải kiến thức đó.” —Te Taka Keegan, Đại học Waikato “Chúng tôi tập trung vào phương ngữ địa phương của mình, Waikato-Maniapoto, bởi vì chính trong các phương ngữ mà bạn thấy vẻ đẹp thực sự của ngôn ngữ. Chúng gắn kết nó với một “một địa điểm cụ thể và ý thức về bản sắc,” Keegan cho biết. Eng, hiện là kỹ sư học máy tại công ty sản xuất công cụ chính xác Extec, cho biết: “Ban đầu, chúng tôi chỉ ghi âm Ngaringi đọc các đoạn văn từ sách, thu được 4,5 giờ dữ liệu. Sau đó, chúng tôi mở rộng tập dữ liệu bằng cách ghi âm từ một danh sách toàn diện các câu và từ – bao gồm cả những từ rất hiếm – do anh trai của Te Taka là Peter, một chuyên gia ngôn ngữ Māori, cung cấp cho chúng tôi.” Sau khi được làm sạch và xử lý, tổng số bản ghi âm cuối cùng là 7 giờ 45 phút. Mô hình AI chuyển văn bản thành giọng nói tiếng Māori Việc xây dựng một hệ thống chuyển văn bản thành giọng nói thường sử dụng một trong hai phương pháp nhập dữ liệu. Phương pháp thứ nhất là dựa trên ký tự, trong đó các chữ cái thô được truyền trực tiếp đến mô hình. Phương pháp thứ hai là dựa trên âm vị, trong đó văn bản được chuyển đổi thành biểu diễn ngữ âm, hoặc mô tả cách phát âm của từng từ, trước khi bắt đầu huấn luyện. Eng cho biết: “Chúng tôi đã thử cả hai, nhưng phương pháp âm vị tốt hơn nhiều. Cung cấp cho mô hình các quy tắc âm vị ngay từ đầu giống như một khởi đầu thuận lợi.” Âm vị cho mô hình biết các nhóm chữ cái nhất định phát âm như thế nào, “điều này cho phép bạn bỏ qua một số quá trình học,” ông nói. Để cung cấp cho mô hình các quy tắc âm vị, các nhà nghiên cứu đã sử dụng một công cụ mã nguồn mở có tên eSpeak NG, bao gồm một bộ quy tắc tiếng Māori phiên bản beta mà họ đã điều chỉnh thêm. Eng đã thử nghiệm ba kiến trúc thần kinh mã nguồn mở – Matcha-TTS, Tacotron2 và Piper – để huấn luyện và chuyển đổi các bản ghi âm thành giọng nói tổng hợp. Piper, có thể chạy ngoại tuyến trên một máy cục bộ, cho kết quả tốt nhất và được chọn cho bản dựng cuối cùng. Mặc dù chỉ sử dụng dưới tám giờ ghi âm chất lượng tốt – ít hơn đáng kể so với hàng trăm giờ thường được đề xuất để huấn luyện một mô hình chuyển văn bản thành giọng nói – giọng nói AI cuối cùng vẫn hiệu quả. Chỉ số chính được sử dụng trong nghiên cứu chuyển văn bản thành giọng nói là tỷ lệ lỗi từ, trong đó tỷ lệ phần trăm thấp hơn cho thấy độ chính xác cao hơn. Giọng nói AI của Keegan và Eng đạt tỷ lệ lỗi 6,78%, được coi là “tốt” theo tiêu chuẩn ngành hiện tại. Trong suốt quá trình phát triển, một chuyên gia đánh giá ngôn ngữ Māori đã đánh giá giọng nói, xếp hạng nó về độ tự nhiên, độ chính xác phát âm và biểu cảm. Các nhà nghiên cứu cũng mời 68 người nói tiếng te reo Māori thành thạo nghe cả âm thanh của con người và âm thanh tổng hợp, và yêu cầu họ xác định đâu là âm thanh nào. Người nghe đã xác định đúng giọng nói 65% số lần. “Chúng tôi hài lòng với điều đó vì một số người nghe là thành viên gia đình của người nói – họ biết giọng nói của cô ấy.”

Mô hình chuyển văn bản thành giọng nói tiếng Māori đi ngược lại các giá trị của các tập đoàn công nghệ lớn