Các hệ thống AI giọng nói dễ bị tấn công bằng âm thanh ẩn

Các công cụ giọng nói và âm thanh được hỗ trợ bởi AI đang ngày càng trở nên phổ biến trong đời sống hàng ngày, từ trợ lý kỹ thuật số đến loa thông minh và bot dịch vụ khách hàng. Những tiến bộ trong các mô hình ngôn ngữ-âm thanh lớn (LALM), có khả năng phân tích và tạo ra âm thanh, hiện cho phép điều khiển thiết bị bằng khẩu lệnh, tự động ghi lại các cuộc họp hoặc nhận dạng một bài hát đang phát trong nền. Các mô hình này cũng ngày càng được trang bị khả năng giao tiếp với các dịch vụ bên ngoài và vận hành các ứng dụng, công cụ khác. Tuy nhiên, những công cụ này có thể bị "chiếm quyền điều khiển" thông qua các âm thanh không thể nhận biết được nhúng vào.

Các công cụ âm thanh và giọng nói được hỗ trợ bởi trí tuệ nhân tạo (AI) đang ngày càng được tích hợp vào cuộc sống hàng ngày, từ trợ lý kỹ thuật số đến loa thông minh và bot dịch vụ khách hàng. Những tiến bộ trong các mô hình ngôn ngữ-âm thanh lớn (LALM), có khả năng phân tích và tạo ra âm thanh, hiện cho phép điều khiển thiết bị bằng lệnh thoại, tự động phiên âm các cuộc họp hoặc nhận dạng một bài hát đang phát trong nền. Các mô hình này cũng ngày càng được trang bị khả năng giao tiếp với các dịch vụ bên ngoài và vận hành các ứng dụng, công cụ khác. Tuy nhiên, các công cụ này có thể bị "chiếm quyền điều khiển" thông qua các âm thanh không thể nhận biết được nhúng trong âm thanh, buộc chúng phải thực hiện các lệnh trái phép mà người dùng không hề hay biết. Nghiên cứu mới dự kiến được trình bày tại Hội nghị chuyên đề IEEE về An ninh và Quyền riêng tư ở San Francisco vào tuần tới cho thấy rằng một đoạn âm thanh đã được sửa đổi không thể phát hiện bằng tai người có thể thao túng hành vi của một mô hình với tỷ lệ thành công trung bình từ 79 đến 96 phần trăm. Các đoạn âm thanh này được thiết kế để hoạt động bất kể hướng dẫn mà người dùng cung cấp cùng với âm thanh, nghĩa là chúng có thể được tái sử dụng để tấn công cùng một mô hình nhiều lần. Các tác giả đã thử nghiệm phương pháp này trên 13 mô hình mở hàng đầu, bao gồm các dịch vụ giọng nói AI thương mại từ Microsoft và Mistral, và cho thấy họ có thể lôi kéo các mô hình thực hiện các tìm kiếm web nhạy cảm, tải xuống tệp từ các nguồn do kẻ tấn công kiểm soát và gửi email chứa dữ liệu người dùng. "Chỉ mất nửa giờ để huấn luyện tín hiệu này và sau đó, vì tín hiệu này không phụ thuộc vào ngữ cảnh, bạn có thể sử dụng nó để tấn công mô hình mục tiêu bất cứ khi nào bạn muốn, bất kể người dùng nói gì," tác giả chính Meng Chen, một nghiên cứu sinh tiến sĩ tại Đại học Chiết Giang ở Trung Quốc, cho biết. Cách âm thanh đối kháng tiêm nhiễm các cuộc tấn công Nghiên cứu này được xây dựng dựa trên nhiều năm nghiên cứu về "ví dụ âm thanh đối kháng" – âm thanh bị thao túng để đánh lừa các mô hình học máy. Các công trình trước đây chủ yếu tập trung vào cách các tệp này có thể gây ra các dự đoán không chính xác trong các mô hình thực hiện các tác vụ một chiều như nhận dạng giọng nói hoặc phân loại âm thanh. Điều làm nên sự khác biệt của công trình mới này, theo Chen, là nó nhắm mục tiêu vào các mô hình tạo sinh có khả năng tạo ra phản hồi và thực hiện hành động. Kỹ thuật của họ, được đặt tên là AudioHijack, khai thác một lỗ hổng bảo mật nghiêm trọng trong thiết kế LALM: Vì các mô hình này có thể nhận hướng dẫn ở định dạng âm thanh, các hướng dẫn độc hại có thể được ẩn trong các đoạn âm thanh bị thao túng để gây ra một loạt các hành vi không mong muốn. Nhiều cuộc tấn công trước đây vào các mô hình tạo sinh yêu cầu kẻ tấn công phải kiểm soát hoàn toàn cả đầu vào âm thanh cuối cùng và các hướng dẫn ban đầu được cung cấp cho mô hình, về cơ bản hoạt động như người dùng. Ở đây, kẻ tấn công chỉ thao túng dữ liệu âm thanh đang được xử lý bởi mô hình, điều này giúp có thể tấn công một mô hình trong khi nó đang được người khác sử dụng. Các ví dụ thực tế bao gồm việc ẩn các hướng dẫn độc hại trong các video trực tuyến, các đoạn nhạc hoặc ghi chú thoại mà người dùng truy vấn AI, hoặc phát sóng âm thanh độc hại trong một cuộc gọi Zoom sau đó được tải lên các dịch vụ phiên âm AI. Chen cho biết các nghiên cứu gần đây hơn, chưa được công bố của nhóm cũng đã chứng minh khả năng tiêm âm thanh độc hại của họ vào một cuộc trò chuyện thoại trực tiếp với AI trong thời gian thực. Các nhà nghiên cứu đã sử dụng một phương pháp đã được thử nghiệm và chứng minh để tạo ra các ví dụ đối kháng. Điều này liên quan đến việc điều chỉnh các giá trị số đại diện cho dạng sóng trong tệp âm thanh kỹ thuật số theo những cách không làm thay đổi đáng kể âm thanh của nó, nhưng lại gây ra các hành vi không mong muốn trong mô hình khi nó xử lý dữ liệu. Kỹ thuật này dựa trên một thuật toán tối ưu. thuật toán tối ưu hóa liên tục điều chỉnh một đoạn âm thanh, đo lường tác động đến phản hồi của mô hình, sau đó sử dụng tín hiệu này để điều chỉnh thêm âm thanh cho đến khi mô hình thực hiện theo ý muốn của kẻ tấn công. Nhắm mục tiêu các mô hình AI âm thanh tạo sinh Việc áp dụng phương pháp này cho các mô hình tạo sinh đặt ra một thách thức lớn. AI cũ cung cấp phản hồi chi tiết về cách những thay đổi nhỏ đối với âm thanh thô ảnh hưởng đến phản hồi. Tuy nhiên, các mô hình tạo sinh chia âm thanh thành các đoạn và gán chúng cho các biểu diễn số được gọi là “token”, ánh xạ mỗi đoạn nhỏ đến phần khớp gần nhất. Quá trình thô hơn này khiến việc xác định liệu một thao tác có đưa mô hình đến gần hơn với hành vi mong muốn hay không trở nên khó khăn hơn, làm nhiễu loạn thuật toán tối ưu hóa. Vì vậy, Chen và các đồng nghiệp đã nghĩ ra một cách để ước tính phản hồi chi tiết cần thiết cho thuật toán tối ưu hóa để điều chỉnh thao tác. Điều này đòi hỏi quyền truy cập đầy đủ vào mô hình, hạn chế các nhà nghiên cứu chỉ sử dụng các mô hình mở với trọng số công khai. Tuy nhiên, họ phát hiện ra rằng các cuộc tấn công được phát triển cho các mô hình mở có thể chuyển sang các mô hình thương mại của Microsoft và Mistral có cùng kiến trúc cơ bản. Đáp lại yêu cầu bình luận, người phát ngôn của Microsoft cho biết: “Chúng tôi đánh giá cao công trình nghiên cứu của các nhà nghiên cứu nhằm nâng cao hiểu biết về loại kỹ thuật này. Nghiên cứu này đánh giá khả năng phục hồi của mô hình thông qua các tương tác trực tiếp, có kiểm soát với chính mô hình, điều này giúp định hình cách tiếp cận của chúng tôi trong việc xây dựng khả năng phục hồi của mô hình. Trên thực tế, các mô hình AI thường được tích hợp vào các ứng dụng của người dùng và chúng tôi cung cấp cho các nhà phát triển các công cụ và hướng dẫn mà họ có thể sử dụng để triển khai các lớp bảo vệ bổ sung giúp bảo vệ người dùng.” Mistral đã không trả lời yêu cầu bình luận vào thời điểm xuất bản. Nâng cao hiệu quả của AudioHijack Chen cho biết, việc tấn công các mô hình độc quyền, đóng của các công ty như OpenAI và Anthropic khó hơn nhiều, do thông tin công khai về kiến trúc của chúng còn hạn chế. Nhưng các mô hình này thường sử dụng các thành phần mã nguồn mở—chẳng hạn như bộ mã hóa âm thanh được đào tạo trước—có thể bị nhắm mục tiêu tương tự, điều mà nhóm hiện đang nghiên cứu. Để đảm bảo cuộc tấn công hoạt động bất kể người dùng cung cấp hướng dẫn nào cùng với đoạn âm thanh độc hại, các nhà nghiên cứu đã ghép đoạn âm thanh với các hướng dẫn khác nhau của người dùng trong mỗi vòng của quá trình tối ưu hóa. Họ cũng tìm ra cách để kiểm soát cơ chế chú ý của mô hình, thành phần giúp mô hình xác định các phần của âm thanh có liên quan đến nhiệm vụ đã được đặt ra.