Xây dựng tổng đài khẩn cấp bằng giọng nói với LangChain

Tất cả chúng ta đều từng trải qua những trường hợp khẩn cấp mà mỗi giây đều quý giá. Mạng sống của ai đó đang bị đe dọa nhưng bạn lại hoảng loạn. Hãy tưởng tượng trong tình huống căng thẳng này, một đường dây nóng yêu cầu bạn nhấn các số trên bàn phím để kết nối với tổng đài viên phù hợp? Hoàn toàn hỗn loạn, phải không? Lúc này, chúng ta chỉ cần ai đó lắng nghe và [...] Bài viết Xây dựng tổng đài viên khẩn cấp bằng giọng nói với LangChain xuất hiện lần đầu trên Analytics Vidhya.

Xây dựng tác nhân thoại khẩn cấp AI thời gian thực với LangChain Hội nghị AI tương lai nhất của Ấn Độ đã trở lại – Lớn hơn, sắc nét hơn, táo bạo hơn d : h : m : s Nhận thông tin chi tiết Các khóa học miễn phí Đường dẫn học tập Chương trình tăng tốc Chương trình tăng tốc Mới Chương trình GenAI Pinnacle GenAI Pinnacle Plus Người tiên phong AI tác nhân Mới DeepSeek Hội nghị thượng đỉnh DataHack 2025 DHS 2026 Các khóa học miễn phí Đăng nhập Chuyển chế độ Đăng xuất Chuẩn bị phỏng vấn Sự nghiệp GenAI Kỹ thuật nhắc lệnh ChatGPT LLM Langchain RAG Tác nhân AI Học máy Học sâu Công cụ GenAI LLMOps Python NLP SQL Dự án AIML Danh sách đọc Lộ trình học phân tích dữ liệu Cách trở thành nhà phân tích dữ liệu vào năm 2025: Lộ trình hoàn chỉnh Lộ trình học Tableau Lộ trình học Tableau toàn diện vào năm 2025 Lộ trình học NLP Lộ trình học NLP toàn diện 2025 Lộ trình học nhà khoa học dữ liệu Lộ trình học để trở thành nhà khoa học dữ liệu vào năm 2025 Lộ trình học kỹ sư dữ liệu Lộ trình từng bước để trở thành kỹ sư dữ liệu vào năm 2025 Lộ trình học MLOps Lộ trình học MLOps toàn diện: Phiên bản 2025 Lộ trình học kỹ sư AI Lộ trình để trở thành kỹ sư AI vào năm 2025 Lộ trình học thị giác máy tính Lộ trình học toàn diện để thành thạo thị giác máy tính vào năm 2025 Lộ trình học AI tạo sinh Lộ trình tốt nhất để học AI tạo sinh vào năm 2025 Lộ trình AI tạo sinh cho doanh nghiệp Lộ trình GenAI cho doanh nghiệp Lộ trình LLM Các mô hình ngôn ngữ lớn được giải mã: Lộ trình dành cho người mới bắt đầu Lộ trình kỹ sư nhắc lệnh Lộ trình học để trở thành chuyên gia kỹ thuật nhắc lệnh Trang chủ Langchain Xây dựng tác nhân thoại đường dây nóng khẩn cấp với LangChain Xây dựng tác nhân thoại đường dây nóng khẩn cấp với LangChain Riya Bansal Cập nhật lần cuối: 08/06/2026 7 phút đọc Tất cả chúng ta đều đã từng trải qua trường hợp khẩn cấp mà mỗi giây đều quý giá. Mạng sống của ai đó đang gặp nguy hiểm nhưng bạn lại đang hoảng loạn. Bây giờ, hãy tưởng tượng trong tình huống căng thẳng này, khi một đường dây nóng yêu cầu bạn nhấn các số trên bàn phím để kết nối với đúng nhân viên? Hoàn toàn hỗn loạn, phải không? Ở đây, chúng ta chỉ cần ai đó lắng nghe và hành động ngay lập tức thay vì chuyển tiếp và cũng không làm gián đoạn cuộc gọi. Trong blog này, chúng ta sẽ giải quyết thách thức lớn này bằng cách xây dựng tác nhân thoại đường dây nóng khẩn cấp AI của riêng mình. Tác nhân này lắng nghe lời kêu cứu của người gọi, phân loại tình huống, điều động dịch vụ khẩn cấp phù hợp và giữ bình tĩnh cho người gọi, tất cả đều trong thời gian thực, tất cả đều bằng giọng nói. Không cần gõ phím. Không có menu. Chỉ cần nói chuyện. Mục lục Tại sao lại là đường dây nóng khẩn cấp? Cách thức hoạt động của quy trình? Bắt đầu với tác nhân thoại Giai đoạn 1: Chuyển giọng nói thành văn bản với AssemblyAI Giai đoạn 2: Tác nhân phân loại khẩn cấp Giai đoạn 3: Chuyển văn bản thành giọng nói với OpenAI TTS Kết nối toàn bộ quy trình Kiểm tra tác nhân thoại Kết luận Tại sao lại là đường dây nóng khẩn cấp? Có lẽ, những ví dụ phổ biến nhất về trợ lý giọng nói đang được sử dụng hiện nay là đặt món ăn hoặc phát nhạc trực tuyến. Các trường hợp sử dụng "chức năng" này tương đối vô hại từ góc độ trải nghiệm người dùng, nhưng dễ bị lãng quên. Mặt khác, trường hợp sử dụng của đường dây nóng khẩn cấp lại hoàn toàn khác. Đối với trường hợp sử dụng này, độ trễ là một yếu tố quan trọng, giọng điệu của trợ lý giọng nói có thể ảnh hưởng đến việc ai nhận được trợ giúp trước, và không thể sử dụng phương pháp thay thế để điều động xe cấp cứu. Do đó, mọi quyết định thiết kế được đưa ra trong quy trình này đều có khả năng gây ra những hậu quả thực tế, khiến thiết kế này trở thành trường hợp sử dụng có giá trị nhất để tích lũy kinh nghiệm. Quy trình hoạt động như thế nào? Mô hình kiến trúc Sandwich bao gồm 3 thành phần độc lập, và mỗi thành phần được thiết kế để hoạt động đồng thời. Mỗi thành phần sẽ bắt đầu xử lý độc lập và cùng lúc khi thành phần trước đó hoàn thành giai đoạn xử lý của nó, cụ thể: trong khi nói, quá trình chuyển đổi giọng nói thành văn bản (transcribing) sẽ bắt đầu giữa câu của người nói, tác nhân suy luận (reasoning agent) sẽ bắt đầu suy luận về các phản hồi trước đó trong khi người nói kết thúc câu của họ, quá trình chuyển đổi văn bản thành giọng nói (text-to-speech) sẽ bắt đầu tổng hợp các phản hồi cho câu của người nói trong khi tác nhân suy luận tiếp tục suy luận. Nếu mọi thứ được triển khai chính xác, toàn bộ quá trình sẽ hoàn thành trong vòng chưa đầy mười giây. Trong một kịch bản thực thi theo thời gian, điều này sẽ cho phép âm thanh được truyền liên tục, không bị gián đoạn trong việc truyền tải âm thanh. Bắt đầu với Trợ lý giọng nói Cần có khóa API cho AssemblyAI (STT thời gian thực) và OpenAI (cả bộ não tác nhân và TTS). Có thể dễ dàng hợp nhất các API của mình vào một nhà cung cấp và một công việc bằng cách sử dụng OpenAI TTS. Dưới đây là các dòng lệnh cần thiết để cài đặt các thư viện bắt buộc: !pip install langchain langgraph assemblyai websockets fastapi uvicorn openai Hướng dẫn thiết lập biến môi trường: export ASSEMBLYAI_API_KEY="your_key" export OPENAI_API_KEY="your_key" export LANGSMITH_TRACING="true" export LANGSMITH_API_KEY="your_key" Nên bật Langsmith để đảm bảo rằng mọi cuộc trò chuyện giữa tác nhân và khách hàng đều có thể được coi là một cuộc kiểm toán cũng như có thể được sử dụng làm một yêu cầu hỗ trợ tiềm năng. Kiểm toán cung cấp sự tuân thủ và gỡ lỗi bằng cách cung cấp tài liệu về những gì tác nhân đã nói khi nào. Giai đoạn 1: Chuyển đổi giọng nói thành văn bản với AssemblyAI Ở giai đoạn STT, chúng tôi chuyển đổi giọng nói của người gọi trực tiếp. Do đó, chúng tôi sẽ sử dụng API WebSocket từ AssemblyAI theo mô hình nhà sản xuất-người tiêu dùng, trong đó các đoạn âm thanh đi vào và bản ghi đi ra, tương ứng, cùng một lúc. from typing import AsyncIterator