Chúng tôi đã thử nghiệm 25 mô hình ngôn ngữ lớn (LLM) cục bộ…

Vitaly Gariev / UnsplashTrong năm qua, chúng tôi đã phát triển một trợ lý AI y tế tại Meda AI, có khả năng chuyển đổi các đoạn ghi âm cuộc trò chuyện giữa bác sĩ và bệnh nhân thành ghi chú SOAP, mã ICD-10-GM và các mục thanh toán. Những câu hỏi thường gặp từ các bác sĩ là: Quyền riêng tư dữ liệu thì sao? Các bạn có thể đảm bảo dữ liệu của chúng tôi được bảo mật không? Việc triển khai tại chỗ (On Premise) với AI cục bộ 100% sẽ giải quyết được nhiều câu hỏi dạng này. Hạn chế của chúng tôi rất đơn giản: một tuổi bệnh nhân bị "ảo giác", một liều lượng sai, hoặc một dị ứng bịa đặt không phải là một lỗi nhỏ gây cười. Đó là một sự cố an toàn cho bệnh nhân. Vậy, làm thế nào để thực sự chọn một LLM cục bộ cho công việc lâm sàng? Bài viết này sẽ hướng dẫn...

Vitaly Gariev / Unsplash. Trong năm qua, chúng tôi đã phát triển một trợ lý AI y tế tại Meda AI, có khả năng chuyển đổi các cuộc hội thoại giữa bác sĩ và bệnh nhân thành ghi chú SOAP, mã ICD-10-GM và các mục thanh toán. Các câu hỏi thường gặp từ các bác sĩ là: Quyền riêng tư dữ liệu thì sao? Các bạn có thể đảm bảo dữ liệu của chúng tôi an toàn không? Việc triển khai tại chỗ (On Premise) với AI cục bộ 100% sẽ giải quyết được nhiều câu hỏi dạng này. Hạn chế của chúng tôi rất đơn giản: một tuổi bệnh nhân bị "ảo giác", một liều lượng sai, hoặc một dị ứng bịa đặt không phải là một lỗi nhỏ hài hước. Đó là một sự cố an toàn cho bệnh nhân. Vậy, làm thế nào để thực sự chọn một LLM cục bộ cho công việc lâm sàng? Bài viết này sẽ trình bày bảy câu hỏi mà chúng tôi đã tự đặt ra, theo thứ tự chúng tôi đã hỏi, và những câu trả lời mà chúng tôi đã đạt được sau năm ngày thử nghiệm. Bài viết này không phải là một tiêu chuẩn đánh giá được chuẩn hóa, chúng tôi chủ yếu làm việc cùng với tác nhân AI để phân tích và kiểm tra với dữ liệu thực tế của chúng tôi để nắm bắt/cảm nhận mô hình nào là tốt nhất cho trường hợp sử dụng của chúng tôi. Tóm tắt: Có, giai đoạn hiện tại của các mô hình LLM cho phép bạn triển khai trợ lý AI y tế của mình cục bộ. M3 Ultra sẽ cung cấp cho bạn hơn 100 token/giây với các cài đặt phù hợp, đừng quá tập trung vào các mô hình MLX vì mô hình GGUF mới hơn có thể mang lại chất lượng tốt hơn với tốc độ giảm chấp nhận được. Hãy kiểm tra mô hình của bạn một cách độc lập cho từng quy trình, và nên sử dụng mô hình không cần suy luận vì chi phí suy luận không đáng để đánh đổi tốc độ. I. AI y tế đã sẵn sàng cho việc triển khai cục bộ 100% chưa? Trả lời ngắn gọn: có, nhưng không có giải pháp nào phù hợp cho tất cả. Ba thực tế đã khiến chúng tôi tự tin rằng một hệ thống hoàn toàn tại chỗ là khả thi hiện nay: Phần cứng đã bắt kịp. Một chiếc Mac Studio M3 Ultra với 96 GB bộ nhớ hợp nhất có thể thoải mái lưu trữ một số mô hình sản xuất với không gian dự phòng. Các mô hình nhỏ đến trung bình đã trở nên tốt. Một mô hình dày đặc nhỏ với 8–12B trọng số đạt tỷ lệ không "ảo giác" trong việc trích xuất văn bản có cấu trúc, và các mô hình MoE có thể cung cấp khả năng suy luận lâm sàng cấp độ đám mây trên một máy trạm duy nhất. Thiết lập tại chỗ giúp GDPR dễ dàng hơn. Đối với một phòng khám đa khoa ở Đức, "chỉ cần gửi nó cho OpenAI" không phải là một lựa chọn hợp pháp, vì vậy câu hỏi ít hơn là "đã sẵn sàng cục bộ chưa?" và nhiều hơn là "hệ thống cục bộ nào phù hợp?". Lưu ý: một LLM cục bộ không phải là một sự thay thế trực tiếp cho phán đoán của bác sĩ lâm sàng. Chúng ta sẽ quay lại vấn đề này trong phần VII khi nói về kiến trúc hai lớp. II. Phần cứng và mô hình nào phù hợp? Về phần cứng, chúng tôi đã thử nghiệm trên 2 máy sau: Mac Studio M3 Ultra – 96 GB bộ nhớ hợp nhất. Mục tiêu chính của chúng tôi. Tuyệt vời cho việc phục vụ nhiều mô hình vì bộ nhớ được chia sẻ giữa các mô hình. Những gì chúng tôi đã tìm ra: Băng thông bộ nhớ là giới hạn giải mã, không phải tính toán. Băng thông bộ nhớ ~800 GB/giây của M3 Ultra giới hạn giải mã Gemma 12B ở mức ~56–70 token/giây. Chúng tôi đã thử một số kết hợp cờ tối ưu hóa (lượng tử hóa bộ nhớ KV, kích thước khối tiền điền, tỷ lệ sử dụng bộ nhớ GPU, MLX thô so với mlx_lm so với rapid-mlx so với LM Studio) – cả bốn khung đều nằm trong khoảng ±2 token/giây so với nhau. Không có sửa lỗi phần mềm; giới hạn là phần cứng. Đồng thời hóa lấy lại hầu hết tổn thất. Ba yêu cầu đồng thời trên rapid-mlx đẩy thông lượng hệ thống lên 110 token/giây (tăng tốc 1,83 lần theo thời gian thực), và 3 phiên bản mô hình ở parallel=8 đạt 205 token/giây cho Orchestrator-8B và 517–667 token/giây cho LFM2-8B. Vì vậy, M3 chậm trên mỗi yêu cầu nhưng mở rộng chấp nhận được trên nhiều bác sĩ sử dụng thiết bị cùng một lúc. Các mô hình VLM (MLX) là công dân hạng hai (hiện tại). LM Studio buộc parallel=1 trên mọi Mô hình Ngôn ngữ Thị giác, bao gồm cả bản dựng Gemma 4 E4B MLX xuất sắc. Dưới tải đồng thời 3 lần, nó chỉ thành công trên 2 trong số 6 yêu cầu. Để đạt được tính đồng thời thực sự, cần có một điểm kiểm tra chỉ văn bản hoặc bản dựng GGUF thông qua llama.cpp. Threadripper 7980X + NVIDIA 5090 (32GB VRAM). Thiết lập không đồng thời. Phù hợp để so sánh một mô hình, nhưng thiếu RAM cho tải đa mô hình/đồng thời. Những gì chúng tôi đã phát hiện: Hiệu suất thực sự khả thi cho các triển khai một bác sĩ. Gemma 12B với tốc độ 116 tok/s trên llama.cpp ngang bằng hoặc vượt trội so với hầu hết các API đám mây trên cơ sở một luồng, không có chi phí trên mỗi token. 32 GB VRAM của 5090 giới hạn kích thước mô hình mạnh hơn so với bộ nhớ hợp nhất 96 GB của M3 Ultra. Một triển khai Threadripper có thể lưu trữ một mô hình quan trọng về chất lượng trên GPU và chuyển phần còn lại sang DDR5 – một sự đánh đổi khác so với mô hình "phù hợp mọi thứ vào bộ nhớ hợp nhất" của Mac Studio. Về tỷ lệ chi phí so với hiệu suất (chấp nhận được), Mac Studio M3 chiến thắng. III. Chúng tôi đã thử nghiệm những trường hợp AI y tế nào? Trước khi đánh giá hiệu năng, chúng tôi đã chia vấn đề thành ba giai đoạn. Việc kết hợp chúng vào một lời nhắc duy nhất là sai lầm chính mà chúng tôi thấy các nhóm khác mắc phải. Giai đoạn 1 – Bản ghi → SOAP/Tóm tắt. Lớp ghi chép. Trích xuất những gì đã được nói. Không hơn. Giai đoạn 2 – SOAP → ICD-10-GM. Lớp lý luận lâm sàng. Giai đoạn 3 – Ngữ cảnh y tế → mã thanh toán. Lớp tối ưu hóa người lập hóa đơn/doanh thu. Mỗi giai đoạn đòi hỏi một hành vi mô hình khác nhau: Người ghi chép phải trung lập (một người ghi chép, không phải bác sĩ). Người mã hóa phải lý luận lâm sàng (một người mã hóa y tế, không phải người ghi chép). Người lập hóa đơn phải nhanh chóng và có cấu trúc (một người điền biểu mẫu kỹ thuật). Đối với dữ liệu thử nghiệm, chúng tôi đã sử dụng bốn độ dài bản ghi để phơi bày các chế độ lỗi khác nhau: 2K ký tự – một lần khám viêm xoang đơn giản. Kiểm tra khả năng trích xuất cơ bản. 5K ký tự – một lần tái khám tiểu đường. Kiểm tra khả năng xử lý giá trị xét nghiệm. 10K ký tự – một cuộc kiểm tra thoát vị đĩa đệm. Kiểm tra từ vựng giải phẫu. 15K ký tự – một trường hợp đa chấn thương với nhiều bệnh đồng mắc và dị ứng thuốc. Kiểm tra khả năng ghi nhớ ngữ cảnh dài và gắn cờ tương tác thuốc. Bản ghi đa chấn thương là bộ lọc chính của chúng tôi. Nếu một mô hình bỏ qua ngữ cảnh y tế ở 15K, nó sẽ không được vào vòng tiếp theo. IV. Chúng tôi đã thử bao nhiêu mô hình và những mô hình nào bị loại ngay lập tức? Chúng tôi đã sàng lọc các ứng viên dựa trên bốn ràng buộc cứng trước khi đánh giá hiệu năng: Phù hợp với bộ nhớ dưới ~25 GB mỗi mô hình. Điều này cho phép chúng tôi chạy đồng thời hơn 3 mô hình trong bộ nhớ hợp nhất 96 GB với khoảng trống cho bộ nhớ đệm KV, hệ điều hành, Whisper và các dịch vụ hỗ trợ. Hạn chế này cũng cho phép chúng tôi thử nghiệm trên GPU 5090. Đào tạo trước mạnh mẽ bằng tiếng Đức. Các bản ghi lâm sàng bằng tiếng Đức, với từ vựng y tế khu vực.

Chúng tôi đã thử nghiệm 25 mô hình ngôn ngữ lớn (LLM) cục bộ cho mục đích y tế. Dưới đây là những gì đã được triển khai.