Chatbots AI có thể suy luận như bác sĩ không?

Một trong những mục tiêu được nêu sớm nhất của tính toán trong y học là hỗ trợ lý luận lâm sàng: các bước ra quyết định cần thiết để đạt được chẩn đoán và hình thành kế hoạch điều trị. Và trong nhiều năm, các nhà nghiên cứu đã xây dựng nhiều hệ thống hỗ trợ quyết định lâm sàng, thường được xây dựng có mục đích, với các quy tắc được viết tỉ mỉ về các triệu chứng, ngưỡng xét nghiệm và tương tác thuốc. Khi khả năng trí tuệ nhân tạo phát triển, lý luận lâm sàng là một ứng dụng tự nhiên. Theo một nghiên cứu được công bố ngày 30 tháng 4 trên tạp chí Science, giờ đây, một mô hình ngôn ngữ lớn (LLM) từ OpenAI đã vượt trội hơn các bác sĩ trong một số nhiệm vụ lý luận lâm sàng bằng cách sử dụng hồ sơ phòng cấp cứu thực sự. Những phát hiện mới xuất hiện trong bối cảnh có một làn sóng bằng chứng đáng lo ngại về thông tin y tế từ chatbot, với một số nghiên cứu cho thấy hiệu suất chẩn đoán ấn tượng trong khi những nghiên cứu khác ghi lại các trích dẫn bịa đặt, lời khuyên thiếu sót và kết quả thay đổi tùy thuộc vào cách các nhà nghiên cứu chấm điểm hệ thống. Bất chấp sự không chắc chắn đó, các sản phẩm hướng tới các chuyên gia y tế vẫn đang gia nhập thị trường. Ví dụ: năm nay OpenAI đã giới thiệu ChatGPT dành cho bác sĩ lâm sàng và ChatGPT dành cho chăm sóc sức khỏe. Hiệu suất của o1-preview của OpenAI, một mô hình có mục đích chung đã được thay thế bằng các mô hình mới hơn, đủ hứa hẹn để các tác giả đề xuất thử nghiệm thêm LLM trong các trường hợp thực tế, trong đó các bác sĩ đang tìm kiếm ý kiến thứ hai về chẩn đoán tại các điểm kiểm tra cụ thể. Mickael Tordjman, người nghiên cứu AI về hình ảnh y tế tại Trường Y khoa Icahn ở Thành phố New York, đồng ý rằng đây là thời điểm thích hợp để nghiên cứu tập trung vào các ứng dụng trong thế giới thực. Ông nói: “Chúng tôi cần thêm bằng chứng trong các thử nghiệm lâm sàng trong tương lai, đồng thời lưu ý rằng các mô hình LLM mới hơn hoặc những mô hình được đào tạo đặc biệt cho mục đích y tế, có thể hoạt động tốt hơn nữa. Trong khi các tác giả của bài báo Khoa học bày tỏ sự lạc quan về tiềm năng y tế của AI trong cuộc họp báo, họ cũng nhấn mạnh những hạn chế quan trọng của LLM và nêu lên lo ngại về cách nghiên cứu của họ có thể bị hiểu sai. Đồng tác giả Arjun Manrai, người nghiên cứu về AI tại Trường Y Harvard, cho biết: “Tôi không nghĩ những phát hiện của chúng tôi có nghĩa là AI sẽ thay thế bác sĩ”. Đồng tác giả Adam Rodman, một nhà giáo dục y khoa tại Trung tâm Y tế Beth Israel Deaconess ở Boston, cho biết: “Tôi nghĩ điều này thực sự thú vị, đừng hiểu sai ý tôi”. “Tôi hơi lo lắng về cách sử dụng một số kết quả này.” Chatbots đáng tin cậy như thế nào về các vấn đề y tế? Các nhà nghiên cứu khác điều tra lời khuyên y tế của chatbot gần đây đã tìm ra lý do để nghi ngờ độ tin cậy của chúng. Ví dụ, trong một nghiên cứu, gần một nửa số câu trả lời mà 5 chatbot phổ biến đưa ra cho các câu hỏi mở về sức khỏe đều sai sót. Chatbots đã bịa đặt thông tin và trích dẫn, đồng thời trình bày câu trả lời của họ một cách tự tin bất kể độ chính xác của chúng. Arya Rao, người nghiên cứu AI trong thực hành y tế ở một nhóm Harvard khác với các tác giả Khoa học, cho biết: "Những mô hình này đang được sử dụng hàng ngày. Có một số rủi ro nhất định không được định lượng hoặc giảm thiểu". Phần lớn nghiên cứu tập trung vào việc chatbot trả lời các câu hỏi về sức khỏe của người dùng hàng ngày — những loại câu hỏi mà một người có thể hỏi trước khi quyết định tìm kiếm sự chăm sóc y tế. Sử dụng LLM làm công cụ hỗ trợ quyết định lâm sàng cho bác sĩ là một nhiệm vụ hoàn toàn khác. Các bác sĩ nên hiểu rõ hơn nhiều về những thông tin nào sẽ giúp LLM đạt được chẩn đoán chính xác hoặc xây dựng kế hoạch điều trị, cũng như kiến thức nền tảng để xác định những sai lầm rõ ràng. Tuy nhiên, việc phát hiện ảo giác vẫn có thể là thách thức đối với các bác sĩ. Rodman nói: “Các mô hình đều có sức thuyết phục như nhau dù chúng đúng hay sai”. “Chúng tôi cần tìm quy trình làm việc có tỷ lệ lỗi thấp.” Các nhà nghiên cứu đã so sánh hai bác sĩ và hai mô hình ngôn ngữ lớn về nhiệm vụ chẩn đoán ở nhiều giai đoạn chăm sóc tại phòng cấp cứu. Peter G. Brodeur, Thomas A. Buckley và những người khác. Ngay cả những nghiên cứu tập trung vào các nhiệm vụ lý luận lâm sàng do bác sĩ thực hiện cũng có thể đưa ra những kết luận rất khác nhau tùy thuộc vào cách các nhà nghiên cứu định nghĩa thành công. Trong một bài báo xuất bản ngày 13 tháng 4 trên JAMA Network, Rao và các đồng nghiệp đã thử nghiệm 21 LLM trong các nhiệm vụ lý luận lâm sàng tương tự như trong bài báo Khoa học. Giống như bài báo Khoa học, nhiều bài đã thực hiện tốt các chẩn đoán cuối cùng, bao gồm cả các chatbot trong loạt bài o1. Tuy nhiên, Rao cho điểm LLM kém ở các câu hỏi chẩn đoán phân biệt vì cô ấy sử dụng một hệ thống đánh giá khác. Khi các bác sĩ đưa ra các chẩn đoán phân biệt, họ lưu ý tất cả các nguyên nhân có thể gây ra vết loét. triệu chứng của nt. LLM có thể liệt kê chính xác sáu trong số bảy chẩn đoán cuối cùng có thể có. Điều này có thể được cho điểm một cách hợp lý là 86% hoặc, như trong hệ thống của Rao, một thất bại không thể chấp nhận được. Không có hệ thống tính điểm tiêu chuẩn được thống nhất tại chỗ. “Nó vẫn đang trong quá trình hoàn thiện,” Tordjman nói. “Không có cách nào hoàn hảo để đánh giá LLM trong lý luận lâm sàng.” Thử nghiệm AI y tế trong thế giới thực Đối với nghiên cứu Khoa học, các nhà nghiên cứu đã thử nghiệm mô hình OpenAI với một số nhóm nghiên cứu trường hợp y tế, có thể so sánh với các câu hỏi thi y khoa khó mở. Các hướng dẫn dành cho chatbot đôi khi rất dài và chứa đầy các chi tiết có thể là manh mối không liên quan hoặc quan trọng để đưa ra chẩn đoán chính xác. Rodman nói: “Chúng tôi đã tiến thêm một bước và chứng minh rằng hiệu suất này cũng có tác dụng trong thế giới thực”. Một phần của nghiên cứu đã sử dụng dữ liệu từ 76 lượt khám thực tế tại phòng cấp cứu. Các nhà nghiên cứu đã yêu cầu LLM và các bác sĩ chẩn đoán ở một số giai đoạn chăm sóc: khi đến phòng cấp cứu, sau khi được bác sĩ đánh giá và sau khi chuyển đến một khu vực khác của bệnh viện. Mặc dù cả máy tính và con người đều chính xác hơn khi có nhiều thông tin hơn, LLM vẫn luôn vượt trội hơn con người. Ví dụ: nó cung cấp “chẩn đoán chính xác hoặc rất gần” 82% thời gian ở điểm kiểm tra cuối cùng, so với 79% và 70% của hai bác sĩ. LLM, như chúng ta biết, thậm chí chưa được một thập kỷ và bối cảnh đang phát triển nhanh chóng. Các phiên bản cập nhật của