Xây dựng các mô hình AI hiểu được các nguyên tắc hóa học

Trong số tất cả các hợp chất hóa học có thể có, ước tính có khoảng 10^20 đến 10^60 hợp chất tiềm năng làm thuốc phân tử nhỏ. Việc đánh giá từng hợp chất này bằng thực nghiệm sẽ tốn quá nhiều thời gian đối với các nhà hóa học. Do đó, trong những năm gần đây, các nhà nghiên cứu đã bắt đầu sử dụng trí tuệ nhân tạo (AI) để giúp xác định các hợp chất có thể trở thành ứng cử viên thuốc tốt. Một trong những nhà nghiên cứu đó là Phó Giáo sư MIT Connor Coley, Tiến sĩ khóa 2019, Giáo sư Phát triển Sự nghiệp Khóa 1957, đồng thời là giảng viên tại các khoa Kỹ thuật Hóa học và Kỹ thuật Điện.

Trong số tất cả các hợp chất hóa học có thể có, ước tính có khoảng 10^20 đến 10^60 hợp chất tiềm năng dưới dạng thuốc phân tử nhỏ. Việc đánh giá từng hợp chất này bằng thực nghiệm sẽ tốn quá nhiều thời gian đối với các nhà hóa học. Vì vậy, trong những năm gần đây, các nhà nghiên cứu đã bắt đầu sử dụng trí tuệ nhân tạo (AI) để giúp xác định các hợp chất có thể trở thành ứng cử viên thuốc tốt. Một trong những nhà nghiên cứu đó là Phó Giáo sư MIT Connor Coley, Tiến sĩ ’19, Giáo sư Phát triển Sự nghiệp Khóa 1957, với các vị trí đồng thời tại Khoa Kỹ thuật Hóa học và Khoa Kỹ thuật Điện và Khoa học Máy tính, cùng với Trường Điện toán MIT Schwarzman. Nghiên cứu của ông nằm giữa ranh giới của kỹ thuật hóa học và khoa học máy tính, khi ông phát triển và triển khai các mô hình tính toán để phân tích số lượng lớn các hợp chất hóa học tiềm năng, thiết kế các hợp chất mới và dự đoán các con đường phản ứng có thể tạo ra các hợp chất đó. Ông cho biết: “Đây là một phương pháp rất tổng quát có thể áp dụng cho bất kỳ ứng dụng nào của các phân tử hữu cơ, nhưng ứng dụng chính mà chúng tôi nghĩ đến là khám phá thuốc phân tử nhỏ”. **Sự giao thoa giữa AI và khoa học** Sở thích khoa học của Coley có trong gia đình. Trên thực tế, ông cho biết, gia đình ông có nhiều nhà khoa học hơn là người không phải nhà khoa học, bao gồm cha ông, một bác sĩ X quang; mẹ ông, người có bằng sinh lý học phân tử và hóa sinh trước khi theo học tại Trường Quản lý MIT Sloan; và bà nội ông, một giáo sư toán học. Khi còn là học sinh trung học ở Dublin, Ohio, Coley đã tham gia các cuộc thi Olympic Khoa học và tốt nghiệp trung học ở tuổi 16. Sau đó, ông đến Caltech, nơi ông chọn kỹ thuật hóa học làm chuyên ngành vì nó mang đến một cách để kết hợp sở thích khoa học và toán học của mình. Trong những năm đại học, ông cũng theo đuổi sở thích khoa học máy tính, làm việc trong một phòng thí nghiệm sinh học cấu trúc sử dụng ngôn ngữ lập trình Fortran để giúp giải quyết cấu trúc tinh thể của protein. Sau khi tốt nghiệp Caltech, ông quyết định tiếp tục theo đuổi kỹ thuật hóa học và đến MIT vào năm 2014 để bắt đầu chương trình Tiến sĩ. Dưới sự hướng dẫn của các giáo sư Klavs Jensen và William Green, Coley đã nghiên cứu các cách tối ưu hóa các phản ứng hóa học tự động. Công việc của ông tập trung vào việc kết hợp học máy (machine learning) và hóa tin học (cheminformatics) – ứng dụng các phương pháp tính toán để phân tích dữ liệu hóa học – nhằm lập kế hoạch các con đường phản ứng có thể tạo ra các phân tử thuốc mới. Ông cũng làm việc về thiết kế phần cứng có thể được sử dụng để thực hiện các phản ứng đó một cách tự động. Một phần công việc đó được thực hiện thông qua một chương trình do DARPA tài trợ có tên Make-It, tập trung vào việc sử dụng học máy và khoa học dữ liệu để cải thiện quá trình tổng hợp thuốc và các hợp chất hữu ích khác từ các khối xây dựng đơn giản. Coley cho biết: “Đó là điểm khởi đầu thực sự của tôi trong việc suy nghĩ về hóa tin học, suy nghĩ về học máy và suy nghĩ về cách chúng ta có thể sử dụng các mô hình để hiểu cách các hóa chất khác nhau có thể được tạo ra và những phản ứng nào có thể xảy ra”. Coley bắt đầu nộp đơn xin việc giảng viên khi vẫn còn là sinh viên sau đại học và chấp nhận lời đề nghị từ MIT ở tuổi 25. Ông nhận được nhiều lời khuyên khác nhau về việc có nên nhận công việc tại cùng một trường mà ông đã học sau đại học hay không, và cuối cùng quyết định rằng một vị trí tại MIT quá hấp dẫn để từ chối. Ông nói: “MIT là một nơi rất đặc biệt về tài nguyên và sự linh hoạt giữa các khoa. MIT dường như đang làm rất tốt việc hỗ trợ sự giao thoa giữa AI và khoa học, và đó là một hệ sinh thái sôi động để tôi ở lại”. “Chất lượng sinh viên, sự nhiệt tình của sinh viên và sức mạnh đáng kinh ngạc của các hợp tác chắc chắn đã vượt qua mọi lo ngại tiềm ẩn về việc ở lại cùng một nơi.” **Trực giác hóa học** Coley đã hoãn vị trí giảng viên một năm để làm nghiên cứu sinh sau tiến sĩ tại Viện Broad, nơi ông tìm kiếm thêm kinh nghiệm trong sinh học hóa học và khám phá thuốc. Tại đây, ông đã nghiên cứu các cách để xác định các phân tử nhỏ, từ hàng tỷ ứng cử viên trong các thư viện mã hóa DNA, có thể có tương tác liên kết với các protein đột biến liên quan đến bệnh tật. Sau khi trở lại MIT vào năm 2020, ông đã xây dựng nhóm nghiên cứu của mình với sứ mệnh triển khai AI không chỉ để tổng hợp các hợp chất hiện có có tiềm năng điều trị, mà còn để thiết kế các phân tử mới với các đặc tính mong muốn và các cách mới để tạo ra chúng. Trong vài năm qua, phòng thí nghiệm của ông đã phát triển nhiều phương pháp tính toán để giải quyết các mục tiêu đó. Coley cho biết: “Chúng tôi cố gắng suy nghĩ về cách tốt nhất để kết hợp một thách thức trong hóa học với một giải pháp tính toán tiềm năng. Và thường thì sự kết hợp đó thúc đẩy sự phát triển của các phương pháp mới”. Một mô hình mà phòng thí nghiệm của ông đã phát triển, được gọi là ShEPhERD, đã được đào tạo để đánh giá các phân tử thuốc mới tiềm năng dựa trên cách chúng sẽ tương tác với các protein mục tiêu, dựa trên hình dạng ba chiều của các phân tử thuốc. Mô hình này hiện đang được các công ty dược phẩm sử dụng để giúp họ khám phá các loại thuốc mới. Coley nói: “Chúng tôi đang cố gắng cung cấp nhiều trực giác hóa học y học hơn cho mô hình tạo sinh, để mô hình nhận thức được các tiêu chí và cân nhắc phù hợp”. Trong một dự án khác, phòng thí nghiệm của Coley đã phát triển một mô hình AI tạo sinh có tên FlowER, có thể được sử dụng để dự đoán các sản phẩm phản ứng sẽ hình thành từ việc kết hợp các đầu vào hóa học khác nhau. Khi thiết kế mô hình đó, các nhà nghiên cứu đã xây dựng sự hiểu biết về các nguyên tắc vật lý cơ bản, chẳng hạn như định luật bảo toàn khối lượng. Họ cũng buộc mô hình phải xem xét tính khả thi của các bước trung gian cần diễn ra trên con đường từ chất phản ứng đến sản phẩm. Các nhà nghiên cứu nhận thấy, những ràng buộc này đã cải thiện độ chính xác của các dự đoán của mô hình. Coley nói: “Việc suy nghĩ về các bước trung gian đó, các cơ chế liên quan và cách phản ứng diễn biến là điều mà các nhà hóa học làm rất tự nhiên. Đó là cách hóa học được giảng dạy, nhưng đó không phải là điều mà các mô hình vốn có thể nghĩ đến. Chúng tôi đã dành rất nhiều thời gian để suy nghĩ về cách đảm bảo rằng các mô hình học máy của chúng tôi được đặt nền tảng trong một”