Bài trình bày: AI Gateway: Mở rộng suy luận tập trung trên các…

Meryem Arik thảo luận lý do các nhóm kỹ thuật hiện đại đối mặt với "hỗn loạn suy luận" (inference chaos) và cách các cổng mô hình AI (AI model gateways) cung cấp một lớp kiểm soát quan trọng. Bà giải thích sự cân bằng giữa việc trao quyền cho các nhóm phi tập trung lựa chọn mô hình tốt nhất và duy trì sự giám sát tập trung về bảo mật, kiểm soát truy cập dựa trên vai trò (RBAC) và kiểm soát chi phí. Khám phá các giải pháp mã nguồn mở như LiteLLM và Doubleword để hợp lý hóa cơ sở hạ tầng AI của bạn. Bởi Meryem Arik

Trang chủ InfoQ Các bài thuyết trình Cổng AI: Mở rộng suy luận tập trung trên các nhóm phân tán AI, ML & Kỹ thuật dữ liệu Cổng AI: Mở rộng suy luận tập trung trên các nhóm phân tán Thích Danh sách đọc Xem bài thuyết trình Dọc Ngang Toàn màn hình Tốc độ: 1x 1.25x 1.5x 2x Tải xuống Các slide 46:51 Tóm tắt Meryem Arik thảo luận lý do tại sao các nhóm kỹ thuật hiện đại phải đối mặt với "sự hỗn loạn suy luận" và cách các cổng mô hình AI cung cấp một lớp kiểm soát quan trọng. Bà giải thích sự cân bằng giữa việc trao quyền cho các nhóm phân tán lựa chọn các mô hình tốt nhất và duy trì sự giám sát tập trung về bảo mật, RBAC (kiểm soát truy cập dựa trên vai trò) và kiểm soát chi phí. Khám phá các giải pháp mã nguồn mở như LiteLLM và Doubleword để hợp lý hóa cơ sở hạ tầng AI của bạn. Tiểu sử Meryem Arik là Đồng sáng lập và Giám đốc điều hành của Doubleword (trước đây là TitanML). Bà thường xuyên phát biểu tại các hội nghị hàng đầu, bao gồm TEDx và QCon, chia sẻ những hiểu biết sâu sắc về công nghệ suy luận và AI doanh nghiệp. Meryem đã được vinh danh trong danh sách Forbes 30 Under 30 vì những đóng góp của bà cho lĩnh vực AI. Về hội nghị QCon AI là một sự kiện do các chuyên gia thực hành dẫn dắt, tập trung hoàn toàn vào kỷ luật kỹ thuật cần thiết để mở rộng quy mô các khối lượng công việc này một cách an toàn. Sự kiện này cung cấp quyền truy cập trực tiếp vào các sổ tay kiến trúc và số liệu thất bại mà các tổ chức đồng cấp sử dụng trong sản xuất. Meryem Arik: Tôi là Meryem, Giám đốc điều hành của Doubleword. Tôi từng là nhà vật lý tại Oxford và là một người hâm mộ bóng bầu dục cuồng nhiệt. Tôi sẽ nói về các cổng mô hình AI, một chủ đề khá khô khan. Đây không phải là lĩnh vực chính của công ty tôi. Bạn có thể thắc mắc tại sao tôi lại quan tâm đến chủ đề này. Chúng tôi thành lập Doubleword khoảng bốn năm trước, luôn tập trung vào vấn đề suy luận (inference). Quá trình suy luận là quá trình thực sự chạy các mô hình. Điều chúng tôi thường thấy ở khách hàng là chúng tôi cung cấp dịch vụ suy luận cho họ, nhưng chúng tôi thường không phải là nhà cung cấp suy luận duy nhất mà họ sử dụng. Họ có thể đang sử dụng OpenAI, Mistral và có thể một số mô hình được tinh chỉnh (fine-tuned) tự lưu trữ mà họ tự xây dựng. Chúng tôi nhận thấy họ đang rơi vào tình trạng hỗn loạn với tất cả các nhà cung cấp khác nhau này. Cuối cùng, chúng tôi phải cố gắng khắc phục điều đó cho họ. Các cổng mô hình AI là một cách thực sự dễ dàng để mang lại trật tự cho một môi trường hỗn loạn khi bạn có nhiều nhà cung cấp mô hình khác nhau. Vì chúng tôi liên tục gặp phải vấn đề này, chúng tôi đã xây dựng một cổng mô hình AI mã nguồn mở. Chúng tôi có kinh nghiệm xây dựng những thứ này từ đầu. Chúng tôi không bán nó. Đây không phải là một dự án thương mại của chúng tôi, nhưng chúng tôi nghĩ rằng các cổng mô hình AI rất quan trọng. Chúng tôi nghĩ mọi người nên sử dụng chúng. Bạn có đang sử dụng cổng mô hình AI nào trong tổ chức của mình không? Chẳng hạn như LiteLLM, OpenRouter. Tôi sẽ cố gắng thuyết phục bạn rằng mọi người nên có một cổng mô hình AI, ngay cả khi bạn triển khai nó ở quy mô khá nhỏ. Đó là mục tiêu của tôi trong phiên này. **Đề cương** Bài nói chuyện này thực sự được lấy cảm hứng từ bài blog mà CTO của chúng tôi đã viết về các lớp kiểm soát và cổng mô hình cũng như giá trị của chúng. Đây là một tài liệu đọc thú vị trước khi ngủ và không quá dài. Chúng ta sẽ đề cập đến ba điều. Nhu cầu suy luận mà các nhóm của bạn sẽ có là gì? Khi tôi nói các nhóm phi tập trung, tôi muốn nói đến các nhóm thực sự xây dựng các trường hợp sử dụng của bạn. Tại sao việc tập trung hóa suy luận của bạn theo một cách nào đó với một nền tảng suy luận trung tâm lại có ý nghĩa? Cách các cổng mô hình AI có thể được sử dụng để giải quyết sự căng thẳng giữa các giải pháp phi tập trung và cơ sở hạ tầng tập trung. Sau đó, hy vọng đến cuối cùng, bạn sẽ nói rằng, tất cả chúng ta nên đưa các cổng mô hình AI vào doanh nghiệp của mình. **Nhu cầu suy luận** Nhu cầu suy luận. Mỗi ứng dụng sẽ có một yêu cầu khác nhau về suy luận. Không có một mô hình nào thống trị tất cả. Đây là một Nano Banana, và tôi nghĩ nó khá tốt. Ví dụ, đôi khi bạn cần những con chó khác nhau hoặc những mô hình khác nhau cho các trường hợp sử dụng khác nhau. Để lấy một ví dụ săn bắn rất Anh. Nếu bạn đi săn, một việc rất sang trọng, bạn có thể có một con chó săn chỉ điểm (pointer), là con ở bên trái. Chúng về cơ bản chỉ điểm và được sử dụng để định vị con mồi và định vị thứ bạn đang bắn. Bạn cũng sẽ cần những con chó săn lùng (spaniel) của mình, được sử dụng để lùa con mồi. Chúng chạy vào rừng và làm cho tất cả chim bồ câu bay lên để bạn có thể bắn. Sau đó, bạn muốn những con chó tha mồi (retriever) ở cuối sẽ đi lấy chim bồ câu và mang về cho bạn. Nếu bạn thực sự muốn thực hiện một cuộc săn thành công hoặc một trường hợp sử dụng thành công, bạn cần nhiều mô hình khác nhau hoạt động cùng nhau một cách liền mạch. Về cơ bản có ba khía cạnh mà bạn cần xem xét để chọn mô hình phù hợp cho công việc. Bạn có chất lượng ứng dụng. Mô hình này thực sự giải quyết vấn đề đó tốt đến mức nào? Liệu mô hình có đưa ra tất cả các câu trả lời đúng hay tất cả các câu trả lời sai? Một mô hình phù hợp với công việc sẽ đưa ra các câu trả lời đúng. Có nhiều lý do không liên quan đến hiệu suất. Đối với nhiều công ty mà chúng tôi hợp tác, họ sẽ có những yêu cầu như mọi thứ phải nằm trong AWS vì đó là nơi họ có tín dụng, hoặc mọi thứ phải nằm trong Liên minh châu Âu (EU) hoặc Mexico, chẳng hạn, vì dữ liệu cần phải được lưu trữ tại đó. Điều đó sẽ thu hẹp các mô hình mà quý vị có thể sử dụng. Sau đó, quý vị cũng có những cân nhắc về sự đánh đổi hiệu suất suy luận. Tôi có thể có một mô hình đặc biệt xuất sắc trong việc đạt được chất lượng mà tôi cần, nhưng mỗi lần chạy tốn 25 đô la, vì vậy tôi sẽ không sử dụng nó. Tôi sẽ nói thêm một chút về từng khía cạnh này. Điều mà các nhóm sử dụng cần có khả năng tìm ra là mô hình thực sự tốt đến mức nào trong việc thực hiện nhiệm vụ. Có những hạn chế.

Bài trình bày: AI Gateway: Mở rộng suy luận tập trung trên các nhóm phi tập trung