Bỏ qua tới nội dung chính
Quay lại tin tức

Bài trình bày: Xây dựng hệ thống đánh giá (Evals) cho việc ứng dụng AI: Từ nguyên tắc đến thực tiễn

InfoQ AI· Mallika Rao· 29/5/2026general

Mallika Rao thảo luận về rủi ro tiềm ẩn của "evaluation debt" (nợ đánh giá) trong các hệ thống AI đang hoạt động, dựa trên kinh nghiệm của bà tại Twitter, Walmart và Netflix. Bà giải thích lý do các chỉ số truyền thống không phù hợp với kiến trúc hiện đại, phân tích chi tiết mô hình đánh giá năm lớp bao gồm cơ sở hạ tầng và trải nghiệm người dùng (UX), đồng thời chia sẻ mô hình trưởng thành chẩn đoán nhằm hỗ trợ các nhà lãnh đạo kỹ thuật loại bỏ các lỗi ngữ nghĩa thầm lặng. Bởi Mallika Rao

Trang chủ InfoQ Các bài thuyết trình Xây dựng hệ thống đánh giá để ứng dụng AI: Từ nguyên tắc đến thực tiễn AI, ML & Kỹ thuật dữ liệu Xây dựng hệ thống đánh giá để ứng dụng AI: Từ nguyên tắc đến thực tiễn Thích Danh sách đọc Xem bài thuyết trình Dọc Ngang Toàn màn hình Tốc độ: 1x 1.25x 1.5x 2x Tải xuống Các slide 52:58 Tóm tắt Mallika Rao thảo luận về rủi ro tiềm ẩn của nợ đánh giá trong các hệ thống AI sản xuất, dựa trên kinh nghiệm của bà tại Twitter, Walmart và Netflix. Bà giải thích lý do các số liệu truyền thống không phù hợp với kiến trúc hiện đại, phân tích một hệ thống đánh giá năm lớp bao gồm cơ sở hạ tầng và trải nghiệm người dùng (UX), đồng thời chia sẻ mô hình trưởng thành chẩn đoán để giúp các nhà lãnh đạo kỹ thuật loại bỏ các lỗi ngữ nghĩa thầm lặng. Tiểu sử Mallika Rao từng là Trưởng nhóm Kỹ thuật tại Twitter, Walmart và Netflix với chuyên môn sâu về xây dựng và vận hành các hệ thống phân tán quy mô lớn. Bà mang tư duy hệ thống vào chiến lược cơ sở hạ tầng và đam mê tích hợp AI vào sản phẩm và kỹ thuật theo những cách nâng cao khả năng phục hồi, tính minh bạch và hiệu quả hoạt động. Về hội nghị QCon AI là một sự kiện do các chuyên gia thực hành dẫn dắt, tập trung hoàn toàn vào kỷ luật kỹ thuật cần thiết để mở rộng quy mô các khối lượng công việc này một cách an toàn. Sự kiện cung cấp quyền truy cập trực tiếp vào các kế hoạch kiến trúc và số liệu thất bại mà các tổ chức đồng cấp sử dụng trong sản xuất. Mallika Rao: Có bao nhiêu người trong số các bạn có bộ dữ liệu thử nghiệm hoàn toàn lành mạnh và được bao phủ 100% cho các sản phẩm mà các bạn đang xây dựng? Tôi là Mallika Rao. Tôi đã lãnh đạo các nhóm cơ sở hạ tầng tìm kiếm tại Twitter, xử lý hàng nghìn tỷ tài liệu, với ngân sách độ trễ dưới 50 mili giây ở quy mô toàn cầu, các định dạng tìm kiếm được xếp hạng cá nhân hóa cao. Chúng tôi đã chuyển đổi từ tìm kiếm từ khóa đảo ngược thông thường sang tìm kiếm cá nhân hóa cao tại Twitter. Sau đó, tôi làm việc tại Walmart, nơi chúng tôi xây dựng một mô hình phần thưởng cho dịch vụ đăng ký cao cấp để thúc đẩy tăng trưởng, thương mại, duy trì và thu hút khách hàng, cùng nhiều lợi ích khác. Gần đây nhất, tôi làm việc tại các hệ thống nội dung của Netflix, nơi chúng tôi xử lý hàng tỷ quyết định cá nhân hóa mỗi ngày ở quy mô toàn cầu, bao gồm đề xuất, xếp hạng, phân tích dữ liệu ở quy mô lớn. Tôi đã triển khai các hệ thống thông minh có thể mở rộng lên hơn một tỷ người dùng. Đây là những gì tôi đã học được ở quy mô lớn. Rất hiếm khi các mô hình thực sự cản trở việc triển khai các sản phẩm thành công. Chính các khung đánh giá của bạn mới có thể phá vỡ sản phẩm, phá vỡ quy trình và thực sự ảnh hưởng đến niềm tin của người dùng, điều này rất quan trọng để triển khai các sản phẩm AI ở quy mô lớn. Hôm nay, tôi muốn nói về một điều vô hình đối với các bảng điều khiển của bạn, nhưng lại gây chết người cho sản phẩm của bạn, đó là nợ đánh giá. Nó tích lũy âm thầm và bùng nổ ngoạn mục. Chúng ta sẽ nói về nợ đánh giá là gì, các triệu chứng của nó. Những thách thức mà các hệ thống doanh nghiệp, các công ty doanh nghiệp phải đối mặt khi xây dựng các khung đánh giá có thể mở rộng và phát triển. Sau đó, chúng ta sẽ nói về một vài trường hợp nghiên cứu mà tôi sẽ đưa ra từ kinh nghiệm của mình trong việc xây dựng các hệ thống cá nhân hóa trên tất cả các công ty này. Sau đó, chúng ta sẽ nói về những bài học chính, chúng ta có thể làm gì để đánh giá vị trí của mình? Các mô hình trưởng thành của chúng ta là gì? Làm thế nào chúng ta có thể định hình các mô hình áp dụng của mình trong tương lai? Sau đó kết thúc bằng một số nguyên tắc. Hai hệ thống, một vấn đề Hãy bắt đầu với hai hệ thống mà tôi đã làm việc và rất gần gũi với tôi. Đầu tiên, tìm kiếm cá nhân hóa với hàng tỷ truy vấn mỗi ngày. Hiểu ngữ nghĩa theo thời gian thực, không chỉ tìm kiếm từ khóa, và như tôi đã nói, ngân sách độ trễ dưới 100 mili giây được phân phối trên nhiều trung tâm dữ liệu, quy mô toàn cầu, và mỗi truy vấn chạm đến hàng trăm dịch vụ nhỏ bên trong. Những bài học của tôi ở đây, tất nhiên, trải rộng trên Twitter, Netflix, và một chút tìm kiếm tại Walmart, nơi việc xây dựng các hệ thống cá nhân hóa trên các đề xuất, xếp hạng và tìm kiếm đều có những thách thức riêng. Thứ hai, chúng ta xem xét phần thưởng tiền mặt cho, chẳng hạn, 25 triệu người dùng mỗi tháng, các giao dịch bằng đô la, không có chỗ cho sai sót. Điều này bao gồm các cửa hàng vật lý và sự hiện diện trực tuyến, và các yêu cầu tuân thủ trên 50 tiểu bang. Điều này ở quy mô Walmart, vì vậy bao gồm sự hiện diện vật lý và trực tuyến trên các cửa hàng. Các hệ thống rất khác nhau, kiến trúc rất khác nhau, thách thức kỹ thuật rất khác nhau và rủi ro kinh doanh rất khác nhau, nhưng cùng một mô hình lỗi, cùng một khoảng trống cơ sở hạ tầng và cùng một nguyên nhân gốc rễ, theo cách tôi nhìn nhận, là nợ đánh giá. Nợ đánh giá là gì? Hãy định nghĩa nợ đánh giá là gì. Đó là điều xảy ra khi kiến trúc hệ thống của bạn đã phát triển, trở nên tinh vi hơn, nhưng cơ sở hạ tầng đánh giá của bạn thì không. Nó bị kẹt lại ở năm 2018. Bạn thêm LLM, nhúng, kho vector, các lớp xếp hạng mới, thông tin chi tiết cá nhân hóa mới, các quy trình đa giai đoạn, bạn có các tác nhân cho quy trình làm việc của mình. nhưng đánh giá của bạn không thay đổi. Nó vẫn bị mắc kẹt, không tiến triển cùng với sản phẩm. Bạn vẫn đang thực hiện kiểm tra độ chính xác, độ thu hồi và kiểm thử tĩnh. Bạn đang thực hiện một số biểu đồ độ trễ, kiểm thử đơn vị và có thể một vài ví dụ được xác minh thủ công ở đây đó. Khoảng cách đó là thứ phát triển chậm rãi, vô hình, quý này qua quý khác, cho đến khi bạn nhận ra, và một ngày nào đó, nó sẽ gây ra hậu quả khá ngoạn mục. Đây là điều về các hệ thống phân tán sử dụng AI ở lớp hạ tầng. Chúng không thất bại theo cách các hệ thống truyền thống thất bại. Một cơ sở dữ liệu gặp sự cố, bạn sẽ nhận thấy. Hệ thống giám sát của bạn phát hiện sự sai lệch, bạn sẽ nhận thấy. Các dịch vụ của bạn ngừng hoạt động. Bạn có các quy trình vận hành, cơ chế cảnh báo, các khung quan sát để giúp bạn khắc phục. Các hệ thống AI thất bại một cách kỳ lạ. Chúng thất bại về mặt ngữ nghĩa. Chúng trả về kết quả về mặt kỹ thuật là đúng, nhưng hoàn toàn sai đối với người dùng. Bạn

Nguồn tin: InfoQ AI — Tác giả: Mallika Rao. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.