Ngoài LLM: Tại sao việc triển khai AI cấp doanh nghiệp quy mô…

Trở lại các bài viết Ngoài LLM: Tại sao việc áp dụng AI doanh nghiệp có khả năng mở rộng phụ thuộc vào logic tác nhân Bài viết Doanh nghiệp được xuất bản Ngày 1/6/2026 Lượt ủng hộ 4 Fuller nfuller Theo dõi ibm-research Các hướng dẫn đã hỗ trợ nhân loại trong suốt lịch sử. Các nền văn minh tiền sử hiểu rằng mặt trời và mặt trăng có thể được sử dụng để định hướng những khoảng cách rộng lớn trên đất liền và trên biển. Theo thời gian, nhiều hành trình khác nhau đã tạo điều kiện thuận lợi cho việc sản xuất bản đồ để lập kế hoạch tốt hơn và thời gian di chuyển nhanh hơn đến các điểm đến lặp lại. Nhiều thế kỷ sau, sự ra đời của la bàn đã giúp những người đi biển đạt được độ chính xác cao hơn trong việc tìm kiếm các điểm đến chưa được khám phá. Và ngày nay, các ứng dụng định vị GPS hướng dẫn mọi hành trình của chúng ta. Trong thế giới AI tác nhân ngày nay, các tác nhân AI, phải thừa nhận, có tiềm năng cho phép áp dụng AI có khả năng mở rộng, biến đổi các ngành công nghiệp như chúng ta biết. Tuy nhiên, một hướng dẫn thông minh, logic tác nhân, là cần thiết để hiện thực hóa tiềm năng này bằng cách thúc đẩy chất lượng tác nhân cao, hiệu quả về chi phí và niềm tin của người dùng cuối. Quy trình làm việc & Trường hợp sử dụng của Doanh nghiệp Nhiều nghiên cứu đã chỉ ra sự thất bại tràn lan của các dự án thí điểm AI, trong khi những nghiên cứu khác cũng nhấn mạnh sự cần thiết của AI để hoạt động ở cốt lõi của các quy trình làm việc của doanh nghiệp nhằm cho phép áp dụng có khả năng mở rộng. [1] [2] Để hiểu rõ hơn về hiện tượng này và khẳng định liên quan, cần phân tích một số quy trình làm việc của doanh nghiệp. Các quy trình làm việc này là: A. Động và chạy dài B. Sở hữu vô số API, cơ sở dữ liệu và dịch vụ C. Thường bị ràng buộc bởi các chính sách kinh doanh và/hoặc quy định Để một tác nhân hoạt động hiệu quả, với những đặc điểm trên, tự nhiên đòi hỏi một ngữ cảnh mô hình mở rộng, mà các LLM tiên tiến nhất chắc chắn sở hữu, nhưng với sự đánh đổi nào? Tăng ảo giác, tiêu thụ token? Hơn nữa, liệu LLM có thể được trang bị một hướng dẫn thông minh, GPS, để cho phép thực thi AI tác nhân ở cốt lõi của quy trình làm việc, thúc đẩy các kết quả mong muốn hơn? Chúng tôi đã kiểm tra các giả thuyết này bằng cách thiết kế và xây dựng các tác nhân, được trang bị logic tác nhân phù hợp, cho các dịch vụ của IBM, xem xét đầy đủ các đặc điểm trên. Các dịch vụ này liên quan đến một số nhiệm vụ thách thức nhất mà các chuyên gia chủ đề phải đối mặt, những người sở hữu các giai đoạn khác nhau của vòng đời phân phối phần mềm doanh nghiệp cho các khối lượng công việc quan trọng, bao gồm: Hiểu các ứng dụng được viết bằng mã cũ (Cobol / PL/1) Đẩy nhanh việc tạo thử nghiệm cho các nhà phát triển Chủ động phản ứng với các sự cố và cho phép khả năng phục hồi ứng dụng dịch chuyển trái Tự động hóa hiện đại hóa tuân thủ cho các môi trường quan trọng Trước khi xem xét chi tiết từng lĩnh vực này, chúng ta hãy định nghĩa điều gì đặc trưng cho logic tác nhân. Logic tác nhân là các nguyên thủy phần mềm, chẳng hạn như biểu đồ tri thức, thuật toán, thư viện phân tích chương trình, hoạt động ở lớp tác nhân (trong một khung tác nhân) và có thể chủ động điều khiển LLM theo hướng quy trình làm việc của doanh nghiệp, giảm không gian ngữ cảnh. Khi làm như vậy, có xu hướng mạnh mẽ thúc đẩy các kết quả hiệu quả hơn theo cách tiết kiệm chi phí hơn. Bây giờ chúng ta hãy xem xét cách logic tác nhân có thể đạt được các kết quả như vậy trong mỗi bốn lĩnh vực trên. Hiểu các ứng dụng được viết bằng mã cũ (Cobol / PL/1) - phân tích chương trình.[3] IBM watsonx Code Assistant for Z (WCA4Z), được sử dụng để tăng tốc phát triển và hiện đại hóa ứng dụng mainframe bằng AI và tự động hóa, được trang bị tác nhân App Insights để hiểu ứng dụng – một trong những lĩnh vực trọng tâm chính của các khách hàng doanh nghiệp đang chạy các khối lượng công việc quan trọng trên IBM mainframe. Tác nhân này tận dụng phân tích tĩnh sâu trên toàn bộ ứng dụng và lưu trữ một biểu diễn được lập chỉ mục trước trong một lược đồ cơ sở dữ liệu bao gồm hàng trăm bảng có liên quan với ngữ nghĩa phức tạp, cho phép tác nhân truy xuất thông tin chính xác, có cấu trúc đã có sẵn; từ đó cải thiện độ chính xác của câu trả lời, giảm mức sử dụng token và giảm thiểu các tương tác qua lại với mô hình ngôn ngữ (trong trường hợp này là Mistral Medium 250B). Cách tiếp cận này khi được áp dụng cho nhiều hệ thống kế thừa quan trọng (lên đến 1 triệu dòng mã và 1.000 chương trình) vẫn duy trì hiệu suất hiểu ứng dụng vượt trội một cách đáng kể với mức tiêu thụ token thấp hơn khoảng 30 lần so với cách tiếp cận chỉ sử dụng LLM tiên tiến. Đẩy nhanh quá trình tạo thử nghiệm cho nhà phát triển với Aster - phân tích chương trình. [4], [5] Aster là một thư viện độc quyền của IBM dựa trên phân tích chương trình và xử lý dữ liệu trước và sau, được sử dụng để tạo các thử nghiệm đơn vị, tích hợp, API và dựa trên thay đổi bằng tác nhân; từ phân tích của nhiều cộng đồng nhà phát triển, thư viện này đạt được xếp hạng cao hơn từ nhà phát triển so với các công cụ mã nguồn mở khác hoặc các thử nghiệm do nhà phát triển tự viết. Dựa trên các tiêu chí sau và các điểm chuẩn về độ bao phủ dòng, nhánh và phương thức vượt trội so với các công cụ mã nguồn mở tương tự (thử nghiệm tích hợp) và các LLM zero-shot cùng các tác nhân mã hóa (thử nghiệm đơn vị), tất cả đều được thử nghiệm trên các ứng dụng mã nguồn mở, chúng tôi đã chạy Aster ở chế độ tiền sản xuất trên hơn 75 ứng dụng Java của IBM CIO (lên đến hơn 560 lớp và hơn 67.000 dòng mã) với mô hình Devstral 24B. Kết quả ổn định cho đến nay cho thấy sự cải thiện từ 20% đến 45% về độ bao phủ dòng, nhánh và phương thức cùng với hiệu suất vượt trội trên một tập hợp con của các ứng dụng này so với tác nhân mã hóa hiện đại với mức tiêu thụ token thấp hơn nhiều lần (lên đến 15 lần). Lý do cho những kết quả này là đầu ra phân tích chương trình (được sử dụng để nhắc và "tập trung" LLM) kết hợp với các tác nhân phụ để tăng cường độ bao phủ và khắc phục lỗi thời gian chạy và biên dịch cho phép đạt được kết quả hiệu quả hơn với chi phí giảm đáng kể. Chủ động ứng phó với sự cố và tăng cường khả năng phục hồi ứng dụng "shift-left" – biểu đồ tri thức, thư viện phân tích chương trình và điều phối dựa trên điều tra (khả năng quan sát). [6],[7] Trong khi ngữ cảnh LLM cho các trường hợp sử dụng liên quan đến ứng dụng như mô tả trong 1 và 2 được "hạn chế" trong mã nguồn ứng dụng, đối với quản lý thời gian chạy của các ứng dụng trên cơ sở hạ tầng đã triển khai, toàn bộ ngăn xếp CNTT cơ bản sẽ được đưa vào. Tại đây, chúng tôi định nghĩa một biểu đồ tri thức (KG) bao gồm

Ngoài LLM: Tại sao việc triển khai AI cấp doanh nghiệp quy mô lớn phụ thuộc vào logic tác nhân