Tất cả chúng ta đều đã trải qua điều này.
Bạn tự động hóa một quy trình làm việc lặp đi lặp lại, nhưng mọi thứ lại đổ vỡ chỉ vì ai đó di chuyển một nút bấm hoặc thiết kế lại một trang. Đáng ngạc nhiên, nhiều tác nhân AI (AI agent) cũng gặp phải vấn đề tương tự.
Thay vì hiểu được nhiệm vụ cơ bản, chúng thường bị buộc phải tương tác với phần mềm theo cách mà con người vẫn làm: bằng cách nhấp vào các nút, đọc màn hình và điều hướng các menu.
Cách tiếp cận này có hiệu quả.
Nhưng nó đặt ra một câu hỏi quan trọng:
Chúng ta đang dạy các hệ thống AI giải quyết vấn đề, hay chúng ta chỉ đơn thuần dạy chúng cách sử dụng phần mềm được thiết kế cho con người?
Đến cuối bài viết này, chúng ta sẽ xem xét
Chúng ta đều đã trải qua điều này.
Bạn tự động hóa một quy trình làm việc lặp đi lặp lại, nhưng mọi thứ lại hỏng hóc chỉ vì ai đó di chuyển một nút bấm hoặc thiết kế lại một trang. Đáng ngạc nhiên, nhiều tác nhân AI cũng gặp phải vấn đề tương tự.
Thay vì hiểu nhiệm vụ cơ bản, chúng thường bị buộc phải tương tác với phần mềm theo cách mà con người làm: bằng cách nhấp vào các nút, đọc màn hình và điều hướng menu.
Cách tiếp cận này có hiệu quả.
Nhưng nó đặt ra một câu hỏi quan trọng:
Chúng ta đang dạy các hệ thống AI giải quyết vấn đề, hay chúng ta chỉ đơn thuần dạy chúng cách sử dụng phần mềm được thiết kế cho con người?
Đến cuối bài viết này, chúng ta sẽ khám phá lý do tại sao điều hướng giao diện người dùng (UI) đã trở thành một trong những nút thắt lớn nhất trong các tác nhân AI và tại sao nhiều nhà phát triển tin rằng ngành công nghiệp đang giải quyết sai vấn đề.
Một nhiệm vụ đơn giản không thực sự đơn giản
Hãy tưởng tượng ai đó muốn kiểm tra trạng thái của một đơn hàng.
Đối với một tác nhân AI dựa trên trình duyệt, quy trình có thể trông như thế này:
Điều tưởng chừng như một yêu cầu đơn giản thực sự đòi hỏi nhiều bước. Và mỗi bước đều tiềm ẩn nguy cơ thất bại.
Giao diện người dùng được xây dựng cho con người
Giao diện người dùng đồ họa tồn tại vì con người cần các biểu diễn trực quan của thông tin. Các nút, menu và biểu mẫu là những khái niệm trừu tượng được tạo ra cho chúng ta.
Bản thân máy tính không cần nút bấm.
Tuy nhiên, nhiều tác nhân AI hiện đại dành một lượng lớn tính toán để cố gắng diễn giải ảnh chụp màn hình, định vị các yếu tố giao diện và mô phỏng các cú nhấp chuột.
Về cơ bản, chúng đang giả vờ là con người.
Chúng ta đã thấy vấn đề này trước đây
Trong Tự động hóa quy trình robot (RPA). Các doanh nghiệp lớn đã đầu tư mạnh vào các quy trình làm việc tự động hóa phụ thuộc vào bố cục màn hình và vị trí nút cụ thể.
Sau đó, một trang web được thiết kế lại.
Hoặc một menu di chuyển.
Hoặc một nhãn thay đổi.
Và đột nhiên toàn bộ quy trình làm việc ngừng hoạt động.
Tự động hóa dễ vỡ đã trở thành một trong những thách thức lớn nhất mà các hệ thống RPA phải đối mặt.
Nhiều tác nhân AI đang lặp lại cùng một mô hình – chỉ với các mô hình ngôn ngữ thay thế các tập lệnh truyền thống.
Các tác nhân trình duyệt phải trả giá đắt
Nghiên cứu từ các công ty xây dựng tác nhân trình duyệt cũng đã nêu bật các thách thức như:
Thực thi chậm
Tăng chi phí token
Tính dễ vỡ
Hành động mơ hồ
Ngành công nghiệp đang tối ưu hóa sai lớp
Các hệ thống AI ngày nay vô cùng mạnh mẽ.
Tuy nhiên, một số trong số chúng dành phần lớn thời gian để thực hiện các tác vụ như:
Tìm nút.
Chờ trang tải.
Đọc ảnh chụp màn hình.
Điều hướng menu.
Đây không phải là mục tiêu thực sự của người dùng.
Người dùng không muốn một nút được nhấp.
Người dùng muốn một vấn đề được giải quyết.
Có một sự khác biệt.
Sự trớ trêu
Con người điều hướng giao diện vì chúng ta không có lựa chọn nào khác.
Máy móc thì có.
Và tuy nhiên chúng ta đang đầu tư một lượng lớn tính toán để dạy các hệ thống AI cách hoạt động như người dùng thay vì đặt câu hỏi liệu giao diện người dùng có phải là khái niệm trừu tượng phù hợp cho máy móc hay không.
Kết quả là một nghịch lý thú vị:
Một số mô hình AI tiên tiến nhất thế giới dành thời gian của mình để làm những việc mà các trình duyệt web đã làm từ những năm 1990.
GitHub: github.com/Hobbydefiningdoctory/capman
Capman-site: capman
capman v0.6.2 — TypeScript, giấy phép MIT, dual CJS/ESM, không có phụ thuộc thời gian chạy ngoài zod.
Nguồn tin: Dev.to Machine Learning — Tác giả: capman. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.