Kỷ nguyên Agentic có ý nghĩa gì đối với Khoa học Dữ liệu

Tìm hiểu cách các tác nhân AI (AI agents) đang định hình lại quy trình làm việc của khoa học dữ liệu và những kỹ năng mà các chuyên gia cần có vào năm 2026.

Điều mà Kỷ nguyên Tác nhân có ý nghĩa đối với Khoa học Dữ liệu - KDnuggets **Giới thiệu** Đã có một sự thay đổi tại giao điểm của AI và khoa học dữ liệu, và điều này đã làm thay đổi cách các chuyên gia làm việc. Các hệ thống được triển khai ngày nay không chỉ tạo ra một phản hồi và dừng lại. Chúng lập kế hoạch. Chúng thực hiện các tác vụ đa bước. Chúng gọi các công cụ bên ngoài, đánh giá đầu ra của chính chúng và lặp lại khi kết quả không đạt yêu cầu. Chúng ta không còn đang bước vào kỷ nguyên tác nhân nữa. Chúng ta đang sống trong đó. Giai đoạn này được định nghĩa bởi các hệ thống AI thực hiện hành vi tự chủ, hướng mục tiêu, và nó đã viết lại những gì các nhà khoa học dữ liệu thực sự làm hàng ngày. Vai trò này luôn đòi hỏi sự kết hợp hiếm có giữa tư duy thống kê, khả năng lập trình và chuyên môn về lĩnh vực. Một chiều thứ tư hiện là tiêu chuẩn cơ bản: khả năng thiết kế, triển khai và đánh giá các hệ thống hoạt động độc lập thay mặt người dùng. Bỏ qua sự thay đổi này, năng suất của bạn sẽ tụt hậu so với đồng nghiệp. Tham gia nghiêm túc vào nó, hiệu quả của bạn sẽ tăng lên theo cấp số nhân trong mọi thứ bạn chạm vào. **Định nghĩa lại tiêu chuẩn cơ bản** Để hiểu những gì đang bị đe dọa, hãy xem một tác nhân AI thực sự làm gì trong sản xuất ngày nay. Một tác nhân là một hệ thống nhận thức môi trường của nó, suy luận về bước tiếp theo của nó, thực hiện các hành động bằng cách sử dụng các công cụ có sẵn và đánh giá kết quả. Không giống như một tương tác mô hình ngôn ngữ lớn (LLM) truyền thống, nơi bạn gửi một lời nhắc và nhận được một phản hồi tĩnh duy nhất, một tác nhân hoạt động trong các vòng lặp liên tục, lặp đi lặp lại. Nó nhận một mục tiêu, chọn một công cụ, quan sát kết quả, cập nhật suy luận của nó và sau đó chuyển hướng hoặc tiếp tục. Chu trình này có thể diễn ra qua hàng chục bước riêng biệt đằng sau hậu trường. Điều làm cho mô hình này khác biệt là tích hợp công cụ gốc. Trong bối cảnh khoa học dữ liệu hiện đại, một tác nhân có thể truy xuất một tập dữ liệu, làm sạch nó, chạy phân tích thăm dò, huấn luyện một mô hình cơ sở, đánh giá kết quả và tạo ra một báo cáo có cấu trúc — tất cả mà không cần sự can thiệp của con người trong các bước thủ tục. **Hệ sinh thái điều phối** Các khung làm cho điều này có thể đã trưởng thành từ các thư viện thử nghiệm thành các bộ điều phối cấp sản xuất. Tất cả chúng đều hoạt động trên cùng một nguyên tắc cốt lõi — cung cấp cho một mô hình quyền truy cập có cấu trúc vào các công cụ và công cụ suy luận để sử dụng chúng — nhưng chúng có các cách tiếp cận khác nhau tùy thuộc vào quy trình làm việc. | Khung | Triết lý thiết kế | Trường hợp sử dụng khoa học dữ liệu chính | Bối cảnh năm 2026 | |---|---|---|---| | LangGraph | Điều phối quy trình làm việc dựa trên đồ thị. | Các đường ống phức tạp, có điều kiện yêu cầu quản lý trạng thái. | Tiêu chuẩn công nghiệp cho các quy trình làm việc cấp sản xuất, cả đơn tác nhân và đa tác nhân, nơi yêu cầu quản lý trạng thái rõ ràng và phân nhánh có điều kiện. | AutoGen Các mô hình hội thoại đa tác nhân. Các kịch bản hợp tác trong đó các tác nhân tranh luận hoặc xác minh kết quả đầu ra. Phù hợp với các bước xem xét tích hợp, trong đó một tác nhân phê bình thẩm vấn lý do của tác nhân lập trình. Lưu ý: kiến trúc v0.2 và v0.4/AG2 khác biệt đáng kể, vì vậy hãy kiểm tra phiên bản mà tài liệu của bạn nhắm đến trước khi tìm hiểu sâu. smolagents Thực thi tối giản, ưu tiên mã. Các tác vụ nặng về mã sử dụng toàn bộ ngăn xếp khoa học Python. Phù hợp tự nhiên với các nhà khoa học dữ liệu đã quen thuộc với môi trường Python thuần túy. # Thay đổi quy trình làm việc: Từ thủ tục sang đánh giá Tác động tức thời nhất đến công việc hàng ngày là tự động hóa các quy trình làm việc thường xuyên. Lấy một quy trình phân tích dữ liệu thăm dò (EDA) tiêu chuẩn. Một nhà khoa học dữ liệu từng nhập dữ liệu thủ công, tạo số liệu thống kê tóm tắt, trực quan hóa phân phối và tìm kiếm các giá trị ngoại lai. Ngày nay, một tác nhân được thiết kế tốt thực hiện mọi bước đó theo hướng dẫn, ghi lại các quan sát ở định dạng có cấu trúc và gắn cờ các bất thường để con người xem xét. Điều này cũng mở rộng sang kỹ thuật học máy. Các quy trình từng yêu cầu lặp lại thủ công các lựa chọn tiền xử lý, lựa chọn mô hình và điều chỉnh siêu tham số hiện được quản lý phần lớn bởi sự điều phối của tác nhân, giảm bớt – nhưng không loại bỏ – nhu cầu phán đoán của con người tại các điểm quyết định quan trọng. Phần cuối cùng đó rất quan trọng. Điều này không loại bỏ nhà khoa học dữ liệu. Nó định hình lại vai trò theo hướng các quyết định cấp cao hơn. Các tác nhân hấp thụ trọng lượng thủ tục; bạn giữ lại trọng lượng đánh giá. Các tác nhân xử lý sự lặp lại "làm thế nào để tôi làm điều này một lần nữa" tiêu tốn hàng giờ. Bạn xử lý phán đoán "đây có phải là điều đúng đắn để làm" mà không mô hình nào có thể sao chép. # Bộ kỹ năng năm 2026 Năng lực kỹ thuật về Python, thống kê và học máy vẫn là nền tảng không thể thiếu. Nhưng thực tế tác nhân đòi hỏi một cấp độ năng lực mới được xây dựng trên nền tảng đó. Thiết kế hệ thống và kỹ thuật nhắc lệnh (Prompt Engineering): Các tác nhân tuân theo hướng dẫn và kiến trúc của các hướng dẫn đó đặt ra giới hạn về chất lượng đầu ra. Điều này vượt xa việc viết một lời nhắc rõ ràng. Khi thiết kế một tác nhân, bạn đang đưa ra các quyết định xác định cách nó hoạt động trên hàng trăm đầu vào khác nhau: cách phân tách một mục tiêu cấp cao thành các tác vụ con có thể thực thi, cách xác định các ràng buộc để tác nhân không tự điền vào các khoảng trống và cách chỉ định các định dạng đầu ra để các bước tiếp theo có thể sử dụng kết quả mà không có sự mơ hồ. Hãy coi kỹ thuật nhắc lệnh giống như cách bạn coi thiết kế phần mềm. Lập phiên bản lời nhắc của bạn, kiểm tra chúng đối với các trường hợp biên và ghi lại lý do của bạn. Một lời nhắc hoạt động trên mười ví dụ b