Một nghiên cứu mới của Harvard và Perplexity cho thấy các tác…

Một nghiên cứu mới của Perplexity và Harvard cung cấp bằng chứng thực nghiệm về tác động của các tác nhân AI đối với công việc tri thức. Nghiên cứu dựa trên dữ liệu sản xuất từ hai sản phẩm của Perplexity: Search và Computer. Thiết lập nghiên cứu là một sự so sánh tự nhiên. Search là một công cụ trả lời dạng hội thoại. Computer là một tác nhân lập kế hoạch và thực hiện các tác vụ từ đầu đến cuối. Cùng một người dùng sử dụng cả hai sản phẩm, do đó nhóm nghiên cứu có thể giữ cho tác vụ tương đối ổn định. Nghiên cứu thực sự đo lường điều gì Nghiên cứu bao gồm một khoảng thời gian 90 ngày, từ ngày 27/2 đến ngày 27/5/2026. Computer được ra mắt hai ngày trước khi khoảng thời gian này bắt đầu. Phương pháp cốt lõi

Một nghiên cứu mới của Perplexity và Harvard cung cấp bằng chứng thực nghiệm về tác động của các tác nhân AI đối với công việc tri thức. Nghiên cứu này dựa trên dữ liệu sản xuất từ hai sản phẩm của Perplexity: Search và Computer. Thiết lập nghiên cứu là một so sánh tự nhiên. Search là một công cụ trả lời dạng hội thoại. Computer là một tác nhân lập kế hoạch và thực hiện các tác vụ từ đầu đến cuối. Cùng một người dùng sử dụng cả hai sản phẩm, do đó nhóm nghiên cứu có thể giữ cho tác vụ tương đối ổn định. Nghiên cứu thực sự đo lường điều gì Nghiên cứu bao gồm một khoảng thời gian 90 ngày, từ ngày 27/2 đến ngày 27/5/2026. Computer được ra mắt hai ngày trước khi khoảng thời gian này bắt đầu. Phương pháp cốt lõi là so sánh các cặp truy vấn gần như giống hệt nhau giữa hai sản phẩm. Nhóm nghiên cứu đã tìm thấy 10.000 cặp phiên có độ tương đồng cosine trên 0,99. Mỗi cặp thực chất là cùng một tác vụ được thực hiện theo cả hai cách. Các cặp Computer được giới hạn trong các phiên gọi một công cụ thực thi. Các công cụ "thực hiện" này bao gồm thực thi mã, hành động trình duyệt, ghi tệp và gọi trình kết nối. Giới hạn đó đảm bảo mỗi phiên Computer thực hiện công việc tự động thực sự. Tỷ lệ chấp nhận tăng lên trong khoảng thời gian nghiên cứu. Tổng số truy vấn Computer đạt 84 lần so với tổng số của tuần đầu tiên. Một phân tích đối sánh cho thấy việc chấp nhận Computer cũng làm tăng số lượng truy vấn Search hàng ngày của người dùng lên 1,05. Hiệu ứng tích cực này cho thấy tính bổ sung, không phải thay thế. https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work Khung cấu trúc chi phí Nghiên cứu đặt dữ liệu của mình trong một mô hình đơn giản dựa trên tác vụ. Mỗi tác vụ có một số bước, và các tác vụ dài hơn có giá trị cao hơn một chút. Các tác nhân thay đổi cấu trúc chi phí. Chúng tính chi phí cố định cao hơn cho mỗi tác vụ, để ủy quyền và xem xét. Nhưng chúng tính chi phí biên thấp hơn cho mỗi bước, vì hệ thống thực hiện. Điều này tạo ra một số bước hòa vốn. Dưới mức đó, chế độ hội thoại rẻ hơn. Trên mức đó, chế độ tác nhân thắng thế. Các tra cứu ngắn vẫn được thực hiện thủ công; các quy trình làm việc dài chuyển sang tác nhân. Tính tự chủ: 26 phút so với 33 giây Thước đo tự chủ đầu tiên là thời gian thực thi. Computer chạy 26 phút công việc máy móc mỗi phiên. Search chạy 33 giây. Đó là một khoảng cách 48 lần. Các giá trị trung vị cho thấy cùng một mô hình: 9 phút so với 14 giây. Khoảng cách thay đổi theo lĩnh vực. Các tác vụ cục bộ cho thấy 75 lần; Khoa học cho thấy 26 lần, vì các câu trả lời đơn giản thường đủ. Tính tự chủ cao hơn không làm giảm chất lượng ở đây. Nhóm nghiên cứu đã chấm điểm sự không hài lòng ở lượt tiếp theo từ những gì người dùng làm tiếp theo. Tỷ lệ không hài lòng có ý nghĩa của Computer là 1,3%, so với 2,9% của Search (giảm 55%). Các lượt theo dõi cũng chuyển sang xem xét và mở rộng trên Computer, mặc dù các thay đổi nhỏ. Việc sử dụng trình kết nối tăng rõ ràng hơn. Computer đã gọi ít nhất một trình kết nối trong 7,9% số phiên, so với 1,8% của Search. Computer kết nối các công cụ bên ngoài mà người dùng Search sẽ phải chạy thủ công. Hiệu quả: Nguồn gốc của sự tiết kiệm Phần hiệu quả ước tính một kịch bản đối chứng Search + Con người. Một người với chỉ Search mất 269 phút cho mỗi tác vụ đối sánh. Computer + Con người mất 36 phút. Đó là ít hơn 87% thời gian và ít hơn 94% tổng chi phí. Tiết kiệm chi phí vượt quá tiết kiệm thời gian vì tiền lương theo lĩnh vực khuếch đại hiệu ứng. Chi phí mô hình của Computer chạy từ 4–10 USD mỗi tác vụ; Search chạy khoảng 0,05 USD. Các con số biên hỗ trợ khung nghiên cứu. Computer + Con người tốn 0,16 USD mỗi bước, so với 2,05 USD cho Search + Con người. Các phiên Computer đối sánh cũng chạy các lời nhắc dài hơn, 652 so với 448 ký tự ở mức trung vị. Điều đó hỗ trợ giả định chi phí cố định cao hơn cho các tác nhân. Phân tích điểm hòa vốn cho thấy một chuyên gia phải hoàn thành tất cả các bước thủ công trong vòng chưa đầy 20 phút để đạt hiệu quả tương đương với Computer. Nhóm nghiên cứu đã kiểm tra chéo với ước tính LLM độc lập và phỏng vấn người dùng. Phương pháp LLM cho thấy tiết kiệm 84% thời gian và 93% chi phí. Những người được phỏng vấn báo cáo tốc độ tăng từ 5 lần đến 300 lần. Mở rộng theo chiều ngang và chiều dọc Phạm vi là điểm nghiên cứu này mở rộng so với các công trình trước đây. Khả năng tự chủ không chỉ tăng tốc các tác vụ. Nó thay đổi các tác vụ mà người dùng thực hiện. Theo chiều ngang, các truy vấn của Computer thường xuyên vượt qua các ranh giới nghề nghiệp hơn. Tỷ lệ chia sẻ liên ngành trung bình là 59% trên Computer, so với 50% trên Search. Quản lý và Khởi nghiệp cho thấy khoảng cách lớn nhất, ở mức 19 điểm. Theo chiều dọc, các truy vấn của Computer đòi hỏi khắt khe hơn. Theo Phân loại sửa đổi của Bloom, 76% yêu cầu nhận thức bậc cao hơn, so với 55% đối với Search. Công việc cấp độ Sáng tạo chiếm 50% các truy vấn của Computer, so với 26%. Các tác vụ của Computer cũng bao gồm nhiều lĩnh vực kiến thức hơn. Mỗi truy vấn trung bình chạm đến 2,40 lĩnh vực Kiến thức O*NET, so với 1,74. Khả năng cần ba hoặc nhiều lĩnh vực cao gần gấp ba lần. Khả năng kết hợp tăng lên khi hệ thống phân cấp O*NET trở nên chi tiết hơn. Ở cấp độ Tuyên bố Nhiệm vụ, Computer tham gia nhiều hoạt động hơn 60%. Khoảng 23% các truy vấn của Computer chạm đến một Tuyên bố Nhiệm vụ mà cùng những người dùng đó chưa bao giờ gửi đến Search. https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work Bảng so sánh: Search và Computer Tiêu chíPerplexity SearchPerplexity ComputerChế độ trong khuôn khổCông cụ trả lời đàm thoạiĐiều phối viên tác nhânThời gian máy mỗi phiên33 giây (trung bình 14 giây)26 phút (trung bình 9 phút)Truy vấn mỗi phiên2,85,3Mức độ không hài lòng có ý nghĩa (trung bình+cao)2,9%1,3%Phiên có cuộc gọi kết nối1,8%7,9%Thời gian tác vụ đối chứng269 phút (Search + Con người)36 phút (Computer + Con người)Chi phí mỗi bước2,05 USD0,16 USDChi phí mô hình mỗi tác vụ~0,05 USD4–10 USDTỷ lệ truy vấn liên ngành50%59%Nhận thức bậc cao hơn của Bloom55%76%Lĩnh vực kiến thức O*NET mỗi truy vấn1,742,40 Những điểm chính Computer chạy 26 phút công việc tự chủ mỗi phiên so với 33 giây đối với Search, một khoảng cách 48 lần. Đối với các tác vụ tương đương, Computer + Con người cắt giảm thời gian ước tính 87% và chi phí 94% so với Search + Con người. Tỷ lệ không hài lòng có ý nghĩa của Computer là 1,3% so với 2,9% đối với Search, giảm 55%. Các truy vấn của Computer vượt qua các nghề nghiệp nhiều hơn (59% so với 50%) và đòi hỏi nhận thức bậc cao hơn nhiều hơn (76% so với 55%). Khoảng 23% các truy vấn của Computer chạm đến một Tuyên bố Nhiệm vụ mà cùng những người dùng đó chưa bao giờ gửi đến Search. Giải thích trực quan của Marktechpost Hướng dẫn nghiên cứu Harvard × Perplexity 01 / 10 Cách các tác nhân AI định hình lại công việc tri thức

Một nghiên cứu mới của Harvard và Perplexity cho thấy các tác nhân AI thực hiện 26 phút công việc tự chủ mỗi phiên, so với 33 giây đối với tìm kiếm.