Bỏ qua tới nội dung chính
Quay lại tin tức

AI hiện viết số lượng bài báo trực tuyến tương đương con người

Hacker News AI· ChrisArchitect· 29/5/2026general

URL bài viết: https://graphite.io/five-percent/ai-now-writes-as-many-online-articles-as-humans-do URL bình luận: https://news.ycombinator.com/item?id=48325677 Điểm: 1 Bình luận: 0

Những điểm chính Số lượng bài viết được đăng tải trên internet chủ yếu do AI tạo ra (50%) tương đương với số lượng bài viết do con người viết (50%). ChatGPT ra mắt vào tháng 11/2022. Trong vòng 12 tháng đầu tiên, tỷ lệ bài viết chủ yếu do AI tạo ra đã tăng lên 36% và đạt 48% sau 24 tháng. Tuy nhiên, kể từ quý I/2025, tỷ lệ bài viết chủ yếu do AI tạo ra đã chững lại ở mức khoảng 50%. Chúng tôi đã công bố phát hiện này với dữ liệu tính đến tháng 5/2025 và dữ liệu mới xác nhận xu hướng này. Chúng tôi xây dựng dựa trên nghiên cứu trước đây bằng cách sử dụng ba công cụ phát hiện AI khác nhau (Pangram, GPTZero, Copyleaks). Chúng tôi đánh giá độc lập từng công cụ để cho thấy tỷ lệ dương tính giả và tỷ lệ âm tính giả trung bình luôn dưới 2%. Mỗi công cụ phát hiện AI đều cho thấy một xu hướng tương tự. Mặc dù xu hướng là như nhau, nghiên cứu trước đây của chúng tôi ước tính tỷ lệ bài viết chủ yếu do AI tạo ra cao hơn 3,3 điểm phần trăm. Sự khác biệt tương đối nhỏ này là kết quả của việc tính trung bình ba công cụ phát hiện AI thay vì dựa vào độ chính xác của một công cụ duy nhất. Mặc dù các bài viết do AI tạo ra phổ biến trên web, chúng tôi chỉ ra trong một nghiên cứu riêng rằng những bài viết này phần lớn không xuất hiện trên Google và ChatGPT. Chúng tôi không đánh giá liệu các bài viết do AI tạo ra có nhận được nhiều lưu lượng truy cập như các bài viết do con người viết hay không, nhưng chúng tôi nghi ngờ rằng chúng không nhận được. Động lực Kể từ khi ChatGPT ra mắt vào tháng 11/2022, nhiều công ty đã khám phá việc xuất bản nội dung được tạo bởi các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Claude và Gemini để tăng lưu lượng truy cập trên các kênh như Google Search, mạng xã hội và quảng cáo. Đây là một giải pháp thay thế hiệu quả về chi phí so với việc chi hàng trăm đô la để con người viết nội dung. Chất lượng nội dung AI đang được cải thiện nhanh chóng. Trong nhiều trường hợp, nội dung do AI tạo ra tốt bằng hoặc tốt hơn nội dung do con người viết (Nghiên cứu của MIT). Thường rất khó để mọi người phân biệt liệu nội dung có phải do AI tạo ra hay không (Nghiên cứu của Originality.ai). Chúng tôi tìm cách đánh giá mức độ phổ biến của các bài viết do AI tạo ra. Kết quả Chúng tôi nhận thấy sự tăng trưởng đáng kể trong các bài viết chủ yếu do AI tạo ra, trùng với thời điểm ra mắt ChatGPT vào tháng 11/2022. Chỉ sau 12 tháng, các bài viết chủ yếu do AI tạo ra chiếm 35,9% tổng số bài viết được xuất bản. Trong quý I/2025, số lượng bài viết chủ yếu do AI tạo ra được xuất bản trên web gần bằng số lượng bài viết do con người viết, với tỷ lệ lần lượt là 49,6% và 50,4%. Trong quý IV/2025, các bài viết chủ yếu do AI tạo ra đã vượt qua các bài viết do con người viết ở mức 50,9%, trước khi trở lại mức 49,9% vào quý I/2026. Tăng trưởng bài viết chủ yếu do AI tạo ra đã chững lại Mặc dù các bài viết chủ yếu do AI tạo ra đã tăng trưởng đáng kể sau khi ChatGPT ra mắt, chúng tôi không nhận thấy xu hướng đó tiếp tục. Thay vào đó, tỷ lệ các bài viết chủ yếu do AI tạo ra vẫn tương đối ổn định, gần 50%, trong năm quý vừa qua. Chúng tôi giả thuyết rằng điều này là do các chuyên gia nhận thấy các bài viết chủ yếu do AI tạo ra không hoạt động tốt trong tìm kiếm, như đã được chứng minh trong một nghiên cứu riêng biệt. Phương pháp luận Common Crawl Common Crawl duy trì một trong những kho lưu trữ web công khai lớn nhất. Nó chứa hàng tỷ trang và được các nhà nghiên cứu và nhà phát triển sử dụng. Đây là một nguồn dữ liệu quan trọng để đào tạo các mô hình ngôn ngữ lớn. Lựa chọn bài viết Chúng tôi cần một mẫu đại diện các bài viết tiếng Anh trên web. Mặc dù Common Crawl không thu thập mọi trang, nhưng kho lưu trữ của nó là công cụ proxy miễn phí và công khai tốt nhất cho web. Chúng tôi muốn đo lường tỷ lệ tất cả các bài viết được xuất bản chủ yếu do AI tạo ra, vì vậy chúng tôi không lọc theo lưu lượng truy cập hoặc sử dụng một tập hợp con được tuyển chọn. Chúng tôi chọn ngẫu nhiên 55.400 URL từ Common Crawl và xác nhận rằng mỗi URL đều bằng tiếng Anh, có đánh dấu lược đồ bài viết, dài ít nhất 100 từ, có ngày xuất bản từ tháng 1/2020 đến tháng 3/2026 và là một bài viết hoặc bài viết dạng danh sách được phân loại bởi bộ phân loại loại trang Graphite. Phát hiện AI Chúng tôi phân loại từng bài viết bằng ba công cụ phát hiện AI: Pangram, Copyleaks và GPTZero. Các công cụ phát hiện AI tạo ra các kết quả khác nhau. Chúng tôi cung cấp kết quả của từng công cụ phát hiện và cách chúng tôi chuyển đổi kết quả đó thành phân loại nhị phân, chủ yếu là AI / chủ yếu là con người dưới đây. Pangram và Copyleaks cung cấp tỷ lệ nội dung bài viết được tạo bởi AI. Pangram Đầu ra: Tỷ lệ bài viết là Con người, có sự hỗ trợ của AI, AI Phân loại là chủ yếu AI nếu: tỷ lệ AI + tỷ lệ có sự hỗ trợ của AI > tỷ lệ Con người Copyleaks Đầu ra: Tỷ lệ bài viết là Con người, AI Phân loại là chủ yếu AI nếu: tỷ lệ AI > tỷ lệ Con người Ngược lại, GPTZero cung cấp dự đoán cấp độ bài viết. (Đầu ra Quét câu nâng cao của nó bao gồm các câu có tác động lớn nhất đến phân loại, nhưng nó không trực tiếp cung cấp tỷ lệ nội dung do AI tạo ra. Chúng tôi ưu tiên sử dụng đầu ra cấp độ bài viết của nó hơn là tự mình nghĩ ra phương pháp tính toán tỷ lệ.) GPTZero Đầu ra: Dự đoán (Con người, Hỗn hợp, AI) và điểm tin cậy Phân loại là chủ yếu AI nếu: dự đoán là AI hoặc Hỗn hợp Lưu ý rằng các nhãn chỉ ra sự pha trộn giữa văn bản do AI và con người viết hiếm khi được dự đoán trên tập dữ liệu của chúng tôi: GPTZero gắn thẻ 6,4% bài viết là Hỗn hợp và Pangram gắn thẻ 1,9% bài viết có văn bản được hỗ trợ bởi AI. Việc phát hiện chính xác nội dung do AI tạo ra là cần thiết để đưa ra các tuyên bố về sự phổ biến của các bài viết do AI tạo ra trên web. Có sự bất đồng đáng kể về độ chính xác của các thuật toán phát hiện AI, và nhiều người cho rằng việc phát hiện AI là không thể, hoặc tốt nhất là rất không chính xác. Do đó, trước khi phân loại các bài viết trong tập dữ liệu của chúng tôi, chúng tôi đánh giá độ chính xác của các công cụ phát hiện AI. Đánh giá tỷ lệ dương tính giả Để đánh giá tỷ lệ dương tính giả (tỷ lệ phần trăm các bài viết do con người viết được phân loại là chủ yếu do AI tạo ra), chúng tôi cần một tập dữ liệu các bài viết do con người viết. Kể từ khi việc áp dụng rộng rãi các công cụ AI bắt đầu với ChatGPT, chúng tôi lập luận rằng, với xác suất cao, các bài viết được xuất bản trước khi nó ra mắt đều do con người viết. Do đó, chúng tôi chạy từng công cụ phát hiện trên 15.700 bài viết trong dữ liệu Common Crawl của chúng tôi. đặt

Nguồn tin: Hacker News AI — Tác giả: ChrisArchitect. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.