Bốn kỵ sĩ của ngày tận thế LLM

URL bài viết: https://anarc.at/blog/2026-05-16-four-horsemen/ URL bình luận: https://news.ycombinator.com/item?id=48172680 Điểm: 5 Bình luận: 0

Bản dịch: Tôi đã phải đối mặt với các Mô hình Ngôn ngữ Lớn (LLM) trong vài tuần qua và đã cố gắng suy nghĩ về ý nghĩa của chúng cũng như cách đối phó với những hậu quả mà chúng gây ra. Vì cuộc chiến đến từ nhiều mặt trận, tôi đã hình dung điều này theo thuật ngữ Tứ Kỵ Sĩ Khải Huyền. Nhạc nền: The Four Horsemen của Metallica, tốt nhất là tải xuống từ Napster khoảng năm 2000, nhưng bây giờ tôi đoán bạn có thể nghe trên YouTube. Tứ Kỵ Sĩ Khải Huyền của LLM Chiến tranh: đội quân bot Ghi chú bên lề về "trật tự chiến đấu" của LLM Nạn đói: thiếu hụt Cái chết: bảo mật và bản quyền Dịch bệnh: cặn bã Kỵ sĩ thứ năm Tháp Babel Chiến tranh: đội quân bot Hãy bắt đầu với Chiến tranh. Chúng tôi đã chiến đấu với các đội quân bot để giành quyền kiểm soát máy chủ GitLab của mình một thời gian. Các bot thu thập dữ liệu gần như vô hạn các điểm cuối trên kho lưu trữ Git của chúng tôi (trái ngược với việc tải xuống một kho lưu trữ hoặc bản sao nông), bao gồm cả bản sao của Firefox, Tor Browser, một kho lưu trữ khổng lồ. Ban đầu, chúng tôi đã thử nhiều phương pháp khác nhau: robots.txt, chặn tác nhân người dùng và cuối cùng là chặn toàn bộ mạng. Tôi đã viết asncounter. Nó đã hoạt động một thời gian. Nhưng bây giờ, việc chặn toàn bộ mạng không còn hiệu quả: chúng quay lại bằng một cách khác, thường thông qua các mạng proxy mờ ám, điều này khá trớ trêu khi chúng tôi về cơ bản đang vận hành mạng proxy lớn nhất thế giới. Trong tuyệt vọng, chúng tôi đã buộc người dùng phải sử dụng cookie khi truy cập trang web của mình. Chúng tôi chưa triển khai Anubis, vì chúng tôi lo ngại rằng các bot đã phá vỡ Anubis và nó không thực sự bảo vệ chống lại một kẻ tấn công được tài trợ tốt, điều mà Pretix đã cảnh báo vào năm 2025. (Chúng tôi có một cuộc thảo luận toàn diện về các công cụ đó tại đây.) Nhưng ngay cả điều đó, như dự đoán, đã thất bại. Tôi nghi ngờ những gì chúng tôi coi là bot giờ đây thực sự là các tác nhân. Chúng chạy các trình duyệt web đầy đủ, bao gồm cả JavaScript, vì vậy một cookie yếu ớt không thể sánh được với các đội quân bot khổng lồ. Ghi chú bên lề về "trật tự chiến đấu" của LLM Chúng ta thường đánh giá thấp quy mô của đội quân đó. Điện toán đám mây đã rất lớn ngay cả trước LLM, phục vụ khoảng hai phần ba web. Thậm chí các phần lớn hơn của khách hàng như cơ sở dữ liệu chính phủ và doanh nghiệp đều đã chuyển sang đám mây, trong cơ sở hạ tầng dùng chung nhưng riêng tư với dung lượng dự phòng khổng lồ sẵn sàng cho bất kỳ ai trả tiền. LLM đã làm cho vấn đề trở nên tồi tệ hơn bằng cách mở rộng đáng kể năng lực của "đám mây". Giờ đây chúng ta có các trung tâm dữ liệu vượt xa trí tưởng tượng với hàng triệu lõi, petabyte bộ nhớ, exabyte lưu trữ. Tôi nghĩ rằng internet dân dụng 25 gigabit ở Thụy Sĩ có thể mang lại sự cân bằng, nhưng điều này không là gì so với quy mô của các trung tâm dữ liệu đó. Các công ty đó có thể khởi chạy hàng nghìn, nếu không phải hàng triệu trình duyệt web đầy đủ chức năng vào máy chủ của chúng tôi. Sức mạnh tính toán hoặc băng thông không phải là giới hạn đối với họ, mà là cơ sở hạ tầng nguyên thủy của chúng tôi. Không ai ngoài các siêu quy mô có thể xử lý loại tải này, và tôi nghi ngờ rằng họ cũng đang gặp khó khăn, vì ngay cả Google cũng đang triển khai các cơ chế cực đoan trong reCAPTCHA. Đây là cuộc tấn công lớn nhất vào internet kể từ Morris worm nhưng trong khi Robert Tappan Morris phải vào tù vì tội trọng, các công ty LLM được ca ngợi là những nhà đổi mới và sẽ sớm trở nên quá lớn để thất bại. Điều này đưa chúng ta đến kỵ sĩ thứ hai, nạn đói. Nạn đói: thiếu hụt Tất cả sức mạnh tính toán đó không tự nhiên mà có: nó cần một lượng lớn phần cứng, năng lượng và hệ thống làm mát. Đầu năm nay, tôi nghe một đồng nghiệp nói rằng nhà cung cấp Dell của họ thậm chí còn từ chối đưa ra báo giá trước tháng 8. Dell! Vào tháng 2, sản lượng ổ cứng của Western Digital cho năm 2026 đã được bán hết. Giá ổ cứng về cơ bản đã tăng gấp đôi trong vòng một năm, và một số hiện đã tăng gấp ba. Một báo giá máy chủ mà chúng tôi nhận được vào tháng 11 hiện đã tăng gấp bốn lần, từ 10 nghìn lên 40 nghìn đô la cho một máy chủ duy nhất. Nhưng những người bình thường cũng đang phải đối mặt với tình trạng thiếu hụt trong đời sống thực, khi các trung tâm dữ liệu quy mô thành phố đang được xây dựng với tốc độ chóng mặt, lấy đi nước sạch và năng lượng từ con người để nuôi cỗ máy chiến tranh. Chúng ta đã sợ mất việc làm, nhưng có vẻ như Ngày tận thế vẫn chưa hoàn toàn thành hiện thực. Dù sao đối với các kỹ sư, thị trường cảm thấy eo hẹp hơn so với vài năm trước, và mọi người đều cảm thấy lo lắng rằng họ sẽ phải học cách vận hành các LLM để giữ việc làm. Điều này đưa chúng ta, tất nhiên, đến Cái chết. Cái chết: bảo mật và bản quyền Kỵ sĩ thứ ba của chúng ta là một điều mà tôi không ngờ tới vài tháng trước. Tại FOSDEM, người duy trì curl Daniel Stenberg đã nổi tiếng phàn nàn về chất lượng kém của các báo cáo do LLM tạo ra, nhưng sau đó, vài tháng sau, mọi người đều đang vội vã đối phó với hàng loạt báo cáo tốt. Trong hai tuần qua, điều này đã lên đến đỉnh điểm với một số lượng đáng kể các vấn đề bảo mật nghiêm trọng trên nhiều dự án. Các lỗ hổng thực thi mã từ xa trong Nginx và Apache và hai lỗ hổng leo thang đặc quyền cục bộ trong nhân Linux (dirtyfrag và fragnesia) khi kết hợp lại về cơ bản đã cấp quyền truy cập root cho bất kỳ máy chủ nào chưa được vá trên web. Khi tôi viết bài này, một lỗ hổng khác đã được công bố, cho phép người dùng cục bộ đọc bất kỳ tệp nào, làm lộ các khóa riêng tư TLS và SSH. Tất cả các lỗ hổng này đã được công bố mà không có bất kỳ sự phối hợp đáng kể nào trong khi mọi người vội vã khắc phục. Nhiều người, bao gồm cả Linus Torvalds, hiện đang coi các vấn đề được phát hiện thông qua LLM về cơ bản là công khai. Điều này đặt ra một số cuộc tranh luận về các quy trình tiết lộ thông tin trong một góc nhìn mới, ít nhất là vậy. Nhưng đây không chỉ là cái chết của quy trình tiết lộ thông tin phối hợp truyền thống, ngôn ngữ lập trình C, hay nhân Linux: hãy nhớ rằng những bot này được đào tạo trên một kho dữ liệu lớn gồm các tài liệu có bản quyền. Facebook đã đào tạo các mô hình của họ trên sách lậu và Nvidia đã thỏa thuận với Anna's Archive.