Mã AI trông sạch sẽ. Đó là cái bẫy

URL bài viết: https://thinkpol.ca/2026/05/15/ai-code-looks-clean-thats-the-trap/ URL nhận xét: https://news.ycombinator.com/item?id=48161224 Điểm: 1 # Bình luận: 1

Mã AI trông sạch sẽ. Đó chính là cái bẫy. - ThinkPol Trang chủ Về chúng tôi tác giả Điều khoản sử dụng Chính sách bảo mật Liên hệ Tự do dân sự Kinh tế Lao động Kinh doanh Công nghiệp Dầu khí Năng lượng tái tạo Chính phủ Bầu cử Minh bạch Chính sách Bảo mật tội phạm khoa học Môi trường sức khỏe Quốc tế Mã AI trông sạch sẽ. Đó là cái bẫy. Ngày 15 tháng 5 năm 2026 Kinh Doanh, Trang Trước, Khoa Học Tôi đang tổ chức một cuộc thi trong đó các mô hình AI hàng đầu viết mã Python, kết nối với máy chủ TCP và giải quyết trực tiếp các thách thức lập trình thuật toán trong thời gian thực. Mỗi mô hình đọc thông số kỹ thuật một lần và tạo bot. Sau đó, bot đó kết nối với một máy chủ trực tiếp, giải quyết một loạt vòng trong một giới hạn thời gian, chỉ trong thư viện tiêu chuẩn và không có phản hồi nào ngoài bất cứ điều gì máy chủ gửi lại khi có sự cố. Mỗi mô hình phải đối mặt với cùng một thông số kỹ thuật và cùng một hạn chế về một lần bắn. Các điều kiện không khắc nghiệt: cố định, giao thức được ghi lại, không có đầu vào đối nghịch ngoài chính vấn đề, không có sự tương tranh, không có mô hình bảo mật, không có tiến hóa lược đồ, không có lỗi một phần, không bị hỏng dữ liệu trong thế giới thực. Tuy nhiên, phần lớn các mô hình biên giới tạo ra mã không bao giờ kết nối đúng cách, đọc sai định dạng dòng cơ bản nhất hoặc chết lặng lẽ khi có bất kỳ điều gì bất ngờ xảy ra trên dây. Ngày 18: thất bại cục bộ trông như thế nào CollectTheDots yêu cầu mỗi bot che N chấm bằng ít vòng tròn không chồng chéo nhất bên trong một hình chữ nhật bao quanh. Mười vòng, số chấm từ 50 đến 100. Nemotron không ghi được điểm hợp lệ nào trong tất cả mười vòng đấu. Trình phân tích cú pháp của nó đọc các dòng DOT nhưng sử dụng chỉ mục trường 1 làm tọa độ x và chỉ mục 2 làm tọa độ y. Tắt từng cái một. Chỉ số dấu chấm được coi là tọa độ không gian; giá trị x thực tế trở thành y. Bot chạy, tạo vòng kết nối và gửi đầu ra. Máy chủ từ chối mọi thứ vì không có vòng tròn nào ở gần vị trí dấu chấm thực. Lỗi không phải là câu chuyện; nó trốn ở đâu. Trình phân tích cú pháp trông giống như một trình phân tích cú pháp. Nó truy cập các trường được đặt tên theo cách có cấu trúc. Lỗi tồn tại ở phần bù trường - chính xác là nơi mắt người đánh giá lướt qua thay vì xác minh. Cú pháp rõ ràng, tên biến hợp lý và khối ngoại lệ có cấu trúc không phải là bằng chứng về tính đúng đắn. Trong điều kiện xem xét lướt qua, chúng đang ngụy trang. MiniMax có một phiên bản tinh vi hơn của vấn đề tương tự. Bán kính hình tròn hợp lệ tối đa trước khi chạm vào ranh giới hình chữ nhật là min(cx, w-cx, cy, h-cy). MiniMax thêm EPS = 1e-6 làm đệm. Ý tưởng hình học là đúng đắn; việc triển khai không thành công do cho rằng một lỗi hack dung sai cục bộ sẽ hoạt động an toàn với trình xác thực của máy chủ. Đối với các dấu chấm được định vị gần ranh giới, số học dấu phẩy động đặt vòng tròn mở rộng ở phía bên trái của ngưỡng. Sáu trong số mười bài nộp bị từ chối. Bot của Gemini, 299 dòng bộ giải kết tụ ngẫu nhiên với lớp giao thức hoàn chỉnh, đã ngắt kết nối 96 mili giây vào Vòng 1. Vòng 2 đến 10 được đăng ký là EOF ngay lập tức. Bot kết thúc tất cả quá trình thực thi trong lần thử/ngoại trừ: sys.exit(1). Không có dấu vết nào được ghi lại. Một bot thoát ra một cách rõ ràng và cho bạn biết không có gì khó chẩn đoán hơn một bot gặp sự cố lớn. Việc xử lý lỗi “có trách nhiệm” đảm bảo không thể quan sát được. DeepSeek đã thắng 5 trong 7 vòng đầu tiên — gửi ngay lập tức, 0,05 giây, chiếm ưu thế. Phương pháp tìm kiếm dạng lưới của nó đã chia hình chữ nhật thành một lưới cố định gồm các tâm vòng tròn ứng cử viên và đặt các vòng tròn một cách tham lam, lần lượt từng vòng một — nhanh chóng và chính xác khi độ phân giải lưới khớp với mật độ cụm. Ở Vòng 8, hình chữ nhật tăng lên 190×280 với 100 chấm trải rộng trên 53.000 pixel vuông. Công thức bước lưới đã tạo ra khoảng 100 trung tâm ứng viên cho 12 trung tâm cụm. DeepSeek đã gửi 16 vòng kết nối; Kimi gửi 8. Nó rơi xuống vị trí cuối cùng trong số các bot ghi điểm, và đứng thứ 5 trong các vòng 9 và 10. Mã không bao giờ thay đổi; đầu vào đã làm. GLM đã hoàn thành các vòng từ 1 đến 4 với các bài gửi hợp lệ, xếp từ thứ 4 đến thứ 6 mỗi lần và không ghi được điểm nào. Từ vòng 5 trở đi, khi N đạt 85 điểm trở lên, người giải luôn hết thời gian chờ. Độ phức tạp vẫn ổn đối với các đầu vào nhỏ; không ai kiểm tra điều gì đã xảy ra khi chúng lớn lên. Grok đã thắng. Không phải vì nó giải quyết được vấn đề một cách tốt nhất (sự hợp nhất lặp đi lặp lại của Kimi đã tìm ra giải pháp tốt hơn ở những vòng khó nhất), mà vì những sai lầm của nó ít thảm khốc hơn. Trong một lĩnh vực mà mọi cách tiếp cận đều có vách đá, người chiến thắng là người có vách đá khó rơi nhất. “Hút ít hơn những người khác để không nổ tung” không phải là vòng đua chiến thắng mà đó là những gì đã xảy ra. Mô hình tương tự trong 18 thử thách WarehouseRobot: Dòng ITEM có 5 token: ITEM . Trình phân tích cú pháp của Nemotron kiểm tra 4. Mọi dòng mục đều bị bỏ qua. Danh sách vật phẩm trống trong tất cả mười vòng. Bot không lên kế hoạch cho chuyến đi nào, gửi END trần và luôn nhận được lost_item_0 từ máy chủ. 122 dòng mã, logic lập kế hoạch tuyến đường hoàn chỉnh, được gắn vào một trình phân tích cú pháp có thể đọc sai định dạng một dòng và làm mất hiệu lực mọi thứ ở phía dưới. Cùng một loại lỗi, thử thách khác nhau. PalinPrimeBits: Kimi có một lỗi hạt giống thứ 15 trong bộ đệm chính palindromic của nó. Nó đã gửi câu trả lời sai trong hầu hết các vòng. Ở Vòng 10 - trong đó N là 1.000.000 và mọi bot khác vẫn đang tính toán khi hết giờ - bộ đệm của Kimi tình cờ tạo ra câu trả lời đúng mặc dù có lỗi. Một con bot sai chín trên mười lần đã giành vị trí đầu tiên ở vòng quyết định. Độ tin cậy không giống như việc thỉnh thoảng gặp may mắn. Tiết lộ hình ảnh mờ: Thử thách đã gửi 30 MB dữ liệu hình ảnh ASCII trước câu hỏi đầu tiên. ChatGPT và MiMo đã hết thời gian phân tích cú pháp PPM trước khi họ có thể tính toán bất cứ điều gì. Thuật toán không phải là vấn đề. Gemini đã giành chiến thắng với 147 dòng — mã đơn giản nhất trong lĩnh vực này — nhờ đọc dữ liệu hiệu quả và đoán sớm. Ràng buộc chiến thắng là I/O thông qua