Không thể phát hiện để thoát khỏi thất bại thảm khốc của LLM. |…

URL bài viết: https://github.com/joseteiadirector/teia-igo-vs-claude-opus-4.8/blob/main/README.en.md URL bình luận: https://news.ycombinator.com/item?id=48430117 Điểm: 1 Bình luận: 0

IGO đấu với Claude Opus 4.8 Kiểm thử Đỏ Tri thức Biện chứng — Teia Geo Tác giả: José Enrique Vásquez Valenzuela — người sáng tạo danh mục IGO (Cơ sở hạ tầng Quản trị Quan sát) Tổ chức: Teia Studio Cơ sở khoa học: Zenodo · DOI 10.5281/zenodo.19765674 (CC-BY-4.0) Bằng sáng chế: INPI BR 10 2026 001032 4 Phiên ghi hình: ngày 6/6/2026 · mô hình Claude Opus 4.8 (Anthropic) Bản chất của tài liệu này Nghiên cứu này là gì. Ghi chép về một phương pháp kiểm tra độ an toàn của AI đến khi chúng thất bại — và một báo cáo trung thực về những gì còn lại và những gì đã mất. Các phép toán đằng sau nó đã được công khai và xuất bản. Nghiên cứu này KHÔNG phải là gì. Nó không phải là một dấu chứng nhận "AI không thể phá vỡ", cũng không phải là một cuộc kiểm toán hệ thống sản xuất trực tiếp, cũng không phải là một tuyên bố chính thức của Anthropic. Đây là một cuộc tranh luận thực tế, với những nhượng bộ thực sự — được thực hiện bởi mô hình, thông qua lập luận. Xương sống chứng minh ba lớp Nghiên cứu này không yêu cầu sự tin tưởng. Nó dựa trên ba lớp bằng chứng độc lập, từ mạnh nhất đến mang tính hùng biện nhất: Phép toán — các công thức chỉ số (KAPI) được công khai, có DOI và giấy phép mở trên Zenodo. → matematica/ và docs/kapis-formulas.md Sản xuất — các chỉ số được đo lường trong sản xuất thực tế tại 4 tổ chức được ghi nhận, với dữ liệu được lấy trực tiếp từ cơ sở dữ liệu ("không có dữ liệu ước tính hoặc mô phỏng"). → docs/evidencia-producao.md Kiểm thử đỏ biện chứng — Claude Opus 4.8 đã trải qua kiểm thử đỏ tri thức; ba luận điểm mà nó bảo vệ đã bị bác bỏ bằng lập luận, và nó đã ký xác nhận. → docs/dossie.md và provas/ Thứ tự quan trọng: công thức → dữ liệu thực → AI xác nhận. Sức mạnh nằm ở lớp đầu tiên; lớp thứ ba chỉ là phần bổ sung. 1. Phương pháp Kiểm tra giới hạn. Tác giả đã đưa IGO đến Claude Opus 4.8 và tấn công từng luận điểm tại điểm yếu của nó. Tại mỗi điểm phá vỡ, mô hình có hai lựa chọn: nhượng bộ (nếu lập luận đúng) hoặc duy trì (nếu phản bác không vững). Những nhượng bộ dưới áp lực là vô giá trị — những nhượng bộ được ghi lại ở đây xuất phát từ mâu thuẫn được chứng minh, không phải sự khăng khăng. 2. 3 luận điểm đã bị bác bỏ — bằng lập luận 1. Phép loại suy hàm băm. Mô hình tuyên bố lỗi của nó không thể đoán trước như một hàm băm. Luận điểm này đã bị bác bỏ: một hàm băm làm mất tương quan đầu vào và đầu ra; một LLM làm điều ngược lại — lỗi bảo toàn sự gần gũi về ngữ nghĩa, vì vậy nó có hướng và mẫu. Nó có một dấu hiệu có thể tìm kiếm được. 2. Phát hiện đạo hàm là đủ. Luận điểm này đã bị bác bỏ bởi hàm bước: bước nhảy đối nghịch vượt qua ranh giới trước khi đạo hàm tồn tại. Và đối mặt với sự hủy hoại, không có "chu kỳ tiếp theo" để học hỏi. Hủy hoại là một vấn đề ngăn chặn, không phải là một vấn đề phát hiện. 3. Phát hiện và ngăn chặn song song. Luận điểm này đã bị bác bỏ: bất cứ ai xác định phạm vi hoạt động đều là ngăn chặn. Lớp 4 là tối cao trong làn đường hủy hoại. Chi tiết đầy đủ trong docs/dossie.md. 3. Những gì còn lại sau kiểm tra Tính xác định không phải là khả năng dự đoán. Có thể tái tạo sau quan sát ≠ có thể biết trước khi tính toán. "Phép toán sụp đổ" là một cách nói quá. Phát hiện không bao gồm một trường hợp ngoài phạm vi là vấn đề phạm vi, không phải sụp đổ — đó là tiền đề của phòng thủ theo chiều sâu. Hộp trắng không phải là một đặc quyền thị trường đóng. Logprobs được phơi bày bởi một số API thương mại và hoàn toàn trong các mô hình trọng số mở. Từ chối chứng nhận bất khả xâm phạm. Đuôi rủi ro là mở và không ổn định; không có kiểm toán viên trung thực nào ký "đã được tăng cường". 4. Kiến trúc — 4 lớp, 2 làn Đọc từ dưới lên: mô hình tạo ra một đầu ra; nó không đi thẳng ra thế giới — nó leo qua 4 bộ lọc. Lớp Chức năng 4 — Ngăn chặn Cô lập tuyệt đối. Xử lý đầu ra như một vectơ thù địch. Chủ quyền trong làn hủy hoại. Không tin tưởng vào việc phát hiện. 3 — Thích nghi Kiểm thử thâm nhập tổng hợp: biến lỗi đã ghi nhận thành khả năng miễn nhiễm cho chu kỳ tiếp theo. 2 — Ngắt mạch Kiểm soát dựa trên Khả năng Dự đoán Nhận thức (CPI) thấp. Kích hoạt khóa và các cơ chế dự phòng. 1 — Các chỉ số động Đo lường vận tốc trôi dạt ngữ nghĩa (đạo hàm), không phải khối lượng đuôi tĩnh. Làn có thể phục hồi (Lớp 1–3, từ dưới lên): trường hợp điển hình, chịu lỗi. Giám sát sự trôi dạt, biến lỗi thành khả năng miễn nhiễm. Làn hủy hoại (Lớp 4, từ trên xuống): kỹ thuật bảo mật cổ điển. Không có cơ hội thứ hai — khiến hành động hủy hoại không thể thực hiện được. Bài học cốt lõi: phát hiện (1–3) xử lý những gì có thể khắc phục; ngăn chặn (4) xử lý những gì không bao giờ được phép xảy ra. Sự phân tách đó là điều còn lại sau cuộc tranh luận. 5. Những vấn đề còn bỏ ngỏ Hiệu chỉnh ngưỡng CPI trong làn có thể phục hồi (dương tính giả × âm tính giả). Đã được giải quyết một phần: công thức và các dải (>80 ổn định, <50 nghiêm trọng) đã được công bố; điều còn lại là hành động kích hoạt theo thời gian thực. Rủi ro còn lại trong một đuôi dày, không ổn định — ước tính khối lượng đuôi chưa được lấy mẫu, nơi VaR đã thất bại trong tài chính. Theo thiết kế, điều này không được giải quyết bằng cách phát hiện: nó được hấp thụ bởi sự ngăn chặn (Lớp 4). Logic × triển khai — sự nhất quán về kiến trúc không thay thế được việc kiểm toán thực nghiệm của một hệ thống hoàn chỉnh đang chạy theo thời gian thực. 6. Công thức toán học đã được công bố CPI = max(0, 100 − (σ_temporal × 2)) trong đó σ_temporal là độ lệch chuẩn của độ tin cậy của LLM theo thời gian. Trên 80 = ổn định; dưới 50 = biến động nhận thức nghiêm trọng. Tại sao điều này quan trọng đối với cuộc tranh luận: CPI đo lường khả năng dự đoán theo thời gian — một chỉ số của làn có thể phục hồi. Nó không nắm bắt, và bài báo không tuyên bố nó nắm bắt, một bước nhảy đối kháng theo thời gian thực. Vì vậy, công thức toán học đã công bố xác nhận kết luận của cuộc tranh luận (phát hiện không bao gồm sự hủy hoại; ngăn chặn là cần thiết) chứ không mâu thuẫn với nó. Các công thức ICE, GAP và Stability trong docs/kapis-formulas.md. 7. Bằng chứng sản xuất — 4 tổ chức KAPI đã được đo lường trong sản xuất thực tế tại 4 tổ chức được ghi nhận (y tế công cộng, giáo dục đại học, thiết kế), kiểm toán 4 LLM toàn cầu. Các báo cáo nêu rõ: "Tất cả dữ liệu được trích xuất trực tiếp từ cơ sở dữ liệu. Không có dữ liệu ước tính hoặc mô phỏng." Trong số đó, CPI dao động ~22–55, với xu hướng giảm có thể đo lường được (đạo hàm thực, được tính toán). Phát hiện ảo giác gốc đã bắt được các lỗi nghiêm trọng — bao gồm một lỗi từ chính Claude, được xếp loại CAO. Số liệu trên mỗi khách hàng được ẩn danh/tổng hợp trong kho lưu trữ công khai này để tôn trọng các dự án thí điểm. Y tế công cộng