660 tác nhân AI đã thực hiện 27.000 thí nghiệm. Phát hiện lớn…

Trên Hyperspace, các swarm cơ bản, những phép toán chưa từng được ghi lại, và lý do chúng tôi xây dựng thứ còn thiếu trong một buổi chiều. Hãy cùng chúng tôi khám phá nhiều tài liệu nghiên cứu (whitepaper) và các ý tưởng về bộ nhớ tác nhân (agentic memory) như một chú chồn sương đang dùng Adderall. Một số "hố thỏ" (rabbit hole) bắt đầu bằng một liên kết GitHub. Ai đó đăng nó lên các bài viết trên mạng xã hội như Facebook/Reddit/Discord. Không có ngữ cảnh, chỉ có URL đến GitHub và một dòng duy nhất: Ai đó vừa xây dựng AGI! Tuyệt vời! Kho lưu trữ (repo) đó có tên là hyperspaceai/agi. Chỉ riêng cái tên đã là một lời cảnh báo. Tôi vẫn nhấp vào vì tò mò, tất nhiên rồi. Khi tôi đi sâu hơn vào vực thẳm mã nguồn của GitHub, tôi đã nhận ra.

Trên Hyperspace, các đàn cơ bản, những phép toán chưa được ghi lại, và lý do chúng tôi xây dựng thứ mà họ thiếu chỉ trong một buổi chiều. Hãy cùng chúng tôi khám phá nhiều tài liệu chuyên sâu (whitepaper) và các ý tưởng về bộ nhớ tác nhân (agentic memory) như một con chồn sương đang dùng Adderall. Một số "hố thỏ" bắt đầu bằng một liên kết GitHub. Ai đó đăng nó lên các bài viết trên mạng xã hội như Facebook/Reddit/Discord. Không có ngữ cảnh, chỉ có URL đến GitHub và một dòng duy nhất: Ai đó vừa xây dựng AGI! Tuyệt vời! Kho lưu trữ (repo) đó có tên là hyperspaceai/agi. Chỉ riêng cái tên đã là một lời cảnh báo. Tôi vẫn nhấp vào vì tò mò, tất nhiên rồi. Khi tôi đi sâu hơn vào "vực thẳm mã nguồn" của GitHub, tôi có thể thấy sức hấp dẫn: một biên giới mới của mạng ngang hàng (peer-to-peer) bot đàn với khả năng kiếm điểm cơ sở 10 cho mỗi kỷ nguyên xác nhận và tích hợp kinh tế mã hóa (crypto tokenomics). Playstation đã có một thứ tương tự được tạo ra từ lâu mang tên Folding@Home – dành cho PS3 và PC: https://en.wikipedia.org/wiki/Folding@home – là một dự án điện toán phân tán nhằm giúp các nhà khoa học phát triển các liệu pháp mới cho nhiều loại bệnh bằng cách mô phỏng động lực học protein. Điều này bao gồm quá trình gấp protein và chuyển động của protein, và phụ thuộc vào các mô phỏng chạy trên máy tính cá nhân của các tình nguyện viên. Nếu bạn muốn xem một trong những tài liệu chuyên sâu đầu tiên về bot đàn thực tế: Thuật ngữ "Swarm-bot" ban đầu đề cập đến dự án SWARM-BOTS được Liên minh châu Âu tài trợ từ năm 2000–2005, do Marco Dorigo điều phối, đã tạo ra thành công một mạng lưới vật lý ngang hàng gồm các robot di động tự hành gọi là s-bots. Các s-bots này kết nối vật lý và phối hợp thông qua cảm biến cục bộ ngang hàng. https://www.sciencedirect.com/science/article/abs/pii/S0921889005001478 AGI không phải là AGI Hyperspace tự mô tả là hệ thống AGI phân tán đầu tiên. 660 tác nhân. 27.000 thử nghiệm. Một quy trình nghiên cứu được đánh giá ngang hàng chạy tự động trên mạng P2P. Tiếp thị rất xuất sắc và hấp dẫn, đảm bảo thu hút những người "lemming" như ruồi đến với các ngôi sao GitHub hấp dẫn. Kết quả thực tế lại là một câu chuyện khác. Khám phá lớn nhất được công bố của đàn – phát hiện lan truyền đến 23 tác nhân trong vòng vài giờ thông qua giao thức tin đồn (gossip protocol), điều mà họ nhấn mạnh là bằng chứng cho thấy hệ thống hoạt động – là khởi tạo Kaiming. Khởi tạo Kaiming đã có trong thư viện chuẩn PyTorch từ năm 2015. Nó được đề cập trong tuần thứ hai của mọi khóa học học sâu (deep learning). Kaiming He đã xuất bản bài báo này mười một năm trước. Một sinh viên cao học với một tách cà phê và một buổi chiều đã có thể tìm thấy nó nhanh hơn. https://arxiv.org/pdf/1502.01852 Cơ sở hạ tầng bên dưới thực sự ấn tượng. Nén gradient DiLoCo, giao thức tin đồn libp2p, bảng xếp hạng CRDT, 32 nút ẩn danh hoàn thành một lần chạy huấn luyện cộng tác trong 24 giờ. Hệ thống nền tảng là có thật. Tôi không muốn bác bỏ điều đó. Nhưng AGI? Không. Những gì họ xây dựng là một công cụ tìm kiếm ngẫu nhiên song song với một bảng điểm cao được chia sẻ và thương hiệu xuất sắc. Để hiểu tại sao, bạn cần hiểu cách nén gradient thực sự hoạt động – bởi vì đó là phần thú vị nhất về mặt kỹ thuật, và nó hoàn toàn tách biệt khỏi vấn đề trí tuệ. Công nghệ thực sự hoạt động: DiLoCo và nén gradient Huấn luyện phân tán tiêu chuẩn yêu cầu mọi GPU đồng bộ hóa gradient sau mỗi lần chuyển tiếp/ngược. Mọi nút chờ mọi nút khác. Điều này hoạt động trong một trung tâm dữ liệu trên InfiniBand. Nó hoàn toàn sụp đổ trên internet – độ trễ quá cao, băng thông quá biến động. DiLoCo (Decoupled Local Communication, Google DeepMind 2023) giải quyết vấn đề này theo cách khác. Thay vì đồng bộ hóa từng bước, mỗi nút (node) tự huấn luyện độc lập qua nhiều bước – được gọi là “bước nội bộ” (inner steps) – sau đó đồng bộ hóa một lần. “Độ lệch” (delta) được gửi đi chỉ là sự thay đổi ròng: trọng số_sau - trọng số_trước (weights_after - weights_before). Nút A: huấn luyện 100 bước cục bộ → chia sẻ độ lệch Nút B: huấn luyện 100 bước cục bộ → chia sẻ độ lệch Nút C: huấn luyện 100 bước cục bộ → chia sẻ độ lệch ↓ trung bình hóa các độ lệch (bước bên ngoài - outer step) ↓ tất cả các nút cập nhật → lặp lại Tuy nhiên, ngay cả một lần đồng bộ hóa toàn bộ độ lệch trọng số của mô hình cũng rất lớn. Một mô hình 500M tham số (parameter) tương đương khoảng 2GB dữ liệu độ lệch float32. Qua internet, mỗi vòng, điều này là không thể sử dụng được. Vì vậy, Hyperspace đã áp dụng hai kỹ thuật nén bổ sung: SparseLoCo – độ thưa thớt top-k. Chỉ gửi các cập nhật trọng số có độ lớn lớn nhất. Hầu hết các cập nhật tham số là nhiễu gần bằng 0. Các cập nhật có độ lớn cao mang tín hiệu học tập thực sự. Độ lệch đầy đủ: [0.001, -0.0003, 0.89, 0.0001, -0.76, ...] Chỉ top-2%: [ 0, 0, 0.89, 0, -0.76, ...] → gửi dưới dạng các cặp {chỉ mục: giá trị} thưa thớt Parcae – gộp lớp (layer pooling). Nhóm các lớp transformer liền kề thành các khối 6 lớp, tính trung bình gradient của chúng trước khi lấy top-k. Các lớp liền kề học các điều tương quan. Việc tính trung bình trước khi làm thưa thớt (sparsification) giúp mặt nạ top-k ổn định hơn. Kết quả tổng hợp: nén 195 lần. 5,5MB mỗi vòng thay vì khoảng 1GB. DiLoCo: đồng bộ hóa sau mỗi N bước thay vì mỗi bước → tần suất ít hơn ~100 lần SparseLoCo: chỉ 2% giá trị độ lệch hàng đầu → tải trọng nhỏ hơn 45 lần Parcae: gộp các lớp trước khi làm thưa thớt → giảm thêm 6 lần Tổng cộng: 195 lần Điều này là có thật và ấn tượng. Vấn đề là không có điều nào trong số đó liên quan đến trí tuệ. Đó là tối ưu hóa băng thông. Các tác nhân giao tiếp qua đường ống này vẫn hoàn toàn mất trí nhớ. Tại sao Swarm lại cơ bản: Vấn đề kiến trúc Đây là vòng lặp trí tuệ hoàn chỉnh của các tác nhân. Mọi tác nhân. Tất cả 660 tác nhân. Mỗi một trong số 27.000 thử nghiệm: 1. đọc bảng xếp hạng hiện tại (điểm tốt nhất là gì?) 2. đọc 5 kết quả thử nghiệm gần nhất từ nhánh được chia sẻ 3. nhắc LLM: "dựa trên các kết quả này, tạo giả thuyết" 4. chạy thử nghiệm 5. ghi lại kết quả 6. trao đổi với các tác nhân ngang hàng 7. quay lại bước 1 Cửa sổ ngữ cảnh (context window) của LLM là bộ nhớ. Khi phiên được đặt lại, mọi thứ đều được đặt lại. Không có sự bền vững. Không có cấu trúc. Không có sự hiểu biết nhân quả về lý do tại sao bất cứ điều gì hoạt động. Hyperspace lưu trữ: "run_047: ngưỡng 0.30, điểm 0.67" ← nhật ký phẳng Hyperspace KHÔNG lưu trữ: tại sao ngưỡng 0.30 hoạt động nó tương tác với điều gì trong điều kiện nào nó giữ vững điều gì đã thất bại trước đó Vì vậy, khi "khám phá" khởi tạo Kaiming xảy ra, đây là những gì thực sự đã diễn ra: th

660 tác nhân AI đã thực hiện 27.000 thí nghiệm. Phát hiện lớn nhất của chúng là một kết quả từ sách giáo khoa năm 2015.