Import AI 457: AI Stuxnet; trình tối ưu hóa Muon bị nguyền rủa…

Chào mừng quý độc giả đến với Import AI, bản tin chuyên về nghiên cứu AI. Import AI được xây dựng dựa trên các bài báo arXiv, những tách cà phê và phản hồi từ độc giả. Nếu quý vị muốn ủng hộ, xin vui lòng đăng ký. Đăng ký ngay Stuxnet trước Stuxnet: …Phần mềm lỗi Fast16 có thể được sử dụng trong các chương trình vũ khí… Đây là một cuộc điều tra hấp dẫn về một loại virus máy tính có tên fast16.sys, đã tồn tại khoảng hơn 20 năm. Phần mềm này đáng chú ý vì nó "nhắm mục tiêu có chọn lọc vào phần mềm tính toán độ chính xác cao, vá lỗi mã trong bộ nhớ để làm sai lệch kết quả. Bằng cách kết hợp tải trọng này với các cơ chế tự lây lan, những kẻ tấn công đã

Chào mừng quý độc giả đến với Import AI, bản tin chuyên về nghiên cứu AI. Import AI được xây dựng dựa trên arXiv, những tách cà phê và phản hồi từ độc giả. Nếu quý vị muốn ủng hộ, xin hãy đăng ký. Đăng ký ngay Stuxnet trước Stuxnet: ...Phần mềm lỗi Fast16 có thể được sử dụng trong các chương trình vũ khí... Đây là một cuộc điều tra hấp dẫn về một loại virus máy tính có tên fast16.sys, đã tồn tại khoảng hơn 20 năm. Phần mềm này thú vị vì nó "nhắm mục tiêu có chọn lọc vào phần mềm tính toán độ chính xác cao, vá lỗi mã trong bộ nhớ để làm sai lệch kết quả. Bằng cách kết hợp tải trọng này với các cơ chế tự lan truyền, những kẻ tấn công nhằm mục đích tạo ra các phép tính không chính xác tương đương trên toàn bộ cơ sở." Nếu quý vị đã đọc "Tam Thể", điều này có thể quen thuộc – trong cuốn sách (viễn tưởng) đó, người ngoài hành tinh có ý định xâm chiếm Trái Đất đã sử dụng một công nghệ gọi là Sophon để phá vỡ các thí nghiệm vật lý năng lượng cao trên khắp thế giới, khiến nhân loại không thể phát triển một số loại khoa học nhất định. Thông tin chi tiết hơn về virus: Khi các nhà nghiên cứu tại SentinelOne tiến hành phân tích virus, họ đã phát hiện ra điều khá bất thường: "Hầu hết các mẫu vá lỗi tương ứng với mã x86 tiêu chuẩn được sử dụng để chiếm quyền hoặc ảnh hưởng đến luồng thực thi. Một khối được tiêm vào lại khác biệt. Đó là một chuỗi lớn và phức tạp gồm các lệnh Đơn vị Số học Dấu phẩy Động (Floating Point Unit) dành riêng cho số học chính xác và điều chỉnh giá trị trong các mảng nội bộ. Mã này là một hàm tính toán toán học độc lập, không liên quan đến việc chiếm quyền điều khiển luồng mã hoặc bất kỳ hình thức tiêm mã độc hại điển hình nào khác." Cuộc điều tra sâu hơn đã làm tăng thêm sự bí ẩn: "Chúng tôi đã chuyển đổi các quy tắc vá lỗi thành chữ ký YARA thập lục phân và chạy chúng trên một tập dữ liệu lớn, phù hợp với thời kỳ. Kết quả cho thấy tỷ lệ trùng khớp rất thấp: chưa đến mười tệp khớp với hai hoặc nhiều mẫu. Tuy nhiên, những tệp trùng khớp đó lại có một chủ đề rõ ràng. Chúng là các công cụ tính toán chính xác trong các lĩnh vực chuyên biệt như kỹ thuật dân dụng, vật lý và mô phỏng quá trình vật lý." Các công cụ bị nhắm mục tiêu: "Các điểm trùng lặp mạnh nhất chỉ ra ba bộ phần mềm kỹ thuật và mô phỏng độ chính xác cao từ giữa những năm 2000: LS-DYNA 970, PKPM và nền tảng mô hình thủy động lực học MOHID, tất cả đều được sử dụng cho các kịch bản như thử nghiệm va chạm, phân tích cấu trúc và mô hình hóa môi trường," họ viết. "LS-DYNA đặc biệt đã được trích dẫn trong các báo cáo công khai về các vi phạm bị nghi ngờ của Iran đối với Mục T của JCPOA, trong các nghiên cứu về mô hình máy tính liên quan đến phát triển vũ khí hạt nhân... bằng cách đưa các lỗi nhỏ nhưng có hệ thống vào các phép tính trong thế giới vật lý, khuôn khổ này có thể làm suy yếu hoặc làm chậm các chương trình nghiên cứu khoa học, làm suy giảm các hệ thống kỹ thuật theo thời gian hoặc thậm chí góp phần gây ra thiệt hại thảm khốc." Tại sao điều này quan trọng – đây là cách một siêu trí tuệ có thể ngăn chặn sự ra đời của những siêu trí tuệ khác: fast16 là một lỗi tinh vi, khó tìm, được thiết kế để làm suy giảm khả năng của một tác nhân trong việc thực hiện một số loại khoa học nhất định. Có thể hình dung rằng một siêu trí tuệ có thể coi "không phổ biến AI" cũng quan trọng như các quốc gia hạt nhân coi "không phổ biến vũ khí hạt nhân". Đọc thêm: fast16 | Tham chiếu bí ẩn của Shadow Brokers tiết lộ hành vi phá hoại phần mềm độ chính xác cao 5 năm trước Stuxnet (Sentinel LABS). ...Liệu Aurora cuối cùng có phải là bộ tối ưu hóa vượt trội?... Các nhà nghiên cứu của Tilde Research đã tiến hành phân tích bộ tối ưu hóa Muon và phát hiện ra một số lỗi kỳ lạ có thể làm giảm chất lượng của các mô hình được huấn luyện bằng nó. Họ viết: “Cập nhật của Muon kế thừa tính dị hướng chuẩn hàng trên các ma trận cao, điều này có thể khiến một phần đáng kể các nơ-ron trong các lớp MLP (Mạng nơ-ron đa lớp) bị chết vĩnh viễn”. “Muon có thể dẫn đến hiện tượng chết nơ-ron trong các lớp MLP, theo đó một số nơ-ron nhận được các bản cập nhật nhỏ liên tục trong giai đoạn đầu huấn luyện và không thể phục hồi”. Điều gì đã xảy ra: “Dưới Muon, các nơ-ron ban đầu hoạt động với đòn bẩy cao đồng đều, nhưng một phần lớn các nơ-ron chết trong quá trình khởi động tốc độ học và không bao giờ phục hồi. Đến bước 500, hơn một phần tư nơ-ron thực sự đã chết, tạo ra sự phân bố hai đỉnh rõ rệt của điểm đòn bẩy; một khối nơ-ron nhận được các bản cập nhật gần bằng 0, và khối còn lại nhận được các bản cập nhật lớn không cân xứng”. Aurora xuất hiện: Để đối phó với vấn đề này, các nhà nghiên cứu đã xây dựng và cung cấp Aurora, “một bộ tối ưu hóa nhận biết đòn bẩy cho các ma trận hình chữ nhật”. Trong các thử nghiệm, bộ tối ưu hóa này hoạt động hiệu quả, mặc dù họ chỉ chạy nó ở quy mô nhỏ. Họ viết: “Chúng tôi huấn luyện các mô hình transformer 1,1 tỷ tham số trên khoảng 100 tỷ token và so sánh Aurora với Muon và NorMuon, mỗi mô hình sử dụng PE-8. Aurora đạt được mức tổn thất cuối cùng thấp nhất trong tất cả các phương pháp, đạt mức tổn thất được làm mịn là 2,26 ở bước 24k, đây là một cải thiện rõ rệt so với Muon (2,31) và NorMuon (2,33)”. “Sự cải thiện tổn thất của Aurora chuyển thành những lợi ích nhất quán trên các điểm chuẩn tiêu chuẩn... Đáng chú ý, Aurora cải thiện điểm MMLU (Massive Multitask Language Understanding) thêm 10 điểm so với Muon. Chúng tôi giả thuyết rằng vì MLP chủ yếu chịu trách nhiệm về khả năng ghi nhớ, nên những lợi ích của Aurora rõ rệt nhất trên các điểm chuẩn đòi hỏi khả năng ghi nhớ cao như MMLU”. Alexander Doria, một nhà nghiên cứu của Pleias, đã độc lập xác nhận điều này, với Aurora vượt trội hơn Muon và AdamW trên một mô hình 600 triệu tham số. Tại sao điều này quan trọng - cuộc tìm kiếm không ngừng để đánh bại AdamW: Trong nhiều năm, các nhà nghiên cứu đã cạnh tranh với nhau để xây dựng một bộ tối ưu hóa tốt hơn AdamW. Chưa ai làm được điều này một cách thuyết phục và có một danh sách dài các nỗ lực thất bại. Liệu Aurora có thể đánh bại AdamW? Điều đó không rõ ràng. Nhưng liệu nghiên cứu này có làm nổi bật mức độ khó khăn trong việc xây dựng các bộ tối ưu hóa? Chắc chắn rồi. Đọc thêm: Aurora: A Leverage-Aware Optimizer for Rectangular Matrices (Tilde Research). Tải mã tại đây: Aurora (Tilde Research, GitHub). *** Sự căn chỉnh tốt giúp chúng ta không bị diệt vong, nhưng làm thế nào để đảm bảo chúng ta phát triển thịnh vượng? ...Căn chỉnh tích cực để tìm ra điều gì

Import AI 457: AI Stuxnet; trình tối ưu hóa Muon bị nguyền rủa; và sự căn chỉnh tích cực