Phù hợp tuần tự: Một góc nhìn khác về độ lệch phổ của mạng…

Những thiếu sót của phân tích Fourier Bài viết "Sequential Fitting: Một góc nhìn khác về độ lệch phổ của mạng nơ-ron" xuất hiện lần đầu trên Towards Data Science.

Học máy Điều chỉnh tuần tự: Một góc nhìn khác về thiên vị phổ của mạng nơ-ron Những gì phân tích Fourier bỏ sót Conor Rowan Ngày 8/6/2026 18 phút đọc Chia sẻ bởi Conor Rowan và Finn Murphy-Blanchard Giới thiệu Được minh chứng bằng thành công trong các tác vụ phức tạp như phân loại hình ảnh [1], tự chủ [2] và mô hình hóa ngôn ngữ [3], mạng nơ-ron đặc biệt giỏi trong việc điều chỉnh các hàm phi tuyến, chiều cao từ dữ liệu. Trên thực tế, mạng nơ-ron có khả năng biểu diễn mạnh mẽ đến mức chúng có thể đạt được lỗi huấn luyện bằng 0 trên các hình ảnh có nhãn lớp ngẫu nhiên, nghĩa là không có cấu trúc nào trong dữ liệu huấn luyện mà mạng có thể khai thác [4]. Mặc dù có tính linh hoạt này, lớp mô hình mạng nơ-ron dường như cung cấp thiên vị quy nạp hữu ích cho nhiều tác vụ trong thế giới thực, vì mạng nơ-ron thường tổng quát hóa tốt hơn các loại mô hình khác đối với dữ liệu thử nghiệm chưa từng thấy [5]. Tuy nhiên, hồi quy với mạng nơ-ron phải chịu một nhược điểm nghiêm trọng, được gọi là "thiên vị phổ" trong tài liệu. Được phổ biến vào năm 2019, thiên vị phổ cho rằng mạng nơ-ron điều chỉnh các mục tiêu hồi quy từ tần số thấp đến cao [6]. Như được thể hiện trong Hình 1, mạng nơ-ron trước tiên học nội dung tần số thấp của hàm, trước khi tinh chỉnh điều chỉnh để nắm bắt các tần số cao hơn. Theo tiêu chuẩn trong tài liệu này, chúng ta hiểu "nội dung tần số" của mục tiêu hồi quy được cung cấp bởi biến đổi Fourier của nó. Hình 1: Rahaman và cộng sự đã chứng minh thực nghiệm rằng một mạng nơ-ron (màu xanh lá cây) điều chỉnh mục tiêu hồi quy của nó (màu xanh lam) theo thứ tự tần số tăng dần. Trong thực tế, điều này có nghĩa là mạng nơ-ron chậm điều chỉnh các hàm tần số cao. Hình ảnh được điều chỉnh từ [6]. Vì các mạng điều chỉnh hàm mục tiêu theo thứ tự tần số tăng dần, việc học các hàm tần số cao thường khá chậm, đòi hỏi một số lượng lớn các kỷ nguyên huấn luyện. Các công trình tiếp theo đã xác nhận những khó khăn mà các mạng phải đối mặt trong việc điều chỉnh các hàm tần số cao và đã đưa ra lời giải thích cho hiện tượng thú vị này. Một số tác giả đã giải thích thiên vị phổ bằng cách nghiên cứu phổ Fourier của các hàm kích hoạt phổ biến (ví dụ: ReLU, hyperbolic tangent, sigmoid, v.v.), lưu ý rằng phổ của chúng suy giảm nhanh chóng ở tần số cao, và do đó mạng vốn dĩ bị thiên vị theo hướng học các tần số thấp [7,8]. Một phương pháp tiếp cận có ảnh hưởng được gọi là Kernel tiếp tuyến thần kinh (NTK) đưa ra một lời giải thích thanh lịch về thiên vị phổ bằng cách chỉ ra rằng, trong giới hạn của một mạng có độ rộng vô hạn, đầu ra của mạng phát triển theo một hệ thống động lực tuyến tính. Sử dụng lý thuyết hệ thống động lực tuyến tính để phân tách đầu ra của mạng thành các chế độ trực giao, các tác giả trong [9] chỉ ra rằng tốc độ hội tụ tỷ lệ nghịch với nội dung tần số của chế độ. Công trình này đã đưa ra một lời giải thích lý thuyết thuyết phục cho thiên vị phổ của mạng nơ-ron. Một số công trình khác đã khám phá thiên vị phổ trên các kiến trúc mạng và thuật toán tối ưu hóa khác nhau. Ví dụ, một công trình đã chỉ ra rằng đối với các mạng hai lớp rộng với kích hoạt ReLU, quá trình huấn luyện có thể được hiểu là một bài toán tối ưu hóa có ràng buộc trong đó các thành phần tần số cao của giải pháp bị phạt nặng hơn [10]. Trong [11], lưu ý rằng phân tích NTK ban đầu giả định việc huấn luyện được thực hiện bằng cách sử dụng gradient descent, các tác giả làm rõ rằng thiên vị phổ cũng được quan sát thấy với các bộ tối ưu hóa khác. Gần đây, từ cả góc độ thực nghiệm và lý thuyết, các chiến lược tối ưu hóa quasi-Newton bậc hai – tức là các chiến lược dựa trên xấp xỉ ma trận Hessian của hàm mất mát – có thể giảm thiểu sai lệch phổ (spectral bias) cho các mạng nơ-ron được sử dụng trong các ứng dụng học máy khoa học [12]. Tại đây, dựa trên phân tích NTK, người ta chỉ ra rằng việc tiền điều kiện hóa bằng ma trận Hessian giúp cân bằng tốc độ hội tụ của các chế độ có tần số khác nhau, từ đó đẩy nhanh quá trình huấn luyện. Trong khi nhiều sự chú ý đã được dành để tìm hiểu nguồn gốc của sai lệch phổ, một số nhà nghiên cứu đã đề xuất các chiến lược để khắc phục nó. Mặc dù sử dụng tối ưu hóa bậc hai là một chiến lược như vậy, các chiến lược khác liên quan đến việc sửa đổi kiến trúc của mạng. Thay thế các hàm kích hoạt tiêu chuẩn bằng các hàm tuần hoàn như hàm sin là một sửa đổi kiến trúc được gọi là mạng SIREN [13]. Một kiến trúc phổ biến khác là mạng đặc trưng Fourier, thay vì sửa đổi các hàm kích hoạt, nó nâng đầu vào lên một không gian chiều cao hơn với các nhúng tuần hoàn ở các tần số ngẫu nhiên [14,15]. Trong bối cảnh học máy khoa học, các đặc trưng Fourier đã được chứng minh là cải thiện hiệu suất cho các phương trình vi phân riêng phần đa tỷ lệ [16]. Sự thành công của các kiến trúc mạng nơ-ron tiêu chuẩn (mạng perceptron đa lớp, mạng tích chập, v.v.) trong học máy chính thống cho thấy việc khớp các tần số cao không phải là nút thắt cổ chai đối với nhiều lĩnh vực ứng dụng. Tuy nhiên, việc không thể khớp các hàm tần số cao một cách mạnh mẽ hoặc hiệu quả có thể là một vấn đề trong các ứng dụng khoa học, nơi các bài toán đa tỷ lệ và truyền sóng phụ thuộc nhiều vào các trường nghiệm dao động. Mặc dù tối ưu hóa bậc hai, mạng SIREN và các đặc trưng Fourier đều đại diện cho các biện pháp khắc phục thành công sai lệch phổ, chúng tôi tin rằng sai lệch phổ là một vấn đề thú vị theo đúng nghĩa của nó. Mặc dù phổ Fourier của hàm kích hoạt cung cấp một số hiểu biết về nguồn gốc của sai lệch phổ đối với các bài toán huấn luyện mạng nơ-ron nói chung, và NTK cung cấp một lời giải thích trong trường hợp mạng có độ rộng vô hạn, chúng tôi tin rằng có thể có một sự hiểu biết trực quan hơn về sai lệch phổ. Trong bài viết này, chúng tôi lập luận rằng, trong nhiều trường hợp, sai lệch phổ của mạng perceptron đa lớp (MLP) với các hàm kích hoạt hyperbolic tangent có thể được hiểu từ góc độ của cái mà chúng tôi gọi là "khớp nối tuần tự". Chúng tôi định nghĩa tuần tự

Phù hợp tuần tự: Một góc nhìn khác về độ lệch phổ của mạng nơ-ron