Một bộ mã hóa (hệ thống quang học) ánh xạ các đối tượng thành những hình ảnh không có nhiễu, nhiễu sẽ làm biến đổi thành các phép đo. Công cụ ước tính thông tin của chúng tôi chỉ sử dụng các phép đo nhiễu này và mô hình nhiễu để định lượng mức độ phân biệt các đối tượng của các phép đo.
Nhiều hệ thống hình ảnh tạo ra các phép đo mà con người không bao giờ nhìn thấy hoặc không thể giải thích trực tiếp. Điện thoại thông minh của bạn xử lý dữ liệu cảm biến thô thông qua các thuật toán trước khi tạo ra bức ảnh cuối cùng. Máy quét MRI thu thập các phép đo không gian tần số cần được tái tạo trước khi bác sĩ có thể xem chúng. Xe tự lái xử lý dữ liệu camera và LiDAR trực tiếp bằng thần kinh
Một bộ mã hóa (hệ thống quang học) ánh xạ các đối tượng thành những hình ảnh không có nhiễu, nhiễu sẽ làm biến đổi thành các phép đo. Công cụ ước tính thông tin của chúng tôi chỉ sử dụng các phép đo nhiễu này và mô hình nhiễu để định lượng mức độ phân biệt các đối tượng của các phép đo.
Nhiều hệ thống hình ảnh tạo ra các phép đo mà con người không bao giờ nhìn thấy hoặc không thể giải thích trực tiếp. Điện thoại thông minh của bạn xử lý dữ liệu cảm biến thô thông qua các thuật toán trước khi tạo ra bức ảnh cuối cùng. Máy quét MRI thu thập các phép đo không gian tần số cần được tái tạo trước khi bác sĩ có thể xem chúng. Xe tự lái xử lý dữ liệu camera và LiDAR trực tiếp bằng mạng lưới thần kinh.
Điều quan trọng trong các hệ thống này không phải là các phép đo trông như thế nào mà là chúng chứa bao nhiêu thông tin hữu ích. AI có thể trích xuất thông tin này ngay cả khi nó được mã hóa theo cách mà con người không thể giải thích được.
Tuy nhiên chúng ta hiếm khi đánh giá trực tiếp nội dung thông tin. Các số liệu truyền thống như độ phân giải và tỷ lệ tín hiệu trên nhiễu đánh giá từng khía cạnh chất lượng riêng lẻ, khiến việc so sánh các hệ thống đánh đổi giữa các yếu tố này trở nên khó khăn. Giải pháp thay thế phổ biến là huấn luyện mạng lưới thần kinh để tái tạo hoặc phân loại hình ảnh, kết hợp chất lượng của phần cứng hình ảnh với chất lượng của thuật toán.
Chúng tôi đã phát triển một khuôn khổ cho phép đánh giá và tối ưu hóa trực tiếp hệ thống hình ảnh dựa trên nội dung thông tin của chúng. Trong bài báo NeurIPS 2025, chúng tôi cho thấy rằng số liệu thông tin này dự đoán hiệu suất hệ thống trên bốn miền hình ảnh và việc tối ưu hóa nó sẽ tạo ra các thiết kế phù hợp với các phương pháp đầu cuối hiện đại trong khi yêu cầu ít bộ nhớ hơn, ít tính toán hơn và không có thiết kế bộ giải mã dành riêng cho nhiệm vụ.
Tại sao thông tin lẫn nhau?
Thông tin lẫn nhau định lượng mức độ mà một phép đo làm giảm sự không chắc chắn về đối tượng tạo ra nó. Hai hệ thống có cùng thông tin lẫn nhau thì tương đương nhau về khả năng phân biệt các vật thể, ngay cả khi số đo của chúng trông hoàn toàn khác nhau.
Con số duy nhất này thể hiện hiệu ứng kết hợp của độ phân giải, độ nhiễu, lấy mẫu và tất cả các yếu tố khác ảnh hưởng đến chất lượng đo. Một hình ảnh mờ, nhiễu nhưng vẫn giữ được các đặc điểm cần thiết để phân biệt các vật thể có thể chứa nhiều thông tin hơn một hình ảnh sắc nét, rõ ràng nhưng lại mất đi các đặc điểm đó.
Thông tin thống nhất các số liệu chất lượng riêng biệt theo truyền thống. Nó tính đến nhiễu, độ phân giải và độ nhạy quang phổ cùng nhau thay vì coi chúng là các yếu tố độc lập.
Những nỗ lực trước đây nhằm áp dụng lý thuyết thông tin vào hình ảnh đã gặp phải hai vấn đề. Cách tiếp cận đầu tiên coi hệ thống hình ảnh là kênh liên lạc không bị giới hạn, bỏ qua những hạn chế vật lý của ống kính và cảm biến. Điều này tạo ra những ước tính cực kỳ không chính xác. Cách tiếp cận thứ hai yêu cầu các mô hình rõ ràng của các đối tượng được chụp ảnh, hạn chế tính tổng quát.
Phương pháp của chúng tôi tránh được cả hai vấn đề bằng cách ước tính thông tin trực tiếp từ các phép đo.
Ước tính thông tin từ các phép đo
Việc ước tính thông tin lẫn nhau giữa các biến số chiều cao nổi tiếng là khó khăn. Yêu cầu mẫu tăng theo cấp số nhân theo chiều và các ước tính chịu sai lệch và phương sai cao.
Tuy nhiên, các hệ thống hình ảnh có các đặc tính cho phép phân rã bài toán khó này thành các bài toán con đơn giản hơn. Thông tin lẫn nhau có thể được viết là:
\[I(X; Y) = H(Y) - H(Y \mid X)\]
Số hạng đầu tiên, $H(Y)$, đo lường sự biến thiên tổng thể trong các phép đo từ cả sự khác biệt của vật thể và tiếng ồn. Số hạng thứ hai, $H(Y \mid X)$, đo lường sự biến thiên chỉ do nhiễu.
Thông tin lẫn nhau bằng sự khác biệt giữa tổng biến thể đo lường và biến thể chỉ có tiếng ồn.
Hệ thống hình ảnh có tiếng ồn đặc trưng. Nhiễu bắn photon tuân theo phân bố Poisson. Tiếng ồn đọc điện tử là Gaussian. Tính chất vật lý nhiễu đã biết này có nghĩa là chúng ta có thể tính toán $H(Y \mid X)$ một cách trực tiếp, chỉ để lại $H(Y)$ được học từ dữ liệu.
Đối với $H(Y)$, chúng tôi điều chỉnh mô hình xác suất (ví dụ: máy biến áp hoặc mô hình tự hồi quy khác) cho tập dữ liệu đo lường. Mô hình học cách phân phối tất cả các phép đo có thể. Chúng tôi đã thử nghiệm ba mô hình cân bằng giữa hiệu quả và độ chính xác: quy trình Gaussian cố định (nhanh nhất), Gaussian đầy đủ (trung cấp) và PixelCNN tự hồi quy (chính xác nhất). Cách tiếp cận này cung cấp giới hạn trên đối với thông tin xác thực; bất kỳ lỗi mô hình nào cũng chỉ có thể đánh giá quá cao chứ không bao giờ đánh giá thấp.
Xác thực trên bốn miền hình ảnh
Ước tính thông tin sẽ dự đoán hiệu suất của bộ giải mã nếu chúng nắm bắt được những hạn chế của hệ thống thực. Chúng tôi đã thử nghiệm mối quan hệ này trên bốn ứng dụng hình ảnh.
Thông tin ước tính dự đoán hiệu suất của bộ giải mã trong chụp ảnh màu, thiên văn vô tuyến, chụp ảnh không thấu kính và kính hiển vi. Thông tin cao hơn luôn tạo ra kết quả tốt hơn cho các nhiệm vụ tiếp theo.
Chụp ảnh màu. Máy ảnh kỹ thuật số mã hóa màu bằng cách sử dụng mảng bộ lọc giới hạn từng pixel để chỉ phát hiện các bước sóng nhất định. Chúng tôi đã so sánh ba thiết kế bộ lọc: kiểu truyền thống của Bayer, kiểu sắp xếp ngẫu nhiên và kiểu sắp xếp đã học. Thông tin ước tính đã xếp hạng chính xác những thiết kế nào sẽ tạo ra khả năng tái tạo màu sắc tốt hơn, phù hợp với thứ hạng từ việc khử ma sát mạng thần kinh mà không yêu cầu bất kỳ thuật toán tái thiết nào.
Thiên văn vô tuyến. Mảng kính thiên văn đạt được độ phân giải góc cao bằng cách kết hợp tín hiệu từ các địa điểm trên toàn cầu. Việc lựa chọn các vị trí kính thiên văn tối ưu là khó tính toán vì giá trị của mỗi vị trí phụ thuộc vào tất cả các vị trí khác. Thông tin ước tính dự đoán chất lượng tái tạo trên các cấu hình kính thiên văn, cho phép lựa chọn địa điểm mà không cần tái tạo hình ảnh đắt tiền.
Hình ảnh không có ống kính. Máy ảnh không ống kính thay thế quang học truyền thống bằng mặt nạ điều chỉnh ánh sáng. Các phép đo của chúng không có sự tương đồng về mặt hình ảnh với các cảnh vật. Thông tin ước tính dự đoán độ chính xác tái tạo trên một thấu kính, mảng thấu kính siêu nhỏ và thiết kế bộ khuếch tán ở nhiều mức nhiễu khác nhau.
Kính hiển vi. Kính hiển vi mảng LED sử dụng hệ thống chiếu sáng có thể lập trình để tạo ra các chế độ tương phản khác nhau. Ước tính thông tin tương quan với độ chính xác của mạng thần kinh khi dự đoán p
Nguồn tin: Berkeley AI Research. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.