Bỏ qua tới nội dung chính
Quay lại tin tức

Phục hồi âm nhạc bằng AI MOD ở chất lượng 32-bit 96 kHz

Hacker News AI· fechols· 24/5/2026general

Điểm: 1 Bình luận: 0

Quinlight Audio Quinlight Audio là một trình phát nhạc theo dõi và công cụ tái tạo âm thanh cho các định dạng MOD/S3M/XM/IT và các định dạng liên quan. Phần mềm này phát các mô-đun, có thể tái tạo các mẫu nguồn của chúng bằng các công cụ AI bên ngoài tùy chọn (AudioSR, LavaSR, FLowHigh, AP-BWE) và cho phép người dùng so sánh trực tiếp kết quả trong quá trình phát lại. Phạm vi phát hành Mục tiêu công khai được hỗ trợ: x86_64-unknown-linux-gnu Tư thế được hỗ trợ: Phát hành công khai ưu tiên Linux, không phải bản dựng đa nền tảng Mục tiêu phát lại/xuất mặc định: 96 kHz, 32-bit float (64-bit hỗn hợp từ đầu đến cuối) Chức năng Phát các định dạng trình theo dõi thông qua libopenmpt được tích hợp sẵn với bộ trộn độ chính xác kép. Mở các mô-đun trực tiếp từ các tệp lưu trữ (.zip, .7z, .rar, .tar.*, .lha, .cab, .iso). Thay thế các mẫu trực tiếp trong quá trình phát lại để người dùng có thể so sánh các bản gốc, bản tham chiếu 48k và các bản tái tạo AI (AudioSR, LavaSR, FLowHigh, AP-BWE) mà không cần khởi động lại bài hát. Kết hợp nhiều công cụ AI thành một mẫu duy nhất thông qua sự đồng thuận phổ theo từng bin trên rotor manifold — các bin mà các công cụ đồng ý sẽ được thông qua, các bin mà chúng không đồng ý (dấu hiệu ảo giác điển hình) sẽ tự động bị triệt tiêu. Xuất kết quả trực tiếp sang FLAC hoặc AAC (256 kbps). Hỗ trợ kết xuất CLI hàng loạt cho các thư mục mô-đun. Cài đặt dưới dạng ứng dụng máy tính để bàn Linux (--install-icon). Quinlight Audio hoạt động mà không cần cài đặt các công cụ AI. Trình phát, hỗ trợ lưu trữ, đường dẫn làm sạch tham chiếu và quy trình xuất vẫn khả dụng ngay cả khi người dùng không thiết lập các công cụ tái tạo tùy chọn. Chất lượng âm thanh Phiên bản libopenmpt được tích hợp sẵn của Quinlight Audio được xây dựng lại để xử lý âm thanh độ chính xác kép từ đầu đến cuối. Mọi giai đoạn từ nội suy mẫu đến trộn và xuất đều sử dụng số thực dấu phẩy động 64-bit — lượng tử hóa duy nhất trong đường dẫn phát lại là chuyển đổi cuối cùng sang f32 tại thiết bị âm thanh. Đường dẫn bộ trộn 64-bit Toàn bộ bus bộ trộn hoạt động ở chế độ kép (mixsample_t = double). Âm lượng, phân kênh, nội suy và phản hồi bộ lọc đều được tích lũy với độ chính xác 64-bit. Các đường dốc âm lượng sử dụng đường cong Hermite smoothstep (t²(3−2t)) thay vì đường dốc tuyến tính, loại bỏ các hiện tượng răng cưa trong quá trình chuyển đổi nốt nhạc. Bộ lọc kênh là thiết kế 4 cực xếp tầng — biquad cộng hưởng 2 cực kiểu IT sau đó là bộ lọc hậu Butterworth — cho độ dốc 24 dB/octave mà không có sự cắt cụt số nguyên trong đường dẫn hệ số. Tái tạo mẫu 48 kHz Mỗi mẫu trong mô-đun có thể được nâng cấp lên 48 kHz thông qua ba phương pháp: AI (AudioSR / LavaSR / FLowHigh / AP-BWE): mở rộng băng thông thần kinh. Tham chiếu 48k: lấy mẫu lại sinc xác định (FFmpeg swresample). Bản gốc: mẫu thô ở tốc độ gốc (thường là 8–22 kHz). Các mẫu được thay thế trực tiếp trong quá trình phát lại. Các hiệu ứng bù mẫu (Oxx, SAx) được tự động điều chỉnh để phù hợp với tốc độ mẫu mới, và các hiệu ứng portamento được bù trong công cụ để các đoạn trượt cao độ nghe giống hệt nhau bất kể chế độ mẫu nào đang hoạt động. Đồng thuận đa công cụ Mỗi công cụ AI được bật sẽ tạo ra bản tái tạo 48 kHz riêng của mỗi mẫu. Quinlight Audio chấm điểm từng ứng cử viên so với bản gốc bằng cách tương quan Pearson của phổ biên độ dưới Nyquist của nguồn (một công cụ tạo ảo giác ngay cả ở các tần số đã biết cũng không đáng tin cậy), sau đó kết hợp các công cụ vượt qua thông qua một phương tiện Karcher theo từng bin trên rotor manifold ℝ⁺ × S¹: Biên độ — trung bình hình học của các biên độ công cụ (trung bình Karcher trên ℝ⁺ dưới phép nhân). Được ưu tiên một cách mượt mà đối với các công cụ yên tĩnh hơn: sự kế thừa chính xác của rotor cho softmin, không có hiện tượng rung chuông của các phổ được vá lại theo từng bin. Pha – giá trị trung bình tròn của các pha động cơ (giá trị trung bình Karcher trên S¹). Tỷ lệ đồng thuận – độ dài tổng hợp của tổng rotor pha (0–1) nhân với độ lớn đồng thuận. Các bin mà động cơ đồng thuận về pha sẽ truyền qua với biên độ đầy đủ; các bin mà chúng không đồng thuận (dấu hiệu điển hình của ảo giác) sẽ bị suy giảm tương ứng. Dưới tần số Nyquist gốc của nguồn, sự đồng thuận sau đó được pha trộn lại bằng rotor về phía phổ nguồn (độ lớn trung bình cộng, SLERP cung ngắn nhất trên pha) để dải tần thấp vẫn được neo vào giá trị thực và các động cơ đóng góp chủ yếu vào việc mở rộng dải tần phía trên. Trên tần số Nyquist của nguồn, sự đồng thuận truyền qua không thay đổi. Lý do hoạt động trên đa tạp rotor thay vì pha trộn Descartes (tuyến tính phức): dây cung giữa hai phasor có độ lớn tương đương trong ℂ đi qua gần gốc hơn so với bất kỳ điểm cuối nào khi các pha của chúng không đồng thuận, do đó một pha trộn tuyến tính sẽ làm suy giảm bin một cách âm thầm theo tỷ lệ không khớp pha – điều mà STFT nghịch đảo thể hiện dưới dạng tiền vọng và làm mờ thoáng qua. Hoạt động trên đường trắc địa của (ℝ⁺ × S¹) làm cho sự suy giảm đó trở nên rõ ràng thay vì ẩn: sự đồng thuận pha điều chỉnh độ lớn một cách có chủ đích, điều này vừa cho âm thanh sạch hơn vừa có thể được hiểu là một tiêu chí loại bỏ ảo giác thay vì một hiện tượng âm thầm. Nội suy dị hướng Các biến đổi cao độ (rung, luyến, trượt) được theo dõi với độ chính xác kép đầy đủ (PitchT = double, FreqT = double) – không có bảng chu kỳ điểm cố định hoặc bộ tích lũy trượt số nguyên. Các trượt tuyến tính IT sử dụng pow(2.0, amount/768.0) trực tiếp. Bộ lọc lấy mẫu lại là một sinc đa pha 64 tap với 65536 pha (độ phân giải pha 16 bit) và một chuỗi mipmap cách quãng quãng tám. Mỗi cấp độ mipmap điều chỉnh beta cửa sổ Kaiser độc lập (β = 14.0 ở mức thống nhất xuống β = 8.0 ở mức giảm mẫu 128×) với các hệ số cắt vận tốc dị hướng (k_β = 0.65, k_β² = 0.15) làm rộng dải chuyển tiếp theo tỷ lệ tốc độ phát lại, giữ cho dải dừng sạch trong quá trình quét cao độ nhanh. Toàn bộ quá trình dẫn xuất và ghi chú thiết kế: audio_anisotropic_filter_v2.pdf. Các nhân SIMD được biên dịch cho SSE2, AVX, AVX2 và AVX-512 với các vòng lặp tích lũy được mở hoàn toàn – điều phối thời gian chạy chọn đường dẫn rộng nhất có sẵn. Nghe A/B mười mô-đun tracker trực tiếp từ kho lưu trữ. Cột "trước" là kết xuất xác định (mẫu gốc, không có AI); cột "sau" là cùng một mô-đun với các mẫu được nâng cấp bởi các công cụ AI. Cả hai clip đều là MP3 48 kHz ở 320 kbps – được giảm mẫu từ mặc định 96 kHz của công cụ và được phục vụ qua GitHub Pages để mọi trình duyệt đều phát được.

Nguồn tin: Hacker News AI — Tác giả: fechols. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.