Spectrogram Merger

Слияние и морфинг спектрограмм

Профессиональный инструмент для гибридизации аудио. Детерминированное спектральное слияние с продвинутой реконструкцией фазы. Работает на Rust и WGPU.

ПОДРОБНЕЕ

📊

Синхронизация и Разделение

Алгоритм автоматически выравнивает треки с субмиллисекундной точностью, используя фазовую кросс-корреляцию. Аудио разбивается на НЧ, СЧ и ВЧ полосы.

🧠

Интеллектуальное Маскирование

Слияние амплитуд происходит не простым сложением. Система генерирует динамические маски (PSF, Wiener, Softmax), которые модулируются в реальном времени.

🔄

Реконструкция Фазы

Главная проблема слияния спектров — фазовые искажения. Merger использует гибридный адаптивный подход: для гармоник применяются дивергенции Брегмана (Bregman-KL).

🎛️

Студийная Постобработка

Финальный этап включает пересадку ВЧ-огибающей, подавление узкополосных резонансов, и EMD-фильтрацию (Empirical Mode Decomposition) высокочастотных артефактов.

⚡

Адаптивное разрешение STFT

Разные диапазоны требуют разного разрешения. Бас обрабатывается окнами до 4096 сэмплов, а транзиенты — окнами по 512, минимизируя временные и частотные аномалии.

📉

Дивергенции Брегмана

Итеративная оптимизация фазовой сетки с помощью градиентного спуска минимизирует математическое расстояние между целевой и текущей магнитудами для тональных сигналов.

🔬

Эмпирическая декомпозиция (EMD)

Алгоритм раскладывает высокочастотный сигнал на моды (IMF), селективно сглаживая те из них, которые признаны неестественными артефактами или металлическим звоном.

🥁

Изоляция Транзиентов

Алгоритмы HPSS и LWS мгновенно вычисляют консистентную фазу для перкуссивных элементов, предотвращая фазовый хаос и сохраняя резкость ударов.

Архитектура

Язык: Rust

Безопасность памяти, отсутствие сборщика мусора и производительность на уровне C/C++. Идеальный выбор для тяжелого DSP.

Ускорение: WGPU

Кроссплатформенный графический API. Позволяет выполнять матричные вычисления STFT и фазовые итерации на тысячах ядер видеокарты.

Детерминированность

Никакого ИИ или 'черных ящиков'. Математически строгие алгоритмы гарантируют 100% повторяемость результата при одинаковых настройках.

Интерфейс: Iced / egui

Современный, реактивный GUI, рендерящийся напрямую через WGPU вместе с вычислениями, обеспечивая нулевые задержки отрисовки.

Безопасность памяти

Благодаря системе владения (ownership) Rust, программа полностью защищена от утечек памяти и гонок данных при многопоточной обработке аудио.

Кроссплатформенность

Единая кодовая база компилируется под Windows, macOS и Linux, обеспечивая идентичное поведение DSP-движка и аппаратного рендера на всех системах.

Полный визуальный контроль

Оценивайте фазовую когерентность и спектральный баланс до и после слияния с помощью встроенных анализаторов высокого разрешения.

Скачать Spectrogram Merger

Программа поставляется как кроссплатформенное десктопное приложение, не требующее подключения к интернету и сложных установок. Вычисления производятся локально.

Архитектура приложения
	Компонент	Версия
Язык	Rust	2021 Edition
Графический API	WGPU	v0.19
Аудио декодинг	Symphonia	v0.5
Оконная система	Winit	v0.29
Математика	RustFFT / Nalgebra	v6.2 / v0.32

Технический FAQ по слиянию спектрограмм

Чем спектральное слияние принципиально отличается от обычного суммирования сигналов (микширования)?: Обычное микширование во временной области складывает сигналы линейно, что неизбежно приводит к взаимной маскировке пересекающихся частот, фазовой нейтрализации (эффект гребенчатого фильтра) и замутнению микса. Спектральное слияние переводит сигналы в частотно-временную плоскость с помощью короткого преобразования Фурье (STFT). На основе математических масок (PSF, Wiener, Softmax) алгоритм делит энергию каждого бина индивидуально. Это позволяет изолировать и объединять полезные составляющие одного источника со спектральными компонентами другого без деструктивной интерференции.
Зачем нужно предварительное разделение аудиосигнала на три частотные полосы (Low, Mid, High)?: Физика звука требует разного математического разрешения для разных диапазонов. Низкие частоты (бас, бочка) критичны к точности шага сетки частот, что требует больших окон анализа (2048–4096 сэмплов). Высокие частоты (транзиенты, сибилянты) требуют высокого временного разрешения, чтобы избежать размытия атак и пре-эхо, что реализуется окнами 512–1024 сэмпла. Разделение на полосы фильтрами Линквица-Райли или Баттерворта позволяет обрабатывать каждую спектральную зону с оптимальным размером окна и шагом (hop), минимизируя временные и частотные аномалии.
Как работают адаптивные фильтры разделения полос на основе спектрального центроида?: Вместо фиксированных частот среза кроссовера, алгоритм непрерывно рассчитывает спектральный центроид (центр тяжести спектра) суммарного сигнала. Сглаженный во времени тренд центроида динамически модулирует частоты среза фильтров в заданных диапазонах. Это позволяет динамически расширять СЧ-полосу при появлении яркого вокала или сужать её в пользу басовой зоны при доминировании низких частот.

В чем разница между масками Weights (Softmax), Wiener и PSF?: Каждая маска решает свою математическую задачу. Weights (Softmax) экспоненциально распределяет веса на основе разницы магнитуд и коэффициента кривизны (k), создавая гибкое и управляемое нелинейное разделение. Wiener строит оптимальную среднеквадратическую оценку на основе плотности мощности, вычитая шум. PSF (Phase-Sensitive) учитывает когерентность фаз двух сигналов: если фазы бинов находятся в противофазе, маска снижает их амплитудный вклад, предотвращая провалы при суммировании.
Как работают модуляторы маски на основе спектрального потока (SuperFlux), тональности и локального SNR?: Базовая маска модулируется физическими свойствами сигнала. SuperFlux вычисляет разность логарифмированных спектров по частоте и времени, выявляя резкие атаки и стационарные зоны; он принудительно возвращает маску к 0.5 на транзиентах для сохранения атак. Тональность (Flatness) оценивает плоскостность спектра: тональные компоненты сохраняются строже, а шумовые сглаживаются. SNR-модулятор оценивает уровень шума методом минимальной статистики в скользящем окне и ослабляет маску зашумленного источника.

Что такое Locally Weighted Sums (LWS) и почему это неитеративный метод?: LWS — это аналитический метод, который восстанавливает фазу напрямую из консистентности STFT, минимизируя расхождения между перекрывающимися кадрами (phase inconsistency) без использования итераций. Он работает мгновенно и применяется как опорный метод для смешивания фазовых углов двух сигналов пропорционально их маскам амплитуд. Это предотвращает фазовый хаос, характерный для простого математического сложения.
Как работают итеративные методы реконструкции фазы (Bregman, RTISI-LA)?: Они ищут консистентную фазу путем многократного прогона сигнала через прямое и обратное преобразование Фурье (STFT/ISTFT). RTISI-LA использует буфер упреждения (Look-Ahead) и динамический весовой коэффициент альфа, рассчитываемый по локальной среднеквалидратичной ошибке, что минимизирует задержку. Дивергенция Брегмана (Bregman-KL / IS) минимизирует математическое расстояние между целевой и текущей магнитудами, оптимизируя фазовую сетку на каждом шаге с градиентным спускм.
Зачем разделять фазу на гармоническую и перкуссивную составляющие (HPSS-смешивание)?: Гармоники (протяженные тональные сигналы) и перкуссия (резкие транзиенты) требуют разных математических подходов. Фаза гармоник должна быть гладкой во времени — для нее идеально подходят методы Bregman-KL или Explicit Relation. Фаза перкуссии должна быть согласована по частоте — здесь незаменимы LWS или SPSI. Движок разделяет входной STFT методом медианной фильтрации или NMF на H (Harmonic) и P (Percussive) слои, восстанавливает их фазы независимо оптимальными методами и складывает обратно, исключая размытие транзиентов и 'дребезжание' тонов.

Что такое эмпирическая модовая декомпозиция (EMD) и как она очищает ВЧ-спектр?: При сложном смешивании высоких частот могут возникать металлические биения и 'шорканье'. EMD раскладывает высокочастотный сигнал во временной области на набор внутренних модовых функций (IMF). Алгоритм анализирует мгновенную частоту (через преобразование Гильберта) и энтропию каждой моды. Те моды, которые признаны шумовыми артефактами, селективно ослабляются или сглаживаются во времени, очищая верхний диапазон без потери детализации.
Как работают пересадка огибающей (Envelope Transplantation) и подавление резонансов?: Пересадка огибающей рассчитывает макро-форму спектра (огибающую) НЧ-области методом авторегрессионного спектрального оценивания (LPC) или кепстрального анализа и экстраполирует ее на ВЧ-область, корректируя локальные искажения баланса. Подавление резонансов непрерывно ищет сверхузкие пики с высокой добротностью (Q-factor) и высокой фазовой стабильностью во времени (через дисперсию локального группового времени задержки LGD), после чего динамически ослабляет их, избавляя микс от свиста.