Специалисты Новосибирского государственного технического университета разработали первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей. Об этом ТАСС сообщил руководитель проекта Егор Антонянц.
Новая система предназначена для задач, где требуется автономное создание музыкальных композиций, вокальных партий и звуковых эффектов по текстовым описаниям без привязки к облачным сервисам. Уникальность разработки заключается в полной независимости от зарубежных платформ и возможности работы в закрытом контуре. При этом программа обеспечивает полный цикл производства аудиопродукции — от текстового запроса до экспорта в популярные форматы WAV, MP3 и FLAC — и функционирует на обычном потребительском оборудовании с объёмом видеопамяти менее шести гигабайт.
Как пояснил Антонянц, разработчики дообучили базовую модель специализированными LoRA-адаптерами под три типа контента: инструментальную музыку, песни с вокалом и звуковые эффекты. Это позволяет избежать смешения характеристик и добиться более точного соответствия запросу. В отличие от базовых решений, ориентированных на англоязычных пользователей, новосибирский инструмент адаптирован для работы с русскоязычными запросами и демонстрирует конкурентоспособные результаты — средняя субъективная оценка MOS достигла 4,1 балла из пяти, что сопоставимо с показателями ведущих коммерческих платформ.
Технически процесс построен в несколько этапов, рассказал разработчик проекта Артур Хусаинов. Сначала языковая модель формирует семантический каркас будущей композиции, затем диффузионный трансформер выполняет акустический синтез, а модуль экспорта конвертирует результат в целевые форматы. Встроенный графический интерфейс позволяет управлять проектами, сохранять настройки, предварительно прослушивать результаты и экспортировать треки без привлечения сторонних редакторов.
В планах создателей — дальнейшее расширение системы. Они намерены добавить поддержку пространственного аудио для задач виртуальной реальности, реализовать интеграцию с MIDI-контроллерами для живого взаимодействия и адаптировать ПО для промышленных сценариев: от создания звуковых ландшафтов для видеоигр до автоматизированного озвучивания фильмов, прямых трансляций, подкастов и рекламных роликов.
Ранее мы сообщали, что в Новосибирском государственном университете состоялась научно-практическая конференция, посвящённая высокотехнологичной диагностике как фундаменту современного научного поиска.