Специалисты Исследовательского центра искусственного интеллекта Новосибирского государственного университета разработали уникальный сервис, способный в кратчайшие сроки трансформировать научную литературу в аудиоформат. Система построена на базе нейросетей, которые автоматически извлекают текст из PDF-файлов, проводят его предварительную обработку и формируют финальную звуковую дорожку. По данным вуза, производительность новой технологии впечатляет: процесс конвертации текста в звук происходит примерно в 16 раз быстрее, чем если бы эту работу выполнял профессиональный диктор, сообщили ТАСС в пресс-службе вуза.
На текущем этапе проект проходит стадию апробации, в ходе которой уже озвучена первая сотня изданий. Разработчики подчеркивают, что сервис не претендует на полную замену традиционного чтения, а выступает в качестве удобной альтернативы для получения информации. В ближайших планах команды значится масштабная работа по переводу в аудиоформат всей электронной библиотеки НГУ, которая насчитывает около семи тысяч наименований, включая книги университетского издательства. После успешного завершения пилотного этапа и получения обратной связи от пользователей технологию планируют предложить другим библиотечным комплексам.
В основе системы лежит фреймворк «Каппа», созданный учеными центра ИИ для управления сложными моделями и предотвращения ошибок нейросетей. Как отмечает ведущий научный сотрудник Евгений Павловский, решение оказалось крайне эффективным и не требует колоссальных вычислительных мощностей, поскольку на одну книгу уходит в среднем всего полчаса процессорного времени. Технически весь имеющийся фонд университета можно озвучить в течение одного месяца, однако организационная подготовка и тщательная верификация полученных результатов могут занять до года. Вся работа ведется в строгом соответствии с авторским правом и при наличии разрешений от правообладателей.



