Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз
Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.
Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».
Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.
Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.
При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.
VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.
«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».
Справка: «Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.
В мае 2025 года исследовательская компания NeoAnalytics завершила проведение маркетингового исследования российского рынка питьевой и минеральной воды.
«1С-Рарус» совместно с АО «Полиметалл» реализовали проект внедрения «1С:ERP». Новая система позволяет вести централизованный мониторинг 65 производственных показателей. На базе «1С:ERP» автоматизировано 510 рабочих мест. Стандартизация учета и отчетности способствует росту эффективности управления для всех предприятий группы «Полиметалл».
АГРОЭКО при поддержке Axenix завершила масштабный проект по созданию комплексной цифровой стратегии. Проект охватил все направления бизнеса. Реализация стратегии поможет АГРОЭКО ускорить рост и укрепить свои позиции среди лидеров российского АПК.
Результаты тестирования расширяют возможности использования российских СХД в защищенных инфраструктурах, соответствующих требованиям регуляторов. Обе компании продолжат развивать сотрудничество для создания комплексных отечественных решений в области хранения и обработки данных.
Компания Linx Cloud объявляет о запуске облачной платформы на базе OpenStack в опытно-промышленную эксплуатацию. Этот шаг позволит облачному провайдеру предлагать заказчикам надежную импортонезависимую ИТ-инфраструктуру
Компания «Траектория Технологий» разработала и развернула программный комплекс IMS для работы с инцидентами, возникающими при предоставлении клиентам услуг размещения оборудования.
Нейросети и искусственный интеллект уже прочно вошли в нашу жизнь. Мы видим их в смартфонах, которые распознают лица, в приложениях, которые переводят текст, в играх, где компьютер играет как живой соперник.
ГК «Юнайт» запустила бесплатные цифровые сервисы для оценки потенциала капитализации российских компаний. Новые онлайн-инструменты позволят бизнесу самостоятельно оценить возможности улучшения финансовых показателей за счет нематериальных активов.
В центре обработки данных (ЦОД) Госкорпорации Ростех установлена новая высокопроизводительная отечественная ферма межсетевых экранов класса NGFW. Она направлена на защиту автоматизированных систем и позволяет ограничить доступ к сетевым сегментам или отдельным хостам на основе задаваемых администратором правил.
Новосибирская Группа компаний SKY GROUP укрепила свои позиции в Едином реестре застройщиков (ЕРЗ.РФ), поднявшись на 38 пунктов и войдя в топ-300 крупнейших девелоперских компаний страны.
Разработчик карьерной платформы Changellenge перешел на систему кадрового ЭДО HRlink, выбрав сервис за стабильную техническую поддержку, удобную интеграцию с «1С» и инструменты для работы с распределенными командами.
Группа компаний SIMETRA выполнила проект в области транспортного планирования и разработала транспортную модель города Ульяновска. Цифровая модель обеспечит эффективность при принятии решений, связанных с инфраструктурными проектами, а также необходимую гибкость при управлении дорожным движением в городе.
Пройденная ресертификация «Совместимо! Система программ 1С:Предприятие» гарантирует пользователям качество разработки «1С:ERP Управление птицеводческим предприятием» редакции 2.5. Система совместима с другими решениями на платформе «1С:Предприятие».
В I полугодии 2025 года пользователи ЕДИНОГО ЦУПИС совершили порядка 7,5 млн транзакций по выводу выигрышей от букмекерских контор на Кошелек ЦУПИС и цифровую карту. Это в 2 раза больше аналогичного показателя 2024 года.
Провайдер коммуникационных сервисов «Телфин» расширяет функциональные возможности решения «Оценка звонков» для повышения эффективности анализа телефонных разговоров по каждому сотруднику и роста уровня сервиса в компании.