Пресс-релизы // » Добавить пресс-релиз

Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.

Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».

Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.

Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.

При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.

VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.

«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».

Справка:
«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.

Контактное лицо: Татьяна Алексеева
Компания: Наносемантика
Добавлен: 22:19, 14.11.2023 Количество просмотров: 268
Страна: Россия


LOGOS-k: Новый язык программирования для моделирования сложных систем, ДСТ Глобал, 20:39, 08.01.2026, Россия341
6 января 2026 года Российская компания DST Global и проект Λ-Универсум представили LOGOS-κ — не просто новый язык программирования, а специализированный онтологический протокол.


Jivo запустили интеграцию с мессенджером MAX, ООО ЖИВОЙ САЙТ, 21:36, 04.01.2026, Россия594
В Jivo запустили интеграцию с мессенджером MAX: российский бизнес получает надежный канал для связи с клиентами


В кадровом резерве, филиал "Северный" ООО "ЛокоТех-Сервис", 21:37, 04.01.2026, Россия569
Техник сервисного локомотивного депо Сольвычегодск Северного филиала компании «ЛокоТех-Сервис» Алина Леготина прошла стажировку в Российском профессиональном союзе железнодорожников и транспортных строителей в Москве.


3Logic Group осуществила поставку рабочих станций Raskat Station 730 для АО «Силовые машины», 3Logic Group, 21:40, 04.01.2026, Россия578
3Logic Group и «Алгма» поставили высокопроизводительные рабочие станции Raskat Station 730 для АО «Силовые машины»


ЕДИНЫЙ ЦУПИС — среди «Лидеров кибербезопасности», ЕДИНЫЙ ЦУПИС (НКО "Мобильная карта"), 21:39, 04.01.2026, Россия594
Жюри премии «Лидеры кибербезопасности» объявило список компаний-победителей, чьи проекты и решения задают новые стандарты защиты цифрового пространства. ЕДИНЫЙ ЦУПИС, платежный сервис в регулируемой индустрии развлечений, стал лауреатом премии в номинации «За эффективное противодействие киберугрозам и мошенничеству».


CommuniGate Pro: вышел новый продуктовый релиз 6.5.4, CommuniGate Pro, 21:35, 04.01.2026, Россия373
Разработчик единой платформы корпоративных коммуникаций CommuniGate Pro выпустил обновление своего программного продукта. В версии 6.5.4 значительно улучшен веб-интерфейс, повышена стабильность работы в крупных инсталляциях и усилена информационная безопасность решения.


Hybrid Metaverse назвал тренды российского рынка метавселенных на 2026 год, Hybrid, 21:34, 04.01.2026, Россия370
Компания Hybrid Metaverse, входящая в состав AdTech-экосистемы Hybrid, подвела итоги развития российского рынка метавселенных в 2025 году и определила ключевые тренды, которые будут формировать его в 2026.


В RooX назвали факторы, повлиявшие на развитие рынка digital identity в 2025 году, RooX, 21:34, 04.01.2026, Россия367
В 2025 году рынок систем управления доступом столкнулся с одновременным давлением новых технологий, сокращением ИТ-бюджетов и ростом требований к безопасности.


Вышла новая версия системы «Arenadata Harmony MDM 3.0», Гармония MDM, 21:34, 04.01.2026, Россия379
Группа Arenadata выпустила новую версию системы Arenadata Harmony MDM (AD.MDM) 3.0 — российское self-service решение для управления мастер-данными и корпоративной нормативно-справочной информацией (НСИ).


Серверы «Гравитон» помогли ученым РТУ МИРЭА установить рекорд в области ИИ и получить признание на NeurIPS 2025, Гравитон, 21:34, 04.01.2026, Россия55
Российский разработчик и производитель вычислительной техники «Гравитон» и РТУ МИРЭА объявляют о достижении выдающихся результатов в совместном научно-исследовательском проекте. Исследование, проведенное на серверном оборудовании «Гравитон» С2122ИУ, было удостоено престижного статуса Spotlight на крупнейшей мировой конференции по искусственному интеллекту — NeurIPS 2025.


Ускорение оформления отправлений на 25 %: «БИАТЕХ» внедрил в ГК «Деловые Линии» решение для самостоятельной маркировки грузов клиентами, "БИАТЕХ", 21:28, 04.01.2026, Россия70
Эксперты ИТ-компании разработали и внедрили в работу логистического оператора инструмент печати маркировки грузов для платформы «1С:Предприятие», который позволяет клиентам транспортной компании самостоятельно наносить штрих-коды на отправления.


Linx Cloud и ALPE Consulting представили сервис для работы с архивными данными SAP, Linx, 22:34, 28.12.2025, Россия687
Провайдер облачных решений для бизнеса Linx Cloud и компания ALPE Consulting, которая специализируется на автоматизации бизнеса и внедрении ERP систем, запускают новый сервис, позволяющий переносить архивные данные из SAP в защищенное облако


«НЕКСТБИ»: российский рынок систем process mining в 2026 году превысит 2 млрд рублей, Некстби, 22:33, 28.12.2025, Россия621
По данным исследования Сбера и «Технологий Доверия», в 2024 году российский рынок систем process mining увеличился до 900 млн рублей и будет ежегодно расти на 69% до 2028 года.


DатаРу перестроила партнерскую программу для усиления позиций ее участников на рынке, ДатаРу, 22:33, 28.12.2025, Россия614
Российский вендор технологических решений и сервисов группа компаний DатаРу запускает новую программу для партнеров. Обновленные условия нацелены на индивидуальную работу с лидерами ИТ-рынка, включают персональную поддержку и расширенные возможности для участников.


Компания АО «Национальное бюро информатизации» внедрила систему управления сбытом электроэнергии ЕMAS.TRADE для АО «Концерн Росэнергоатом», Акционерное общество "Национальное бюро информатизации", 22:33, 28.12.2025, Россия606
Решение на базе платформы EMAS.TRADE введено в промышленную эксплуатацию и используется в процессах работы на оптовом рынке электроэнергии и мощности (ОРЭМ). Проект реализован в рамках государственной программы импортозамещения и обеспечил технологическую независимость от зарубежного программного обеспечения.


  © 2003-2026 inthepress.ru