Пресс-релизы // » Добавить пресс-релиз

Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.

Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».

Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.

Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.

При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.

VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.

«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».

Справка:
«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.

Контактное лицо: Татьяна Алексеева
Компания: Наносемантика
Добавлен: 22:19, 14.11.2023 Количество просмотров: 235
Страна: Россия


Система закупок Внуково — в новом выпуске «ПРО Закупки» БФТ-Холдинга, БФТ-Холдинг, 23:09, 14.08.2025, Россия216
Вышел новый выпуск проекта «ПРО Закупки». В гостях — Павел Слободенюк, директор по закупкам Международного аэропорта Внуково.


«АльтерОфис 2025» успешно протестирован на Astra Linux, ALMI Partner, 23:10, 14.08.2025, Россия219
Тестирование охватило все критические аспекты взаимодействия программного обеспечения, включая установку, повседневную эксплуатацию, деинсталляцию и соответствие требованиям информационной безопасности.


CorpSoft24 открыла новое направление, связанное с автоматизацией логистики и автотранспорта, CorpSoft24, 23:09, 14.08.2025, Россия223
Компания CorpSoft24 запустила новое направление деятельности под брендом «Лаэрта», связанное с автоматизацией процессов в логистике, перевозках и автотранспорте.


Minervasoft помогает клиентам Just AI создать качественный источник знаний для ИИ, Minervasoft, 23:09, 14.08.2025, Россия216
Компания Minervasoft, которая обеспечивает комплексное управление знаниями сотрудников и GenAI-агентов, подтвердила возможность интеграции системы управления знаниями Minerva Knowledge с продуктами Just AI, разработчика платформ с использованием искусственного интеллекта.


Подтверждена совместимость платформы виртуализации рабочих мест Space VDI с комплексным 2FA-решением MULTIFACTOR, ДАКОМ М, 23:07, 14.08.2025, Россия213
MULTIFACTOR и Space VDI повысят безопасность удалённого доступа.


НИЯУ МИФИ и компания SMART technologies объединяют усилия для подготовки топ-специалистов в сфере искусственного интеллекта, SMART technologies, 23:06, 14.08.2025, Россия220
Национальный исследовательский ядерный университет «МИФИ» (НИЯУ МИФИ) и компания «Смарт Текнолоджис» объявляют о начале стратегического сотрудничества в рамках участия в федеральной программе подготовки топ-специалистов в области искусственного интеллекта.


CODDY присоединилась к инновационной платформе Sk RnD Market Фонда Сколково, CODDY, 23:05, 14.08.2025, Россия223
Москва, 2 августа 2025 года — Международная школа программирования и дизайна для детей CODDY успешно завершила регистрацию на новой B2B-платформе Sk RnD Market, запущенной Фондом Сколково для объединения инновационных компаний с крупным бизнесом.


Компания ЕГАР Технологии выпустила обновление для системы управления рисками и контроля лимитов, ЕГАР Технологии, 23:05, 14.08.2025, Россия224
Компания ЕГАР Технологии расширила функциональные и технические возможности решения для управления финансовыми рисками и контроля лимитов, используемого на российском рынке, в том числе, для импортозамещения иностранного ПО в банках, инвестиционных, управляющих и страховых компаниях.


ЕДИНЫЙ ЦУПИС поддержал спортивное шествие «Здоровое Отечество», ЕДИНЫЙ ЦУПИС (НКО "Мобильная карта"), 23:01, 14.08.2025, Россия214
9 августа на ВДНХ состоялось спортивное шествие «Здоровое Отечество», посвященное Дню физкультурника. Мероприятие поддержала команда ЕДИНОГО ЦУПИС, платежного сервиса для любителей спорта.


ЕДИНЫЙ ЦУПИС и новгородский филиал Академии «Динамо» развивают сотрудничество, ЕДИНЫЙ ЦУПИС (НКО "Мобильная карта"), 23:04, 14.08.2025, Россия219
ЕДИНЫЙ ЦУПИС, платежный сервис для любителей спорта, и новгородский филиал футбольной Академии «Динамо» имени Л.И. Яшина договорились о развитии сотрудничества. При поддержке ЕДИНОГО ЦУПИС в регионе продолжат развивать спортивную инфраструктуру, а воспитанники академии примут участие в престижных футбольных турнирах.


ЕДИНЫЙ ЦУПИС развивает официальный телеграм-канал, ЕДИНЫЙ ЦУПИС (НКО "Мобильная карта"), 23:04, 14.08.2025, Россия208
ЕДИНЫЙ ЦУПИС, платежный сервис для любителей спорта, запустил официальный телеграм-канал. Теперь все новости компании — у вас «в кармане».


При поддержке ЕДИНОГО ЦУПИС прошел ММК WILD FEST, ЕДИНЫЙ ЦУПИС (НКО "Мобильная карта"), 23:04, 14.08.2025, Россия213
ЕДИНЫЙ ЦУПИС, платежный сервис в спортивной индустрии, поддержал cпортивно-музыкальный фестиваль ММК WILD FEST, который состоялся 1-3 августа на Южном Урале.


ArtSense представит цифровое искусство на форуме-фестивале «Территория будущего. Москва 2030», ArtSense, 23:02, 14.08.2025, Россия233
С 1 августа по 14 сентября 2025 года в Москве проходит форум-фестиваль «Территория будущего.


«Телфин» запускает онлайн-чаты в расширении «Телфин.Софтфон», Телфин, 23:01, 14.08.2025, Россия219
Провайдер коммуникационных сервисов «Телфин» обновил возможности расширения «Телфин.Софтфон» для работы из браузера. Теперь кроме голосовых коммуникаций приложение поддерживает текстовый формат общения — пользователи могут прямо из браузера не только созваниваться, но и переписываться в чатах в WhatsApp, Telegram и Avito.


Тариф — ноль. «Выберу.ру» составил рейтинг бесплатных кредитных карт за июль 2025 года, Финансовый маркетплейс "Выберу.ру", 21:43, 13.08.2025, Россия292
«Выберу.ру» подготовил рейтинг банков с наиболее выгодными и удобными для заёмщиков кредитными картами, благодаря бесплатному выпуску и обслуживанию пластика.


  © 2003-2025 inthepress.ru