Пресс-релизы // » Добавить пресс-релиз

Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.

Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».

Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.

Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.

При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.

VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.

«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».

Справка:
«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.

Контактное лицо: Татьяна Алексеева
Компания: Наносемантика
Добавлен: 22:19, 14.11.2023 Количество просмотров: 203
Страна: Россия


Начинается реализация проекта «Карелиада», Физическое лицо, 14:57, 29.01.2025, Россия77
В рамках проекта «Карелиада: путешествия по родному краю» будут созданы мультимедийные материалы о малоизвестных памятниках архитектуры республиканского значения, которые расположены в карельских городах, и являются точкой притяжения для местных жителей.


LG ПРИОБРЕТАЕТ КОНТРОЛЬНЫЙ ПАКЕТ АКЦИЙ BEAR ROBOTICS ДЛЯ РАСШИРЕНИЯ ВОЗМОЖНОСТЕЙ В ОБЛАСТИ РОБОТОТЕХНИКИ, LG Electronics, 14:57, 29.01.2025, Россия80
LG Electronics (LG) сделала значительный шаг в развитии своих возможностей в области робототехники, приобретя контрольный пакет акций стартапа Bear Robotics


Разработчик RPA-системы Roomy bots масштабировал инфраструктуру с помощью Linx Cloud, Linx, 14:55, 29.01.2025, Россия74
Компания «Руми» завершила миграцию в облако Linx Cloud. В результате проекта была повышена отказоустойчивость информационных систем «Руми» и стабильность работы ее RPA-сервиса.


«Рейтинг Рунета» выяснил приоритеты digital-компаний, Рейтинг Рунета, 14:55, 29.01.2025, Россия75
После 2022 года большинство участников digital-рынка борется за выживание, для которого в краткосрочной перспективе нужны продажи. К такому выводу пришли эксперты «Рейтинга Рунета», проведя исследование приоритетов руководителей компаний, оказывающих цифровые услуги.


Кешбэк и ставки на максимуме. «Выберу.ру» подготовил итоговый рейтинг лучших дебетовых карт за 2024 год, Финансовый маркетплейс "Выберу.ру", 14:54, 29.01.2025, Россия77
«Выберу.ру» составил итоговый рейтинг банков, предлагавших наиболее выгодные людям дебетовые карты для ежедневных расчётов. Продукты из топ-подборки помогут держателям карт управлять деньгами весь 2025 год.


МегаФон и «Мария Мама» обучили родителей основам первой помощи детям, МегаФон, 03:32, 29.01.2025, Россия131
МегаФон помог благотворительной организации «Мария мама» привлечь дополнительных слушателей на курсы по обучению первой помощи детям. Благодаря технологиям оператора более тысячи россиян из 11 регионов посетили однодневные школы и на практике отработали навыки спасения детей.


Великий Новгород станет центром обсуждения вопросов бизнеса, пищевой промышленности и АПК, ИнтерКонсалт, 03:30, 29.01.2025, Россия101
«Менеджмент в деталях. Пищевая промышленность и АПК» – это всероссийский бизнес-форум, объединяющий представителей пищевой отрасли и агропромышленного комплекса. Форум пройдет в Великом Новгороде 23-24 апреля 2025 года.


INFRABASE вошел в реестр российского программного обеспечения, DCLogic, 05:55, 28.01.2025, Россия187
Российский системный интегратор DCLogic c опытом разработки собственных продуктовых решений объявил о включении платформы для учета и управления ИТ-инфраструктурой INFRABASE в единый реестр программного обеспечения (ПО) России для электронных вычислительных машин и баз данных.


Выручка Navicon увеличилась за 2024 год на 15%, Navicon, 05:55, 28.01.2025, Россия190
Российский системный интегратор и разработчик Navicon подвел предварительные итоги работы за 2024 год. Выручка компании в России составила 1,9 млрд рублей, что на 15% больше, чем в 2023 году.


«Формула Лайн» вырастет в разы и нацелилась на зарубежные рынки, Формула Лайн, 05:54, 28.01.2025, Россия147
ИТ-компания «Формула Лайн» планирует увеличить выручку в три раза по итогам 2025 года. В числе прочего, в планах компании выход с интеграционными проектами на рынки дружественных стран. Для этих целей в «Формула Лайн» создается специальная группа разработчиков и консультантов, владеющих технологиями и решениями зарубежных производителей.


Пользователи ЕДИНОГО ЦУПИС получили порядка 20 млн рублей кешбэка в 2024 году, ЕДИНЫЙ ЦУПИС (НКО "Мобильная карта"), 05:54, 28.01.2025, Россия146
По итогам 2024 года держатели цифровой карты ЦУПИС получили порядка 20 млн рублей кешбэка. Цифровые карты ЦУПИС выпустили уже свыше 600 тысяч пользователей платежного сервиса.


СУБД ЛИНТЕР БАСТИОН обновлена до версии 6.0.20.3, РЕЛЭКС, 05:52, 28.01.2025, Россия146
Вышла очередная коммерческая версия флагманского программного продукта Компании РЕЛЭКС. Обновление включает более 90 изменений и направлено на повышение производительности, улучшение функциональности и обеспечение высокого уровня безопасности данных.


Тульский производитель микрофонной техники «Октава ДМ» презентует новинки и анонсирует новые решения на Всероссийском конгрессе звукорежиссеров , ООО "Октава Дизайн и Маркетинг", 05:49, 28.01.2025, Россия202
Техническим партнером мероприятия стал тульский RnD центр «Октава ДМ». Производитель микрофонной техники обеспечил звук на главной сцене конференции и представил новые продукты.


МегаФон усилил операционных блок в Москве новым назначением, МегаФон, 05:48, 28.01.2025, Россия160
Оператор в начале года ввел в макрорегионе Столица позицию директора московского отделения. На эту должность назначен Виктор Югай. В задачи нового топ-менеджера входит реализация телеком-стратегии компании на розничном и корпоративном рынке, усиление операционной эффективности и усовершенствование бизнес-процессов во внутреннем контуре компании в Москве и области.


Лучшим начальником команды в Краснодарском филиале ФГУП «УВО Минтранса России» признан Сергей Велитченко, Краснодарский филиал ФГУП "УВО Минтранса России", 05:46, 28.01.2025, Россия150
В Краснодарском филиале ведомственной охраны Минтранса России определили лучших в профессии работников по итогам трудового соревнования за второе полугодие 2024 года, среди них - начальник команды «Туапсинская» Сергей Велитченко.


  © 2003-2025 inthepress.ru