Лица (г. Липецк), 2021 г.

Лица (г. Липецк), 2021 г.

АПРЕЛЬ 2024 №4 8 образом и словом, его обозначаю- щим. Ровно то же самое происходит, когда обучаешь нейросеть. Звучит фраза: «Союз нерушимых республик свободных». Человек объясняет: аудиофайл — то есть колебания воз- духа — соответствует именно такому тексту. — С какой точностью ваша нейросеть распознает речь? — Есть специальный показатель WER — word error rate. Берём 100 слов. Сколько из них удастся по- нять? У человекаWER обычно на 94 процента. В случае с искусственным интеллектом всё зависит от каче- ства записи. Если это книга, которую читает диктор с поставленным го- лосом, нейросеть справится, как мы с вами. А если на аудиодорожке шум и помехи, то получится примерно 70 процентов. В среднем SILERO выдаёт 85 процентов — это сопо- ставимо с результатами Яндекса и Google. — Насколько разработка голосовых помощников развита в России? —Основные конкуренты — крупные банки-экосистемы и поисковик. Маленьких независимых компаний, как наша, очень мало. Для таких проектов требуется огромное финансирование, которое крупной корпорации получить проще. Здесь спасают гранты. В 2023 году мы получили восемь миллионов в конкурсе «Код Искусственный интеллект (очередь V)». Ещё нужен корпус данных, на котором нейросеть будет обучаться. Тут повезло: сервис такси передал SILERO записи звонков. —Может ли обычный человек протестировать ваш продукт? — Есть чат-бот. Он абсолютно бесплатный и сделан не для получения прибыли, а для демонстрации. Мы туда по приколу добавили голоса героев компьютерной игры. Это завирусилось. Сейчас в чате уже миллион подписчиков. БАБУШКА, ДЕДУШКА И ЛЕНИН — Как работает синтез? — На основе реальных голосов. Для идеального качества нужно 20-40 часов. Для нормального — час. Чтобы было просто похоже — хватит минуты. Важно качество аудиодорожки и чёткость речи. Мы сымитировали голос Ленина, используя записи начала XX века, а ещё голоса бабушки и дедушки одного из сотрудников, которые не работают профессионально со звуком. В тексте для нейросети лучше выделять ударения, потому что слово «замок» можно прочитать двумя способами и искусственный интеллект не всегда понимает, как правильно. — Как история с синтезом речи работает с правовой точки зрения? — Партнёр передаёт записи голосов, которые мы можем использовать для обучения нейросети. Например, для своего бота предварительно спросили разрешения у компаний — создателей игр. Обычно у них с актёрами уже есть соглашения. — Что вы думаете по поводу обви- нений со стороны представителей некоторых профессий, которые называют голосовые нейросети их «убийцей»? — Пока основная проблема — в отсутствии законодательства. Нуж- но регулировать сферу так, чтобы никому не было обидно. А искус- ственный интеллект — это средство масштабирования. Допустим, есть маркетплейс, на который каждый актёр может загрузить свой голос и передать платформе на него пра- ва. За деньги, разумеется. Условный SILERO распознаёт 85% . Это сопоставимо с результатами Яндекса и Google. а ф л о о б б а и й д м у и д д с 100 а а ч л у у о у в й с л о о о л б д и ф м у 100 а ю а ч а л в Человеческий мозг распознаёт 94% . 100 ИЗ СЛОВ АУДИОФАЙЛ

RkJQdWJsaXNoZXIy MTMyMDAz