Я планирую создать автоматическую болталку, чтобы включать её в некто ми.
Но для начала нужно выбрать эталонный голос. Максимы и Алисы слишком узнаваемы по стримам и яндекс браузеру, поэтому я решил выбрать голоса из второго пикрелейтеда.
Нужно будет их сравнить и выбрать лучший или использовать все вместе для разнообразия. Я перерос этот чат и общаться там самому мне уже лень. А поднасрать местным тнусятинам - это святое дело.
В качестве эталонного текста я решил выбрать фрагменты пасты про ТНУС. В свое время я успешно использовал эту пасту с связке с максимом, было очень органично, интересно, как она будет звучать, если её озвучит та же Айгуль.
Голосов слишком много, чтобы запомнить каждый из них, а тян слишком тупые. Плюс копипасту можно менять по настроению, от случая к случаю.
Актуальная шапка треда, все технические подробности там
>>261857665 Хм, если это та самая хуйня из пикрелейтеда, то наверное в эмуляторе Android или на виртуалке с линухом. А в чём проблема и зачем? Может быть есть решение попроще, без Алексы?
>>261856982 (OP) Вообще делал похожую шляпу пару месяцев назад, но для другой тематики. Для распознования юзал калди, на гитхабе есть форки ля русского войса. Один голос без постороннего говняка воспринимал идеально, в твоём случае по-моему будет как раз
Движок капризный, либо из-за криворукости разрабов, либо потому что они хотят бабла.
Не воспринимает текст больше чем 140 символов, пришлось городить костыли и разбивать копипасту на батчи и склеивать wav-файлы. Причем в их эталонном примере все было криво, постоянно ошибки вылезали. Только в самом конце был нормальный рабочий пример.
>>261863436 чо ругаешься каждый дрочит как хочет! Или тебя ткнуть в сетки для госов где предобученные модельки спижены с гитхаба? да или может госуслуги сорцы показать?..
>>261857902 Смысл - разговорная Eng практика. Я уже не помню на чём я её пытался тестировать. Вроде из-под эмуля в магазине приложений её не видно было, или она не хотела запускаться, или она не видела микрофон
>>261866295 Я открываю через ПК с помощью Potplayer'а. Все норм. У некоторых моделей долгие паузы между предложениями. А через браузер часть видео вообще не открывается.
>>261867078 Модели для распознавания и синтеза речи у него топ. А обработка языка, гроубо говоря чат-бот который должен понимать чего ты хочешь - у него тупит. Ну и плюс недостаточно выпустить хороший продукт чтоб отвоевать рынок, это тебе любая монополия скажет.
Модель v2_erdni, язык xal (судя по всему калмыцкий). Отвратительно, но можно использовать ради лулзов, если нужно отыгрывать мигранта или турка, который плохо знает язык. Временами даже смешно.
Остальные модели вылетали, потому что не смогли распознать кириллицу. Модель multi не подходит для моих задач, можно поиграться с ней в будущем, но это такой геморрой. что просто пиздец.
Основной блокнот компании Silero - полная шляпа, пришлось допиливать его до человеческого состояния, разбивать текст на предложения, потом склеивать wav и конвертировать в mp3. Видимо специально усложнили задачу, чтобы отсеять от халявы большинство людей и свести на нет применение в продакшене. Также, если длина предложения превышает 140 символов, то модель обрабатывает только часть текста. Короче корявая тулза, но для ТНУСов думаю за глаза хватит.
Из плюсов выделю возможность запуска на CPU, что снижает до нуля вероятность бана гугла и ограничения квот.
Модель v22_mykyta_48k, язык ua, без ударений в тексте Речь хохолика заметно ускорилась. Его кхгыканье сильнее бросается в глаза. С ударениями речь более размеренная.
Аудиопоток скорее всего сломанный, потому видео не воспроизводится в браузере, пришлось повторно перекодировать.
Так что ударения имеют смысл. Возможно модель baya_v2 получится починить, если убрать ударения.
Уже сейчас можно собрать плейлист из этой шизофазии и циклически проигрывать в некто ми, а хохол как вишенка на торте.
Плюсы: - провокационная тема, самки болезненно воспринимают любую критику, лулзы гарантированы; - разнообразие, ТНУСЫ слишком тупые, не запомнят все голоса, даже могут принять за организованный флешмоб, если приестся, можно просто сменить пасту; - простота, никаких усилий не трубется, если изловчиться, можно собрать ограниченный пул жирных паст и распространенных фраз и создать некое подобие диалога; - универсальность, можно сгенерировать практически любую пасту.
Минусы: - отсутствие автономности, пасты нужно генерировать, решается собранием большой базы паст; - если не используется плейлист, то требует ручных действий, возможно получится автоматизировать этот процесс, нейросети на текущий момент кажутся оверхедом, нужно эволюционно развиваться.