Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 511 207 220
Голосовых нейронок тред (TTS, STS, STT) #5 /speech/ Аноним 23/11/23 Чтв 01:31:54 552016 1
.mp4 25135Кб, 1078x1080, 00:03:20
1078x1080
.mp4 6887Кб, 1536x1024, 00:03:02
1536x1024
.mp4 15991Кб, 512x768, 00:03:22
512x768
.mp4 1651Кб, 672x384, 00:00:51
672x384
.mp4 3045Кб, 360x556, 00:00:30
360x556
.mp4 332Кб, 670x480, 00:00:08
670x480
.mp4 4988Кб, 854x480, 00:00:08
854x480
.mp4 2849Кб, 400x600, 00:00:40
400x600
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >>511205 (OP)

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
Аноним 23/11/23 Чтв 09:54:20 552199 2
Аноним 23/11/23 Чтв 10:31:06 552221 3
DockerDesktopfF[...].png 74Кб, 1270x720
1270x720
>>552199
локально эта хрень не хочет работать, ждём нормальный web ui
Аноним 23/11/23 Чтв 14:33:03 552356 4
>>552016 (OP)
Нифига себе. Мой видос первый
Аноним 23/11/23 Чтв 15:57:20 552409 5
Аноним 23/11/23 Чтв 16:35:37 552461 6
Аноним 24/11/23 Птн 01:12:17 552992 7
>>552016 (OP)
Репост из предыдущего треда по причине 0 ответов:
rvc (релиз из шапки прям) не хочет хавать мп3 56кбпс длиною в 49 минут, как фиксить
Аноним 24/11/23 Птн 02:51:51 553028 8
.png 292Кб, 2280x949
2280x949
>>552992
Это для обучения или преобразования? Если для преобразования - попробуй просто файл нарезать. А чтобы вручную их по отдельности потом не отправлять на конвертацию, в RVC можно батчами файлы обрабатывать, в нижней части интерфейса. Я сам ничего длиннее 10 минут не пробовал скармливать, может оно неоптимизированно просто для таких длинных файлов.
Аноним 24/11/23 Птн 10:34:26 553144 9
170081108345491[...].mp4 2218Кб, 1280x720, 00:00:08
1280x720
Аноним 24/11/23 Птн 11:19:57 553170 10
>>552461
Ебать, спасибо анон, это по царски мне все сделало. Со старой ебался месяц хуйня получалось. Каеф.
Аноним 24/11/23 Птн 12:35:48 553224 11
>>552992
Ты же обучаешь? можно через какой нибудь адобе аудишн удалить тишину. У меня с 1 часа записи голоса на стриме после удаления тишины стало 25 минут чистого голоса.
А вообще советую юзать обучалку в облаке >>552409 . Тольго чтобы там можно было ГПУ подрубить - надо акк по телефону подтвердить. В РФ не работает, поэтому через какой-нибудь онлайн-сим сервис регни на другой регион. Цена 3-5 рублей.
Аноним 24/11/23 Птн 12:48:10 553233 12
>>553224
че за бред что в рф не работает? Нормально активировал.
Мимоднровец
Аноним 24/11/23 Птн 13:17:02 553267 13
>>553233
От оператора завист. Мой мегафон не пропустил. И где-то в гайде на ютубе видел, что там так же из РФ регали на тайланд.
Аноним 24/11/23 Птн 15:00:12 553360 14
170082687207822[...].mp4 1545Кб, 1280x720, 00:00:04
1280x720
170082685684218[...].mp4 1548Кб, 1280x720, 00:00:04
1280x720
Аноним 24/11/23 Птн 17:09:15 553462 15
DockerDesktopkO[...].png 48Кб, 1270x720
1270x720
DockerDesktopfV[...].png 79Кб, 1270x720
1270x720
firefoxwnuv2eXk[...].png 108Кб, 1530x885
1530x885
DockerDesktopbL[...].png 74Кб, 1270x720
1270x720
>>552199
>>552221
короче поебавшись с docker и линуксоидным WSL 2 я заставил это работать.
Обязательные условия, если юзаете шиндовс 10 :
1. Установка ubuntu и его включение (см. пик 1) в уже установленном docker (это в моём случае, отличном от того что в видеоролике) https://www.youtube.com/watch?v=PB7zM3JrgkI
2. обязательная установка python 3.7, с 3.11 вообще не хочет работать
3. включение экспериментальной функции "containerd" в docker (см. ласт пик)
когда всё поставили - просто введите вот это в powershell с запуском от админа :
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all registry.hf.space/styletts2-styletts2:latest python app.py
потом в docker кликаете по ссылке и всё (см. пик 2), должно открыть gradio вебуй в браузере.
Не знаю как другим, но этот tts движок пока что ебёт все остальные как нехер делать, меньше одной секунды на генерацию семлпа используя ноутбучную rtx 3070 / 8gb vram. https://voca.ro/1jB9XdkllnRi когда другие tts всё ещё будут долбить гпу в сотку.
Аноним 24/11/23 Птн 20:58:27 553729 16
едж ттс светлан[...].mp4 180Кб, 1920x1080, 00:00:05
1920x1080
едж ттс светлан[...].mp4 180Кб, 1920x1080, 00:00:05
1920x1080
силеро ттс бая [...].mp4 122Кб, 1920x1080, 00:00:03
1920x1080
силеро ттс бая [...].mp4 135Кб, 1920x1080, 00:00:04
1920x1080
силеро ттс ксен[...].mp4 128Кб, 1920x1080, 00:00:04
1920x1080
силеро ттс ксен[...].mp4 139Кб, 1920x1080, 00:00:04
1920x1080
силеро ттс хени[...].mp4 108Кб, 1920x1080, 00:00:03
1920x1080
силеро ттс хени[...].mp4 120Кб, 1920x1080, 00:00:03
1920x1080
Какой голос звучит человечнее?
Аноним 24/11/23 Птн 22:05:48 553815 17
>>553729
Света питч 5. К силеро надо крутить библиотеки омонимов, перевода цифр в буквы, ударений и прочего.
Аноним 24/11/23 Птн 22:12:28 553832 18
>>553729
чето кряхтит пердит во всех версиях
Аноним 24/11/23 Птн 22:17:25 553844 19
>>553462
туда можно вкорячить свои модели, натрененые в RVC?
если нет, то где можно текс в аудио?
Аноним 24/11/23 Птн 23:10:51 553931 20
.png 105Кб, 1772x978
1772x978
>>553462
Угараешь, штоле? Всё там прекрасно работает без WSL и докеров
1. git clone https://huggingface.co/spaces/styletts2/styletts2
2. pip install -r requirements.txt
3. pip install cached_path phonemizer
4. Устанавливаешь espeak-ng https://github.com/espeak-ng/espeak-ng/releases
5. Прописываешь в PATH :
PHONEMIZER_ESPEAK_LIBRARY="C:\Program Files\eSpeak NG\libespeak-ng.dll"
PHONEMIZER_ESPEAK_PATH=“C:\Program Files\eSpeak NG”
6. Запускаешь python ./app.py
7. ?????
8. PROFIT!
Аноним 24/11/23 Птн 23:13:47 553935 21
>>553931
Да, ещё torch и torchaudio нужно поставить с поддержкой CUDA, чтобы инференс работал на GPU. У меня уже стояли 2.1.0+cu121
Аноним 25/11/23 Суб 02:11:21 554224 22
>>553028
> попробуй просто файл нарезать
Спасибо кэп, только это лишний гемор, пушо помимо резки/склеивания, как я должен проверить что оно не разрежется именно по середине речи?
Нет, не для обучения, аудиокнигу хочу в другом голосе послушать.

>>553224
Нет, это не для обучения.
Аноним 25/11/23 Суб 07:37:22 554360 23
Аноним 25/11/23 Суб 07:58:38 554364 24
>>553815
ударения там можно сделать через + звон+ит
Аноним 25/11/23 Суб 08:37:43 554370 25
>>554224
Берешь абсолютно любой аудиоредактор и вручную режешь блять, и там же склеиваешь.
Аноним 25/11/23 Суб 09:45:39 554399 26
Чо, когда exe софт сделаете, а не всю эту хуету с бубнами?
Аноним 25/11/23 Суб 10:59:07 554423 27
>>554399
те сложно чтоль пару команд ввести? Сразу видно виндузятника
Аноним 25/11/23 Суб 11:21:14 554431 28
>>554423
те сложно чтоль все в одной папке собрать? сразу видно гитхабодебила
Аноним 25/11/23 Суб 15:01:50 554564 29
>>554364
Спасибо, я знаю. Но хотелось бы автоматом. Но у автора силеро такая позиция, что они продают весь обвес вокруг их сырой модельки, так что увы.
Аноним 25/11/23 Суб 15:04:15 554565 30
DockerDesktopsS[...].png 35Кб, 1021x495
1021x495
>>554399
хочется верить что этот styletts2 герганыч портнёт в ggml, тогда можно будет тупо одной командой запускать один .exe файл с парой моделей, там кста их 10, это если считать энкодеры тоже.
Аноним 25/11/23 Суб 18:23:07 554732 31
как в едж ттс ставить ударения?
Аноним 25/11/23 Суб 23:08:23 555009 32
167616434565906[...].webm 1447Кб, 720x834, 00:02:53
720x834
Поясните за текущее состояние голосовых нейронок плз. Если я хочу генерить хорни пасты голосами милых тяночек, это возможно уже или нет? Или можно только переделывать уже существующую речь в другие голоса? Последний раз ттс трогал у яндекса, там неплохой был секси голос Алёны, но интонации все равно слишком роботизированы и одннобразны были.
Аноним 25/11/23 Суб 23:11:00 555013 33
Что будет лучше, если я хочу клонировать свой собственный голос и озвучивать им написанный текст - RVC или ElevenLabs? Обычно я делаю через второй вариант, но там это довольно заёбно, приходится много раз генерировать заново, а потом ещё и склеивать удачные куски из разных вариантов в единое целое. Уходит очень много времени

Ну или может быть у вас есть гайд, как записать подходящий датасет, пользуясь диктофоном из телефона? Вроде бы всё нормально, но нейронка часто сбоит, например ускоряя голос или наоборот замедляя, а иногда появляется сильный акцент
Аноним 26/11/23 Вск 08:10:24 555225 34
>>554370
Ебаный ты нахуй, там 24 файла по 50 минут, заебусь, во-вторых я не понимаю а че мешает просто один огромный файл обработать? Я понимаю когда я ставлю слишком огромное значение блока за раз обрабатываемого или че там, типа 60 секунд и он за оперативку вылазит, а тут че?
Аноним 26/11/23 Вск 09:27:34 555243 35
>>555009
Можно сгенерировать в TTS, а потом прогнать через RVC с нужным тебе голосом. Но TTS'кам эмоциональности под твою задачу не хватит, как мне кажется. Они больше под монотонное чтение подходят.

>>555013
У RVC нет возможности напрямую озвучивать по тексту, она только из одного голоса в другой преобразует. Тебе придётся сначала сгенерировать по тексту дефолтным голосом любой TTS'ки, а потом через RVC прогонять.

> как записать подходящий датасет
Для RVC нужно 5-10 минут чистого голоса, желательно, в разных диапазонах. Хорошие модели стабильно работают, там не надо что-либо роллить.
Аноним 26/11/23 Вск 11:55:51 555275 36
>>555225
Попробовал прогнать часовую аудиокнигу (58 минут). С моделью rmvpe всё обработалось, при обработке потребление VRAM было почти 20 Гб, но обработка заняла всего несколько секунд. Creepe — потребление VRAM около 4 Гб, но обрабатывалось долго — около 2 минут. Harvest — видеопамять не жрет, обрабатывалось минут десять и потом все упало нахуй, хотя потребление RAM было всего лишь около 22 Гб (из 64 Гб). Pm не проверял.
Аноним 26/11/23 Вск 13:23:27 555333 37
Аноним 26/11/23 Вск 19:32:36 555755 38
>>552016 (OP)
Аноны, оценил предложенные tts проекты, XTTS в целом порадовала. На huggingface лимит в 200 символов, соответственно вопрос: если её ебануть локально можно ли за одну операцию озвучивать приличные тексты, например 10 страничные статьи? И, если да, сколько генерация будет занимать по времени на 3060 12 гигабайтной?
Аноним 27/11/23 Пнд 00:28:14 556093 39
90c7a292-a226-4[...].mp4 2924Кб, 600x900, 00:01:20
600x900
623752df-712b-4[...].mp4 2686Кб, 600x900, 00:01:20
600x900
bcaf519e-15c6-4[...].mp4 2627Кб, 600x900, 00:01:20
600x900
e12c5a30-b5e7-4[...].mp4 1798Кб, 600x900, 00:00:52
600x900
Годная вещь, аж залип
Аноним 27/11/23 Пнд 02:23:06 556139 40
was du brauchst.mp4 2446Кб, 480x360, 00:00:05
480x360
zwei kleine Hän[...].mp4 4516Кб, 648x480, 00:00:03
648x480
mein Häschen.mp4 6568Кб, 854x480, 00:00:01
854x480
Почему-то именно с этим языком самый кек получается.
Аноним 27/11/23 Пнд 02:37:25 556147 41
wischegrad.mp4 16360Кб, 640x360, 00:02:45
640x360
Аноним 27/11/23 Пнд 02:39:29 556148 42
Versuch 5.mp4 6507Кб, 600x480, 00:00:04
600x480
nach Hause.mp4 5888Кб, 640x480, 00:00:01
640x480
Brief (попытка [...].mp4 6722Кб, 640x480, 00:00:02
640x480
Аноним 27/11/23 Пнд 04:34:32 556194 43
А есть вообще сайты по типу цивита (куда лоры и модели заливают), но с готовыми голосовыми моделями?
Аноним 27/11/23 Пнд 04:49:33 556196 44
>>556194
https://discord .gg/aihub (канал voice-models)
Для RVC.
Аноним 27/11/23 Пнд 12:32:39 556453 45
>>555243
А если записать самому с нужной интонацией и потом свапнуть голос?
Аноним 28/11/23 Втр 02:22:19 557155 46
Аноны, для клонирования голоса обязательно микрофон?
Аноним 28/11/23 Втр 03:25:02 557166 47
Himbeere.webm 20033Кб, 1280x720, 00:02:39
1280x720
Ай, наигрался. Не смешно как-то уже.
Аноним 28/11/23 Втр 11:57:16 557280 48
Анон, подскажи пожалуйста, есть ли возможность научить ИИ на чужой голос, при обучении выдаёт ошибку и ругается на GPU (У меня AMD 6800XT) И еще вопрос, ему datasaet можно даже видео в mp4 подставить, он его "скушает" или ему нужен именно свой определенный формат?
Аноним 28/11/23 Втр 13:00:09 557317 49
БЫСТРЫЙ [...].mp4 4256Кб, 720x1280, 00:00:20
720x1280
Аноны, а есть сервис дубляжа своего голоса, но чтоб интонация была? Знает кто нибудь такой онлайн сервис?
Аноним 28/11/23 Втр 20:41:57 557640 50
Ветер пригожина[...].mp4 18395Кб, 1920x1080, 00:00:29
1920x1080
Аноним 30/11/23 Чтв 23:49:07 559490 51
>>553462
для локал юзеров - убрали ограничение в 400 слов, но есть проблема, он начинает каждое новое предложение без сохранения интонации.
Аноним 01/12/23 Птн 12:27:11 559905 52
1311353162029.jpg 66Кб, 422x600
422x600
Я тупой. Не бейте, лучше обоссыте!
На hf есть вот такая модель для whisper:
https://huggingface.co/lorenzoncina/whisper-small-ru/tree/main
Но Whisper'у нужны модели с расширением .pt
Как конвертировать модель hf ---> pt?
Был бы рад, если кто-то шарящий просто сконвертирует и выложит ссылку.
Аноним 01/12/23 Птн 15:54:09 560007 53
>>559905
Эти веса можно подгружать через torch.load, если использовать whisper в качестве python-модуля.
Если тебе вдруг зачем-то нужно их использовать через stand-alone версию, то требуется небольшой костыль, так как stand-alone может работать только с предопределенными моделями.

Скачиваешь эту модель при помощи git
git clone https://huggingface.co/lorenzoncina/whisper-small-ru/
И конвертируешь этим скриптом https://gist.github.com/bofenghuang/3ba54bb338f4863e6ab710a2ceb65bf2 :
python convert_whisper_to_openai.py --hf_model_name_or_path "d:/whisper-small-ru" --whisper_state_path "./small.pt"

Либо скачиваешь сконвертированную модель отсюда https://huggingface.co/savayox919/small.pt/blob/main/small.ru.pt

Закидываешь cконвертированную модель в папку %user_profile%/.cache/whisper/
Чтобы whisper знал эту модель нужно в файле %python_path%\Lib\site-packages\whisper\__init__.py под 23 строкой добавить строку
"small.ru": "aefac90e59481eb3f15b7f6725fd1e398a08ec9d99ba8969336bde5c3f667695/small.ru.pt",
И под 39 строкой добавить строку
"small.ru": None,
Теперь whisper будет работать с этой моделью
whisper --model small.ru --language ru

Но на самом деле всё это ненужный пердолинг, потому что эта модель всратая и не лучше оригинальной small
Аноним 01/12/23 Птн 18:40:29 560112 54
1279126257591.jpg 132Кб, 700x307
700x307
>>560007
Спасибо, анончик! Аки боженька всё разжевал. Мне важно было попробовать работу этой модели на своих семплах. Результаты и впрямь так себе.
Я радиогубитель и в ИТ не большой знаток. Нейронки для меня - что-то типа магии. Хочу автоматически распознавать речь со своих радио-перехватов (приём SDR-свистком), но старое железо весьма ограничивает возможности. У меня gtx950 с 2 ГБ памяти, и её хватает только для base модели, а это полная хуита ни о чём. Даже small крашится от недостатка памяти. Поэтому ищу вменяемую по скорости и качеству распознавания модель под CPU. Может, посоветуешь что-то? Нужна только русская речь.
Аноним 01/12/23 Птн 19:31:03 560137 55
17014448286430.mp4 18865Кб, 600x600, 00:01:08
600x600
В какой нейронке это делали?
Аноним 01/12/23 Птн 22:28:46 560346 56
> coqui ai
Это годнота? Почему в шапке нет?
Аноним 01/12/23 Птн 22:41:32 560367 57
>>560137
В суно, сверху криво кинули войссвап совитсом.
Аноним 01/12/23 Птн 22:45:10 560371 58
>>560346
Потому что как и в дабе сосет письку. Плюс платное. Там никаких чудесных решений все еще нет, это комбайны из существующих технологий, которые по аналогии с фейс-свапом типа фейсхаба - ну продержаться год-два, выдавая хуевенький результат за нихуевенькие бабки. Потом технологию допилят и она обесценится (в хорошем смысле слова). Чмони конечно могут продолжать лазить в какойнибудь фейсап, но нахуя если везде лежит руп. Поэтому какой смысл добавлять в шапку очередную коммерческую прокладку?
Аноним 01/12/23 Птн 22:46:50 560376 59
>>560371
>Потому что как и элевенлабс в дабе сосет письку
фикс

Это максимум для инди проекта энивей и если бабки карман жмут, для чего-то серьезного проще нанять актера за миску риса. Да и для инди тоже.
Аноним 01/12/23 Птн 23:14:14 560434 60
>>555755
у меня тоже такая карточка, почти моментально 3000 символов генерит, так что в этом проблем нет
Аноним 01/12/23 Птн 23:17:58 560440 61
>>560371
Че за комбайны из готовых решений? У них собственные решения и опенсурс на гитхабе.
Аноним 02/12/23 Суб 00:04:23 560509 62
>>560440
>У них собственные решения
Из чужих моделей и разработок обмотанных петухоном. Огласи список "собственного", если не сложно.
Аноним 02/12/23 Суб 00:21:28 560525 63
Аноним 02/12/23 Суб 00:22:25 560527 64
Аноним 02/12/23 Суб 00:24:59 560531 65
image.png 46Кб, 1079x419
1079x419
Аноним 02/12/23 Суб 00:29:25 560535 66
>>560531
И че? Ебать ты долбаеб, обосрался, так не закапывай себе дальше.
Аноним 02/12/23 Суб 20:24:08 561166 67
Голосовые нейронки самый мощный прорыв сделали я щитаю. Ни видео ни фото не может в годнонту, а вот голосовые модели могут имитировать голос человека на 100 процентов.
Аноним 02/12/23 Суб 23:28:24 561375 68
image 691Кб, 2048x1536
2048x1536
Есть какая-нибудь онлайн нейросеть, чтобы фразу озвучить? Мне буквально одну только. Или, может, итт кому-нибудь не лень? С меня сотни интернетов!
Аноним 02/12/23 Суб 23:45:16 561386 69
image 378Кб, 1000x500
1000x500
>>561375
А, все, я нашел. Шапку жопой читал.
Аноним 04/12/23 Пнд 14:11:28 562704 70
79bc1e4a-bf63-4[...].mp4 2586Кб, 600x900, 00:01:20
600x900
af093839-c792-4[...].mp4 2190Кб, 600x900, 00:01:08
600x900
ea632f45-47fe-4[...].mp4 2423Кб, 600x900, 00:01:20
600x900
d4d7f757-c7f3-4[...].mp4 2696Кб, 600x900, 00:01:20
600x900
Бля а неплохо вышло
Аноним 04/12/23 Пнд 18:47:10 562947 71
.mp4 2373Кб, 600x900, 00:01:20
600x900
.mp4 1406Кб, 600x900, 00:00:45
600x900
.mp4 2320Кб, 600x900, 00:01:20
600x900
.mp4 2496Кб, 600x900, 00:01:20
600x900
>>562704
Вообще охрененно делает!
Аноним 04/12/23 Пнд 20:40:29 563105 72
7277c502-8162-4[...].mp4 5375Кб, 600x900, 00:02:20
600x900
408bdf0c-a8f0-4[...].mp4 2413Кб, 600x900, 00:01:20
600x900
Рейт
Аноним 05/12/23 Втр 12:38:54 563631 73
Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели
Аноним 05/12/23 Втр 22:09:06 564287 74
11.mp4 530Кб, 1280x720, 00:00:04
1280x720
22.mp4 5237Кб, 1280x720, 00:02:19
1280x720
33.mp4 82Кб, 274x182, 00:00:05
274x182
44.mp4 1626Кб, 274x182, 00:02:19
274x182
На eleven labs появился speech to speech для склонированного голоса, но пока только на английском.
Аноним 06/12/23 Срд 07:05:40 564586 75
>>564287
Чем делал голос путина тот что на русском?
Аноним 06/12/23 Срд 15:08:48 564851 76
hero.webm 18410Кб, 1280x720, 00:09:11
1280x720
Аноним 07/12/23 Чтв 10:03:10 565990 77
дойч.mp4 3751Кб, 480x360, 00:05:02
480x360
инглиш.mp4 3722Кб, 480x360, 00:04:56
480x360
>>557166
> наигрался
А может и нет...
Аноним 07/12/23 Чтв 16:31:59 566214 78
Я прочитал шапку, но уточнить хочу. Мне нужно делать озвучку персонажей амер мультиков.
>SileroTTS
>TeraTTS
Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
>RVC
Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?
Аноним 07/12/23 Чтв 16:36:45 566220 79
>>566214
силеро ттс. Ударения ставить так: звон+ит +перед ударным.
Про рвс да
Аноним 07/12/23 Чтв 16:39:45 566224 80
Жопич.mp4 477Кб, 396x298, 00:00:23
396x298
Аноним 07/12/23 Чтв 16:48:07 566234 81
>>566220
А что насчёт амер акцента?
Аноним 07/12/23 Чтв 16:49:53 566236 82
>>566234
силеро ттс там американское наверно
Аноним 07/12/23 Чтв 16:51:57 566238 83
>>566236
>Оффлайн-проект синтеза голоса от русскоязычной команды Silero.
Окей спорить не буду, но на всякий случай на форчане чек чем оно по-хорошему делается.
Аноним 07/12/23 Чтв 18:30:34 566384 84
Падажите, эта няша из консольки чтоли управляется онли? Нет удобного интерфейса, куда совать текст и язык, модели жмакать?
https://www.youtube.com/watch?v=yRHbDbHPJMo
Аноним 07/12/23 Чтв 18:52:12 566411 85
Аноним 07/12/23 Чтв 19:01:51 566427 86
image 110Кб, 626x298
626x298
image 107Кб, 789x665
789x665
>>566411
Мне англ. Ну я разные пробовал и устанавливал https://github.com/snakers4/silero-models#installation-and-basics.
Вот что ты дал, юзаю гитбаш в папке, git clone https://github.com/GhostNaN/silero-webui.git
А где там установочное или как стартовать вообще, каким файлом?
Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.
Аноним 07/12/23 Чтв 19:05:28 566435 87
>>566427
Запускать app.py
Конечно же. если не менять язык будет ошибка. Смени язык и все
Аноним 07/12/23 Чтв 19:26:24 566471 88
>>566435
А понятно. Я просто не ожидал, что так можно, никогда не делал. Спасибо, что не рвонькнул однако.
Сейчас устанавливаю какое-то nltk, а то ошибка генерации.
Аноним 07/12/23 Чтв 19:40:26 566499 89
Не помогло nltk, опять чего-то не хватает. В requirements.txt
gradio
nltk
num2words
omegaconf
torch
torchaudio
Я понимаю это что-то у программистов имеющеюся само собой и что мне делать чтоб облегчить мучения?
Аноним 07/12/23 Чтв 19:56:26 566531 90
У одного меня какие-то спермопроблемы как обычно, ясно, у всех остальных всё само собой встало одним нажатием кнопачки.
Аноним 07/12/23 Чтв 19:58:16 566536 91
Аноним 07/12/23 Чтв 20:08:50 566552 92
image 735Кб, 1433x969
1433x969
image 208Кб, 1245x287
1245x287
>>566536
Это по-любому из-за отсутствия установки чего-то большого, что все нейросетчики по умолчаю юзают, поэтому автор и в шапке не пишут. Я просто только вкатываюсь.
Аноним 07/12/23 Чтв 20:16:02 566569 93
>>566552
комп перезапусти и попробуй все в ручную через пип инсталл устанавливать
Аноним 07/12/23 Чтв 20:16:49 566571 94
>>566552
Алсо, добавлю у меня подозрения на этот пи-торч. Может я его как-то криво поставил?
Я с сайта копирую в командную строку cmd что мне там дали pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Установка какая-то прошла и я закрыл. Не так чтоли?
Аноним 07/12/23 Чтв 20:19:24 566573 95
>>566571
самая тупая ошибка. ПРОСТО ПИШИ ПИП ИНСТАЛЛ ТОРЧ И ВСЕ
Аноним 07/12/23 Чтв 20:30:09 566592 96
>>566573
В cmd писать? Или в какую-то конкретную папку перейти? написано Requirement already satisfied:
Я также перегрузил комп, но не помогло. Может снести и зано поставить этот торч?
Остальные требования тоже уже написано Requirement already satisfied:
Аноним 07/12/23 Чтв 20:48:57 566616 97
Аноним 07/12/23 Чтв 20:52:45 566621 98
image 152Кб, 1094x123
1094x123
image 11Кб, 548x31
548x31
Ну че, я пытался удалить и установить заново как было сказано.
1. Первый пикрил - ПРОСТО pip install torch, ошибка. С ним вообще консоль не выдаёт адресс для браузера.
2. Снёс п. 1 и поставил с сайта всё пик 2 без ошибок, всё равно не заработала, те же ошибки >>566552

А не может быть такого что мне какие-то модели там в папку с прогой докачать, чтоб не было ошибки? Я вам заскринил >>566552 чтоб вы расшифровали на что оно жалуется.
Аноним 07/12/23 Чтв 20:54:23 566624 99
Аноним 07/12/23 Чтв 20:57:50 566631 100
image 102Кб, 923x140
923x140
Аноним 07/12/23 Чтв 21:00:01 566635 101
Аноним 07/12/23 Чтв 21:00:40 566636 102
>>566631
пошли ка в тг. тут не особо удобно
Аноним 07/12/23 Чтв 21:03:36 566642 103
image 257Кб, 1337x486
1337x486
>>566635
Спасибо, что помогаешь. А можешь есть всеобщий гайд по работе с гитхабовскими нейросетками, чтоб я мог все их стандарты установить?
Аноним 07/12/23 Чтв 21:04:05 566643 104
Аноним 07/12/23 Чтв 21:05:16 566645 105
А может этот торч не в апдату, а куда-то ещё ставить?
Аноним 07/12/23 Чтв 21:06:14 566648 106
>>566645
просто консоль открываешь и сразу без ничего пишешь pip install pytorch
Аноним 07/12/23 Чтв 21:09:02 566653 107
>>566648
Ну да, так и пишу, но у меня при открытии путь C:\Users\Anonname>
А у тебя не так?
Аноним 07/12/23 Чтв 21:09:41 566654 108
>>566653
хмммм. перезагрузи пеку и пробуй снова
Аноним 07/12/23 Чтв 21:25:29 566677 109
>>566654
Ладно, я думал, тут кулцхакеры сидят, придётся замену придумать или насадку какую-то. Может онлайн придётся даже генерить.
Аноним 07/12/23 Чтв 21:29:18 566683 110
>>566677
просто хз как но у меня все что надо ставилось с 1 раза
Аноним 07/12/23 Чтв 21:36:12 566691 111
>>566683
Да я понимаю, как обычно у меня одного проклятие, срочно надо шамана вызывать.
Аноним 07/12/23 Чтв 23:06:25 566761 112
Ну что сказать, я напоследок пошалил ещё с этими вашими торчами, смыл весь питон и накатил последню версию и в резульатте через консоль этот торч вообще никак теперь не ставится, а силена даже в браузере теперь не запускается соответсвенно.

ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch

Сделал лучше, а стало хуже, ну и говнище этот ваши питон.
Аноним 07/12/23 Чтв 23:50:12 566793 113
Ладно вот последний вопрос.
# Create venv
python -m venv venv
source venv/bin/activate
Это что? Это куда?
Аноним 08/12/23 Птн 06:55:06 566992 114
>>566793
> Это что? Это куда?
В консоли последовательно выполни команды:
python -m venv venv
.\venv\Scripts\activate

У тебя формат второй команды под никсы, если я правильно понимаю.

>>556453
> А если записать самому с нужной интонацией и потом свапнуть голос?
Да, тогда интонация норм подхватится.

>>560346
> coqui ai
> Это годнота? Почему в шапке нет?
Там же вроде просто XTTS под капотом? Хз, может и стоит дополнить, я не вникал, если честно.

>>563631
> Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели
Попробуй этот коллаб глянуть, я, правда, сам не смотрел:
https://colab.research.google.com/drive/13Ot_8SJYplkxSH1vkJptd79fmvMjFqIC

>>566214
> Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
Из опенсорс с генерацией эмоций ничего нет для TTS, насколько я знаю. В bark можно вставлять конструкции типо [смех] и что-то ещё, но не смотрел её особо: https://github.com/suno-ai/bark

> Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?
Всё так, либо можешь менять голос в риалтайме - как вариант, можешь настроить виртуальный микрофон и сразу записывать свой видоизменённый голос с нужными тебе эмоциями, в этом случае RVC норм оттенок голоса передаст.

>>566427
> Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.
Увы, не нашёл времени пофиксить. Работает только русик, да.
Аноним 08/12/23 Птн 07:00:03 566993 115
>>566761
так емае. Те нужно максимум 3.10 ставить
Аноним 08/12/23 Птн 07:30:44 566997 116
А у edge tts из шапки можно как-то ударения ставить? И там ещё какой-то странный баг с внезапным сдвигом тональности на одном предложении есть, это победимо?
Аноним 08/12/23 Птн 07:55:37 567000 117
>>566997
я и сам щас думаю как ставить. Пришел пока к выводу. Ты его учи как ребенка. Вместо Зек пиши зэк вместо штирлицем пиши штир'лицэмъ и т.д. ударение либо ' перед нужной буквой либо о́ букву ударением
Аноним 08/12/23 Птн 13:28:18 567184 118
image 10Кб, 250x250
250x250
>>566992
>У тебя формат второй команды под никсы
Эээ? По-русски пиши. Я это это инструкции слепо пытался сделать.
Аноним 08/12/23 Птн 13:34:19 567201 119
А никто англоязычное не встречал? Я на форчане порылся, там только треды по стабл дифужну.
Аноним 08/12/23 Птн 13:48:26 567210 120
Как же хуёво быть нищюком. Я бы купил уже этот вокс бокс за 100 баксов и не ебался тут.
Аноним 08/12/23 Птн 14:52:51 567231 121
image 274Кб, 690x498
690x498
>Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks
Охуенно озвучили блять.
Аноним 08/12/23 Птн 15:14:26 567238 122
изображение.png 20Кб, 219x73
219x73
>>567231
А хули ты хотел? Плоти.
Аноним 08/12/23 Птн 16:00:21 567266 123
>>567238
Там нет на сайте для нищуков скромного. Что ж так плохо с этой озвучкой идёт, туго, жиды программисты не дают творить.
Аноним 08/12/23 Птн 16:01:40 567267 124
>>567266
Алсо с нормальными (не премиальными) голосами тоже говорят - плоти.
Аноним 08/12/23 Птн 19:54:04 567505 125
А неплохо это RVC работает, эмоции всё передаёт, не ожидал.
Но шляпа только что исходники хорошие искать, все эти TTS некудышные, говорят дикторской речью. И я так понимаю нельзя ттс научить в эмоции. Может посоветуете какую базу со фразочками всяких актрис озвучек и сэйу? А то я вижу на ютубе иногда фажики делают подборки фразочек всяких персонажей игр и аниму, может базы есть мне не очевидные.
Аноним 08/12/23 Птн 20:34:45 567544 126
У меня такая мысль возникла, что для эмоций надо TTS для каждого настроения модель отдельную, не заморачиваясь на персонажей голосов, например для женского один и тот же голос, но каждая модель отличная, что одна радуется, другая говорит визгливым голосом и т.п. Не встречал никто грустных, гневных роботов и т.п.? Этого бы хватило, потом в RVC перегнать, ей пофигу какой там персонаж в оригинале озвучил. Ну может только максимально отличные типы голосов разедлить - мужской, женский, детский. Этого бы хватило, чем клепать тысячи разных персонажей, которые говорят дикторским голосом.
Аноним 10/12/23 Вск 01:56:29 568817 127
>>567231
Там вообще нет возможности бесплатно TTS запускать? Мне несколько месяцев назад писали, что можно >>358924 → Но я правда забил и не тестил, ведь есть тот же EdgeTTS.
Аноним 10/12/23 Вск 19:36:14 569249 128
Аноны, у меня у одного перестал этот TTS работать?
https://huggingface.co/spaces/elevenlabs/tts

Выдает ошибку:

>RateLimitError('This request exceeds your quota. You have 0 characters remaining, while 103 characters are required for this request.')
Аноним 10/12/23 Вск 21:44:49 569330 129
>>568817
Похоже что нет. Вообще странность, что докуя онлайн голосовых сервисов бесплатных, но за стационарное плати.
Аноним 10/12/23 Вск 22:30:28 569361 130
>>556148
со второй просто начал хрюкать
Аноним 11/12/23 Пнд 17:23:23 570032 131
Аноны есть русская TTS по качеству лучше или сравнимо с silero, но на GPU, а то на ЦП пиздец долго даже не на самом донном проце.
Аноним 11/12/23 Пнд 17:26:08 570035 132
>>570032
Да под русской я имею ввиду что бы на русском адекватно воспроизводила текст.
Аноним 11/12/23 Пнд 18:45:42 570115 133
>>570032
>silero, но на GPU, а то на ЦП пиздец долго
Силеро долго? Ты уверен, что у тебя не дно? Оно на смартфоне работает х10.
Кстати, когда тестировал, силеро у меня на GPU (3080Ti) работало медленнее, чем на проце (на тот момент 5090х), лол.
Кидай своё железо, а то я знаю ваше "не самое донное".
Аноним 11/12/23 Пнд 18:52:45 570124 134
>>570115
Проц ryzen 7 5700x видюха не важно с ней проблем пока нет. Может у нас разное понятие под долго но примерно 10 часов звука за час делает. При том что RVC на GPU тот же час за минуты 3 делает.
Аноним 11/12/23 Пнд 19:27:11 570168 135
>>570124
Ебать что ты там такое звучишь?
>ryzen 7 5700x
Ну... Не шик, но окей, уговорил, не дно.
>10 часов звука за час
х10, я прям ванга.
>RVC на GPU тот же час за минуты 3 делает
Тот же, или просто час? Если просто час, то это х20, то есть ускорение относительно силеро всего в 2 раза.
Ну и да, запусти силеро на ГПУ, в чём проблема то?
Аноним 11/12/23 Пнд 19:31:06 570172 136
>>570168
>Ебать что ты там такое звучишь?
Книги.
>Ну и да, запусти силеро на ГПУ, в чём проблема то?
Надо будет тогда погуглить, а то я сейчас не совсем напрямую запускаю.
Аноним 11/12/23 Пнд 19:31:41 570174 137
>>570172
а нук скинь пример
Аноним 11/12/23 Пнд 19:33:15 570179 138
>>570174
Пример чего? И через что скинуть, а то я давно это не делал, а все нормальные сервисы типо ргхоста уже давно отлетели.
Аноним 11/12/23 Пнд 19:34:15 570184 139
Аноним 11/12/23 Пнд 19:34:30 570187 140
>>570179
пример книги которую озвучиваешь
Аноним 11/12/23 Пнд 19:36:17 570194 141
>>570187
Завтра если не забуду скину. Хотя зачем я не совсем понял ибо там ничего необычного нет silero нормально отрабатывает.
Аноним 11/12/23 Пнд 19:39:41 570201 142
>>570179
Пример кода я думаю.
>>570179
>а все нормальные сервисы типо ргхоста уже давно отлетели.
Гитхаб всё ещё работает. А так https://rentry.co
Аноним 11/12/23 Пнд 20:06:44 570241 143
kripiELfwBGRN.mp4 23025Кб, 1280x720, 00:09:04
1280x720
Оцени пока мою озвучку крипистори>>570194
Аноним 11/12/23 Пнд 20:15:05 570245 144
>>570241
Ну я плюс минус до такого же уровня дошел. Только без фонового звука. Мне хватает. Голос только пока не нашел еще чтоб прям нравился.
Аноним 11/12/23 Пнд 20:21:25 570257 145
>>570245
ну я звук на фон поставил потому что это страшилка как никак.
Аноним 11/12/23 Пнд 20:24:02 570263 146
>>570257
Я то для себя в основном пилю. Ибо читать не то что бы влом, но глаза лишний раз неохото напрягать.
Аноним 11/12/23 Пнд 21:13:56 570323 147
>>570241
Ну тут прям видно, что голос искусственный. Ты убирал пробелы между фразами?
Аноним 11/12/23 Пнд 21:34:59 570353 148
Аноним 11/12/23 Пнд 22:31:23 570454 149
masun2.mp4 37113Кб, 1280x720, 00:01:09
1280x720
Аноним 11/12/23 Пнд 23:21:08 570492 150
Аноним 11/12/23 Пнд 23:47:50 570509 151
изображение.png 83Кб, 853x241
853x241
изображение.png 3Кб, 171x67
171x67
изображение.png 3Кб, 166x101
166x101
>>570492
А теперь читаешь все материалы в шапке по этим трём буквам.
Аноним 11/12/23 Пнд 23:53:39 570516 152
>>570509
Что за сайт с моделями?
Аноним 12/12/23 Втр 03:38:58 570654 153
Аноним 12/12/23 Втр 09:53:55 570788 154
>>570492
птх файл в папку вейтс и моделс а индекс в папку с названием птх файла и в папку логс
Аноним 12/12/23 Втр 16:46:48 570996 155
Ананасы, пользоваться RVC в облаке больше нельзя? Сторонние сайты прикрыли фишку с бесплатным ElevenLabs, а оплатить подписку конкретно на их сайте без иностранной карты нельзя.

Получается, для озвучки остался только один вариант: генерация стандартным голосом из доступных -> замена этого голоса на нужный мне через RVC. Компьютер его вряд ли потянет, а в облаке было бы здорово. Сплошная ебанина, короче
Аноним 12/12/23 Втр 19:42:07 571311 156
inde2x.jpg 6Кб, 232x217
232x217
>>552016 (OP)
Тред не читал
Надо распознавать где-то 25 часов лекций на русском в неделю. Вручную это делать больно и неприятно. Платно горько и обидно. Что можно сделать в данной ситуации? Есть ли бесплатные ИИ решения или хотя бы то что можно собрать на своем компе?
Аноним 12/12/23 Втр 20:08:33 571352 157
Аноним 12/12/23 Втр 20:08:57 571354 158
Аноним 12/12/23 Втр 22:57:09 571547 159
>>570996
>Компьютер его вряд ли потянет
а ты попробуй. он не такой тяжелый, только памяти надо дохуя
Аноним 13/12/23 Срд 08:35:40 571712 160
Парни, кто может натренировать модель? По деньгам договоримся
Аноним 13/12/23 Срд 10:24:57 571738 161
Силеро не генерирует аудио из текста длиннее 1000 символов. Как обойти ограничение?
Аноним 13/12/23 Срд 13:40:12 571833 162
Аноним 13/12/23 Срд 15:48:46 571924 163
dc947d69-2f8c-4[...].mp4 1878Кб, 600x900, 00:01:00
600x900
17022992776133.mp4 1934Кб, 600x900, 00:01:00
600x900
17023127053922.mp4 3626Кб, 600x900, 00:01:33
600x900
Аноним 13/12/23 Срд 15:50:23 571926 164
17022994411883.mp4 7231Кб, 600x900, 00:03:20
600x900
17023118236246.mp4 2568Кб, 600x900, 00:01:20
600x900
17022975531795.mp4 2698Кб, 600x900, 00:01:20
600x900
Аноним 13/12/23 Срд 16:03:25 571933 165
>>571738
а ты какое силеро юзаешь?
Аноним 13/12/23 Срд 16:04:09 571935 166
>>571933
бот или питоновский силеро из треда
Аноним 13/12/23 Срд 20:33:15 572107 167
>>552016 (OP)
ОП, прочитал гайды, но не совсем понял - написанно, что текст в речь нельзя научить нужному голосу. У меня есть запись 10+ минут голоса, мне нужно поставить офлайн софтину, скормить ей этот голос и потом писать текстом, а софтина должна преобразовывать текст в голос, на основе созданной модели. Такое возможно?
Аноним 13/12/23 Срд 20:35:17 572108 168
eugene.mp4 1718Кб, 1920x1080, 00:00:35
1920x1080
aidar.mp4 1789Кб, 1920x1080, 00:00:38
1920x1080
Силеро бот.mp4 1654Кб, 1920x1080, 00:00:35
1920x1080
>>572107
Именно такое пока что нет. Но можно немного изловчиться. Просто юзать какие либо ттски. Например силероТТС или эджТТС и потом их через рвс с нужной моделью прогонять. Вот. Сравни.



Тред. Скажи, что лучше?
Аноним 13/12/23 Срд 21:23:38 572155 169
>>572108
Все три звучат как робот с задержкой в развитии. Всё-таки лучше ElevenLabs ещё ничего не придумали. Я наверное умру от старости, когда у них наконец появится нормальный конкурент
Аноним 13/12/23 Срд 21:36:11 572161 170
>>572107
Придётся использовать связку утилит - любую TTS (Text To Speech) и RVC. В качестве TTS мне больше всего зашла EdgeTTS, но она работает через бесплатное API Microsoft'а; если этот момент для тебя принципиален - глянь SileroTTS.

Полученную через TTS дорожку потом конвертишь к нужному голосу через RVC. И вот для RVC уже можно обучать свои модели - датасета в 10 минут должно хватить.

Кто-то реализовывал конвеера, которые сразу из текста делают генерацию нужным голосом через связку TTS+RVC (в шапке есть инфа, но мало) на Gradio-интерфейсах, но я их не смотрел и профукал ссылки. Может пробовали какие-то решения?

>>572108
Второе больше всего похоже на оригинал.
Аноним 13/12/23 Срд 22:42:45 572230 171
>>571935
Пробовал и в блокноте колаба, и локально, всё равно есть ограничение.
Аноним 14/12/23 Чтв 04:17:53 572616 172
>>572108
Пробуй юзать SSML-режим. Там можно ставить паузу сколько тебе нужно между словами, можно использовать параграфы, дохуя всего короче.
Тред, а вы не пробовали записывать свой собственный голос, а потом прогонять его через RVC? Опционально изменить питч/скорость изначальной дорожки.
Аноним 14/12/23 Чтв 05:58:11 572639 173
>>572230
хммммм. я делал пасты и на 2к символов и ничего
Аноним 14/12/23 Чтв 05:58:32 572640 174
Аноним 14/12/23 Чтв 06:08:55 572646 175
>>572640
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb
Скролль до SSML.
>>572639
Опытным путём выяснил, что длина аудиозаписи не должна превышать минуту, иначе выкидывает ошибку. Ты где и как генерировал?
Щас попробовал пропустить свой скрипучий голос через RVC гг-женщины из киберпанка, результат плохой, гораздо хуже silero. Какой-то некоарк-пидор выходит.
Аноним 14/12/23 Чтв 06:09:39 572647 176
1.png 161Кб, 1608x795
1608x795
Аноны поясните нуфагу плиз что это за пиздец? Одну дорожку переработал, дальше всё, это уебище вылетает на половине обработке и дальше тупо не генерит. Инет нормальный.
Аноним 14/12/23 Чтв 06:10:28 572649 177
>>572647
Ты окошко командной строки не закрыл случайно?
Аноним 14/12/23 Чтв 06:12:33 572651 178
>>572649
Неа, оно открыто всегда. Первый раз когда запускаю, загрузка кавера до половины доходит и вылетает эррор. При следующих попытках эррор сходу вылетает пока не перезапущу. При этом в первый раз у меня всё получилось сгенерить сразу.
Аноним 14/12/23 Чтв 06:18:54 572656 179
1.png 131Кб, 1703x615
1703x615
>>572647
У меня вот такое вот в консоли в момент когда ошибка вылезает
Аноним 14/12/23 Чтв 06:29:30 572661 180
Аноним 14/12/23 Чтв 06:35:59 572662 181
>>572647
Короче я разобрался у меня видимо компик дерьмовый слишком длинные песенки не вывозит почему то, прийдётся ебаться с обрезкой и склеиванием
Аноним 14/12/23 Чтв 06:43:57 572664 182
>>571833
натренировать модель под rvc, как свзяаться с тобой можно?
Аноним 14/12/23 Чтв 06:48:15 572665 183
Аноним 14/12/23 Чтв 07:26:56 572680 184
>>572661
Я тебе рекомендую на своей машине генерить, а не в колабе. У меня хром например не позволяет скачивать получившийся файл, при попытке открыть в отдельном окне просто закрывается.
Аноним 14/12/23 Чтв 07:31:40 572681 185
>>572680
ну дак я и делаю это локально
Аноним 14/12/23 Чтв 11:23:17 572804 186
Аноним 15/12/23 Птн 12:10:29 573716 187
Clipboard01.jpg 81Кб, 1103x639
1103x639
Что ему надо то? В факе написано что там ВСЁ включено и никаких библиотек с питонами не надо.
Аноним 15/12/23 Птн 13:22:35 573749 188
.png 209Кб, 1491x1369
1491x1369
>>573716
Похоже на то, что у тебя часть файлов почему-то отсутствует. В папке runtine должен быть python.exe, но у тебя этого файла почему-то нет. Может антивирь потёр? Или поменяли что-то в последних версиях, я давно не обновлялся уже.
Аноним 15/12/23 Птн 14:25:11 573772 189
Как же ЫлэвынЛабз невыносимо жалко ПРОСТО дать поиграться с мемчиками и песенками бесплатно без регистрации мокрые писечки. 58 секунд максимум за раз, видос не больше 20 мегов. Принимает исключительно шебм, а выдаёт почему-то битые mp4 с какчеством звука уровня жёваной на электронике-302 кассеты. Норовит вставить всякую левую отсебятину про субтитры-подпиську-просмотр. То чёткое произношение вообще не распарсит, то неправильно переведёт, то превратит в лепет, то в шизофазию, то простое слово оставит без перевода. Просто взять напрямую со своего ойпи загрузить видос - хренушки, только один. Режим инкогнито после примерно десятка кусков подряд перестаёт выдавать ссылку на скачивание. Тор и тот через задницу помогает - каждую попытку всё стало открываться меееедленно, чтобы я заебался ждать пока очередная нода покажет "форбидден".
хотя логично - а то немедленно сайт задудосит всяким говном, вайпом, 10-часовыми стримами, фильмецами, политотой и проном
Аноним 16/12/23 Суб 09:40:18 574502 190
подскажите пожалуйста текста/скрипиты для начитки, создания базы для собственной модели
или где их взять
Аноним 16/12/23 Суб 14:58:55 574648 191
>>574502
тебе текст какой то нужен для того чтоб записать голос? Да хоть колобка читай главное чтоб качество было хорошее
Аноним 16/12/23 Суб 17:59:45 574821 192
>>574648
понял, спасибо, думал может есть какие-то специализированные уже
Аноним 17/12/23 Вск 00:09:07 575118 193
Здравствуй, анон. Нет денег, есть rtx4070, конденсаторный мик и звуковая карта, а также подготовленное помещение и, самое главное, время.
Подскажи, пожалуйста. Мне нужно изменять свой голос в реалтайме. Получается нужен только RVC? Пишу сэмплы и использую готовый датасет? Но какой? С английским датасетом проскакивает акцент, с японским вроде все нормально (в прошлых тредах прочел). Или мне самому нужно делать русский датасет, но это непосильная работа для одного. Что же делать?
Аноним 17/12/23 Вск 07:50:46 575324 194
>>555275
Бля. У меня всего 16, уже думал попробовать, а ты так обламываешь блин.
Аноним 17/12/23 Вск 09:03:53 575337 195
>>575324
Он долбоеб просто, силеро+вад, умеет резать/склеивать автоматически. Хуяришь чанки по 10 минут и вперед.
Аноним 17/12/23 Вск 09:39:26 575345 196
>>570032
В общем если кому интересно загуглил и примерно разобрался в проблеме. silero заколхозил на использование через gpu. И скорость я скажу мое почтение примерно в 6 раз быстрее прогнал примерно тот же объем текста чем я это делал на cpu.
Аноним 17/12/23 Вск 13:35:42 575460 197
>>575118
На RVC акцент минимальный вне зависимости от языка, используемого в датасете. Ты скорее всего про SVC читал, там акцент заметнее.

> Получается нужен только RVC?
Для изменения голоса в реальном времени либо RVC, либо Voice Changer: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer
Аноним 17/12/23 Вск 15:58:29 575557 198
>>575460
>На RVC акцент минимальный
Спасибо. Тогда не буду заморачиваться с "датасетом с нуля".
Аноним 17/12/23 Вск 18:47:41 575695 199
>>552016 (OP)
Блять, аноны, какие же вы молодцы! Всё так по полочкам разложили, организовали! Вот она - сила двача
Аноним 18/12/23 Пнд 05:04:30 576299 200
существует ли open-source TTS (хотя бы для английского) сопоставимый по качеству с ElevenLabs? Те, что описаны в шапке, явно слабее.
Аноним 18/12/23 Пнд 06:36:23 576313 201
Аноним 18/12/23 Пнд 11:44:00 576411 202
>>576299
>сопоставимый по качеству с ElevenLabs
Даже там приходится постоянно ролить результат и высчитывать количество символов за раз, чтобы оно хотя бы постаралось звучать нормально
Аноним 18/12/23 Пнд 11:44:28 576412 203
>>572664
ну и куда ты ушел?
Аноним 18/12/23 Пнд 11:46:44 576413 204
StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?
Аноним 18/12/23 Пнд 11:51:34 576415 205
>>576413
в зависимости от модели
Аноним 18/12/23 Пнд 11:52:35 576417 206
>>576413
> StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?
depends от качества модели, но в большей мере от погоды на марсе. иногда идеально выходит, иногда с артефактами. прямой зависимости от качества инпута я не наблюдаю, можно идеально записать исходник, но оно все сжует, а можно плохо напердеть в микрофон и получится хорошо. пробуй, если нет своей карточки, можно арендовать сервер. правда не знаю, где дешевле, мне tesla t4 за 30 рублей в час дают, но наверное можно и дешевле
Аноним 18/12/23 Пнд 19:56:22 576795 207
>>564287
Лучше объясни как проплатить подписку на елевен лабс
Аноним 18/12/23 Пнд 20:15:41 576813 208
Аноним 18/12/23 Пнд 22:19:16 576958 209
>На eleven labs появился speech to speech
А вот кто пользовался, если я надиктую текст на своём английском, он поправит мне акцент на выходе, оставив только мой голос, или результат получится таким же ужасным, как и на входе?
Аноним 18/12/23 Пнд 23:02:54 576990 210
>>576958
>или результат получится таким же ужасным, как и на входе
Говно на входе- говно на выходе, акцентов только больше станет, лол.
Аноним 19/12/23 Втр 18:40:21 577684 211
>>576958
Честно говоря так себе, инпут должен быть идеально чистым, но акцент всё-таки убирает. Я не знаю, как он у них работает под капотом. По-моему, также как в дубляже, сначала speech-to-text, потом text-to-speech. У меня он меняет слова на выходе (скорее всего плохо понимает из-за акцента).
Аноним 19/12/23 Втр 23:04:25 577901 212
>>577684
>инпут должен быть идеально чистым, но акцент всё-таки убирает
То есть, в принципе я могу озвучить что-нибудь с горем пополам, запихнуть это в StS, выбрать для выходного результата свой собственный голос, и он выдаст мне мой же текст, но уже без акцента?
Аноним 20/12/23 Срд 04:56:23 578202 213
1.mp4 1744Кб, 512x768, 00:01:20
512x768
>>552016 (OP)
Нужно как то вокал подчистить, слишком много автотюна накрутило
Аноним 20/12/23 Срд 06:27:29 578270 214
>>578202
Проще эффектов каких нибудь накатить чем чистить
Аноним 21/12/23 Чтв 10:56:30 579283 215
осень с русског[...].mp4 4923Кб, 640x480, 00:00:09
640x480
>>576958
Кстати по-разному было, когда с "дубляжом" песенок игрался. То голос становится няшнее чем было, то наоборот металлическо-противным. То в оригинале гипертрофированный акцент, а на выходе обычное произношение. То на входе стандартный язык, а на выходе спик фром май харт. А качество самой записи точно повторяет, все завалы частот и шумы, даже уровень в децибелах и всякий паразитный фон.
Аноним 21/12/23 Чтв 11:17:51 579292 216
geschwader1.1.mp4 8949Кб, 654x480, 00:00:04
654x480
geschwader1.2.mp4 8948Кб, 654x480, 00:00:04
654x480
>>576411
> постоянно ролить результат
Тоже бесит. Мог сделать СЕМЬ попыток и всё равно ничего путного не получить. Хоть одно место, но запорото. А может и с первого раза выдать всё идеально.
как вообще один и тот же кусок абсолютно по-разному обрабатывается, где логика?
Аноним 22/12/23 Птн 00:46:07 579821 217
>>577901
в теории - да, но на практике, как всегда, есть нюансы,
но должен признаться, качество у них растет.
главная проблема - это стоимость всего этого удовольствия.
Аноним 23/12/23 Суб 12:55:31 580966 218
>>552016 (OP)
Анон, тред читал по диагонали, не обессудь. Сейчас очень много информации по нейросетям, все сразу уяснить невозможно.

Интересует вопрос: что нужно для того, чтобы обучить нейронку в домашних условиях? Цель - создать диктора для чтения художественной литературы. Возможно, придется использовать свой голос для обучения. Не хотелось бы делать это на сторонней платформе. Либо же нужен бесплатный вариант хорошего русскоязычного диктора, поскольку это хобби - проект, а текста много.
Аноним 23/12/23 Суб 13:04:22 580971 219
>>579292
О, ещё один глюк обнаружил - "залипание" на интонациях и эмоциях. Если в начале куска ор/визг - в переводе такой же визг до самого конца, даже если там на шёпот переходят. В начале спокойный голос - на выходе тоже вялый на всём видосе, даже если в конце в оригинале припев гроулом.
вот не знаю, как оно обрабатывает у тех, кто там зарегился и даже забашлял. Может и лосслесс стерео выдаёт?
Аноним 23/12/23 Суб 13:29:37 580992 220
>>580966
>обучить нейронку в домашних условиях
хорошая видюха и датасет.
Аноним 23/12/23 Суб 14:05:03 581019 221
>>580966
могу те с этим помочь. ТГ есть?
Аноним 23/12/23 Суб 19:10:51 581372 222
Имя отутствует.mp4 4464Кб, 512x512, 00:00:30
512x512
Аноним 23/12/23 Суб 21:51:42 581600 223
>>580992
Хороший совет, но не хватает конкретики. "Хорошая" - понятие растяжимое. Нужно хотя бы минимально необходимое количество памяти указать.

>>581019
Спасибо, анон, но наверняка все не обойдется только одним обучением, потом не единожды потребуются корректировки. Да и хотелось бы самому понять, что и как.
Аноним 23/12/23 Суб 21:56:28 581615 224
nark.png 224Кб, 517x517
517x517
>>581372
На русскоязычного диктора это слабо тянет, лол. Разве что фанфики в порядке лулзов зачитывать.
Аноним 24/12/23 Вск 02:16:56 582155 225
>>575337
Так у меня rvm же...
Аноним 24/12/23 Вск 10:33:02 582354 226
>>581600
>Хорошая" - понятие растяжимое
чистый звук и минимум 15 минут речи
Аноним 24/12/23 Вск 13:14:22 582483 227
>>582354
Ты обгенерировался звуком, что ли, анон? Я спрашиваю про видеокарту.
Аноним 24/12/23 Вск 13:23:58 582493 228
>>582483
а. ну 3080 хватит вполне
Аноним 24/12/23 Вск 16:52:36 582708 229
1.mp4 2670Кб, 360x640, 00:00:24
360x640
А вот какие сетки тут использовались?
Аноним 24/12/23 Вск 19:31:12 582835 230
>>582483
Жеска. Ясно, спасиба.
Аноним 25/12/23 Пнд 08:51:11 583461 231
dampfer.mp4 7243Кб, 640x480, 00:00:10
640x480
knoten.mp4 4871Кб, 640x480, 00:00:10
640x480
musik1.mp4 5459Кб, 640x360, 00:00:10
640x360
fang mich.mp4 1723Кб, 384x288, 00:00:10
384x288
И всё-таки может бац и с первого раза выдать шедевр.
Аноним 25/12/23 Пнд 14:39:06 583585 232
frauen.mp4 7278Кб, 640x480, 00:00:06
640x480
>>580971
> "залипание"
Вот из-за чего бабы-стервы не получались никак. Обрезал начиная с припева - вот теперь идеально, а не невнятный полушёпот как в куплете.
хотя без унтертителей не обошлось и "вир фрауэн зынд шлампен/хурен" не нароллил
Аноним 25/12/23 Пнд 16:44:14 583633 233
Треды не читал гуглить не гуглил.

Кто-то уже сделал хотябы пруфофконцепт озвучки ЖоЖо на русском но с голосами оригинальных сэйю?

https://www.youtube.com/watch?v=vZOwxCh4S44
Аноним 25/12/23 Пнд 18:12:23 583662 234
redsave.mp4 13273Кб, 1920x1080, 00:01:03
1920x1080
>Нейронка которую мы ждали: генерация музыки по промпту
>Нейронка которую мы получили:
Аноним 25/12/23 Пнд 21:20:17 583842 235
>>583662
Так это круто же, иногда такой музон в голове играет, что прям аж жалеешь, что пропадает. Крутая штука для композиторов, как по мне, хоть я больше любитель-теоретик в музле. У меня, например есть старая .gpt, которая проебалась, но я оттуда мотив помню. Можно восстановить и сделать полноценный трек. Вообще, нейронки для творчества - суперкрутая вещь, прямо приятно эту революцию наблюдать, раз за разом охуеваешь от возможностей.
Аноним 26/12/23 Втр 20:24:53 584620 236
Может кто пояснить это я туплю или у меня подели хуевые попадаются. В общем нужна ли дополнительно тонкая настройка для RVC моделей или нормальные модели и из "коробки" отлично работают? Может с индексом какие нюансы есть? Я в logs закидываю, да и в интерфейсе он их по идее находит.
Аноним 26/12/23 Втр 23:28:42 584766 237
Аноны, можете пожалуйста посоветовать всяких тянских rvc моделей? Всяких там игерл и тому подобного.
Аноним 27/12/23 Срд 00:14:14 584802 238
Аноны, помогите что ли немного. Хочу подавать свой поток wav байтов по сети в w-okada/voice-changer напрямую, как это проще сделать? В исходниках какой-то треш, не могу понять, как оно на фронте работает и какие методы у сервера вызывает. Есть тут, кто разбирался?
Аноним 27/12/23 Срд 14:47:43 585252 239
>>584620
Да, их нужно подстраивать под себя, особенно если у тебя амд карта, но в целом можешь просто посмотреть какие настройки на чем лучше использовать, такой инфы много.
Аноним 27/12/23 Срд 16:38:04 585317 240
>>585252
Может я не правильно сформулировал, модели работают, но голос порой сильно или не очень отличается от желаемого оригинала
Аноним 27/12/23 Срд 23:33:14 585523 241
>>585317
Есть параметр tune, его под себя настраиваешь, что-то около 17 обычно подходит.
Аноним 28/12/23 Чтв 16:09:24 585848 242
image.png 18Кб, 1104x247
1104x247
Есть какой-нибудь гайд для альтернативно-развитых, чтобы было хорошо и не было плохо? Голос звучит немного как робот, хотя семпл хороший
Аноним 28/12/23 Чтв 22:46:23 586182 243
>>585848
Я немного не вдуплил, это ведь не w-okadaвский войсчендже, так?
Аноним 28/12/23 Чтв 22:56:37 586188 244
Вопрос: для распознавания голоса, лучшее open-source решение это whisper?
Аноним 28/12/23 Чтв 23:37:33 586218 245
>>585848
>>586182
Это единственные доступные настройки в ElevenLabs. Я так и не понял как ими пользоваться нормально, постоянно чего-то не хватает
Аноним 30/12/23 Суб 13:23:57 587082 246
Подскажите видео с президентом чтобы обучить eleven labs
Аноним 30/12/23 Суб 16:12:09 587159 247
1999.webm 20277Кб, 640x480, 00:10:50
640x480
>>587082
> видео с президентом
Аноним 30/12/23 Суб 17:41:48 587218 248
>>518695 →
>>518696 →
А как вместо аудио сделать видео? Ты просто в видеоредакторе пикчу подставил?
Аноним 30/12/23 Суб 19:16:15 587257 249
>>587218
А как липсинк подставить?
Аноним 31/12/23 Вск 00:33:43 587486 250
>>585848
У меня бывало такое когда семпл слишком короткий.
Настройки по умолчанию, норм., но при каждой попытке будет
ощутимо отличаться интонация.
Аноним 31/12/23 Вск 08:49:04 587671 251
p1.mp4 1761Кб, 1920x1080, 00:00:09
1920x1080
Аноним 01/01/24 Пнд 18:35:44 588634 252
Аноним 01/01/24 Пнд 22:50:08 588882 253
>>576299
Эти пидоры еще демо прикрыли
Аноним 01/01/24 Пнд 22:55:45 588887 254
image.png 15Кб, 427x122
427x122
Демке ElevenLabs поставили лимит
Есть способ обойти? Чистка кэша не помогла
Аноним 02/01/24 Втр 07:49:32 589178 255
Аноним 02/01/24 Втр 10:34:28 589285 256
>>588887
Дерни роутер
Зайди через инкогнито
Зайди через другой бразуер
Зайди с другого устройства
Сделай все вместе
???
Профит.
Аноним 03/01/24 Срд 22:01:57 590717 257
Доброго времени суток, уважаемые. Мне нужно узнать как мне преобразовывать текст в аудиодорожку. Быстро, удобно, и как угодно.
Аноним 06/01/24 Суб 17:09:28 593187 258
С новым годом нейроголосач!
Желаю вам хороших моделей в этом году!
Аноним 06/01/24 Суб 23:50:58 593518 259
>>593187
>06/01/24
>С новым годом
Тебя даже новогодний шум не разбудил?
Аноним 07/01/24 Вск 02:43:59 593706 260
Новый проект.mp4 15526Кб, 640x480, 00:01:09
640x480
Аноним 07/01/24 Вск 10:45:41 593886 261
>>593518
только отпустило
Аноним 10/01/24 Срд 21:57:09 600509 262
8ш6щ668щь6868щ6[...].mp4 15986Кб, 896x1344, 00:01:41
896x1344
Аноним 10/01/24 Срд 23:43:33 600740 263
>>593706
Зелёный слоник уже не в моде?
Аноним 11/01/24 Чтв 17:11:19 601786 264
17049695627590.mp4 6046Кб, 1280x720, 00:00:35
1280x720
>>552016 (OP)
Аноны, кто-то из вас может предположить как сделана озвучка на этом видео? Со всеми вздохами и интонацией?
Аноним 11/01/24 Чтв 17:28:09 601820 265
>>601786
походу анон просто записал свой голос а потом прогнал через рвс
Аноним 11/01/24 Чтв 17:45:50 601861 266
>>601786
это оригинал, рвс оставляет ключи в аудио, тут их нет.
Аноним 11/01/24 Чтв 17:57:59 601892 267
Аноним 12/01/24 Птн 01:22:05 603054 268
Да, ElevenLabs конечно делает красиво, но все оплаченные символы ушли как дети в школу, хотя сначала кажется, что их дают довольно много. Вот Speech to Speech вроде бы может решить эту проблему, но где достать хороший входной голос, который был бы похож на человека? Если сначала озвучить через какой-нибудь Гугл переводчик, то в ElevenLabs на выходе всё равно получается тот же робот, хотя уже и с нужным голосом. Короче говоря, где можно найти бесплатную говорилку с нормальными человеческими интонациями, чтобы скормить её в Speech to Speech?
Аноним 12/01/24 Птн 18:06:27 604781 269
Анонче, есть чистый, минутный сэмл где вайфу на японском базарит без лишнего шума, но елевенлабс всё ещё выдаёт некачественную обработку, не уровень всяких ДЫО и Жотаро, которые на инглише почти как на радном болтают. Мне получается нужно больше сэмплов найти? Пойдёт просто нарезка этого же семпла с каждой фразой по отдельности?
Аноним 12/01/24 Птн 18:16:31 604791 270
>>604781
Не пробовал на RVC модель обучить? Видел, что писали, что если датасет качественный, то минуты как раз хватит. Правда я сам не проверял.
Аноним 12/01/24 Птн 18:19:12 604797 271
>>604791
Ставил тортойз, но он на этапе загрузок некоторых библиотек выдавал ошибку и слал нахуй
Аноним 12/01/24 Птн 18:22:51 604802 272
>>604797
RVC это STS (изменение голоса), а Tortoise это TTS (синтез голоса), насколько я понял. Tortoise можно дообучать на свой голос?
Аноним 13/01/24 Суб 04:01:19 605780 273
>>552016 (OP)
>Ultimate Vocal Remover:
кал ёбаный блядь
Установил себе на линукс мастер - в нем гпу не используется независимо от того, ставлю я чек на gpu conversion или нет.
5.6 вообще не ставиится из-за конфликта зависимостей requirements.txt
У проекта полна жопа ишшью на гитхабе, чел ебёт вола, играется с фоном программки и шрифтами сместо того, чтобы обеспечить базовый функционал
Аноним 13/01/24 Суб 08:00:22 605900 274
>>605780
ну хз. у меня бубнта все норм поставилось
Аноним 13/01/24 Суб 13:18:08 606088 275
>>605900
1. какой тег ставил?
2. какая версия питона у тебя?
Аноним 13/01/24 Суб 17:01:12 606465 276
Аноним 13/01/24 Суб 17:01:39 606466 277
image.png 2Кб, 180x35
180x35
Аноним 13/01/24 Суб 17:04:13 606470 278
image.png 26Кб, 656x294
656x294
>>606088
вот такие настройки
Аноним 13/01/24 Суб 17:41:34 606533 279
>>605780
>линукс
дальше не читал
Аноним 14/01/24 Вск 03:25:55 608506 280
out.webm 2144Кб, 294x171, 00:02:25
294x171
>>606533
я знаю, что читать - не входит в стандартные умения виндузятников, ты мог мне не напоминать лишний раз.
>>606465
в репозитории гитхаба есть теги. Обычно версии программы равны тегам.

Проблема с UVR как-то сама решилась, я не знаю как. Он начал использовать видеокарту.


альсо моя первая проба пера, оценки приветствуются.
Аноним 14/01/24 Вск 05:36:54 608550 281
копипаста вован.webm 1210Кб, 1240x1281, 00:00:39
1240x1281
хы
Аноним 14/01/24 Вск 11:11:10 608652 282
Аноним 14/01/24 Вск 11:16:42 608657 283
>>608506
>Проблема с UVR как-то сама решилась
>линукс
Аноним 14/01/24 Вск 11:30:29 608672 284
Привет двачик, помогите пожалуйста. Есть mp4 на английском языке, хочу перевести его на русский. Как мне это сделать?
Аноним 14/01/24 Вск 12:53:42 608709 285
>>608672
Заплати переводчику.
Аноним 14/01/24 Вск 14:16:11 608820 286
>>608672
Whisper'ом можешь речь в текст перегнать и потом хоть через гугл перевести.

https://www.heygen.com/video-translate
Если тебе нужен перевод сразу в виде голоса, наложенного на видео, то есть такой онлайн-сервис. Понятия не имею, платная сейчас эта фича или нет.
Аноним 14/01/24 Вск 21:30:41 609303 287
Вот вроде было 50к символов, а вот уже и нету. Я даже не всё успел исправить в уже сгенерированном. Когда уже завезут бесплатное клонирование голоса и ТТС?
Аноним 14/01/24 Вск 22:27:52 609456 288
залетел спросить так как сам не слежу, есть уже что-то где можно закинуть текст книги и скочать аудиокнигу разумеется без смс и регистрации?
Аноним 14/01/24 Вск 22:46:03 609485 289
>>608652
как описано в ОП-посте - сначала silerotts, потом результат в RVC
>>609456
что мешает обучить свою модель под голос этого великого озвучатора https://www.youtube.com/watch?v=AmFNCJnPuz8 и слушать любфые книги, какие захочешь?
Аноним 14/01/24 Вск 23:01:24 609515 290
>>609485
>что мешает обучить свою модель
слабый комплюктор
Аноним 14/01/24 Вск 23:12:49 609535 291
>>609485
у меня есть балаболка но голоса оставляют желать лучшего, а современных йоба голосов как я понимаю в открытом доступе нет, да и все равно это костыльно
Аноним 14/01/24 Вск 23:29:16 609558 292
педопаста 1.webm 576Кб, 225x350, 00:00:41
225x350
>>609535
а что именно тебя не устраивает в голосах?
Вот я сделал вот эту озвучку теми инструментами, которые описаны в ОП-посте. Тебе такого качества не достаточно?

Что ты понимаешь под "йоба-голосами"?
Аноним 14/01/24 Вск 23:42:07 609587 293
>>609558
так я и спрашиваю есть что то что позволяет работать с большим объемом текста за раз с возможностью скачать результат?
Аноним 15/01/24 Пнд 02:57:17 609697 294
out.webm 829Кб, 512x384, 00:01:02
512x384
>>609587
а голова тебе для чего? Суешь книгу в питонячий код, который разделит её на фрагменты и озвучит - получаешь на выходе звуковой файл.
От силы строчек 10 кода займёт.
Аноним 15/01/24 Пнд 03:22:00 609708 295
out.webm 4934Кб, 832x550, 00:05:03
832x550
>>609587
вот тебе пример первой страницы пелевинского iphuck-10
У SileroTTS заметна картавость местами, неправильные ударения и она не умеет называть числа из цифр.
По идее с числами можно бороться просто питоном заменяя их на дуквенные обозначения. С ударениями и буквами ё по идее должен бфыл справляться акцентуатор в TeraTTS, но он сломан в мастере и чел забил хуй на проект 4 месяца назад. Ну а с картавостью поможет только обучение нормальной модели.
Тем не менее вот тебе пруф оф концепт работы длинной озвучки.
Аноним 15/01/24 Пнд 07:11:43 609756 296
Аноним 15/01/24 Пнд 07:12:34 609758 297
>>609515
так есть обучение онлайн. в каггле например. я кидал выше
Аноним 15/01/24 Пнд 07:13:54 609760 298
>>609708
силеро ттс в плане прогонки дальше через рвс сильно уступает еджттс. Едж умеет и числа читать и ударения в большинстве случаев правильное
Аноним 15/01/24 Пнд 12:37:45 609999 299
>>609760
>Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.
>от Microsoft
фу блять
Аноним 15/01/24 Пнд 12:47:06 610002 300
Нейроаноны вопрос такой, есть опенсорсные/офлайн аналоги chirp/suno?
Аноним 15/01/24 Пнд 14:32:48 610192 301
>>609697
>>609708
пощадите я подпивас, а не кулхацкер
Аноним 15/01/24 Пнд 15:11:27 610277 302
>>609999
ОНА И БЕЗ ТЫРНЕТА РАБОТАЕТ. А ТО ЧТО ОТ МАЙКРОСОФТ ТАК ЭТО ПРОСТО ПРОГРАММА. ДАННЫХ ОНА О ТЕБЕ НЕ СОБИРАЕТ
Аноним 15/01/24 Пнд 15:12:37 610280 303
>>610192
так что тебе надо? Текст озвучить? Так силероттс и еджттс без ограничений вроде локально озвучивают. Я пасты и на 30 минут и на час озвучивал. Потом через рвс прогоняешь. Как модель делать? Так датасет с голосом нужен а потом онлайн можно. Если есть вопросы пиши в тред помогу.
Аноним 15/01/24 Пнд 21:06:41 610790 304
>>610280
>рвс
что такое рвс? Кстати, такой нубовопрос. Если все говорилки кажутся пресными, есть способ как-то эмоции расставить в тексте? может с помощью параллельной дорожки?
Аноним 15/01/24 Пнд 21:22:47 610807 305
>>610790
rvc это смысл этого треда
Аноним 15/01/24 Пнд 21:43:17 610824 306
image.png 72Кб, 918x497
918x497
Аноним 15/01/24 Пнд 22:04:16 610844 307
>>610807
>rvc это смысл этого треда
Elevenlabs
Аноним 15/01/24 Пнд 22:09:07 610847 308
>>610824
там через тэги?
А нельзя как-нибудь прям через внутреннее представление нейросети? Играть с параметрами эмбеддингов? Там наверняка есть проекции связанные именно с эмоциями.
Аноним 16/01/24 Втр 06:42:44 611132 309
>>610844
эмммм. нет. опенсурс вперед rvc топ!!!!
Аноним 16/01/24 Втр 12:15:20 611275 310
>>611132
С RVC ещё надо поебаться, чтобы он хорошо работал
Аноним 16/01/24 Втр 14:19:21 611381 311
>>611275
что именно надо сделать?
Аноним 16/01/24 Втр 15:29:15 611461 312
Люди, вы не знаете названия той программы, которая очень хорошо воспроизводила речь людей, которая была в обороте в форчане ровно год назад?
При помощи которой Джоан Роулиг заставляли зачитывать пасту you will never be a real woman или Эму Уотсон Мою борьбу.
Аноним 16/01/24 Втр 15:30:56 611464 313
>>611381
Поставить на комплюктор, как-нибудь натренировать модель (а хорошо может получиться не с первого раза), потом ещё нужно где-нибудь сгенерировать более-менее нормальный голос и уже только тогда можно сконвертировать его в нужный. В ElevenLabs это всё делается за пару минут, вот только нужно много платить
Аноним 16/01/24 Втр 16:55:26 611529 314
>>611464
ЩАС НАШИ БРАТКИ КИТАЙЦЫ ПОДНАЖМУТ И БУДЕТ ЛУЧШЕ ЕВЕНТЛАБС НАШ РВС!!!!
Аноним 16/01/24 Втр 17:00:18 611534 315
>>611464
ндааа, дейсвительно. этож целый час ебаться
Аноним 16/01/24 Втр 17:17:49 611550 316
>>611534
>этож целый час ебаться
Это когда ты уже знаешь как там всё работает, и что тебе нужно примерно делать
Аноним 18/01/24 Чтв 03:48:37 614996 317
Только вкатываюсь, как рвс тренируется вроде понял и оно плюс-минус нормально работает если я сэмплы сам записываю своим голосом и потом их прогоняю.
Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?
Аноним 18/01/24 Чтв 04:54:51 615009 318
>>614996
> Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?
Не думаю, что ты что-то однокнопочное найдёшь под такую задачу. Весь попенсорс по TTS какими-то васянами на коленке пишется.

https://habr.com/ru/articles/767560/
В TeraTTS пытались именно ударения пофиксить, но вышел какой-то кал, на мой взгляд.

https://github.com/coqui-ai/TTS
XTTS выкладывали какие-то скрипты для файнтьюна и обучения своих моделей с нуля, можешь их попробовать раскурить.
Аноним 18/01/24 Чтв 05:16:13 615012 319
>>615009
Спасибо. Я еще погуглил немного, но пока выглядит не очень радужно.
Аноним 18/01/24 Чтв 19:10:57 615669 320
>>565990
а можешь прогнать на итальянском?
Аноним 18/01/24 Чтв 22:00:08 615894 321
ближе.mp4 832Кб, 360x360, 00:00:58
360x360
время.mp4 1011Кб, 640x360, 00:00:58
640x360
скатман.mp4 6662Кб, 720x480, 00:00:58
720x480
воскресенье.mp4 4649Кб, 640x360, 00:00:58
640x360
Аноним 19/01/24 Птн 01:24:34 616112 322
sector.webm 3920Кб, 480x360, 00:04:50
480x360
lieder.webm 3921Кб, 480x360, 00:04:50
480x360
>>615669
+ немецкая версия без кривых стыков
Аноним 19/01/24 Птн 02:29:16 616171 323
Аноним 19/01/24 Птн 02:45:11 616174 324
>>615894
> время.mp4
Омерзительно, но в то же время ностальгически гипнотично.
Аноним 19/01/24 Птн 02:48:59 616175 325
Dnd Russian Old.mp4 1832Кб, 640x480, 00:00:10
640x480
Аноним 19/01/24 Птн 05:07:18 616216 326
romana.mp4 727Кб, 480x360, 00:00:58
480x360
francais.mp4 727Кб, 480x360, 00:00:58
480x360
jap.mp4 728Кб, 480x360, 00:00:58
480x360
greek.mp4 727Кб, 480x360, 00:00:58
480x360
>>616171
Что бы ещё попробовать...
Аноним 19/01/24 Птн 05:11:12 616217 327
hindi.mp4 728Кб, 480x360, 00:00:58
480x360
turk.mp4 728Кб, 480x360, 00:00:58
480x360
slovak.mp4 728Кб, 480x360, 00:00:58
480x360
с русского на р[...].mp4 727Кб, 480x360, 00:00:58
480x360
Жалко нет латыни, иврита, белмовы, баскского, албанского...
Аноним 19/01/24 Птн 05:22:03 616221 328
>>616216
>>616217
мне б еще на итальянском что нибудь
Аноним 19/01/24 Птн 08:37:17 616254 329
autunno.mp4 4954Кб, 640x480, 00:00:58
640x480
aspettiamo.mp4 6778Кб, 640x360, 00:00:58
640x360
carro di merda.mp4 4686Кб, 640x356, 00:00:58
640x356
Аноним 19/01/24 Птн 09:07:00 616270 330
es.mp4 9057Кб, 654x480, 00:00:58
654x480
coniglietto.mp4 7088Кб, 854x480, 00:00:58
854x480
того же кринжа навалил, что и на немецком
Аноним 19/01/24 Птн 09:07:34 616271 331
labra.mp4 5144Кб, 640x360, 00:00:58
640x360
Аноним 19/01/24 Птн 14:44:34 616807 332
Есть чё по STT лучше виспера? Кал же натуральный, ну. Кое-как понимает английский, а русский вообще ни в пизду, ни в красную армию.
Аноним 19/01/24 Птн 16:29:00 617086 333
Чуваки, ищу человека который сможет помочь спич ту спич
Аноним 19/01/24 Птн 16:40:41 617108 334
>>617086
За деревянные естественно
Аноним 19/01/24 Птн 19:57:40 617598 335
>>617086
а чем там помочь?
Аноним 20/01/24 Суб 00:19:12 618529 336
grünes licht.webm 3880Кб, 640x480, 00:00:58
640x480
brunnen.webm 4165Кб, 480x360, 00:01:49
480x360
frau.webm 11149Кб, 640x480, 00:02:50
640x480
Аноним 20/01/24 Суб 00:19:47 618531 337
pferde.webm 5284Кб, 640x480, 00:05:24
640x480
Ну а тут не знаю, ржать или плакать.
Аноним 20/01/24 Суб 06:15:08 619164 338
sessione.mp4 6011Кб, 640x480, 00:00:58
640x480
Аноним 20/01/24 Суб 08:55:44 619225 339
smettetele.mp4 5875Кб, 854x480, 00:00:58
854x480
hör auf.mp4 5875Кб, 854x480, 00:00:58
854x480
вся игра слов конечно заруинилась
Аноним 20/01/24 Суб 13:30:17 619460 340
Аноним 20/01/24 Суб 13:51:46 619469 341
>>619460
а че делать то? Модель обучить или просто прогнать голос через рвс?
Аноним 20/01/24 Суб 15:50:25 619589 342
>>619469
Обучить модельку (или найти готовую для рвс) и прогнать мою озвучку в голос модельки
Аноним 20/01/24 Суб 16:20:42 619627 343
Аноним 21/01/24 Вск 07:12:50 620870 344
sanox.mp4 8715Кб, 640x360, 00:00:58
640x360
самое современное что знаю
Аноним 22/01/24 Пнд 17:33:55 622448 345
Аноним 22/01/24 Пнд 18:42:37 622595 346
https://riverside.fm/transcription
Вот это я понимаю, все бы нейронки такими были. ПРОСТО зашёл с ноги на сает, засунул туда что угодно и сколько угодно и играйся себе до усрачки.
Аноним 22/01/24 Пнд 21:17:37 622840 347
23/01/24 Втр 01:43:59 623142 348
ВОССТАНОВИМ СПР[...].mp4 6121Кб, 640x360, 00:00:07
640x360
Аноним 23/01/24 Втр 07:43:59 623351 349
vento.mp4 3504Кб, 476x360, 00:00:58
476x360
due mani.mp4 5427Кб, 648x480, 00:00:58
648x480
gattino.mp4 2836Кб, 640x480, 00:00:51
640x480
Аноним 23/01/24 Втр 14:40:51 623660 350
Ебёна мать, я всего лишь хочу озвучить свой сценарий в Арме 3, а тут какую-то документацию курить надо, куда меня занесло...
Аноним 23/01/24 Втр 15:36:22 623733 351
дымбыр-дамбыр.webm 3556Кб, 320x240, 00:03:24
320x240
кувака.webm 2667Кб, 320x240, 00:03:22
320x240
Лади Светӥ - Пу[...].webm 3253Кб, 320x240, 00:03:26
320x240
kizeń piziemie.webm 2657Кб, 320x240, 00:03:39
320x240
Какой нейронкой можно одним кликом перевести это to text?
Аноним 23/01/24 Втр 17:57:55 623918 352
Подскажите нейросеть которая меняет язык говорящего на другой
Аноним 23/01/24 Втр 18:43:37 623969 353
Аноним 23/01/24 Втр 20:34:30 624152 354
>>623918
Из локальных rvc в шапке глянь.
Аноним 25/01/24 Чтв 02:53:28 625276 355
Анон, сейчас есть что то близкое к качеству Eleven Labs в плане TTS? На инглише.
Аноним 25/01/24 Чтв 14:53:16 625545 356
Аноним 25/01/24 Чтв 16:41:18 625737 357
image.png 13Кб, 790x230
790x230
vc.mp4 4721Кб, 854x480, 00:00:08
854x480
Подписка на elevenlabs заканчивается через 4 дня. Анон можешь реквестировать что-либо
Аноним 25/01/24 Чтв 22:46:13 626337 358
Есть какая-нибудь нейронка, чтобы по одному клику бесплатно без реги можно было:
- "дорисовать" всратый/жатый некачественный монозвук с кассеты до вылизанного студийного стерео?
- отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
консольно-пердольное с кучей команд тоже норм
Аноним 25/01/24 Чтв 22:47:38 626344 359
goodbye.webm 7882Кб, 426x240, 00:07:02
426x240
trial.webm 7224Кб, 426x240, 00:06:23
426x240
>>625737
Ну вот это на немецкий например)0
Аноним 25/01/24 Чтв 22:52:13 626350 360
biorobot.webm 13786Кб, 320x240, 00:08:58
320x240
Или это.
небось слишком тянуче и оруче, ничего не распарсит
Аноним 25/01/24 Чтв 22:53:45 626356 361
assquadron.webm 5398Кб, 320x240, 00:03:32
320x240
ex.webm 9278Кб, 320x240, 00:05:52
320x240
Тоже на немецкий порофлить.
Аноним 25/01/24 Чтв 22:57:06 626358 362
recognize.webm 15008Кб, 320x240, 00:08:18
320x240
Всё, хватит.
ещё кто-то на итальянский просил что угодно, тоже можно всё это прогнать
Аноним 26/01/24 Птн 08:27:36 626716 363
gericht.webm 3259Кб, 426x240, 00:05:10
426x240
Ладно, сам одну запилил. Ну вот так звучит блатняк на немецком, кек.
Аноним 26/01/24 Птн 11:06:45 626821 364
Поможет ли мне AI спик фром май харт без акцента? Я видел демку, где чучмекам заменяют их голоса на синтезированные, но мне надо, чтобы голос оставался мой. Не в реальном времени.
Аноним 26/01/24 Птн 11:35:37 626835 365
>>626356
эскадрон уже на все языки перевели мне кажется, смотри по тредам
Аноним 26/01/24 Птн 18:14:37 627218 366
Аноним 28/01/24 Вск 01:12:12 628793 367
neuro.webm 9833Кб, 640x360, 00:06:18
640x360
>>622595
О, и сразу в виде сабов может распаршенный текст оформить. А вот что получается, если языка нет даже в этой широчайшей базе и выбираешь хоть как-то похожий...
Аноним 28/01/24 Вск 17:07:50 629291 368
Какая нейронка нужна чтобы извлечь японскую речь а потом преобразовать ее в русскую? Чтобы перс говорил голосом как на японском но русскими словами.
Аноним 28/01/24 Вск 20:12:07 629512 369
Аноним 29/01/24 Пнд 09:11:08 630013 370
изображение.png 10Кб, 715x212
715x212
Аноним 29/01/24 Пнд 16:25:34 630274 371
Аноним 29/01/24 Пнд 17:32:37 630343 372
Аноним 30/01/24 Втр 14:13:52 631010 373
>>552016 (OP)
Как сделать чтобы голос ебаным противным металлом не отдавал? От чего это вообще зависит? От качества песни? Да вроде нихуя я попробовал кавернуть несколько идеальных песен без посторонних шумов(чистил их через UVR звучали идеально в итоге) и с ровным голосом всё равно этой хуйнёй в некоторых моментах отдавало. От используемой модели голоса? Вот тут хуй знает, но идеальных мне не попадалось хотя я использовал не то что бы мало. При этом на ютубе смотрю видосики с каверами ну там прям небо и земля, есть такие где даже очень сложные песни сетки поют сука с идеальной интонацией без скрежетящего говна. Может я что-то не так делаю? Каверю вроде по гайду через RVC.
Аноним 30/01/24 Втр 15:46:30 631104 374
>>631010
Зависит от исходника вокальной дорожки, модели RVC и последующего мастеринга и сведения.
Аноним 30/01/24 Втр 16:41:46 631166 375
>>631104
Мне кажется ни от чего не зависит, это баг самой RVC, оно совершенно случайно может начать запинаться, жужжать просто потому что и хуй че сделаешь. Хотя наверное можно нарезать и по отдельности рендерить и возможно конкретные участки получится исправить, но такое себе, хуйня короче это ваше rvc
Аноним 30/01/24 Втр 19:18:44 631352 376
>>631166
Проблема RVC в том, что она заточена под нищекарты и процессоры, по идее там нужно вручную играться с параметрами x_pad, x_query, x_center, x_max в файле config.py для достижения наилучших результатов (если у тебя видеокарта с объёмом VRAM больше, чем 6гб).
Плюс для каждого конкретного случая нужно выбирать модель инференса: pm — днище, harvest — вроде как хорошо работает в низкочастотном диапазоне, crepe — хорошо работает с длинными звуками, rmvpe — даёт широкий вокальный диапазон, хорошо передает интонации, но на длинных звуках моут быть артефакты.
Я обычно прогоняю через 3 модели и потом в аудишне склеиваю лучшие куски как мне надо. Ну и мастеринг, реверб, студио дилей, RX 10. Ручной ебли много, да.
Уже полгода обещают пиздатую-распиздатую RVCv3, но воз пока на месте.
Аноним 30/01/24 Втр 20:54:16 631501 377
>>631352
>тебя видеокарта с объёмом VRAM больше, чем 6гб)
у меня 2 гб, но она из озу отжирает и вроде норм, но чем больше отжирает, тем больше артефактов, странно. вот еще, чем мне не нравится rvc, так это тем, что настроек минимум, документации тоже, никто особо не понимает, как она работает, что конкретно писать в эти x_... итд
Аноним 02/02/24 Птн 05:18:43 633550 378
Почему буквально все нейронки, которые связаны со звуком - протухшее говно мамонта? Постоянно натыкаюсь на то, что все репозитории заброшены уже лет по пять-семь, а авторы пропали без вести. Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.
Аноним 02/02/24 Птн 08:57:42 633583 379
>>633550
Сделай нормально сам.
Аноним 02/02/24 Птн 13:12:34 633704 380
>>633550
>Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.
ну во-первых для винды уже все готово, а для линукса есть conda, не так уж и сложно подобрать версии, я же смог как-то, причем там только один пакет выебистый, насколько я помню

алсо вот, но никто не заценил
>>627218
Аноним 02/02/24 Птн 16:49:44 633828 381
K4vDU3i7ajk.jpg 68Кб, 468x604
468x604
Ну вот, маленько попердел вчера и запилил три Генкиных ковра на аукцыон и один на Леонтьева. Душевно. Ссаными тряпками не кидайтесь, няши.

https://youtu.be/wWISPDmGWic
https://youtu.be/rWM5op1tA1w

Его манера под довольно раслабленный вокал аукцыона не прямо чтоб очень подходит, зато всякие завывания и рррыки прямо заебись, даже специально из живого исполнения вырезал и конвертил.
На очереди одна подходящая данному персонажу шуточная песня Владимира Семёныча, но там нужно сводить уже наконверченый вокал, где хорошие акценты и интонации, с нормальным гитарным фоном из другой записи, то есть хз когда будет.
Аноним 02/02/24 Птн 19:56:43 633930 382
>>633583
Если б я мог нормально сделать - готовое не искал бы.
>>633704
>ну во-первых для винды уже все готово
Ага, конечно.
>но никто не заценил
Они пишут, что нет поддержки ничего, кроме линукса. Даже если заработает, то непонятно как и надолго ли.

Накатил в одно окружение xtts, whisper и рвц. Видеокарту видит только xtts. Переустановил торч с кудой. Рвц заметил видеокарту, xtts всё ещё норм. Виспер такой - какая видеокарта? Нет нихуя. При том что rvc полудохлый, xtts умирающий, в виспер вроде как живой и должен поддерживаться. Ебётся в одно ядро, спасибо, что даже так быстро работает.
Аноним 02/02/24 Птн 20:26:58 633942 383
>>633930
>Ага, конечно.
что ага, качаешь архив, распаковываешь и запускаешь файлик из папки, все работает, все окружение с нужными пакетами уже там, не выёбывайся. даже на дохлом амуде обожекакойпиздец работает. про видеопамять и шаманство с параметрами писали выше

btw когда я сервак арендовывал, проблем не было ни с 2080, ни с 4090, ни с теслой, хотя может потому что они все один и тот же драйвер кушают. там единственная ебля была в том, как pytorch с cuda накатить, но это один раз сделал и забыл
Аноним 02/02/24 Птн 21:58:19 633980 384
>>633942
>и запускаешь файлик из папки
Хуй знает, у меня даже рекваирментс не все поставились автоматом. Да и пути к окружению нужно исправлять. Пока оно там переустанавливалось три раза, уже скачал другой софт и сделал, что хотел, по-другому. Вроде, запускается рвц без ошибок, но использовать пока так и не использовал.

Транскрибировал виспером тысячу+ файлов, текст, озвученный профессиональным актёром на студии, без фонового шума и помех, частота 22050. Идеальные условия, по сути. Отслушал пока сотню, ошибки в 45, причём если на файл две-три ошибки, это всё ещё считается за одного. Нет, это не смолл модель. Что смешно, есть ошибки в одинаковых фразах, но виспер ошибается в разных местах.
Ещё закинул аудио после пары фильтров, небольшой реверб и понижение тона. Где-то вдвое хуже результат, посмотрел десяток файлов, в четырёх даже язык неправильно опознал, без ошибок два. Что будет с фоновыми шумами, страшно представить.
Аноним 03/02/24 Суб 09:28:57 634162 385
yeahteensotests.mp4 17029Кб, 640x480, 00:01:56
640x480
ЕСЛИ У ТЕБЯ ЕСТЬ ТРУДНОСТИ, ТО У ТЕБЯ ЕСТЬ ЦЕЛЬ
Аноним 03/02/24 Суб 11:59:08 634227 386
carapusici.webm 4008Кб, 640x360, 00:01:04
640x360
Хм, а если разделить трек на вокал и музыку в вавках, засунуть вокал в ылэвынлабс, потом отремастерить и заново смиксовать с минусом? Ну какчество явно получше получается.
Аноним 03/02/24 Суб 14:20:23 634284 387
>>634227
>засунуть вокал в ылэвынлабс
Охуеть от количества символов, которые он там у себя насчитал
Аноним 04/02/24 Вск 03:57:52 634831 388
GPU.png 55Кб, 547x168
547x168
Хули с голосовыми нейронками такая боль дырка задница? С картинками проблем нет, с текстом проблем нет. Голос? Пизда. Запустил тренировку coqui-ai/TTS, сожрало всю vram, потом сожрало всю ram, карту ебёт на полшишечки, зато ебёт процессор. Серет ворнингами "депрекейтед" в консоль, что уже вот-вот и эти функции работать перестанут. Ну, думаю, мне-то что, сейчас один раз натренирую, а потом в рот оно ебись. В итоге один хуй отвалилось с ошибкой доступа к файлу.
>PermissionError: [WinError 32] Процесс не может получить доступ к файлу
Походу, у них какой-то долбоёб писал код, из одного потока логи создал, из другого пытается в них писать. В ишьюз нашёл, официальный ответ - мы не поддерживаем шиндовс. Типа в юникс-системах можно открывать один файл из разных потоков и всё будет хорошо.
Повезло, что из конфигов можно поставить один поток для работы, но, учитывая что оно не может работать только на GPU, тренировка будет супермедленная.

Что ещё не превратилось в окаменевшее говно мамонта и быстро делает text to speech? Пока что из всего, что тыкал, реально работает только силеро, но там нельзя добавить свои голоса или как-то это настроить. Кроме питча, лол.
Аноним 04/02/24 Вск 23:10:02 635357 389
Beidoutannerson[...].mp4 4225Кб, 1024x1024, 00:00:20
1024x1024
Первая годная генерация которая у меня вышла, все остальные песни с артефактами и скрежетом. Как вы вытаскиваете из песни вокал так, чтобы нейронка могла его нормально озвучить?
Аноним 04/02/24 Вск 23:24:56 635369 390
Аноним 05/02/24 Пнд 09:38:47 635582 391
>>635369
двачую, давно использую, алсо там можно на инструменты разделить, полезно, если ты сам музыку делаешь

из минусов - оно как-то портит бас и в целом эквализацию музыки, поэтому никакой кавер не будет звучать так же хорошо, как и оригинал
Аноним 06/02/24 Втр 06:44:17 636494 392
xtts.webm 60Кб, 320x240, 00:00:07
320x240
>>634831
Я так понимаю, тред дальше rvc не ходит? Как вы текст в речь-то переводите?
Посмотрел в собаке силеро, у них такотрон и хайфайган, но реализация - моё почтение. Надеюсь, у них код автоматически генерируется, иначе это клиника. Зато понятно, почему на видимокарточке медленнее, везде хардкод cpu.
XTTS на "добавленных" моделях работает из-под палки, всё время норовит отрыгнуть, а родная 1.8гб, если тренировать - сразу улетает за 5 гигов. Работает это всё, очевидно, медленно. И хуёво.
Аноним 07/02/24 Срд 03:39:20 637261 393
327593779179600[...].mp4 275Кб, 640x558, 00:00:09
640x558
>>552016 (OP)
Нужен мой голос. Есть решения RVC для Win 7?
Или платно но не дорого
Аноним 07/02/24 Срд 12:40:52 637376 394
>>637261
>Нужен мой голос. Есть решения RVC для Win 7?
а че, из шапки не работает что-ли?
Аноним 07/02/24 Срд 13:11:36 637389 395
20240207-1010-1[...].mp4 8365Кб, 866x832, 00:00:52
866x832
Аноним 07/02/24 Срд 15:23:15 637438 396
324769806387137[...].mp4 2683Кб, 640x480, 00:01:43
640x480
>>637376
Мне нужно обучить на мой голос
Десктоп Rvc не работает на Виндоус 7. Коллаб зпебывает лимитами Есть альтернативы? Желательно бесплатно
Аноним 07/02/24 Срд 15:56:29 637458 397
>>637438
бесплатно можно найти виндовс 11
Аноним 07/02/24 Срд 17:53:52 637629 398
2024-02-07 17-4[...].mp4 10752Кб, 568x320, 00:00:32
568x320
xxx.png 39Кб, 755x831
755x831
>>637389
Бля, я рилтайм хотел. Чтобы задержки пониже.
Олсо упёрся в ударения и прочее. Что смешно, в более толстожопых решениях ударений нет. Можно из силеро выдернуть, но, опять же, учитывая что это питон, задача та ещё.
Аноним 07/02/24 Срд 19:23:08 637687 399
>>637629
скинь ттску эту и как запускать
Аноним 07/02/24 Срд 19:23:29 637688 400
Аноним 07/02/24 Срд 19:33:36 637697 401
>>637687
https://docs.coqui.ai/en/latest/inference.html
Это вот это. Только они почти везде пишут про подключение сторонних штук типа витса, такотрона и т.д. При этом имеют свою gpt2 модель, которая XTTS_v2.0_original_model. Я гоняю файнтюн этой модели, который по каким-то причинам разожрался до пяти гигов с базовых 1.8 гигабайт. В сетке 16 языков, как выпилить все остальные - хуй его знает, при тренировке указывал, чтобы тренировался только русский, ему поебать.
Аноним 07/02/24 Срд 19:41:35 637707 402
>>637697
можешь нормально объяснить?
Аноним 07/02/24 Срд 19:41:56 637709 403
>>637697
как этим пользоваться
Аноним 07/02/24 Срд 19:51:33 637719 404
>>637707
Создаёшь окружение. Если совсем влом ебаться с питоном, то скачивай анаконду. В неё есть гуй, удобно. Создаёшь там новое окружение, environment. Гонять разные сетки в питоне без разных окружений околоневозможно. Потом запускаешь это окружение, там кнопка плей и жми опен терминал.
https://docs.coqui.ai/en/latest/tutorial_for_nervous_beginners.html
Установка описана здесь. По сути, всё что надо сделать - вбить в консоль
>pip install TTS
Это не даст тебе возможности редактировать файлы самой ттски, но оно тебе надо? Если надо, клонируй гит. Там это тоже есть.
Для генерации вот это
https://docs.coqui.ai/en/latest/inference.html
Скроль до Python 🐸TTS API, спизди весь этот код в файл.
speaker_wav="my/cloning/audio.wav"
Нужно отредактировать, это путь к голосу, который ттс будет пытаться имитировать, любой вав 6-10 секунд. Без него нельзя. И запускай файл.
Аноним 07/02/24 Срд 20:14:18 637740 405
Аноним 07/02/24 Срд 21:08:02 637788 406
>>637438
у меня сервер оплачен и простаивает, кидай исходник, могу обучить
Аноним 07/02/24 Срд 22:02:31 637830 407
>>637719
>спизди весь этот код в файл.
Спиздил. Куда теперь этот файл сувать и как его через анаконду запускать?
Аноним 07/02/24 Срд 22:17:42 637843 408
1.png 13Кб, 496x461
496x461
>>637830
>Куда теперь этот файл сувать
Так проебом вообще.
В анаконде у тебя будет окружение, которое ты создавал и куда установил TTS. Там жмёшь опен терминал. Потом пиздуешь через cd к файлу, который сохранил.
cd C:/my_folder/
Здесь нужно помнить, что если твой файл не на том же диске, что окружение, то есть не на С, то нужно хуярить
cd /d D:/my_folder/
Потом хуяришь в консоль
python my_file.py
У меня файл называется bark.py и лежит в папке D:/tts, то есть в консоль я хуярю
cd /d D:\TTS
python bark.py
Аноним 07/02/24 Срд 22:26:36 637849 409
Аноним 08/02/24 Чтв 10:06:59 638061 410
Как формируете датасет при обучении rvc? Обучал на 20 треках, 200 эпох. 3.3 минуты. Качество записи отвратительное. Нужно не для вокала, а для озвучения текста.
На сайтах пишут разные требования:
> For better quality, try to obtain at least 30 minutes of voice.
> Примерная длина всех аудио от 1 до 30 минут, оптимально от 3 до 10 минут (лучший вариант - 5 минут с большим охватом спектра голоса)

Если дообучать на новых данных, то старые можно удалить? Слышал о перетренировке.
Аноним 08/02/24 Чтв 20:09:01 638359 411
>>637788
А как я буду пользоваться если надо будет что озвучить, тебя снова просить?
Аноним 10/02/24 Суб 23:09:39 639743 412
Хочу натренировать RVC-модель на англоязычном датасете, чтобы потом использовать его на русской говорилке. Ничего, что датасет английский? Нормально получится?
Аноним 11/02/24 Вск 02:10:38 639842 413
>>639743
Должно быть ок. Во втором ОП-пике по идее англоязычная модель была для RVC.
Аноним 11/02/24 Вск 09:50:43 639957 414
Das Demo.webm 17313Кб, 640x360, 00:04:54
640x360
>>634227
>>635369
Попытка перевести так песню целиком.
Аноним 11/02/24 Вск 15:58:03 640083 415
video.mp4 844Кб, 512x288, 00:00:15
512x288
sts-test full.mp4 12667Кб, 1280x720, 00:02:05
1280x720
Аноним 11/02/24 Вск 16:01:37 640089 416
А я всё никак из 1999 не вылезу.
Аноним 11/02/24 Вск 19:36:04 640228 417
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.78 GiB already allocated; 0 bytes free; 2.86 GiB reserved in total by PyTorch)

Чо делать? 1050ti.
Аноним 11/02/24 Вск 20:20:46 640254 418
>>640228
если просто - купить видяху поновее
Аноним 11/02/24 Вск 20:55:11 640267 419
>>640254
Вообще больше вариантов нет? Пробовал заменить 10 кусков по 10 минут на 1 длиной в 5 минут, результат тот же.
На колабе RVC можно тренировать?
Аноним 11/02/24 Вск 21:44:34 640309 420
Аноним 12/02/24 Пнд 20:33:41 640842 421
>>637719
ну все. переставил систему. через пару дней забабахаю для этого гуй
Аноним 12/02/24 Пнд 21:17:33 640877 422
>>640309
Не работает. Заканчивает тренировку на необходимом количестве эпох и пишет:
Файл модели "mi-test" не найден.
При этом пишет, что промежуточные результаты при достижении n-ной эпохи сохранены, но в директории их нет.
Вот кусок кода, ответственный за сохранение:
https://pastebin.com/0K8qFQVG
Видимо баг, не позволяющий создать директорию, потому что в Output нет папки Weights.

Есть ли другие варианты?
Аноним 13/02/24 Втр 03:46:01 641136 423
Привет аноны, гость с издача в вашем треде
А вот эти ваши сетки можно как-то использовать для того чтобы аудиокнигу записать?
Аноним 13/02/24 Втр 06:55:01 641164 424
>>641136
А мне наоборот - чем быстро преобразовать кучу записей из многомногочасовых файлов в текст? Желательно чтоб работало без инета, идеально распаршивало хоть 20 спикеров на разных языках с качеством "диктофон в туалете" и помечало тайминг.
тупо хочу найти в записях нужные слова, чтобы не перелопачивать всё вручную
Аноним 13/02/24 Втр 07:04:13 641166 425
>>640877
хмммм. недавно тренил норм было все
Аноним 13/02/24 Втр 07:05:12 641167 426
>>641136
да, можно конечно. Сначала ттс книгу эту в речь преобразовываешь а потом через рвс и все
Аноним 13/02/24 Втр 07:12:45 641169 427
Аноним 13/02/24 Втр 12:39:35 641297 428
Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.

Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?
Аноним 13/02/24 Втр 14:53:51 641412 429
>>641297
> Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.
Можешь рассказать, в чём его плюсы? Я его пробовал ставить, кроме различий по стилям и возможности выставлять эпохи выше 1к ничего не заметил.

> Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу, есть такая тулза чтобы одним кликом это делать - https://github.com/daswer123/silero-rvc-tts-ru-gui Я не видел проектов TTS, где были бы готовые скрипты для тренировки своих голосов. Может кто-нибудь другой знает.
Аноним 13/02/24 Втр 15:09:35 641422 430
>>641167
А есть клиенты для этого типо webui?
Аноним 14/02/24 Срд 07:15:52 642000 431
Аноним 14/02/24 Срд 13:03:00 642131 432
ugly.webm 5888Кб, 640x360, 00:04:43
640x360
2000.webm 5977Кб, 640x360, 00:04:59
640x360
Аутизм с песнями задом наперёд можно поднять на новый уровень.
Аноним 16/02/24 Птн 07:47:55 643216 433
Der Tick.webm 16035Кб, 640x480, 00:03:22
640x480
Аноним 16/02/24 Птн 13:24:09 643339 434
>>641412
Да это тоже самое просто там есть экстрактор mangio crepe

Если датасет качественный то он дает результаты намного намного лучше rmvpe. Ну а если неочень датасет то впе лучшее решение.

Ну и просто коллаб прописан намного лучше. Он на английском и очень удобный. Я видел колаб RVC он был на кеитайском и я в ужасе закрыл.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Аааааа теперь я понял.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Слушай а в TTS же задача намого шире чем RVC. А какого рода тренировках значит идет речь? Файн тюнинг под другой язык?

Я ктому что явно у TTS моделей ограниченное количество токенов в понимании. Значит он можно воспринимать текста только с натреннированных языков?
Аноним 17/02/24 Суб 18:27:00 644267 435
>>552016 (OP)
Сап аноны
А есть че для STT что может в потоковом режиме голос с микро в текст преобразовывать?
Аноним 17/02/24 Суб 18:27:49 644269 436
>>644267
Бля, забыл добавить, имеется ввиду локально, у себя на компе
Аноним 18/02/24 Вск 04:19:02 644764 437
1.mp4 1565Кб, 640x360, 00:00:58
640x360
2.mp4 1993Кб, 640x360, 00:00:58
640x360
3.mp4 715Кб, 360x360, 00:00:58
360x360
4.mp4 7578Кб, 480x360, 00:01:56
480x360
А что если распарсить идиш как немецкий...
Аноним 18/02/24 Вск 21:39:18 645662 438
image.png 85Кб, 1000x1000
1000x1000
Кто-нибудь делал успешно клон своего голоса для генерации озвучки английского текста в ElevenLabs? Может есть какие-то неочевидные моменты или годные советы?
Аноним 19/02/24 Пнд 14:07:52 646222 439
>>645662
Делал для озвучки на русском, но не своего голоса.
Единственный совет качество источников голоса важнее их количества.
Речь свою наверное лучше записывать естественную, как если бы ты с кем-то говорил, а не монотонное чтение чего-либо, так как Елевенлабс копирует и манеру речи.
Аноним 21/02/24 Срд 17:55:15 647952 440
Есть тут кто-нибудь кто tts на русском языке тренил?
Аноним 21/02/24 Срд 20:30:50 648084 441
>>645662
Натрень tacotron модельку просто
Аноним 22/02/24 Чтв 22:40:15 649268 442
Аноним 22/02/24 Чтв 23:04:33 649288 443
Уважаемые, с weights.gg голоса скачать можно?
Аноним 23/02/24 Птн 07:56:02 649457 444
Аноним 23/02/24 Птн 10:23:02 649496 445
11wtf.png 9Кб, 794x229
794x229
Всё, пиздарики, плоти регься подписька? Сколько раз ни пробовал, через что только ни стучался, даже тор - резко раз и ни в какую. В обед вчера обработало последний файл и теперь постоянно вот это говно вылазит, хоть какой файл подсунь, даже самый мелкий.
Аноним 23/02/24 Птн 13:44:32 649612 446
>>649457
А как? Мне предлагает только через сайт с голосом работать, а скачать не предлагает.
Аноним 23/02/24 Птн 14:16:44 649631 447
image.png 114Кб, 1049x269
1049x269
Аноним 23/02/24 Птн 15:00:09 649674 448
>>649268
https://github.com/SYSTRAN/faster-whisper
Они выходит вот это в exe упаковали? Смущает, что у проекта из твоего поста никаких сорцов нет. Или не там смотрю?

Хотя автор проекта faster-whisper в своём readme его упоминает как "Standalone CLI executables of faster-whisper for Windows, Linux & macOS".
Аноним 23/02/24 Птн 15:34:42 649695 449
.png 40Кб, 1018x222
1018x222
.png 41Кб, 626x522
626x522
>>649268
https://github.com/ggerganov/whisper.cpp
От жоры кстати не имеет смысл упомянуть версию? Или оригинальное решение от OpenAI + https://github.com/Purfview/whisper-standalone-win будет достаточно?

Добавил инфу об этом варианте whisper'а в шаблон и в вики:
https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
https://2ch-ai.gitgud.site/wiki/speech/#распознавание-речи-stt
Аноним 23/02/24 Птн 18:28:27 649841 450
>>552016 (OP)
>надо было ставить линукс
А есть ли ещё какая-то версия этой песни с ИИ голосом Линуса? Мне кажется я раньше слышал другую версию где-то.
Аноним 23/02/24 Птн 20:11:47 649924 451
Анон, просвети ньюфага. Вот если у меня есть только пожелания для песни (например, романтичная песня про линукс) - это в Suno Chirp. Если у меня есть только текст песни, то это туда же - мотив и музыку оно само подберëт.

А теперь задача посложнее. У меня есть минусовка (допустим, "Светит незнакомая звезда") и переделанный текст-пародия ("Глючит незнакомая винда"). Какая нейронка может мне его спеть на заданную музыку? Suno Chirp не может...
Аноним 24/02/24 Суб 15:51:37 650580 452
>>413975
Нету там нихуя. Бля, лень самому генерить, да и мощностей нету, есть у кого Денис Беспалый RVC?
Аноним 24/02/24 Суб 15:52:44 650581 453
Аноним 24/02/24 Суб 16:05:26 650599 454
Аноним 24/02/24 Суб 16:29:02 650629 455
Что скажите по поводу использовал TTS для ютуб канала? Говно или уже норм?
И что лучше использовать? ElevenLabs?
Аноним 24/02/24 Суб 16:37:37 650648 456
>>650629
Я лично юзаю свой голос и через нейронку его обрабатываю, в итоге результат вроде и ты говорил, но понять что это был ты только через манеру речи, а так слышится норм.
Аноним 24/02/24 Суб 22:35:18 650964 457
>>650648
А через какую нейронку ты обрабатываешь голос?
Аноним 24/02/24 Суб 22:51:00 650979 458
Проплатить elevenlabs можно только через всякие платисру с большой наценкой?
Аноним 25/02/24 Вск 02:14:24 651151 459
есть гайд по обработке голоса перед кавером?
если в песне источнике голос с эхом или ревёрбом, то RVC делает звук говна. нужен именно гайд как в аудишне сделать голос "плоским" что ли, не знаю как правильно по терминологии, чтобы не было эхо, шумов на занем фоне. пробовал разные аи энхансеры, чуть лучше но всё равно говно выходит.
Аноним 25/02/24 Вск 03:16:08 651177 460
>>651151
Универсального метода нет, всё зависит от того как был сведён исходник. В некоторых случаях хорошо работает Center Channel Extractor (тоже самое, что vocal remover, только наоборот)
Аноним 25/02/24 Вск 12:04:22 651361 461
>>651177
>Center Channel Extractor (тоже самое, что vocal remover, только наоборот)
не наоборот, это работает только если инструменты сильно разведены по панораме, что делается далеко не всегда, ну и как можно догадаться, метод весьма примитивный и звучит как говно.

vocalremover org работает лучше, но жопит нч и вч, так что тут только идти на компромиссы остается
Аноним 25/02/24 Вск 22:27:59 651851 462
>>650648
>юзаю свой голос и через нейронку его обрабатываю
Английский/русский?
Аноним 26/02/24 Пнд 12:38:30 652171 463
image.png 90Кб, 1571x793
1571x793
>>650964
на фотке скинул
>>651851
Что английский, что русский, причем модели спокойно что тот, что этот язык обрабатывают (в большинстве случаев)
Аноним 26/02/24 Пнд 17:27:35 652413 464
Какие есть на данный момент лучшие варианты для TTS и STS, для БЫСТРОЙ генерации? Важно именно время генерации
Аноним 26/02/24 Пнд 17:28:10 652414 465
>>652413
Для англюсика, кстати, но не помешает и если будет русский
Аноним 26/02/24 Пнд 17:29:35 652415 466
Аноним 26/02/24 Пнд 18:10:34 652465 467
Есть ли TTS с возможностью манипулировать эмоциональным тоном в разных частях текста?
Аноним 26/02/24 Пнд 19:01:32 652519 468
Аноним 26/02/24 Пнд 20:19:04 652581 469
>>555243
Так, падажи. А подскажи вот что. У меня есть 30 минут голоса. Я хочу натренировать модель и потом писать текст и чтобы он озвучивался натренированым голосом. Я так понимаю что это не про RVC ?

Глобально задача такая - хотелось бы (не знаю есть такое или нет) качнуть локально голосовую нейронку, типа как качаешь локально SD или Foooocus, тренируешь модель и потом пишешь текст и оно локально тебе генерит голос. Не хотелось бы все это в облаках делать. Вижу что есть какая-то ебала с тем, что одна сетка только голос меняет, другая еще что-то, третью надо в облаке хуярить и т.д. Может в курсе?
Аноним 27/02/24 Втр 14:42:12 653260 470
>>652581
Есть XTTS, который по небольшой записи может делать синтез по тексту напрямую нужным тебе голосом. Я его мало тестил, мне не особо зашло, хотя многие нахваливают.
Спейс на хаггине: https://huggingface.co/spaces/coqui/xtts

В случае с RVC тебе действительно придётся использовать две разных сетки, так как RVC может преобразовывать голос только в уже существующей записи. Из-за этого сперва надо сгенерировать запись по тексту на любом голосе. Из локальных сеток для такой задачи мне больше всего зашла SileroTTS, из халявных облачных EdgeTTS (Edge явно лучше Silero работает). У Silero ещё проблема в том, что на русскоязычных голосах он не может англоязычный текст озвучивать.

Потестить их в онлайне можно здесь:
https://huggingface.co/spaces/NeuroSenko/tts-silero
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

> пишешь текст и оно локально тебе генерит голос
Есть несколько проектов, которые реализуют конвеер с синтезом по тексту на одной нейронке, и потом приводят их к нужному голосу через RVC. То есть под капотом используются две разных нейронки, но тебе не нужно между ними вручную переключаться. В этом треде такую тулзу кто-то использовал:
https://github.com/daswer123/silero-rvc-tts-ru-gui
Аноним 27/02/24 Втр 14:46:15 653266 471
>>653260
Большое спасибо. Странно что с голосовыми такая ебала, но думаю и до них дойдет прогресс
Аноним 27/02/24 Втр 18:25:19 653437 472
>>552016 (OP)
>Как обучить свою RVC-модель?

Сделал все по инструкции, но вот что интересно, оно пишет, например :
Train Epoch: 33 [58%]

А почему не 100%? Или так и должно быть? Каждая эпоха должна быть соточка или у них там свой мир и свои цифры?

Попробовал промежуточную модель (после примерно 20 или 25 эпох) работает более менее исправно. Голос в RVC меняет, но отдает роботическим пердежом. Попробую пройти все 200 эпох, может будет лучше.
Аноним 27/02/24 Втр 18:40:26 653459 473
>>653437
так это от общего процента так то. 58% от всех эпох. короче забей. это норма
Аноним 27/02/24 Втр 22:30:29 653702 474
Аноним 27/02/24 Втр 22:52:35 653730 475
>>552016 (OP)
Натренил модель в RVC. Если просто чисто один голос и никаких шумов, вздохов и прочей хуеты, RVC все хорошо меняет. Но если есть что-то посторонее, то просто распидорашивает все, оно прямо все звуки пытается заменить что ли голосом? То есть если мне надо заменить голос, то его придется чистить от всего?
Аноним 27/02/24 Втр 23:22:44 653778 476
>>566224
Так ты сам написал
> speech to speech пока только на английском.
Аноним 27/02/24 Втр 23:40:58 653799 477
>>583662
Название этой чудо нейронки в студию, пожалуйста!
Аноним 28/02/24 Срд 06:52:22 653985 478
>>653730
Да, всё верно. Для разделения трека на голос/остальное есть такие решения:
Онлайн: https://vocalremover.org
Оффлайн-UI с поддержкой кучи нейронок для данной задачи: https://github.com/Anjok07/ultimatevocalremovergui

https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6
Для последнего в секции релиза можно качнуть сразу архив со всеми зависимостями, чтобы не надо было вручную питон и прочее настраивать.
Аноним 28/02/24 Срд 16:59:17 654265 479
>>649496
Бамп. Пробовал на другом железе, подождать день, два, три - бесполезно, сразу после попытки загрузки webm - тот же самый Workspace None not found. Не гуглится по этому вообще ничего, в новостях про elevenlabs тоже молчок. Это что, шедоубан какой-то?
Аноним 29/02/24 Чтв 14:13:16 654878 480
image 50Кб, 933x470
933x470
image 166Кб, 948x374
948x374
Сап, нейрач.
Нужно менять голос в реалтайме.

Парни, где найти обстоятельный гайд по Voice Changer'у или RVC с данной задачей, чтоб прям было написано куда жать и что делать?
В шапке никакого гайда нет (пикрил)
В нейронках полный нубас, ничего не запускал ни разу.
Аноним 29/02/24 Чтв 23:31:12 655272 481
Есть ттс куда можно добавить словарь, что бы ттс нормально зачитала? Хочу себе аудиокнигу сделать
Аноним 01/03/24 Птн 00:55:57 655376 482
>>552016 (OP)
нужен гайд или нейронка чтобы можно было легчайшим способом сделать простую модель двух голосов и чтобы эта нейронка распознавала текст в сэмпле
мне надо видос сделать с текст ту спичем но чтобы основная часть была из оригинала наверн ну или максимально приближенная к оригиналу
самый быстрый варик это елевен лабс но там надо шекели платить каким то хуесосам а я не хочу у меня нет денег я нищий уебан
знаю что я быдло но тяга к творению у меня с рождения извините элитарии потерпите
Аноним 01/03/24 Птн 11:28:30 655545 483
Сап двач!
Хотел сделать аи кавер где персонаж из сериала поёт под один трек, прогонял акапеллу несколько раз через rvc с разными зипками этого персонажа но всегда получалось кринжовое говно с артефактами...
Трабл в том что сама капа из трека всратоватая по качеству и походу из за этого нихуя не выходит годно сделать.
Можно как-то отдельно записать как персонаж зачитывает текст и потом протюнить это всё под тон трека?
Аноним 03/03/24 Вск 01:00:48 657014 484
>>642000
а как туда поставить другой голос/найти другие голоса?
Аноним 03/03/24 Вск 07:47:20 657116 485
>>657014
я поставил все русские. другие голоса только пиндосские. создать низя такие вот ттс(
Аноним 03/03/24 Вск 20:05:48 657513 486
>>657116
А этот голос никак к ней нельзя присобачить?
(Но в целом спасибо тебе человек за сделанную тобой работу, очень благодарен) Просто, быстро, понятно и без ебли)
Аноним 03/03/24 Вск 20:06:18 657515 487
Аноним 03/03/24 Вск 20:30:26 657537 488
Аноним 03/03/24 Вск 22:57:57 657699 489
Аноним 04/03/24 Пнд 01:01:58 657775 490
>>654878
БАМП РЕКВЕСТУ, чуханы.
Аноним 04/03/24 Пнд 07:08:52 657871 491
>>657699
то голоса рвсшные а тут ттс. конечно же ты можешь делать как я . озвучивать в ттс текста а потом прогонять через рвс с нужным голосом
Аноним 04/03/24 Пнд 18:19:18 658218 492
В краю древних [...].mp4 2139Кб, 512x768, 00:01:20
512x768
Вот скажите, это разве Clear and high voice (написано в промте)? гавно какое то
Аноним 04/03/24 Пнд 20:02:21 658368 493
xttsv2-banana-f[...].webm 7519Кб, 1544x840, 00:02:06
1544x840
Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек.

- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.

Веса: https://huggingface.co/Ftfyhh/xttsv2_banana
Аноним 04/03/24 Пнд 20:08:32 658380 494
image 68Кб, 544x630
544x630
>>564287
>>566224
Как ты это сделал в элевенлабсе? Платный акк?
С бесплатным не даёт такого.
Аноним 06/03/24 Срд 14:32:29 661502 495
>>658368
Офигенно, анон. Не помню, чтобы тут кто-то ранее тьюны TTS-моделей делал. Ты в какой среде тренил - шинде, wsl или на никсах? Что-то на винде у меня проблемы с запуском, билд-тулзы не видит. Буду на wsl пробовать.
Аноним # OP 06/03/24 Срд 14:35:16 661506 496
Есть предложения по правкам шапки до переката?

В вики надо будет инфу про styletts2 и тьюн XTTS докинуть.
Аноним 06/03/24 Срд 14:44:35 661518 497
>>658368
> для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.
Анон, такой вопрос появился - а не думал попробовать расширить датасет синтетикой? Обучить на том же датасете RVC-модель, взять любую речь с готовыми титрами, перегнать её к нужному голосу и дообучить на этом результате?

Я просто хочу взять датасет с голосом моей аниме-вайфу (на японском) и русскоязычную TTS-модель на этом сделать. В моём случае это, кажется, единственный вариант.
Аноним 06/03/24 Срд 15:41:08 661623 498
>>661506
предложений нет. делай перекат
Аноним 06/03/24 Срд 19:11:09 662072 499
>>661506
Где ссылка на одиннадцать лаборатория?
Аноним 06/03/24 Срд 19:12:24 662075 500
>>662072
А нахуй она нужна? RVC во всем лучше, если у тебя комп не нищий
Аноним 06/03/24 Срд 23:46:45 662435 501
>>662075
>>662072
Тогда, вероятно, стоит добавить ссылки и на прочие проприетарные системы с краткой инфой, раз по ним тоже контент в тред кидают. Я их мало смотрел, есть что добавить?

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>495948 (OP)
Аноним 07/03/24 Чтв 07:08:13 662628 502
aggressive scie[...].mp4 5291Кб, 1152x720, 00:00:01
1152x720
>>662435
Можешь мемес в шапку добавить.
Аноним 07/03/24 Чтв 16:25:54 663142 503
Аноним 07/03/24 Чтв 16:35:10 663167 504
Насколько RVC сложнее для генерации голоса чем Elevenlabs, особенно без мощного компьютера?
Аноним 07/03/24 Чтв 16:59:16 663201 505
>>663167
ну хз. моя 1050 ти генерирует аи кавер за время аудио+1-2 минуты.
Тебе что надо? РВС только для того чтоб модели обучать или юзать. речь ты там не сгенерируешь. только голос преобразуешь. Генерировать речь эт нужно сначала в ттс а потом в рвс с моделью. Обучаешь модель(что можно сделать онлайн) и делаешь нужное аудио. профит
Аноним 07/03/24 Чтв 17:22:24 663259 506
>>658368
Всё звучит как всратый робот, че тут офигенного.
Но продолжай делать, будет лучше.
Аноним 07/03/24 Чтв 20:59:23 663553 507
>>661502
Тренировал в Win11. Проблем с софтом не было, все завелось с первого раза. Обнови репозиторий xtts, вдруг поможет.

>>661518
> расширить датасет синтетикой
Моя цель была сделать голос более живым, а тут, скорее, будет обратный эффект.
> аниме-вайфу
Простое клонирование голоса в XTTS не дало нужного эффекта? Закинь 10 секунд ее голоса в xtts на японском и попроси говорить на русском.
Аноним 07/03/24 Чтв 21:26:34 663596 508
>>663201
>Тебе что надо?
Как раз генерация речи. Приходится для этого оплачивать каждый месяц подписку в ElevenLabs, хотя там раз на раз не приходится и часто получается немного шлака среди хорошего материала, а на всё это уходят ограниченные символы
Аноним 08/03/24 Птн 01:25:57 664096 509
.png 141Кб, 562x564
562x564
ПЕРЕКАТ Аноним # OP 08/03/24 Птн 02:46:36 664166 510
Аноним 08/03/24 Птн 07:15:08 664235 511
>>664096
так в видосе обучалка только. а по ссылке скрипт
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов