Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 537 106 79
Stable Diffusion технотред #14 /tech/ Аноним 14/11/23 Втр 03:20:33 543635 1
1662868715940.png 979Кб, 3510x2910
3510x2910
1601073061548.png 358Кб, 2546x1822
2546x1822
1553267043386.png 271Кб, 1853x624
1853x624
1669230494077.png 545Кб, 2440x934
2440x934
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются

Предыдущий тред: >>532447 (OP)

➤ Софт для обучения

https://github.com/kohya-ss/sd-scripts
Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах.
Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss

➤ GUI-обёртки для sd-scripts

https://github.com/bmaltais/kohya_ss
https://github.com/derrian-distro/LoRA_Easy_Training_Scripts
https://github.com/anon-1337/LoRA-train-GUI

➤ Обучение SDXL

https://2ch-ai.gitgud.site/wiki/tech/sdxl/

➤ Гайды по обучению

Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.

LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам:
https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов
https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA
https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)

LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге:
https://github.com/KohakuBlueleaf/LyCORIS

Подробнее про алгоритмы в вики https://2ch-ai.gitgud.site/wiki/tech/lycoris/

Dreambooth – выбор 24 Гб VRAM-бояр. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://rentry.co/lycoris-and-lora-from-dreambooth (англ.)
https://github.com/nitrosocke/dreambooth-training-guide (англ.)

Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet:
https://rentry.org/textard (англ.)

➤ Тренировка YOLO-моделей для ADetailer:
YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.

Подробнее в вики: https://2ch-ai.gitgud.site/wiki/tech/yolo/

Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.

➤ Гугл колабы

﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA [1] https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-trainer.ipynb
﹡LoRA [2] https://colab.research.google.com/drive/1bFX0pZczeApeFadrz1AdOb5TDdet2U0Z

➤ Полезное

Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.)

Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)

Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
https://rentry.org/2ch_nai_guide#апскейл
https://rentry.org/UpscaleByControl

Коллекция лор от анонов: https://rentry.org/2chAI_LoRA

Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdgoldmine
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/gayshit/makesomefuckingporn

➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией

https://2ch-ai.gitgud.site/wiki/tech/legacy/

➤ Прошлые треды

https://2ch-ai.gitgud.site/wiki/tech/old_threads/

Шапка: https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/
Аноним 14/11/23 Втр 10:31:20 543746 2
Перекатил вопрос.
Почему всякие гайды по обучению лоры на определенный ебальник (одного человека) рекомендуют использовать 10-30 фото? Разве закинуть 100-200 фото не лучше для обучения?
Аноним 14/11/23 Втр 10:41:52 543750 3
>>543746
Принцип необходимости и достаточности
Аноним 14/11/23 Втр 12:55:38 543818 4
>>543746
ты б еще спросил почему в зерошот моде достаточно 6 ебальников
Аноним 14/11/23 Втр 13:37:15 543828 5
https://huggingface.co/collections/ptx0/terminus-xl-65451893a156b3b1d1456514
Я непонел шоэта? Файнтюн или модель с нуля? Он так пишет будто с нуля тренил.
>Terminus XL Gamma is a new state-of-the-art latent diffusion model that uses zero-terminal SNR noise schedule and velocity prediction objective at training and inference time.
>Terminus is based on the same architecture as SDXL, and has the same layout. It has been trained on fewer steps with very high quality data captions via COCO and Midjourney.
Аноним 14/11/23 Втр 14:31:36 543855 6
Я просто не могу использовать влад автоматик или а1111, на амуде 7900 в убунту крашится драйвер на мгновение, и все графические программы перестают работать до полной перезагрузки
Комфи работает, но не нравится он мне. Признайтесь, у кого на амуде 7900 все работает, и можно генерировать два часа, какие версии, какие гайды?
Аноним 14/11/23 Втр 14:40:54 543857 7
>>543855
У меня есть товарищ, казуал полный,и ставить ручками эти ваши питоны-диффузеры в рот ебал, так что скачал уан-клик-инсталл модную молодёжную оболочку для нейросетей: https://github.com/LykosAI/StabilityMatrix
У неё внутре неонка Комфи, но интерфейс белого человека, а не макаронного монстра. На интерфейс комфи тоже можно переключиться в случае чего, обычным заходом по айпи.
Аноним 14/11/23 Втр 14:44:26 543858 8
А вообще я бы охлаждение проверил и мб андервольтинг сделал у видюхи.
Аноним 14/11/23 Втр 15:07:39 543878 9
>>543746
Все зависит от задачи. Если цель - буквально воспроизводить фейс с минимальным изменением ракурса то такого вполне достаточно и заодно упростит подготовку датасета. Если нужно что-то более сложное или генерация остального тела то больше фоток предпочтительнее, с другой стороны здесь качество важнее количества.
А так кто знает этих шизохайперов с их вбросами и ахуительными историями. Будет неудивительно если братишки продемонстрировали где-то в статье саму возможность такого обучения, не задумываясь об оптимизации результата, а дурень увидев это принял за абсолютную истину и всюду тащит.
>>543828
Файнтюны офк.
>>543855
Логи хоть глянь что с драйвером ним происходит.
Аноним 14/11/23 Втр 15:38:49 543908 10
>>543878
>Логи
Не знаю, полез, и уже 20 минут нет вылетов. Нечего добавить. Блин, а вчера ни одного нормального рана не было. Ладно, пока закрываю тему
>>543857
Спс, гляну. Насчет параметров видюхи, нашел Corectrl, но в нем как-то криво настраивается, не рискну трогать
Аноним 14/11/23 Втр 15:50:47 543916 11
>>543878
> Файнтюны офк.
Нет, это именно обученные с нуля модели на архитектуре SDXL. Но так как у них всратый датасет, то они соответственно нихуя не могут.
Просто технодемка для проверки технологий.
Аноним 14/11/23 Втр 15:57:49 543925 12
>>543916
А зачем тогда? Как тренить модели уже известно, ничего нового. У них там линки на скрипты для файнтюна, в них что-то такое особенное - уникальное?
Применение zero-terminal SNR не ново и есть и на 1.5. Последовательный тренинг xl в разрешениях с 512 до 1024? Ну наверно норм, честно хз как тренилась оригинальная модель, сразу или с повышением. В чем суть то?
Аноним 14/11/23 Втр 16:17:48 543941 13
>>543925
Ну очевидно что это попытка попробовать к чему приведёт
>very high quality data captions
>zero-terminal SNR noise schedule and velocity prediction objective
в архитектуре SDXL.

Это просто следствие того что цены на тренировку фундаментальных моделей резко упали (пиксарт альфа, DiT уже тренировали за копейки), вот уже отдельные энтузиасты балуются.

>Применение zero-terminal SNR не ново и есть и на 1.5.
В SDXL они не осилили ни ztsnr, ни vpred. По каким-то техническим причинам, кажется. Этот чел вот делает.
Аноним 14/11/23 Втр 16:29:55 543955 14
>>543941
> По каким-то техническим причинам, кажется.
Вот это довольно странно, учитывая что в 2.х оно было. Возможно xl на самом деле старше чем 2.х и начала трениться до ее релиза.
На 1.5 эти вещи относительно легко добавляются файнтюном базовой модели, велика вероятность что здесь сработает тот же трюк.
Другое дело что тренировка с нуля отличается, написано о предпочтительности обширного и разнообразного датасета в начале тренировки, а смещение к качеству и усложнение наилучшим образом работает уже на более поздних ее этапах. Пока что их результат это подтверждает и усложняет оценку остального.
Кстати кто-нибудь на xdxl пробовал будку запускать, оно вообще реально без A100?
Аноним 14/11/23 Втр 16:31:57 543958 15
image.png 958Кб, 2080x1091
2080x1091
>>543908
Далеко не уехал. В гугле нашел открытые проблемы, пишут про разные причины
ERROR MES failed to response msg=14
[drm:mes_v11_0_submit_pkt_and_poll_completion.constprop.0 [amdgpu]] ERROR MES failed to response msg=2
amdgpu: failed to add hardware queue to MES, doorbell=0x1216
amdgpu: MES might be in unrecoverable state, issue a GPU reset
Аноним 14/11/23 Втр 16:39:38 543963 16
Аноним 14/11/23 Втр 16:44:12 543967 17
Аноним 14/11/23 Втр 16:54:53 543977 18
Аноним 14/11/23 Втр 16:58:42 543979 19
Аноним 14/11/23 Втр 18:21:00 544033 20
>>543977
Почему доступ только через api
Аноним 14/11/23 Втр 18:27:05 544043 21
>>543967
Без gradient_checkpointing выходит не заведется? Припоминаю что оно раза так в 1.5 скорость резало или даже больше.
>>543977
А сами веса где?
Аноним 14/11/23 Втр 19:54:26 544113 22
>>544033
>>544043
SAI всегда сначала через апи дают пробовать, потом уже релизят веса
Аноним 15/11/23 Срд 02:19:45 544399 23
>>543977
а сдхл это что было тогда?
Аноним 15/11/23 Срд 02:53:47 544410 24
>>543967
Так, а на kaggle, если дают две Т4? accelerate, все дела?
Аноним 15/11/23 Срд 02:55:05 544411 25
>>543977
Шта? Полторашка победила??
Надеюсь, что все штуки с когеренцией на высоких разрешениях они вынесли в отдельные слои. Чтобы с существующими миксами было проще мёржить.
Аноним 15/11/23 Срд 06:30:27 544449 26
>>544043
> Без gradient_checkpointing выходит не заведется?
Не хватит памяти
Аноним 15/11/23 Срд 06:35:11 544450 27
>>544043
>>544449
> gradient_checkpointing
Ужасная вещь, пробовал с этим сделать лору, да, потребление памяти ниже чуть ли не в 2.5 раза, скорость всего в 1.5-2 раза была ниже, но не запомнилось практически ничего. У вас получалось с этим параметром удачно натренить что нибудь?
Аноним 15/11/23 Срд 14:37:32 544661 28
bandicam 2023-1[...].mp4 10387Кб, 1120x624, 00:01:09
1120x624
Есть 2 папки: с небольшим проверочным датасетом и классификационными картинками. Выставляю какие то настройки, Изображения классов на изображение экземпляра ставлю на 20, нажимаю Тренироваться - хуяк, please check your dataset directories. Что? Чего блядь? Нажимаю ещё раз Тренироваться - начинается генерация классификационных картинок.. У меня же блядь уже есть эти картинки, хули ты сука их генерируешь. Мне кажется этот dreambooth вообще не видит, что у меня есть какие-то изображения хоть в одной хоть в другой папке, всё максимально криво, во время обучения он выдает картинки которые вообще не о том, какая то потрескавшаяся штукатурка, мусор, подобие карты местности, но только не портреты людей.
Давайте помогайте кто шарит, спасайте.
Аноним 15/11/23 Срд 14:45:05 544666 29
bandicam 2023-1[...].mp4 3022Кб, 1120x624, 00:00:39
1120x624
Вот такая хуйня высирается
Аноним 15/11/23 Срд 17:53:09 544829 30
>>544661
Папка с изображениями должна называться %количество повторений%_%название концепта%, например 10_proverka
Закидываешь изображения/подписи в папку, например d:\mygreatlora\10_proverka и указываешь путь датасета d:\mygreatlora
Аноним 15/11/23 Срд 18:11:22 544844 31
>>544829
А папку с классификационными картинками с подписями как размещать?
Аноним 15/11/23 Срд 18:27:06 544856 32
image.png 727Кб, 512x512
512x512
image.png 56Кб, 640x480
640x480
>>544829
Перекинул папки на жесткий диск с рабочего стола, теперь вроде видит классификационные картинки, по крайней мере не пытается их заново генерировать, первая генерация выдала это. В чем проёб?
Аноним 15/11/23 Срд 18:32:22 544860 33
image.png 710Кб, 512x512
512x512
image.png 66Кб, 640x480
640x480
Нихуя не получается
Аноним 15/11/23 Срд 19:45:47 544918 34
Как sdxl лоры на персонажей в сравнении с 1.5 кто-нибудь сравнивал?
Аноним 15/11/23 Срд 19:47:33 544920 35
>>544918
2d если конкретно
Аноним 15/11/23 Срд 20:18:49 544984 36
>>544661
> с небольшим проверочным датасетом
Это тут не поможет. Про структуру папок вроде сказали, ну и пользуйся кохой а не встроенным костылем автоматика, там все сильно лучше.
>>544856
Пережарил, лр снижай.
Аноним 16/11/23 Чтв 01:52:43 545228 37
Анон, это кабздец. У меня нет апстрима. Я линуксоид во втором поколении, больше 10 лет на убунте. Я не могу жить без апстрима. Это неправильно.

Ты, может быть, меня вспомнишь. Может быть, я тебе уже даже надоел. Я треню DreamBooth на колабе от ShivamShrirao, основательно так перепиленном под мои нужды. Треню редко, в среднем раз в неделю. Не так много того, что мне хочется иметь, а датасеты собирать долго.

Так вот, у меня нет апстрима. Совсем. Шивам забросил своё поделие. Попытка воткнуть вместо его скрипта официальный, из диффузерсов - провалилась. Слишком большое расхождение. Шивам в своё время вообще не пуллреквестил, и в результате многие нужные опции реализованы совсем иначе - в его форке и в диффузерсах. Я пытаюсь сейчас всё это бэкпортнуть, но... но... диффузерсы категорически скептически настроены против того, чтобы принимать новые фичи! Вообще! Никто этого не хочет. Коха? Последний коммит 7 месяцев назад. ЛастБен? Что-то в том же духе.

Наверное, я обречен вечно страдать без апстрима. Это кара за жажду обладания тем, что мне не принадлежит.
Аноним 16/11/23 Чтв 15:32:41 545601 38
1000066386.png 114Кб, 256x256
256x256
1000066385.png 116Кб, 256x256
256x256
Аноним 16/11/23 Чтв 15:35:12 545603 39
>>545601
О, кстати, в автоматике в отдельной ветке реализовали
Аноним 16/11/23 Чтв 15:51:36 545612 40
>>545601
А ты быстрый. Это говно уже успели обоссать 10 раз, в автоматике передумали делать его потому что хуже обычного VAE.
16/11/23 Чтв 18:38:58 545712 41
1000066390.jpg 209Кб, 1866x915
1866x915
Аноним 16/11/23 Чтв 19:06:15 545743 42
>>545712
Это всё ещё не полноценная реализация семплера, я в прошлом треде кидал сравнение с этим обрубком. По качеству всё ещё лучше частичное LCM использовать, так хоть негативы будут работать.
Аноним 16/11/23 Чтв 21:11:22 545819 43
>>545743
Негативы отрубаются при cfg 1.0
Аноним 16/11/23 Чтв 21:13:08 545821 44
>>545601
Жрёт память люто, проблемы полностью не фиксит. Вердикт: в печь. Банальные хайрез фиксы, деталеры, и прочие двухпроходные трюки работают быстрее, лучше, экономичней.
Аноним 16/11/23 Чтв 22:59:45 545907 45
image.png 26Кб, 576x269
576x269
Пасаны, как лечить эту хуйню? Походу из за этого у меня dreambooth не работает, восклицательные знаки явно не просто так выставились.
Аноним 17/11/23 Птн 00:57:42 546016 46
Возвращениеблуд[...].jpg 86Кб, 720x544
720x544
Купил 3060, по бенчмаркам на англоязычных сайтах она выдаёт 12it/s. А у меня 6it/s.

Если у кого-то есть 3060, прошу сделайте тест


a house

Steps: 20, Sampler: Euler, CFG scale: 4.5, Seed: 3005468437, Size: 512x512, Model hash: 84d76a0328 (https://civitai.com/models/25694/epicrealism), Version: 1.6.1

Напишите it/s и время генерации картинки
Напишите свой set COMMANDLINE_ARGS=
Версию драйвера
Версию cuDNN
Версию PyTorch
Аноним 17/11/23 Птн 01:05:15 546023 47
image.png 12Кб, 559x34
559x34
17/11/23 Птн 01:37:19 546046 48
>>546016
6 it/s выглядит норм. Чуть больше 3 сек на генерацию, у меня так же

Скорее всего ты видел тесты нового драйвера с включенным tensorrt
Аноним 17/11/23 Птн 01:38:15 546048 49
>>546046
Э, а че у меня сажа включилась. Бамп
Аноним 17/11/23 Птн 01:40:58 546049 50
Аноним 17/11/23 Птн 02:00:07 546057 51
>>546049
Да, при этом

--precision full and не работает, выдаёт ошибку
--no-half снижает производительность вдвое
Аноним 17/11/23 Птн 02:23:05 546063 52
>>546057
> --no-half снижает производительность вдвое
Что здесь тебя удивляет, так и должно быть. Эти параметры на видеокартах белого человека не нужны.
Если судить по бенчмарку из шапки то примерно 6 итераций там и должно быть, покажи что за бенчмарки ты смотрел.
Аноним 17/11/23 Птн 02:38:19 546067 53
>>546063
https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html
там есть без tensor rt с ебенячими показателями

плюс ещё тут смотрел 6-7 секунд у пацанов
а у меня 9-10
https://www.reddit.com/r/StableDiffusion/comments/z0f5k0/stable_diffusion_rtx_3060_12gb_vs_rtx_3060ti/

Карту проверил в бенчмарках, выдаёт что нужно, но в СД показатели ниже чем средние.
Аноним 17/11/23 Птн 02:48:15 546072 54
как же хочица 1.6...
Аноним 17/11/23 Птн 02:50:20 546073 55
bandicam 2023-1[...].mp4 4061Кб, 1072x604, 00:00:20
1072x604
>>546023
А такое видал? Установил ебать дримбут, сразу пиздота непонятная началась.
Аноним 17/11/23 Птн 02:57:01 546075 56
>>546067
Переустановил SD, получилось 7.2 - 7.5 секунд на генерацию из реддита

Хз что ещё сделать, они там не пишут какую модель используют, от модели же тоже зависит скорость?

>>546016
В моём тесте получается 6,5 - 7.2 it/s, 3.2 секунды генерится картинка
Аноним 17/11/23 Птн 03:48:36 546089 57
>>546067
Тут все ок, 6-7 it/s для 3060. Есть один с 12 it/s, но там sdp оптимизатор и большой batch size. Как я понял, это флаг на split attention, или quad attention

Можно еще в настройках до кучи token merge поставить на примерно 0.4 - даст ещё около 20% скорости
Аноним 17/11/23 Птн 03:55:36 546090 58
>>546089
А, затупил, spd - это speed. Короче вот этот флаг:

--opt-sdp-attention May results in faster speeds than using xFormers on some systems but requires more VRAM. (non-deterministic)
Аноним 17/11/23 Птн 03:58:40 546091 59
>>546090
А блин, затупил еще сильнее. Короче хрен знает что за sdp. В общем больше памяти жрет, не детерменистичный - это большие минусы. А судя по бенчмарку, преимущество в скорости только при большом batch size
Аноним 17/11/23 Птн 03:58:55 546092 60
>>546089
>sdp оптимизатор
у меня с ним результат ещё хуже чем xformers

>Можно еще в настройках до кучи token merge поставить на примерно 0.4 - даст ещё около 20% скорости
Я щас буду устанавливать все игры оптимизаторы


Братишка, а объясни ещё что такое AITemplate? Его можно запустить вместе с TensorRT?
Аноним 17/11/23 Птн 04:54:21 546111 61
lora и tensor rt невозможно применить вместе?
Аноним 17/11/23 Птн 06:11:41 546133 62
Так чего там с этой лцм-лорой и мерджем?
На аниме работает? Чувствительность к негативам и цфг какая?
Контролнет, хайрезфикс, и всё такое?
Хочу понять, стоит заморачиваться или нет. 4080 в компе - это, конечно, хорошо, но если можно урезать количество шагов в 4 раза - это ж еще лучше.

P.s. кохай свой хайрезфикс запилил, мнения?
https://github.com/wcde/sd-webui-kohya-hiresfix
Аноним 17/11/23 Птн 10:17:47 546249 63
>>546133
>Так чего там с этой лцм-лорой и мерджем?
>На аниме работает? Чувствительность к негативам и цфг какая?
>Контролнет, хайрезфикс, и всё такое?
Всё работает. Возможно имеет тенденцию к упрощению или замыливанию фона; недавно обнаружили баг с кривым шедулером, может пофиксят. LCM оказался хорошей финишной штукой, имеет смысл генерить недопроявленную композицию на минимальном разрешении обычным методом (512х512, 4-6 шагов и т.п.), потом апскейл до рабочего разрешения и прогнать через LCM. Так получается когерентность лучше, чем чисто LDM или чисто LCM. Если с контролнетами юзать, то первый этап не нужен, можно сразу LCM.

>P.s. кохай свой хайрезфикс запилил, мнения?
Всё пиздато, работает и каши не просит.
Аноним 17/11/23 Птн 11:53:22 546302 64
Аноним 17/11/23 Птн 12:06:43 546310 65
>>546111
Возможно, надо лору конвертировать тоже. Если ты про lcm, то ее надо мержить
Аноним 17/11/23 Птн 12:16:22 546321 66
image.png 444Кб, 927x638
927x638
>>546016
20/20 [00:02<00:00, 8.04it/s]

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set CUDA_MODULE_LOADING=LAZY
set NUMEXPR_MAX_THREADS=16
set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.9,max_split_size_mb:512
set COMMANDLINE_ARGS=--autolaunch --opt-sdp-attention --upcast-sampling --opt-channelslast
git pull
call webui.bat

Драйвер 546.01 нвидя студио, как у всех белых людейлюдей
Cuda compilation tools, release 12.1, V12.1.105
Build cuda_12.1.r12.1/compiler.32688072_0
PyTorch второй

Вот только у меня NVIDIA GeForce RTX 2060, а после твоих мощностей мне чет расхотелось покупать что-то помощнее, когда выхлопа будет меньше
Аноним 17/11/23 Птн 12:26:14 546325 67
>>546321
А если 150 шагов, то какая скорость? У меня была 2060Super, на ней получалось 9.2 it/s
Аноним 17/11/23 Птн 12:29:00 546328 68
22.PNG 501Кб, 1708x963
1708x963
11.PNG 486Кб, 1838x960
1838x960
>>546310
Нажал Apply LoRA checkpoint to TensorRT model
и кажется получилось.

Если я подключаю в sd_lora LCM лору, то получается 5сек.
Если я подключаю в sd_unet TRT для лоры (не для модели, тогда работать не будет), а в sd_lora не подключаю ничего (тогда тоже работать будет), то получается 3.8 секунды.

Это оно? Или что-то не правильно?
Аноним 17/11/23 Птн 12:30:56 546332 69
>>546321
А у тебя 2060 на 12 гб?
Аноним 17/11/23 Птн 12:32:32 546336 70
>>546328
У тебя разница во времени из-за загрузок модели. Надо смотреть на время второй генерации после изменения модели
Аноним 17/11/23 Птн 12:33:17 546337 71
>>546321
Очевидно, что 3060 мощнее 2060, и значит у меня какая-то проблема.
А попробуй в аргументы добавить только xformers?

С 2060 имеет смысл обновляться тогда уже на 4060 Ti и что-то выше. Или ждать следующего года, может подвезут 4060с с 12 гб для нищеты.
Аноним 17/11/23 Птн 12:37:34 546345 72
>>546336
я несколько раз прогенерировал после изменения модели
Аноним 17/11/23 Птн 12:39:37 546347 73
image.png 459Кб, 935x682
935x682
>>546337
150/150 [00:18<00:00, 7.98it/s]
Ну на этой модели столько
>>546332
Da
>>546337
>А попробуй в аргументы добавить только xformers?
А я не помню, какой у меня из аргументов является альтернативой для иксов, от куды. Они же в конфликт вступят.
Аноним 17/11/23 Птн 12:40:31 546351 74
>>546337
>>546347
А, тьфу, слепой я. ТОЛЬКО иксы, понял, щас
Аноним 17/11/23 Птн 12:46:49 546355 75
image.png 461Кб, 922x639
922x639
>>546337
WARNING:xformers:A matching Triton is not available, some optimizations will not be enabled.
И как фиксить?
Генерит незначительно медленнее, хотя сосноль говорит, что иксы подкручены
150/150 [00:20<00:00, 7.27it/s]
Аноним 17/11/23 Птн 12:53:42 546366 76
>>546355
> И как фиксить?
Тритон только для прыщей и в SD не используется.
Аноним 17/11/23 Птн 13:12:50 546381 77
>>546355
У тебя там VAE какое-то подключено не стандартное, кста, попробуй генерацию без него.
Аноним 17/11/23 Птн 13:59:35 546415 78
>>546381
Пробовал, там без разницы. Либо разница несущественная настолько, что даже не видно.
Аноним 17/11/23 Птн 14:06:38 546419 79
>>546347
> 150/150 [00:18<00:00, 7.98it/s]
> Ну на этой модели столько
> Da

12 гб 2060 основана на 2060 super. А та в свою очередь по бенчмаркам, что кидали недавно, не отличается от 3060 в генерации
Аноним 17/11/23 Птн 16:08:27 546490 80
HFValidationError ( huggingface_hub.utils._validators.HFValidationError: Repo id must be in the form 'repo_name' or 'namespace/repo_name': 'путь/к/моей/модели/блять.safetensors'. Use `repo_type` argument if needed.

Какова хуя, помогите посоны. Норм запускается только на стандартной модели 1.5
Олсо как запустить тренировку из сосноли, а не из вебгуи?
Аноним 17/11/23 Птн 17:20:27 546537 81
>>546490
Путь/имя базовой модели неверно указал.
> Олсо как запустить тренировку из сосноли, а не из вебгуи?
Ты про что именно здесь? Там есть кнопка "печать команды", ее копируешь и вставляешь в консоль, или пишешь все параметры вручную.
Аноним 17/11/23 Птн 19:01:19 546584 82
>>546537
> Путь/имя базовой модели неверно указал.
В том и дело что верно, прямой путь непосредственно к модели .safetensors
Если точно так же указываю стандартную 1.5 - съедает и начинает работать.
Гугл показывает схожие проблемы, например https://github.com/guoyww/AnimateDiff/issues/14#issuecomment-1635563101
>Там есть кнопка "печать команды
Кнопка есть, но начинается с accelerate что не является исполняемым файлом. И как параметр, который передается в train_network.py это не выглядит (хотя и похоже на конвейер, типа передачи вывода на ввод в другое место). Я не проверял еще это канеш, но выглядит так, как будто не заработает.
Аноним 17/11/23 Птн 19:10:38 546595 83
>>546584
> В том и дело что верно
Прямой/обратный слеш, отдельные символы и прочее точно верные? Такое выдавало при ошибке в пути, по твоей ссылке о том же.
> но начинается с accelerate что не является исполняемым файлом.
Орли? Венв активируй и сразу станет им.
> Я не проверял еще это канеш, но выглядит так, как будто не заработает.
В фонд золотых цитат.
Аноним 17/11/23 Птн 19:14:50 546602 84
>>546595
>Прямой/обратный слеш, отдельные символы и прочее точно верные? Такое выдавало при ошибке в пути, по твоей ссылке о том же.
У меня стандартная 1.5 лежит там же где и остальные модели. И прописывал я это не руками, а через гуй намышетыкал - тут же (почти) нельзя ошибиться.
>Венв активируй
Указать venv как PATH то есть?
>В фонд золотых цитат.
Бля ну не издевайся, консоль не поймет что такое accelerate потому что ничего об этом не знает. Она поймет максимум следующий далее train_network.py с паравозом ключей к нему, но не accelerate. Это на первый взгляд.
Аноним 17/11/23 Птн 19:20:58 546606 85
1577668572519.png 10Кб, 555x178
555x178
>>546602
> Указать venv как PATH то есть?
> Бля ну не издевайся, консоль не поймет что такое accelerate потому что ничего об этом не знает
Не издеваюсь и без негатива, просто у тебя даже базовых знаний нет зато лезешь рассуждать.
По той же причине ошибка с неверным путем с вероятностью 99.5%, а прошлое могло работать вообще потому что подсасывало с обниморды по названию (да оно так может).
Аноним 17/11/23 Птн 19:27:37 546617 86
>>546606
>просто у тебя даже базовых знаний нет
Я погуглил, я молодец, понял о чем ты. Странно, venv должен активироваться при старте вебгуя, но действительно при указании модели 1.5 я видел что
>прошлое могло работать вообще потому что подсасывало с обниморды по названию.
Но думал что это мож зависимости какие к модели, хз.
Аноним 17/11/23 Птн 19:32:16 546622 87
>>546617
> Странно, venv должен активироваться при старте вебгуя
Так для него он активировался, но только для него а не глобально, каждый новый терминал - своя активация среды.
Ну вот и понятно стало, внимательнее будет, в первую очередь чекни чтобы слеши прямые а не обрашные были, базированная херь в шинде.
Аноним 17/11/23 Птн 19:40:45 546629 88
>>546622
> каждый новый терминал - своя активация среды.
Я имею в виду один терминал, да. Батник с вебгуи ведь должен в т.ч. активировать venv, но при этом непонятно почему он не берет модель по прямому пути. Навскидку очень тупое предположение - потому что модели лежат в отдельной директории, но при указании прямого пути все должно работать же энивей.
Но я попробую запуск из сосноли, потому что пока гуглил - встретил мнение что это именно проблема вебгуя.
Аноним 17/11/23 Птн 23:49:23 546825 89
Как тренить лору на hll или на животных, как то отличается от обычного обучения или нужно какие то флаги ставить?
Аноним 18/11/23 Суб 00:10:50 546842 90
Какой положняк по тренировки лиц? Могу ли я мешать анфасы с профилем или одтельно тренить на анфас и на профиль?
Аноним 18/11/23 Суб 05:14:17 546939 91
>>546825
--v_parameterization --zero_terminal_snr --scale_v_pred_loss_like_noise_pred
Аноним 18/11/23 Суб 20:56:46 547645 92
Tensor RT не работает с SDXL моделями? Выдаёт ошибку
Аноним 18/11/23 Суб 21:14:38 547655 93
Так.. Решил заняться тотальным обновлением софта, а то там хлам всякий тянется уже с релизов полугодовой давности. Вебуй для генерации вижу теперь запилили работающим без нужды засирать системный диск питоновским говном. Это хорошо.
А как быть с тренировкой лор? Гайд к скрипту традиционно начинается с "поставьте питон, поставьте ГИТ". Не сделали еще такой же установки чисто в свою папку?
Аноним 18/11/23 Суб 21:18:26 547657 94
Аноним 18/11/23 Суб 21:34:09 547668 95
Ну какого черта в новом вебуи сделали систему сохранения промптов совсем черезжопной. Раньше выбрал в выпадающем меню, нажал применить - ВСЕ. Теперь выбираешь в меню, открываешь отдельное меню и уже оттуда применяешь. Нахрен так делать было?! Есть плагин, который схоронять может промпты нормально удобно умеет и при этом не перегружен свистоперделками типа перевода текста и ведения целой базы данных.
Аноним 18/11/23 Суб 21:38:16 547671 96
Аноним 18/11/23 Суб 22:04:45 547693 97
Нужно ли указывать pretrained model при обучении лор? Какие подводные камни у обучения с чекпоинтом и без него?
Если я указываю рандомный чекпоинт (хуй знает, пусть будет эпикреализм) в качестве pretrained model - полученная лора будет совместима с другими чекпоинтами (например с киберреалистик), или таким образом она затачивается на идеальную работу с конкретным, а со всеми другими будет хуйня?
Поясните за положняк.
Аноним 18/11/23 Суб 23:57:26 547761 98
Аноним 19/11/23 Вск 01:47:11 547818 99
SD и NAI давно не вставляет, там нет самого главного : motion. Живой кадр, выразительная динамика, развитие и раскрытие динамической композиции в таймлайне. А так от ультра-высокого разрешения нет толку.
Васянский костыль типа deforum это не motion, а наркоманский трип. Gen-2 и та новая модель тоже нет. Хотя наработки для годных моделей давно представлены. Стабилити лоханулись, надо было пилить модель для видео вместо XL. Пусть оче базовую, но с пониманием концепта motion и temporal - остальное бы допилило комьюнити.
Аноним 19/11/23 Вск 02:27:49 547838 100
>>547818
До этого ещё минимум год-два, если не больше, можешь залегать в спячку.
Достигнутый максимум темпоральной стабильности на сегодня это vid2vid с необходимостью обучать с нуля https://isl-org.github.io/PhotorealismEnhancement/ , для диффузии нет такого пока
Аноним 19/11/23 Вск 02:46:41 547845 101
>>547838
Эх! А ведь дифьюжн модели будто специально предназначены для того, чтоб генерировать контент, ебейшее CGi с vfx как здесь
https://youtube.com/watch?v=Qwz5H9M8rsM
Упарывался игорем когда-то давно, интро видео как раз пример простого и грамотно сделанного моушена в компьютерной графике: освещение, камера, персонаж с гестурами. Такие пока делаются лишь спецами за бешеные деньги и спецы с навыками везде нарасхват
в марвел и голливуде, в геймдеве, на Западе и в Азии.
Аноним 20/11/23 Пнд 19:52:22 549219 102
matplotlib не отрисовывает графики в дебаге в gradio приложении, кто-нибудь сталкивался? Как чинили?
Аноним 21/11/23 Втр 01:22:39 549499 103
>>547693
Есть мнение, что тренить лору надо на SD / NAI (в зависимости от мясности тянки), тогда она будет совместима со всеми моделями. Но ты теоретически можешь тренить и на одном чекпоинте - тогда, теоретически, она будет на этом чекпоинте лучше, чем если тренить на SD, а на всех остальных - существенно хуже.

Но лично я не проверял.
Аноним 21/11/23 Втр 01:25:17 549501 104
>>547655
Гит - не пихон, его нормальные люди пишут. Лично Линус, ЕМНИП, руку к его созданию приложил. Там нет зоопарка несовместимых между собой версий и вот этого всего питонячьего дерьма.

Гит не засирает твою систему, он облагораживает её, сраный ты форточник. Ставь свежайшую версию глобально и забудь про неё, она подойдёт ко всем автоматикам ещё несколько лет (а то и несколько десятков лет).
Аноним 21/11/23 Втр 01:28:02 549502 105
>>545907
о, дримбут-братишка. няяяя...
Аноним 21/11/23 Втр 01:29:18 549503 106
>>546072
... и повышенную когерентность на дополнительных слоях, как инпаинтинг... чтобы рррраз - и смёржил...
Аноним 21/11/23 Втр 01:30:49 549504 107
>>546073
А в нормальное место логи можешь скидывать, типа пастебина? Это ж сука кошмар эпилептика - логи в виде видоса сука!!! Зумеры хреновы!

В сторис выложить не забудь
Аноним 21/11/23 Втр 01:32:02 549506 108
>>546073
CUDA, говорит, кривая у тебя.
Аноним 21/11/23 Втр 01:38:06 549507 109
>>546490
Походу, твоя тулза предпочитает тренить на тех моделях, что выложены на обниморде, а не у тебя на винте. Попробуй в качестве пути указать
admruul/anything-v3.0

и посмотри, запустится ли. Если запустится - то, возможно, дело в этом.
Аноним 21/11/23 Втр 01:39:11 549508 110
>>546595
Убери из пути русские буквы. Кириллицу. Пробелы. И т.д. Правило 8.3, все дела!
Аноним 21/11/23 Втр 01:47:09 549513 111
изображение2023[...].png 154Кб, 1440x900
1440x900
Аноны, выручайте. В программировании не шарю от слова совсем. Пару месяцев назад с кайфом генерировал всю хуйню, потом прогу снес. Ща решил снова установить, но выдает вот эту поеботу. Че делать не ебу, может из вас кто подскажет че-нить. В гугле не забанили, вообще все блять сделал из того что предлагали, все равно выдает эту срань. Уже неделю с этим ебусь, да все никак пофиксить не выходит.
Аноним 21/11/23 Втр 01:48:04 549517 112
>>549513
Когда начинаю генерировать выдает это, забыл уточнить
Аноним 21/11/23 Втр 01:50:40 549519 113
>>549513
Еще забыл уточнить что иногда он может сгенерировать одну пикчу, но на этом все заканчивается.
Аноним 21/11/23 Втр 02:12:31 549526 114
>>549519
vae кривое?
--no-half в аргументы добавить?
Аноним 21/11/23 Втр 02:15:32 549528 115
>>549526
Об этом в гайдах только ленивый не написал, пробовал конечно. Не пашет. VAE и другое ставил, и вообще выключал
Аноним 21/11/23 Втр 02:31:16 549536 116
00006-1667237840.png 496Кб, 512x752
512x752
>>549526
Ща попробовал вписать еще раз, теперь даже начало генерировать, правда что-то в стиле этого
Аноним 21/11/23 Втр 13:09:39 549759 117
>>549536
Давай сюда скрин настроек, особенно хэш модели. Аскотест проходил?
Аноним 21/11/23 Втр 13:26:05 549774 118
изображение2023[...].png 130Кб, 1440x900
1440x900
>>549759
Не уверен про какие ты настройки, но предположил что это. Аскотест не проходил, ща гляну че это
Аноним 21/11/23 Втр 13:28:46 549777 119
Аноним 21/11/23 Втр 13:29:43 549780 120
>>549774
Погуглил немного, нихера не понял. Уточни что надо заскринить, вообще не шарю толком)
Аноним 21/11/23 Втр 13:37:48 549789 121
БЛЯТЬ ЭТО ТРЕД НЕ ДЛЯ НЕОСИЛЯТОРОВ - ЭТО ТЕХНО ТРЕД!
Аноним 21/11/23 Втр 13:41:50 549794 122
1585553045778.mp4 3181Кб, 854x480, 00:00:20
854x480
>>549789
> ТЕХНО ТРЕД
И где твое техно, пчел?
Аноним 21/11/23 Втр 13:45:43 549802 123
>>549789
Будем гонять сегодняшних неосиляторов - потеряем будущих техногуру! Всё лишнее - детям!

Настройки того места, где ты нажимаешь кнопку "генерировай".
Аноним 21/11/23 Втр 13:47:36 549804 124
>>549536
нормальное современное искусство, чёнетак? фигачишь в NFT и продаёшь
Аноним 21/11/23 Втр 13:55:44 549808 125
изображение2023[...].png 172Кб, 1440x900
1440x900
>>549802
Спасибо за понимание, я просто в целом очень далек от всего этого, но очень хотел бы влиться в это все и разобраться, а тут такая хуйня. Знакомых шарящих нет, так что не придумал ничего лучше чем сюда написать. Скрин настроек вот, меня все по 100 раз, везде то же самое. Если проверку отключить, в тупую выдает черные квадраты
Аноним 21/11/23 Втр 14:00:30 549815 126
>>549804
Это конечно заебись, но хотелось бы иметь возможность создавать не только это)
Аноним 21/11/23 Втр 14:25:04 549834 127
>>549808
На других моделях то же самое? Нафига кфг скейл 2 выставил, кстати (стандарт - 7)? И пиздец у тебя браузер засран, конечно, я вот на отдельном генерю, без лишнего мусора. В своей васянозапускалке (которую ни один здоровый человек использовать не будет) попробуй выставить в качестве параметров --xformers --medvram --no-half-vae --precision full, а не то, что там сейчас.
Аноним 21/11/23 Втр 14:41:56 549848 128
изображение2023[...].png 179Кб, 1440x900
1440x900
>>549834
Другие модели вообще в первую очередь пробовал поставить. скейл менял когда просто параметры перебирал, смотрел мб че как работать будет. Просто перед скрином ниче специально не менял, кинул как на тот момент было. Поставил то что ты сказал, теперь вообще выдает это
Аноним 21/11/23 Втр 14:46:49 549852 129
>>549848
Ну могу только предложить последовать путём анона из >>549166 → поста, с нвидия-проблемами я лично мало знаком, у меня свои, амдешные.
Аноним 21/11/23 Втр 14:51:06 549857 130
>>549852
Спасибо, гляну как домой вернусь тогда. У кого еще будут идеи, предложите, попробую. Заранее благодарен
Аноним 21/11/23 Втр 16:50:57 549995 131
>>549536
Галочки лишние для создания текстурок поснимай
>>549774
Снеси этот малвер для васянов, клонируй репу гитом и запусти батник.
>>549848
И шизу такую в негатив ставить не стоит, оно сделает только хуже.
Аноним 21/11/23 Втр 17:19:38 550023 132
>>549774
откуда ты это скачиваете? как вы это блять вообще находите?
почему нельзя просто скачать сборку автоматика дефолтную
Аноним 21/11/23 Втр 17:25:57 550033 133
>>549774
1. Удали это говно.
2. Скачай это.
https://github.com/AUTOMATIC1111/stable-diffusion-webui
3.
в webui-user.bat
set COMMANDLINE_ARGS=--autolaunch --xformers
больше никаких аргументов, если карта RTX

если GTX
set COMMANDLINE_ARGS=--autolaunch --xformers --precision full --no-half
Аноним 21/11/23 Втр 17:36:55 550043 134
>>549774
Не слушай его >>550033 Тебе надо medvram и xformers. Даже gt 1030 не требует эту херню с полной точностью - это только для амудэ
Аноним 21/11/23 Втр 17:38:06 550045 135
>>550033
>если GTX
У него GTX 1660 6GB, видно на скринах. Это говно что, уровня амуды или даже хуже, без нохалфа не пашет?
Аноним 21/11/23 Втр 17:40:11 550048 136
>>550043
На счет xformers заработает ли на 1060 не уверен, но если не заработает - не страшно
Аноним 21/11/23 Втр 17:41:35 550050 137
>>550033
> если GTX
Только если 1600 серия, и то там вроде это подебили большей частью. А то сейчас на паскалях сделает так и будет жаловаться насколько они медленные.
Аноним 21/11/23 Втр 17:42:48 550052 138
>>550033
так и так только что закончил это делать. Установил стандартную версию, в батник вписал вроде все что надо. Нихуя все равно не работает. Та же хуйня абсолютно.
>>550045
Да блять, раньше без этого все работало, и xformers, и вся хуйня. Вообще мозги себе не ебал. Как выше уже писал, потом переустановил через пару месяцев, и пиздец.

Вы правильно думаете, у меня 1660 стандартная.
Аноним 21/11/23 Втр 21:19:28 550355 139
>>550052
покажи батник и скрин sd в браузере

ты прежде чем скачать дождался, что он всё скачает?
Какой версии питон?
Аноним 21/11/23 Втр 21:22:58 550367 140
>>550043
>>550048
Слушай, лучше не открывай свой пиздак, а

16серия требует --xformers --precision full --no-half
Максимальная производительность с такими настройками
medvram только замедляет работу и иногда ведёт к ошибкам, для простых генераций в нём нет никакого смысла на 6gb, его прописывать стоит только при имг2имг и апскейле
Аноним 21/11/23 Втр 22:25:37 550494 141
https://stability.ai/news/stable-video-diffusion-open-ai-video-model

SAI сделали видео-модель. Выглядит сравнимо с ранвеевской, те же несколько секунд относительной темпоральной стабильности. Пока только API через вейтлист.
Аноним 21/11/23 Втр 22:26:24 550496 142
Аноним 22/11/23 Срд 00:34:51 550702 143
изображение2023[...].png 61Кб, 1440x900
1440x900
Короче, аноны, похоже это победа. Запустил нейронку буквально сделать скрин для ответа на вот это >>550355, а в итоге она заработала блять). Последнее что сделал перед тем как уйти, вписал вот это set ATTN_PRECIGION=fp16. Короче пока вроде пашет. Спасибо всем кто пытался помочь, приятно осознавать, что в трудную минуту не кинут, а помогут)
Аноним 22/11/23 Срд 14:03:43 551124 144
>>550702
Если что можешь смело удалять все строки с commandline args кроме последней, у тебя переменная перезаписывается и xformers нету.
Аноним 22/11/23 Срд 15:23:41 551191 145
image.png 63Кб, 1358x406
1358x406
>>550496
c lowvram модом еле помещается в 24Гб видеопамяти.
Спасибо, ух щас погенерим.
Аноним 22/11/23 Срд 16:25:16 551261 146
>>550496
О, это хорошо. Animate diff так не может

>>551191
Это для генерации ещё влезает, или я надеюсь ты про обучение 😳
Аноним 22/11/23 Срд 17:13:24 551349 147
>>546490
Попробуй этим скриптом конвертнуть из safetensors в папочки и расскажешь как прошло
https://github.com/huggingface/diffusers/blob/main/scripts/convert_original_stable_diffusion_to_diffusers.py

cd ./diffusers

# assume you have downloaded xxx.safetensors, it will out save_dir in diffusers format.
python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.safetensors --dump_path save_dir --from_safetensors

# assume you have downloaded xxx.ckpt, it will out save_dir in diffusers format.
python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.ckpt --dump_path save_dir
Аноним 22/11/23 Срд 17:16:36 551358 148
Обучил лору в kohya_ss, в diffusers работает хуже чем в automatic, нужно запускать в diffusers. Что делать?
Аноним 22/11/23 Срд 17:20:40 551365 149
15144014236430.jpg 0Кб, 200x200
200x200
>>551358
>в diffusers работает хуже чем в automatic
>Что делать?
нужно запускать в diffusers
Аноним 22/11/23 Срд 17:48:50 551401 150
Можно в sd next как-то убрать шуе-интерфейс, и сделать чтоб он был как stable-diffusion-webui, только с возможностью diffusers?
Аноним 22/11/23 Срд 23:52:37 551867 151
Можно ли в риге openposeBones в Блендере как-то зафиксировать длину рук\ног?
Аноним 23/11/23 Чтв 01:14:47 551985 152
SD 1.6 это строго проприетарная модель? То есть можно не ждать.
Аноним 23/11/23 Чтв 01:23:57 552001 153
>>551985
Нет, просто они всегда мурыжат новые версии SD за своим апи, прежде чем релизнуть веса.
Аноним 23/11/23 Чтв 07:48:56 552171 154
>>552001
> они всегда мурыжат новые версии SD за своим апи
И когда ты такое видел? Очевидно они не будут релизить 1.6.
Аноним 23/11/23 Чтв 14:24:56 552351 155
>>552171
>И когда ты такое видел?
Блять, всегда. 1.5, 2.0, 2.1, SDXL. Сначала у них в проге и/или через апи, потом релиз весов через какое-то время.
Аноним 23/11/23 Чтв 14:49:16 552363 156
>>552351
Не пизди. 1.5 вообще не их модель, они её не релизили, это файнтюн Runway. Двуха и XL 1.0 были сразу в день релиза доступны.
Аноним 23/11/23 Чтв 14:58:05 552370 157
>>552171
> Очевидно они не будут релизить 1.6.
Какой смысл гейткипить? В ней ничего радикально нового и уникального чего нет в файнтюнах 1.5, отсутствуют и какие-то крутые коммерческие перспективы. А вот актуализировать самую массовую и популярную базовую модель - тема хорошая.
Аноним 23/11/23 Чтв 15:15:30 552381 158
>>552363
>Двуха и XL 1.0 были сразу в день релиза доступны.
То день релиза. Они долго держали веса за своей дримстудией, потом в один момент просто обозвали очередной чекпоинт релизом и выпустили.
Аноним 23/11/23 Чтв 15:23:40 552384 159
>>552363
1.5 и 1.4 - это их. 1.3, 1.2, 1.1 - вот это не их, это от CompVis
Аноним 23/11/23 Чтв 15:49:57 552403 160
>>552384
> 1.5 и 1.4 - это их.
Чел, до 1.4 - это CompVis, 1.5 - это файнтюн 1.2 силами Runway. Стабилити к первой SD имеют отношение только в виде предоставления серверов для CompVis. Они ничего сами не тренировали до 2.0.
https://huggingface.co/runwayml/stable-diffusion-v1-5
Аноним 23/11/23 Чтв 18:12:35 552547 161
>>552403
А, была еще и третья контора RunWay. Как все запутано
Аноним 23/11/23 Чтв 19:42:08 552649 162
Блджажд, что они с таггером сотворили? Как им вообще теперь пользоваться? Почему он на базовой Deepdanbooru модели срет про какой-то tensorflow_io?
Аноним 25/11/23 Суб 10:56:53 554422 163
К ключу --save_state можно указать директорию сохранения? Куда сохраняется по умолчанию, с пустым ключом без указания директории?
Аноним 25/11/23 Суб 10:59:16 554424 164
Это >>554422 про обучение лоры, если что.
Олсо поясните почему при запуске с батника с вебгуи скорость обработки 40-50s/it, а при запуске из сосноли (с набором команд, сгенереных в вебморде) скорость 30-33it/s.
Что так тормозит при запуске вебгуи?
Аноним 25/11/23 Суб 19:08:58 554788 165
https://github.com/chengzeyi/stable-fast
Ускорятор для diffusers. Жрёт меньше памяти, работает быстрее TensorRT или AIT, при этом не требует компиляции.
Аноним 25/11/23 Суб 19:37:47 554817 166
>>554788
> работает быстрее TensorRT
Открываю ссылку и сразу вижу что ты пиздишь. В их же бенчмарках он медленнее.
> не требует компиляции
А тебе от этого легче? Совместимости всё так же ни с чем нет. Ещё и пердоликс-онли.
Аноним 25/11/23 Суб 20:14:49 554851 167
>>554422
> Куда сохраняется по умолчанию
В папку которая указана для выхлопа моделей, создает дирректорию соответствующую эпохе.
>>554424
> Что так тормозит при запуске вебгуи?
Венвы то одинаковые? Так разницы быть не должно, с другой стороны
> 40-50s/it
Это что за дичь? Если обучаешь на 1030 то аппаратное ускорение браузера может вредить.
Аноним 25/11/23 Суб 22:44:46 554989 168
>>554851
>В папку которая указана для выхлопа моделей
Готовых? Ок, спасибо.
>Венвы то одинаковые? Так разницы быть не должно, с другой стороны
Одинаковые, стартую оттуда, откуда же стартует вебгуи.
>Это что за дичь? Если обучаешь на 1030
На 1063. Кстати из сосноли скорость увеличилась до 29s/it за прошедшее с моего поста время.
>аппаратное ускорение браузера может вредить.
Интересно каким он тут боком. Я стартанул обучение из консоли, но при этом браузер остался открытым для параллельного двачевания.

Олсо, может подскажете мне параметры для тренировки на строго определенный ебальник? В прошлую интерацию обучения на свою еотову с 60 повторениями каждого фото генерация выдавала примерно одну очень похожую из 20 не очень похожих. Офк мне нужно полное сходство.
Аноним 25/11/23 Суб 23:01:38 555002 169
>>554851
> В папку которая указана для выхлопа моделей
А вот хуй. Output folder указан, параметр --save_last_n_steps="1000" есть, на данный момент прогресс в полторы тысячи шагов но Output folder пуст.
Не хочу просрать четверо суток из-за броска по питанию, бсода или иного факапа.
Аноним 25/11/23 Суб 23:10:41 555012 170
>>554989
> Одинаковые, стартую оттуда, откуда же стартует вебгуи.
Тогда разницы быть не должно, может как-то влияет особенности выгрузки врам в рам, или интерфейс жрадио на себя что-то там выделяет. Только мониторингом можно проверить.
> Интересно каким он тут боком.
Да хз, больше там нет отличий, одно и то же запускается.
>>555002
> на данный момент прогресс в полторы тысячи шагов
Оно будет сохранять только каждую эпоху и даже об это напишет, шаги тут не при чем. Сколько эпох в обучении?
> четверо суток
Ты делаешь что-то неправильно, тут братишка на 1050ти тренили и там всего часов 12 выходило емнип. Лучше распердоль коллаб или купи видеокарту, 4 суток на то что должно делаться максимум минут 15 это жесть.
Аноним 25/11/23 Суб 23:29:22 555037 171
>>555012
>может как-то влияет особенности выгрузки врам в рам
>там нет отличий, одно и то же запускается.
Вот и я про то же.
>Оно будет сохранять только каждую эпоху и даже об это напишет, шаги тут не при чем. Сколько эпох в обучении?
Эпоха одна и закончится она через 84 часа. А я хочу пощупать результат, поэтому поставил сохранение каждую 1000 шагов (аналог параметра сохранения каждые n эпох).
>Ты делаешь что-то неправильно
Я не нашел прямого мана, поэтому мне и нужна рекомендация по параметрам, или прямой конфиг. Опытным путем увидел что 60 шагов дали результат лучший чем 30, поэтому зарядил на сотню. Датасет 120 фото, 100 шагов на каждое, скорость 30s/it - вот и вырисовывается несколько суток. Впрочем, параллельно на другой пекарне учится лора с датасетом в 30 фото, и там как раз 1050 (без ти), доучится примерно к вечеру понедельника. Вощем-то у меня параметры почти все в дефолте стоят, может в этом дело, но куда крутить я не знаю.
Аноним 25/11/23 Суб 23:31:30 555040 172
>>555012
А, ну и коллаб я конечно же не буду распердоливать, я сам себе администратор локалхоста. С видимокартой тоже пока непонятно, это сейчас я загорелся, если через полгода не пройдет - обновлюсь, иначе без задач.
Аноним 25/11/23 Суб 23:42:55 555057 173
>>555037
> Эпоха одна
Ууу, ну земля пухом, насмотрятся своего хача а потом ебут друг друга в локалхост, лол.
> увидел что 60 шагов
О каких шагах ты говоришь, число повторений датасета?
Оптимальные параметры довольно просты и сложны, есть несколько вариантов про которые можешь в статьях из шапки почитать, вот один из них: адам8, lr unet = 2e-3, lr text = 1e-3, alpha=1, dim 32-128, число повторений подбирай так чтобы получилось 400-500 на эпоху (для 100 это будет 4-5), 10 эпох.
>>555040
~15 минут разобраться, ~15 на тренировку каждой дальнейшей вместо нескольких дней на то что у владельцев 4090 уходит пара минут.
Аноним 25/11/23 Суб 23:51:12 555066 174
>>555057
>Ууу, ну земля пухом, насмотрятся своего хача
Все так.
>О каких шагах ты говоришь, число повторений датасета?
Число повторений каждого фото. То, что задается именем директории n_datasetname.
>Оптимальные параметры довольно просты
Благодарю. Попробую при следующем обучении.
>~15 на тренировку каждой дальнейшей вместо нескольких дней
Фарш невозможно провернуть назад. Выходные у меня один хуй заняты, а в трудо-выебудни я работаю, так что скорость ебет только мою хотелку по факту. Владельцам 4090 я канеш завидую, но сам к ним смогу примкнуть лет через 5 лол, когда цена упадет до той, которую я могу безболезненно оторвать от своих финансов. Эти условные 100к я с большей охотой вложу в ремонт или влошу в фондовый срынок чем в дофаминовую морковку передергивания писюна на еотову с максимально возможной скоростью. Хотя от этого мне канеш грустно, я бы лучше морковку навернул а не вот это вот все.
Аноним 26/11/23 Вск 00:08:48 555076 175
>>555057
>400-500 на эпоху
>10 эпох.
Что ты собрался 4000-5000 шагов тренить?
Хотя если с 2е-3... Нухз, возможно.

Я на базовое 1е-4 и 2е-5 всегда ориентируюсь, 2000-2200 шагов суммарно. И то обычно в конце уже перетрен получается, насыщение где-то на 1300-1700 начинается.
Аноним 26/11/23 Вск 00:13:07 555079 176
>>555076
> Что ты собрался 4000-5000 шагов тренить?
Расчет был на то что он по эпохам пройдется и выберет лучшую, плюс его дженерик тнус точно запомнит. Перетрен с таким лром можно получить только на упоротом датасете, свитспот 2.5-3.5к, дальше просто бесполезно.
Хотя что там с еотовыми хз, ведь подборка их клозап фейсов вместо разнообразных пикч это тот еще пиздец вместо датасета и оно может очень рано начать ломаться.
Аноним 26/11/23 Вск 09:30:00 555245 177
Ээ.. Насчет количества шагов. А как быть если тренишь стиль или концепт, а там овер 300 минимум надо артов, а лучше больше. Там если по дефолту делать по 10 (как в гайдах по созданию датасетов пишут) раз на каждый арт, то выйдет овер 3000 шагов только на одну эпоху. Или вы тут про тренировку на персонажа обсуждаете где куда меньше артов надо в общем? Хотя я тренил с дофига каким количеством артов и по 3-5 эпох. Перетрен? Да, явно перетрен. Но можно просто применять Лору с весом поменьше и вполне работает нормально.
Аноним 26/11/23 Вск 18:09:13 555657 178
>>555245
> овер 300 минимум надо артов
> по 10 (как в гайдах по созданию датасетов пишут) раз на каждый арт
Если там написано именно так и не указаны какие-то нюансы, то следует ставить под сомнение такие советы. Есть случаи где лору на стиль или даже персонажа тренят оче долго с десятками/сотнями тысяч шагов и большим числом эпох, но там в основном дадапт, хитрые шедулеры, и нет свидетельств того что это оптимально и результат качественно будет отличаться от тренировки короче.
На персонажа достаточно меньше, но и стили разные бывают, иногда с 4-х десятков такое тренируется что потом удивляешься.
> Перетрен?
По результатам смотреть надо, оно может и не оверфитнуться заметно, просто время попусту потратишь. Если же нужно снижать вес чтобы не ломало - пиздарики.
Аноним 26/11/23 Вск 19:47:29 555772 179
>>555245
>овер 300 минимум
Это прям лютый оверкилл.
Сотни обычно вполне хватает. Может и с 40 натрениться.
Аноним 26/11/23 Вск 21:56:44 555969 180
>>555066
Блять, арендуй 4090 на vast.ai и дрочи свой писюн со скоростью света.
Аноним 27/11/23 Пнд 01:27:38 556119 181
>>555969
Настрой колаб. Или обучи на цивите. 4 дня ходишь, лайкаешь, получаешь максимум 125 buzz в день. 500 buzz (ЕМНИП, а сейчас может и 600 уже) стОит натренить лору. Генерить вроде можно там же или на гравита и темпочтой от дядюшки Мохмала.
Аноним 27/11/23 Пнд 01:29:41 556120 182
>>551358
О, сочувствую, чувак. Там семплеры соответствуют нетривиально, в курсе? В issues diffusers на github поищи табличку. Алсо, ты точно используешь lpw pipeline? Иначе не будут работать (скобочки) [как] (в автоматике:1.07)
Аноним 27/11/23 Пнд 01:30:29 556123 183
>>551358
Либо dreambooth теми же kohya-ss/sd_scripts, в diffusers работает, брат жив, еот хороша, всем рекомендую.
Аноним 27/11/23 Пнд 01:31:45 556124 184
Аноним 27/11/23 Пнд 01:38:21 556127 185
>>550702
Чувак, у тебя ошибка в слове preciSion

но раз работает - не трогай!
Аноним 27/11/23 Пнд 02:04:32 556132 186
>>556119
Бесплатный колаб медленный пиздос, да и платный тоже. В то время как на васте (или подобном хостинге) можно занидорага арендовать БОЛЬШОЙ УТЮГ. Например лоры для SDXL тренятся куда лучше на 48 гигах.

Я сейчас балуюсь реалтайм генерацией по нарисованной подложке в плагине для криты, в паре с копеечным планшетом это такая охуенная вещь, я прям себя рисователем с большой дороги почуствовал. Но для реалтайма надо чтобы генерация 1344х768 в SDXL была не больше секунд четырех, поэтому на медленней чем 4090 я и не смотрю. Дома у меня 3060, на ней такое не прокатит.
Аноним 27/11/23 Пнд 03:04:34 556159 187
Тренирую лору на своём лице. Скажите, стоит ли для улыбающегося и серьёзного лица тренировать разные лоры? Стоит ли в одной лоре совмещать улыбку и серьёзное лицо?
Аноним 27/11/23 Пнд 03:40:07 556175 188
>>556159
в одну лору, но обязательно протэгать выражение лица: smile, happy, calm, serious, concentrated, worried, relaxed, etc.

Если часть фоток с очками, а часть без - очки тэгать обязательно!

я не оч по инглишу, погугли
Аноним 27/11/23 Пнд 05:17:15 556199 189
>>556175
Спасибо. А почему хачатур говорил, что теги это хуйня без задач, и не работают?
Аноним 27/11/23 Пнд 05:19:29 556202 190
Аноним 27/11/23 Пнд 05:36:56 556204 191
Аноны в файле моделей, чекпоинте информация о весах хранится тоже в матрицах, или в каком-то более человекопонятном виде?
Аноним 27/11/23 Пнд 06:35:03 556210 192
>>556199
Потому что долбоёб
Аноним 27/11/23 Пнд 06:53:32 556216 193
Аноним 27/11/23 Пнд 09:23:16 556267 194
Надеюсь когда выложат sd 1.6 в открытый доступ, достаточно будет сделать мерж разницы с 1.5 в любой файнтюн, и тем самым генерировать в высоких разрешений без хайрез фиксов
Аноним 27/11/23 Пнд 09:24:10 556271 195
>>556267
Иначе зачем они называют ее 1.6, если у нее будет не формат 1.x моделей
Аноним 27/11/23 Пнд 09:47:42 556278 196
>>556267
Ну ты и соня. Уже давно 2.0 вложили.
Аноним 27/11/23 Пнд 10:12:01 556291 197
>>556267
Я тоже надеюсь. Более того, я тут уже полтреда как надеюсь, что хайрезность обеспечивается дополнительными слоями - как инпантинг, и мёрж там тривиален.

Но если нет, или если не выложат... Ох, анончики, объясните мне (тупому), почему никто до сих пор не натренил просто дополнительные слои на паре тысяч изображений (пусть бы только тянок, ладно) на обеспечение хайреза? Это же ведь определение гипернетворка как он есть, разве нет?..
Аноним 27/11/23 Пнд 10:28:08 556309 198
Чем finetune отличается от dreambooth ? Я нихуя не понимаю
Аноним 27/11/23 Пнд 10:50:35 556334 199
>>556309
Dreambooth один из видов finetube
Аноним 27/11/23 Пнд 10:50:52 556336 200
Аноним 27/11/23 Пнд 11:08:24 556361 201
Ребятки, я походу не дотренировал лору, можно ли продолжить с того места где я остановился? Можно ли продолжить тренировать готовую лору?
Аноним 27/11/23 Пнд 11:11:48 556367 202
image.png 32Кб, 900x386
900x386
>>556334
Я про это спрашиваю, в kohya_ss
Я там недавно обосрался со своей первой моделью которую более 12 часов тренировал.
Аноним 27/11/23 Пнд 11:15:00 556371 203
Аноним 27/11/23 Пнд 11:35:53 556392 204
image.png 5Кб, 229x99
229x99
как работает этот калкметод в супермерджере?
Аноним 27/11/23 Пнд 11:43:14 556397 205
>>556371
Как?) Я делаю это в программе от хрисТа
Аноним 27/11/23 Пнд 11:51:15 556406 206
>>556397
Тогда у него и спрашивай. Мы-то откуда знаем как что делать в мокропиське хача.
Аноним 27/11/23 Пнд 11:55:09 556409 207
>>556406
Ладно, скажи как в стандартной проге делать
Аноним 27/11/23 Пнд 14:09:14 556537 208
Аноним 27/11/23 Пнд 14:34:00 556575 209
>>556291
> что хайрезность обеспечивается дополнительными слоями
Судя по практике - такое маловероятно, для повышения резрешения достаточно дополнительной тренировки имеющейся структуры. Возможность мерджить разницу это не отменяет, но каков будет результат сказать сложно.
> до сих пор не натренил просто дополнительные слои на паре тысяч изображений
Объясни что имел ввиду, какие еще слои?
>>556309
Превое - более старый традиционный способ, будка функциональнее.
Аноним 27/11/23 Пнд 15:54:09 556651 210
Странная херня, через час использования Автоматика, скорость генерации начинает падать. Приходится перезагружать комп.
Аноним 27/11/23 Пнд 15:55:16 556653 211
grid-0001.png 5943Кб, 2304x2048
2304x2048
Screenshot1.png 361Кб, 1383x856
1383x856
Почему результат такой уёбищный? Как нормально обучить? Хули у всех всё получается, а у меня нихуя?
Аноним 27/11/23 Пнд 16:03:13 556659 212
image.png 1265Кб, 768x1024
768x1024
image.png 1272Кб, 768x1024
768x1024
49.png 765Кб, 768x1024
768x1024
19.png 630Кб, 768x1024
768x1024
Какие параметры нужно выставить чтоб обучилось нормально?
Аноним 27/11/23 Пнд 16:15:59 556676 213
>>556659
>Какие параметры нужно выставить чтоб обучилось нормально?

Оптимальные
Аноним 27/11/23 Пнд 16:16:37 556677 214
>>556216
Но автор как раз приводит задачи и демонстрирует применение.
Аноним 27/11/23 Пнд 16:19:03 556680 215
>>556659
Ты там памятники несуществующим людям собрался генерить? Шапку прочти. Чет проиграл с первой.
Аноним 27/11/23 Пнд 16:21:22 556681 216
image.png 25Кб, 1685x185
1685x185
Что даёт эта хуета?
Аноним 27/11/23 Пнд 16:24:25 556685 217
>>556677
Так в том то и дело, что практически всё то, что он приводит, либо делается самим автоматиком "из коробки", без лоры, либо контролнетом.
Не надо писать тэги к картинке, не надо тратить время на тренировку, просто берешь и делаешь.
Аноним 27/11/23 Пнд 16:26:22 556687 218
>>556680
Хотел через img2img надрочить на обработку фото в таком стиле с прорисованными волосками, но эта хуйня какая то необучаемая. На ютубе вообще мало уроков, все делают только лоры, а нормальные модели кто делать будет!
Аноним 27/11/23 Пнд 16:28:04 556689 219
>>556681
Ресайз картинок под разрешение тренировки с сохранением соотношения сторон. Тут задаешь, какое разрешение будет минимальным/максимальным.
Кропать оно не будет, именно отресайзит.
Ну, насколько я помню эту фигню, конечно.
Аноним 27/11/23 Пнд 16:32:46 556693 220
image.png 24Кб, 1693x137
1693x137
>>556689
это сегменты какие то злоебучие, а не ресайз. разрешение тренировки у меня 768 на 1024
Аноним 27/11/23 Пнд 16:36:53 556699 221
>>556693
Вот под это разрешение оно тебе и будет ресайз делать.
Грубо говоря, если в базовых настройках 512х512 у тебя 0.26 мегапикселов, и в сете есть огромная картинка с соотношением 4:1, то отресайзит в 1024х256 под те же самые 0.26 мегапикселов.

Опять же, это то, как я эту фигню сам понимаю, исходя из данных, которые скрипт в лог по подготовленным изображениям выводит.
Аноним 27/11/23 Пнд 16:39:18 556701 222
изображение.png 13Кб, 636x129
636x129
>>556693
Вот это вот.
Тут у меня 6 повторений, всего 40 картинок. Разрешение тренировки было 768х768, с максимумом бакета на 1024.
Аноним 27/11/23 Пнд 17:25:09 556742 223
>>556685
Чёт сомнительно что такую простоту в переносе стиля и редактировании можно получить зеро-шот методами. У меня не получалось.

IPAdapter работает со входными 224х224, другие зерошот методы (референс-онли, t2i style adapter и т.п.) тоже в сравнимом, потому что все они юзают CLIP-ViT для кодировки, а он принимает ограниченное разрешение. И самое большое их ограничение - они переносят всё, нельзя нормально фильтровать, приходится изгаляться. Например если оставить перса на белом фоне сегментацией, они захавают и фон в том числе, а у него просто убираешь тег и убирается фон. А уж как это использовать для бутстрапа датасета для полноценной лоры, как он это предлагает - вообще хз.

А у него на демках чистенькая фильтрация признаков с пикчи с использованием знаний самой модели (а не CLIP-ViT), прям куда круче чем у меня когда-либо получалось. Зерошот может быть лучше конечно со временем, но конкретно текущие методы очень ограничены. Если эта хуйня действительно работает как у него написано, занимает пару минут и не требует танцев с бубном - хули бы и нет? Надо разобраться, попробовать, потестить. Никогда не подумал бы что лору можно делать из лишь одной пикчи.
Аноним 27/11/23 Пнд 19:41:18 556837 224
>>556689
> Кропать оно не будет, именно отресайзит.
Вроде как будет чтобы подогнать по кратность (по дефолту 64 вроде). Там в конце пишется ошибка, обычно оно пренебрежимо мало.
>>556701
Зря максимум так близко к разрешению тренировки выставил, вон6 пикч не влезли.
>>556742
Так некоторые лоры твикеры делали, но там намеренный оверфит а потом отсечка некоторых слоев.
Аноним 27/11/23 Пнд 19:46:47 556844 225
изображение.png 27Кб, 1140x335
1140x335
>>556406
> в мокропиське хача
Если вы вдруг не видели или не знаете, мокрописька от христа тянет билд от автоматика.
Но мокрописька от автоматика смущает вас намного реже, насколько я заметил.
Поэтому не выебывайтесь и давайте советы годные.
Аноним 27/11/23 Пнд 20:03:10 556862 226
>>556844
> мокрописька от автоматика
Довольно крупный и сложный проект, которые разрабатывается и поддерживается длительное время множеством людей. И то к ней вагон замечаний и претензий, а высказывания о забагованности уже стали мемом.
> мокрописька от христа
Подзалупная херь от глупого унтерменьша, напизженная у остальных и все равно выполненная криво. При этом создана для выполнения оче простых функций, а ца - падкие на синдром утенка кабанчики.
И на кой хер для тренировки тащить автоматика, чтобы заиметь потом конфликт зависимостей с кохой?
> давайте советы годные
Поставь любой нормальный гуи для кохи и делай все там, или вообще через консоль скриптом.
Аноним 27/11/23 Пнд 20:06:35 556871 227
>>556837
>Зря максимум так близко к разрешению тренировки выставил, вон6 пикч не влезли.
Всё влезло же.
Сложи все строки и раздели на 6 (число повторов).
240\6 = 40

>>556742
Ну попробуй.
Мне что-то сомнительной кажется такая штука.
Особенно если ты собрался ее тренировать на концепт, который в модели отсутствует как таковой.
Аноним 27/11/23 Пнд 20:13:07 556884 228
изображение.png 36Кб, 1041x543
1041x543
>>556862
> И на кой хер для тренировки тащить автоматика, чтобы заиметь потом конфликт зависимостей с кохой?
Аллоу, маня, что коха, что сд от дружка хача ставятся сорт оф портейбл на самом деле не совсем и не срут в систему. Конфликта нет, они даже параллельно работать могут.
>Подзалупная херь от глупого унтерменьша
На самом деле ты сейчас обосрал крупный и сложный проект, который разрабатывается и поддерживается длительное время множеством людей. Потому что все, что делает мокрописька от хача - это распаковывает гит с пердоном и увязывает с ними билд от автоматика через 1,5 бат-файла, которые задают необходимые параметры сессии и дергают потроха билда автоматика.
>Поставь любой нормальный гуи для кохи
А он внезапно нормальный, кто бы мог подумать что мокрописька от хача тоже тянет "официальный" коховский билд, пикрил.

Вощем-то из этого следует что синдром утенка - у тебя, лол.
Аноним 27/11/23 Пнд 20:19:42 556895 229
>>556871
> Всё влезло же.
Часть пикч была в меньшем разрешении, другое дело что не критично.
>>556884
> маня
Ай лол, любитель понюхать хачевскую сперму огрызается.
> обосрал крупный и сложный проект, который
Нет, речь про хачевские надстройки что "устанавливают и конфигурируют", это ты не разделяешь их с оригинальными.
> мокрописька от хача тоже тянет "официальный" коховский билд
А что еще она может тянуть, будто он что-то свое может создать.
> синдром утенка - у тебя
Назвать вещи своими именами? Нет, синдром утенка это защищать и оправдывать говноподелки с которых начал и уверовал.
Аноним 27/11/23 Пнд 20:24:58 556904 230
scale1200.jpg 81Кб, 1001x751
1001x751
>>556895
>речь про хачевские надстройки что "устанавливают и конфигурируют"
Где? Там ничего кроме гита с питоном нет.
>будто он что-то свое может создать.
Оче хорошо. Мы разобрались что мокрописька от хача - это суть довольно крупный и сложный проект, которые разрабатывается и поддерживается длительное время множеством людей.
>говноподелки
А нет, похоже что не разобрались, опять вернулись на шаг назад. Ты где-то делишь на ноль, тебе так не кажется?
Аноним 27/11/23 Пнд 20:46:09 556932 231
Аноны, а подскажите каую-нибудь удобную штуку для тэгирования изображений. Чтоб наглядная была.
Типа, в левой части у тебя картинка - справа плашки с тэгами. Кликаешь на плашку - тэг включается/отключается.
Ну и предварительный прогон чтоб был, как в ВД-тэггере, с разными моделями и уровнем чувствительности. Плюс с возможностью добавлять свои тэги принудительно.
WD-тэггер хорош только для полной автоматизации, вручную им работать практически невозможно.
Аноним 28/11/23 Втр 01:02:47 557115 232
>>556575
Ох. Я в этом не очень хорошо шарю, но попробую объяснить. Знаешь, как модели по слоям мёржат? У UNet есть некие слои, в которых хранятся, собственно, веса. На разных слоях хранятся веса, отвечающие за разное. Где-то я даже картинку видел, на каком что. Соответственно, если мёржить разные слои с разным коэффициентом, то будет получаться разный результат, причём направление этого результата вроде как даже можно предсказать (уххх, алхимия! старина Фламель в гробу вертится!).

Знаешь, как из любой модели сделать инпаинтинговую? Нет, можно, конечно, и натренить - у Шивама, кажется, скрипты такие были. Но вообще-то общепринятый способ - тот самый послойный мёрж. У официальной инпаинтинговой модели есть четыре дополнительных слоя в UNet, и при мёрже A + (B - C), где А - инпаинтинговая модель, В - кастомка, С - SD1.5, эти самые инпаинтинговые слои остаются нетронутыми.

https://www.reddit.com/r/StableDiffusion/comments/zyi24j/how_to_turn_any_model_into_an_inpainting_model/

Можно ли провернуть такой же фокус, добавив слои и натренировав их обычным образом, но при залоченной модели - скажем, на разрешение 1024х1024? Если это удастся, то потом это разрешение можно будет переносить на любую полторашную модель (кроме, быть может, инпаинтинговых) без потери информации в модели, без искажения.

И я полагаю, что именно это делают гипернетворки, разве нет?..
Аноним 28/11/23 Втр 07:44:15 557199 233
>>557115
Продолжаю мысль.

Ты спросишь: зачем мне поддержка 1024х1024 нативно, если есть хайрез фикс? А я отвечу: обучение, чуваки мои, обучение. Мы можем сколько угодно кормить адетайлер фоточками няшных рук. Но только сетка в целом сможет понять, где рука правая, а где левая, насколько разными должны быть ноги и как держать солнышко на ладошке.

Можем, я неправ и долбодятел. Это со всеми бывает. Но почему никто даже не попробовал?
Аноним 28/11/23 Втр 14:34:42 557365 234
>>557115
> как из любой модели сделать инпаинтинговую
В ней есть допольнительные слои и добавлены лишние операции связанные с такой обработкой, это считай просто локальное возмущение имеющейся модели без существенных изменений того что она может генерировать. При том насколько улучшается перфоманс в том самом инпеинте, учитывая сочетания значительно ушедших от исходника современных моделей и древних значений в "дополнительных слоях инпеинта", и в целом целесообразность это процедуры - под вопросом.
Аналогия понятна и ожидаема, но здесь нюанс. Для получения хорошей работы в высоких разрешениях такого недостаточно, все ее части должны быть организованы таким образом, чтобы сохранять когерентность при большем количестве обрабатываемых данных. Невозможно сделать пару волшебных слоев, которые из поломанной херни вдруг сделают хорошую картинку.
Плюс в том что на возможность мерджей это, скорее всего, не повлияет и к сд 1.6 можно будет в пару кликов добавить то что было дообучено на 1.5. Но, может случиться всякое, пока не увидим ее можно только гадать.
>>557199
> Ты спросишь: зачем мне поддержка 1024х1024 нативно
Странный вопрос, чем выше порог когерентности модели, офк если говорить про реальные величины а не те где нужно долго ловить удачный рандом, тем точнее она помнит и понимает мелкие детали, включая и пальцы (но панацеи тут всеравно не будет), тем более качественно можно делать апскейл. Все правильно.
> Но почему никто даже не попробовал?
Сейчас сложно найти новые файнтюны 1.5 что проводят в разрешении 512.
Аноним 28/11/23 Втр 20:37:05 557634 235
Нейрочелики, как дообучить модель в finetune kohya_ss ?
Аноним 28/11/23 Втр 21:04:13 557671 236
У меня вопрос, как сочетается опен сорс лицензия, по которой работают sai (как понимаю, она вирусная, и при всем желании они отказаться от нее не смогут), и то, что они прячут за api 1.6, и раньше прятали xl?
Аноним 28/11/23 Втр 21:45:39 557708 237
>>557671
Это лицензии с пользователями, т.е. это только для тебя вирусная GPL или что там у них, не ебу, а SAI правообладатель и могут делать что хотят. Часто в софте делают коммерческую лицензию и вирусную для опенсорса, никто не запрещает проприетарщине иметь не совместимые между собой лицензии.
Аноним 28/11/23 Втр 22:58:40 557779 238
>>557671
Ох, чувак, учи матчасть. И про вирусность лицензии, и про разницу копилефта и пермиссива, и вот это всё. В двух словах не объяснить. Грубо говоря, у SD - пермиссивка, не вирусная: мол, вот вам веса, творите что хотите. Или нет, анончики?..
Аноним 28/11/23 Втр 23:21:16 557803 239
>>557671
>>557708
>>557779
Лицензия не опенсорс, а OpenRAIL++. Попенсорс был бы, если был бы весь процесс можно было бы реплицировать с нуля, включая точный датасет и все настройки тренировки. Ну и датасет тоже должен позволять такое использование.

А в чём проблема что прячут за api? Ну никак не совместимо. Как выпустят веса, так будет OpenRAIL++.

>>557634
Так же как и лору или будку, в чём конкретно вопрос?
Аноним 28/11/23 Втр 23:22:55 557805 240
Аноним 28/11/23 Втр 23:41:17 557820 241
Аноним 28/11/23 Втр 23:49:43 557829 242
>>557805
Кал какой-то. Похоже тренировалось на 512, на 1024 мутанты как на ванильной полторашке, качество говно. Мержил разницу к кастомкам - пиздец хуже LCM. Негативы не работают так же как и с LCM.
Аноним 28/11/23 Втр 23:55:23 557832 243
>>557829
У них обратные результаты, а на 4 шагах получается что-то уровня SDXL. Собственно цель и была избавиться от LCM-мыла. Пока читаю пейпер, не вижу ничего препятствующего негативам как в LCM
Аноним 29/11/23 Срд 00:01:56 557836 244
>>557832
На практике я не вижу этого результата. И апскейлится оно очень хуёво. XL и так такое себе по качеству картинки, а это совсем пизда.
> избавиться от LCM-мыла
Легко избавляется дополнительными 4-6 шагами хайрезфикса с Euler a.
> не вижу ничего препятствующего негативам как в LCM
Они выключены вообще в демо SAI, в принципе их нет. Если на практике включить CFG 1.5 - сразу пидорасит.
Аноним 29/11/23 Срд 00:06:00 557838 245
>>557805
Есть демо на клипдропе
https://clipdrop.co/stable-diffusion-turbo
Выглядит очень плохо, хуже ванильной полторашки. Всё в артефактах, разрешение как у полторахи, вместо людей месиво.
Аноним 29/11/23 Срд 00:24:15 557853 246
ну че все идёт к тому что нейросетки будут риалтайм?
Аноним 29/11/23 Срд 00:37:20 557868 247
>>557853
Всё идёт к тому что в следующем году полторашку изобретут второй раз. Будет реальным прорывом, глядя на то как отрицательно прогрессирует качество в последние пол года. Какая-то рекурсия, год прошёл, а стало только шакальнее, зато в 10 раз быстрее.
Аноним 29/11/23 Срд 00:52:18 557884 248
>>557868
Какое быстрее, у меня до сих пор на CPU не идет. Не покупать же видяху.
Аноним 29/11/23 Срд 00:58:42 557889 249
>>557365
>Сейчас сложно найти новые файнтюны 1.5 что проводят в разрешении 512.

Ага, вот только все примеры к топовым моделям сделаны на каких-нибудь 512х640 или 512х768 и потом прохайрежены. Но ладно, я могу быть долбодятлом и долбиться в глазоньки... можешь, плиз, показать хорошие, годные современные фотореалистичные модели, по качеству не уступающие фотогазму (возьмём его за точку отсчёта), которые легко сгенерят мне тянку без искажения пропорций... ну, хотя бы 649х960? 16 тянок из 16, например. С тебя сид-промпт - прочие сорцы, с меня - попытаться построить контрпример.

И как тогда, кстати, делают современные инпаинтинговые модели, которыми раздевают тянок? Тренят скриптом? Каким?..
Аноним 29/11/23 Срд 00:59:28 557890 250
>>557884
Сколько гигов оперативки?
Аноним 29/11/23 Срд 01:01:08 557891 251
Аноним 29/11/23 Срд 01:05:07 557893 252
>>557853
Я в крите балуюсь "реалтаймом" в 4 секунды на фрейм безо всяких ЛЦМ, и это просто охуенно, совершенно иной способ, мамины "промпт инженеры" сосут бибу. Игнорируй довена выше, он ноет абсолютно всегда.
Аноним 29/11/23 Срд 01:11:29 557895 253
>>557893
Кстати, есть идея прикрутить подобный процесс в редактор на андроиде, с использованием облака. Рисовать пальцем. Технически будет несложно, просто нет такого же редактора на андроид чтоб сделать плагин.
Аноним 29/11/23 Срд 01:16:39 557896 254
>>557884
Я скушал аренда-пилюлю и уже передумал покупать 4090. Покупать имеет смысл если тебе есть чем её загрузить 24/7. На деньги что нужны для 4090 и компа под неё, я могу лет 6-7 подряд генерить в темпе 2 часа в день, а там уже несколько поколений пройдёт, и заточки под новый куда компьют, и вообще всё совершенно изменится.
И при этом мне не нужна 4090 большую часть времени, обычно хватает V100 16ГБ или 3090 24ГБ, а для тренировки всё равно выгодней арендовать большой утюг вроде A100 80ГБ, т.к. можно увеличить размер батча и выйдет быстрее+дешевле чем на 4090, либо тренировать SDXL на полной точности. Так что выходит намного дешевле.
Аноним 29/11/23 Срд 01:17:48 557897 255
На реддите пояснили, чем civitai отбивает затраты на свой генератор. Ответ: ничем.

>Burning venture capital until they get bought by someone larger or crash, like a lot of companies

Потом продадут бизнес, а новые владельцы введут цензуру, позапрещают всё NSFW и модели с лолями типа CuteYukiMix.
Кстати, уже был похожий, охуенный сайт - который закрылся, когда сжег бабло с инвестиций. Подозреваю, что и с проектом SD, и со стабилити та же история. Эх...
Аноним 29/11/23 Срд 01:19:45 557899 256
>>557895
Пальцем неудобно, куда лучше небольшой планшет купить графический, с пером. Рисовать толком уметь не надо, надо просто мочь представлять картинку в голове. Хотя можно и айпад/самсунг с пером, тоже прокатит.
Аноним 29/11/23 Срд 01:19:58 557900 257
>>557365
>Невозможно сделать пару волшебных слоев, которые из поломанной <...> сделают хорошую картинку.

Давай зададимся (пока теоретически) более простой целью. Допустим, что нам нужно уметь делать хайрезный дженерик. Одна тян, стоит/сидит, смотрит в камеру / вбок / вдаль / на тебя как на говно. Много ли тут информации надо впитать, а? Голова сверху, ноги снизу, пупок один (ну или там по количеству тянок), грудей один ряд. Горизонт слева и справа на одном уровне. Небо вверху одним куском. Ну и так далее. Возможно ли это теоретически - или я принципиально не понимаю, как работают гипернетворки?

>>557896
Аноним 29/11/23 Срд 01:23:11 557902 258
>>557893
какой денойз в им2им ставишь?
Аноним 29/11/23 Срд 01:24:46 557903 259
>>557897
>Подозреваю, что и с проектом SD, и со стабилити та же история.

Ага, только есть нюанс. Джинна в бутылку не загнать, веса полторашки и сдохли уже в паблике, контролнет придумала не стабилити, а коммьюнити (поправьте, если неправ). Мир уже никогда не будет прежним. А бабло инвесторов... ну, это бабло инвесторов. Они знают, что идут на риск.
Аноним 29/11/23 Срд 01:25:17 557904 260
>>557899
Братюнь, купить можно и видеокарту для ПК, а нужны именно решения для девайсов которые есть под рукой.
Рисовать умею, стилус для Wacom планшета где-то проебался лет пять назад, - да и мобильные устройства мне так-то больше нравятся.
Аноним 29/11/23 Срд 01:26:06 557905 261
>>557896
Можно кулстори с подробностями? Оно, конечно, лучшие вещи в мире бесплатны, но о нелучших тоже неплохо бы знать. Какой страны карточка, которой платишь? Какой сервис используешь? Почём час аренды утюга?
Аноним 29/11/23 Срд 01:29:05 557908 262
>>557897
Блять, отрыл Армению, зарывай обратно. Чугуниевая долина в таком режиме вообще десятилетиями живёт. Реальность же в том что цена тренировки резко упала и доступна / скоро будет доступна хуям простым.
Аноним 29/11/23 Срд 01:30:52 557910 263
>>557889
> годные современные фотореалистичные модели
Предпочитаю 2д, сорян. Стоит отметить что большинство современных миксов без проблем переваривают 768х768, 800х600 и подобные разрешения и хорошо себя показывают на апскейлах.
Раньше думал что в фотораелизме там дохуя какой прогресс, но поизучав посты авторов "топовых моделей", их рекомендации, гайды и прочее сильно засомневался. Но это лишь оценочное суждение по узкой выборке, офк найдутся и хорошие мастера - моделеделы.
Натренить базовую модель в ~768, не поломав а наоборот улучшив, сделав лучшую работу с мелкими деталями и когерентность, добавив то что хочешь - не то чтобы сложно, а потом результат мерджишь по усмотрению, получая все фишки. "Повышение эффективного разрешения" возможно даже лорой сделать, будет побочный эффект если тренить в изначально большем разрешении. Офк речь о нормальной а не пиздеце с клозап лицами. Другой пример - собаки, которые заявляют 1024 базовым разрешением и относительно когерентных тней генерируют в нем.
> кстати, делают современные инпаинтинговые модели
Просто современные модели - дримбус. Инпаинтовые - мерджем разницы с древностью времен 1.4. Возможно есть более новые зафантюненные модели с теми слоями, не в курсе. Чтобы раздевать тяночку достаточно самой обычной модели без всяких доп слоев.
>>557900
Хз как они работают, писали что шли поверх основной модели. Если у тебя в глубине поломалось, то обратно не соберешь, для работы в повышенном разрешении вся модель должна хорошо работать, а не иметь при себе волшебную добавку. Как раз ту самую информацию что ты описал оно должно чувствовать на большей области.
Аноним 29/11/23 Срд 01:32:56 557912 264
>>557905
Я не он, но использую полнофункциональное API бесплатно. Не хватает лишь мелочей типа обработки видео.
Аноним 29/11/23 Срд 01:34:12 557914 265
>>557365
Алсо, а где можно взять соответствующие датасет хотя бы на пару тысяч картинок? Можно, конечно, взять фотки одноклассниц из вконтактика заботливо мною сохранённые на винте ещё в бытность школьником, а вы что подумали? и протегать их, но такой датасет ведь будет нелегален, верно? Нельзя ведь просто так взять картинку из интернета и распространять её. Нехорошо-с, неопенсорсненько.

Набирать же генерации с цивиты... Ох, ну с анимцом ещё туда-сюда этот способ, но реалистик... Ой...
Аноним 29/11/23 Срд 01:37:10 557918 266
>>557912
Раз бесплатно, то тем более пили кулстори. Анонимус ждёт!
Аноним 29/11/23 Срд 01:42:42 557922 267
>>557910
>Предпочитаю 2д
Сейм.

Но для меня есть два направления, одно из них это манга-стиль. Причем ортодоксальный, без 2.5д, без "обведенного" 3д носа у персонажей.
Второе - это японские айдору и AV контент, с фотореалистичными SD моделями. Здесь задача подражать скриншотам из японских фильмов, поэтому реализм должен наоборот быть максимальным, без CG эффектов. Почему-то не перевариваю блядей как в met-art, MILF и подобные фетиши. Но японские JAV актрисы это другое, они милые. Причем, могу сразу на глаз различать японок, кореянок и китаянок - у них разное строение лиц, например кореянки немного похожи на белых. Мои любимые актрисы ирл Yua Mikamo и Yui Hatano. Ayumi Shinoda всратка, но шишка колом. Юлька вообще грудастая богиня, сразу видно еврейскую кровь.
Аноним 29/11/23 Срд 01:43:58 557924 268
Аноним 29/11/23 Срд 01:49:33 557926 269
>>557905
vast.ai, другой страны + впн для оплаты, час утюга от полубакса до полутора в зависимости от утюгастости и времени суток, час обычной видюхи в 2-3 раза дешевле. Сетевой трафик не бесплатный, это тоже надо учитывать и экономить размеры. Есть ещё runpod, есть serverless апи для генерации типа comfyuiworkflows с готовым подключением комфи или modal с быстрым холодным стартом, которые берут только за загрузку, они вроде дешевле, но если нагружать дохуя то дороже.
Аноним 29/11/23 Срд 01:49:44 557927 270
>>557918
nogpu-webui.com
Если не сможешь разобраться - значит, тебе не нужно
Аноним 29/11/23 Срд 01:51:08 557928 271
04917-333036123[...].png 1520Кб, 1024x1536
1024x1536
04916-333036123[...].png 1858Кб, 1024x1536
1024x1536
04930-333036123[...].png 1092Кб, 1024x1024
1024x1024
04976-1337-0546[...].png 1237Кб, 1024x1024
1024x1024
>>557910
>Предпочитаю 2д, сорян. Стоит отметить что большинство современных миксов без проблем переваривают 768х768, 800х600 и подобные разрешения и хорошо себя показывают на апскейлах.

О, чувак, вот тебе Lametta с 1024х1024 от фуррей. Не ах какой идеал, но пикрил сделаны на ней без хайрезфикса.

https://huggingface.co/NickKolok/lametta-v2012-beastboost-2ch-fp16

Но у неё есть некие проблемы с обучаемостью с будке. Впрочем, не исключено, что это у меня проблемы с кривизной рук.

> "Повышение эффективного разрешения" возможно даже лорой сделать, будет побочный эффект если тренить в изначально большем разрешении.

Всё уже украдено придумано до нас. https://civitai.com/models/110071/hd-helper
Толком не тестил, хотя вау-эффекта не даёт.
Аноним 29/11/23 Срд 01:55:20 557930 272
>>557928
>Всё уже украдено придумано до нас.
На аниме-моделях нифига не работает, кстати.
Аноним 29/11/23 Срд 01:55:57 557931 273
>>557927
>nogpu-webui.com
Так со сбросом кук (в моём случае - chromium-browser --temp-profile) и на гравити можно. Какие плюсы/минусы?.. Какие подводные?
Аноним 29/11/23 Срд 01:57:30 557932 274
>>557930
На анимэ-моделях есть BeastBoost. Про проверку которого на реалистике мне ничего не известно. Мой ноут почти успел достигнуть японского возраста согласия, но последний внезапно подняли
Аноним 29/11/23 Срд 02:02:28 557933 275
>>557914
Некоторые выложены в публичном доступе на той же обниморде, на кагле есть коллекции и т.д., но офк на них уже тренили и качество там самое разное. Собирай самостоятельно на различных агрегаторах и потом тегай хотябы тем же клипом.
> но такой датасет ведь будет нелегален, верно?
Это серая зона в принципе, сложно доказать и на обычного пользователя всем похуй. Если так это волнует - делай свои фотографии в публичных местах, обрабатывай и используй. Можно этот процесс даже автоматизировать чтобы время не тратить, закону не противоречит. Или используй ресурсы со свободной линцензией контента, много начинающих фотографов выкладывают с такими.
> Набирать же генерации с цивиты
Только если самые отборные и удачные, иначе преумножит количество артефактов.
>>557922
Эх, назвал два самых "сложных" направления из 2д. По первому проблематично собрать датасет ибо сложно сортировать чтобы остальное не подмешивалось. Но и избегать этого нельзя ибо не наберешь должного баланса и разнообразия датасета, как вариант вообще просто лорой воспользоваться поверх "униваерсальной модели". Второе уже сильно в фотореализм, но с элементами. Только пиздеть рассуждать могу, подсказать нечего, увы.
>>557928
> пикрил сделаны на ней без хайрезфикса
Год назад о подобном можно было только мечтать, отличный пример.
Аноним 29/11/23 Срд 02:04:48 557934 276
>>544450
Да, будку на колабе.
Аноним 29/11/23 Срд 02:05:02 557935 277
>>557931
На гравити нужно регать акк, даже если и не сдетектят сразу твое временное мыло. Всё это - руками.
Аноним 29/11/23 Срд 02:07:41 557936 278
>>557933
>назвал два самых "сложных" направления из 2д.
Щта? Это же и есть самые проработанные файнтюны. Первое Anything v3 и прочие, второе - есть реалистик модели специально для азиаток.
Аноним 29/11/23 Срд 02:08:51 557937 279
>>557928
Чем превосходит XL?
Аноним 29/11/23 Срд 02:10:03 557938 280
>>557914
Генерируй с dall-e 3
Аноним 29/11/23 Срд 02:13:21 557940 281
>>557933
Да неправильно это - добиваться когерентности лорами, да извинит поздний час мой теоретизирующий максимализм. Лора - это ведь искажение весов модели, искажение, которое что-то убирает, что-то корёжит. Не должно это так работать, должно быть приращение знания! Вот жопой чую! Должен быть способ добавить информацию в модель, как это делают две самые успешные технологии в мире SD, два game changer - инпаинтинг и контролнет... Должна быть выраженная модульность.

Хотя добавить гипернетворк/слои, отвечающие за когерентность, а потом уже вместе с ними тренировать модель как единое целое на высоких разрешениях - тоже вполне себе хорошая идея. Вот сейчас что будет, если условную NAI начать тренировать на 1280х1280? Подозреваю, что полная фигня! Тут ведь был анон с датасетом под 1024, или это в SD-треде?..


Человек с высшим математическим образованием никогда не скажет "полная жопа" - он тактично уточнит, что наблюдаемая жопа - банахова.
Аноним 29/11/23 Срд 02:15:05 557942 282
>>557928
>BeastBoost is a trick developed by Anonymous on 2ch.hk/ai/ imageboard.

RAKI SUKA
Аноним 29/11/23 Срд 02:18:47 557944 283
>>557942
Извольте детальнее изложить причину недовольства, сударь, пока я не вызвал Вас по айпи на дуэль на пингах ?
Аноним 29/11/23 Срд 02:24:42 557945 284
>>557936
> Первое Anything v3
Древнее зло, не соответствующее современным стандартам и недалеко ушедшее от наи, в сравнительных гридах хорошо заметно, которое вполне себе выдает 2.5+д если попросить художниками и длинными промтами на реализм.
>>557940
Правильный путь - полноценный файнтюн.
> Хотя добавить гипернетворк/слои, отвечающие за когерентность
Это как добавить человеку вторую печень чтобы улучшить его мелкую моторику, никакого толку. Простая тренировка решит эту проблему. Если ты просто про изменение размеров слоев или их структуры - это уже другая модель будет, как 2.1/xl.
> Подозреваю, что полная фигня!
Если найдешь хороший сбалансированный датасет, подберешь параметры тренировки и постепенно поднимешь разрешение - будет не фигня. Только это просто лишь на словах, сделать это так чтобы при этом ничего случайно не лоботомировалось - та еще задача. Для анимца просто хайрез пикчи это меньшая из проблем.
Аноним 29/11/23 Срд 02:25:59 557947 285
>>557932
Это шаманство с мёрджами мы тут сравнительно недавно тестировали, и лично я пришел к выводу, что не стоит оно того. Начинает выдавать картинки с разной степенью контрастности, вдобавок периодически выдавая непонятные цветовые акценты туда, где их быть не должно. Особенно сильно било синим и фиолетовым цветами. Чертовы синие собаки, их явно было слишком много в датасете оригинальной меховой модели.

Хотя возможно, что с тех пор методика мёрджа как-то поменялась. Хз.
Аноним 29/11/23 Срд 02:28:59 557948 286
>>557937
Совместимостью со всем полторашным хозяйством, включая схемы обучения, лоры, контролнеты и т.д. Насколько там хорошая совместимость - вопрос дискуссионный, но явно лучшая, чем полное её отсутствие у сдохли.

Что не отменяет того факта, что за сдохлей может быть будущее.

Кстати, из релиза "контры" (SD 1.6) убрали хвастовство про хайрез, теперь там просто
> stable-diffusion-v1-6 has been optimized to provide higher quality 512px generations when compared to stable-diffusion-v1-5

https://platform.stability.ai/docs/release-notes#stable-image-v1-release
Аноним 29/11/23 Срд 02:31:28 557949 287
>>557947
Насколько я понимаю, это всё тот же train-diff задом наперёд.
Аноним 29/11/23 Срд 02:32:48 557950 288
>>557945
>Это как добавить человеку вторую печень чтобы улучшить его мелкую моторику, никакого толку.

Чего это никакого? Быстрее выводится алкоголь -> меньше трясутся руки -> лучше мелкая моторика!
Аноним 29/11/23 Срд 02:42:06 557953 289
>>557948
Всегда знал, что бенгали - пиздаболы, лишь бы струсить бабла с инвесторов.
Аноним 29/11/23 Срд 02:43:36 557954 290
diffused2023-11[...].png 542Кб, 632x888
632x888
diffused2023-11[...].png 881Кб, 768x1024
768x1024
diffused2023-11[...].png 799Кб, 648x912
648x912
diffused2023-11[...].png 732Кб, 648x896
648x896
И ещё один вопрос. Как водится, ЕОТ. Тренил я её, тренил, и наконец натренил. Нагенерил много картинок. Понятно, что какие-то похожие и удачные, а какие-то... Вот пикрил1. Вроде няша, и вроде волосы такие, и причёска, и глаз столько же. Однако ж - не она!

А пикрил 2 вообще капец. И тоже не она. Пикрил3 тоже не очень-то похож - и субъективно, и объективно. Пикрил4 вобще морду помяло.

Не пропадать же нагенерённому добру? Может, его можно как-то присобачить к тренировочному датасету (с отрицательным весом? как отдельный концепт?) и повторить тренировку?..

Алсо, а как вообще валидируется успешность тренинга лица, кроме подсчёта совпадений на https://search4faces.com/search_vkwall.html ?
Аноним 29/11/23 Срд 03:14:17 557960 291
image.png 39Кб, 1546x214
1546x214
>>557928
Чет я не могу найти этот флаффирок e159, у автора этой линейки модели нет такой, либо почему всем так впадлу писать ссылки на модели, которые используют в мерджах?
Аноним 29/11/23 Срд 03:37:51 557962 292
Аноним 29/11/23 Срд 04:57:34 557983 293
>>557962
>не монетизируешься
>жалуются
>монетизируешься
>снова жалуются
Аноним 29/11/23 Срд 06:44:24 557997 294
>>557949
Ну я вот модель по ссылке потестировал - вообщем-то получше, чем в моем мердже. Когерентность не теряется, контраст постоянный.
Задники блюрит только совершенно нещадно (хотя может это косяк базовой модели, хз), ну и вообще на 1024х768 не шибко много разницы заметно, по сравнению с каким-нибудь 800х600, в котором я стандартно лоурезы генерю.
Только вот с 1024 вполне и кохаевский хайрезфикс справляется плюс-минус с теми же затратами скорости.

P.s. ради интереса посмотрел, так моя текущая модель вполне себе с 1024х768 справляется и сама по себе, ха. Вот она, польза файнтюнов.
Аноним 29/11/23 Срд 07:09:04 558001 295
Аноны, а кто-нибудь мега-лоры с сетами в несколько тысяч картинок тут тренил вообще? Какие настройки нужны при такой тренировке?
Вот, допустим, я тренирую, ну, скажем, деревья.
Датасет и тэги структурирую следующим образом:

В стиле_Ван-Гога__Дерево
В стиле_Ван-Гога__Дерево__Зимой
В стиле_Ван-Гога__Дерево__Летом
В стиле_Шишкина__Дерево
В стиле_Шишкина__Дерево__Зимой
В стиле_Шишкина__Дерево__Летом

Тренить, понятное дело, буду не деревья

Всё по стандарту ставить, просто повторений на каждую картинку поменьше?
Но ведь очень сильное усреднение получится? Тогда как мне бы хотелось бы чтоб лора смогла это всё разграничить, не смешивая. Чтоб была возможность суб-концепты (дерево_шишкина_зимой) вызывать поверх базового (просто какого-то усредненного дерева)
Дотренировку делать после того, как один блок-датасет ухватится? А оверфита не получится? Ведь базовый концепт (дерево) будет один.
Непонятно, вообщем.
Аноним 29/11/23 Срд 07:21:14 558004 296
>>557803
>Так же как и лору или будку, в чём конкретно вопрос?
Ну и как? Вот я обучил модель, как её туда обратно запихнуть чтоб она дообучилась с более долгим lr ?
я даже когда ставил на стоп кнопкой она потом заново с первой эпохи куячила, а не продолжала. куда жать что делать бля конкретно
Аноним 29/11/23 Срд 09:04:03 558035 297
>>557708
> а SAI правообладатель
>>557703 →
> А в чём проблема что прячут за api? Ну никак не совместимо. Как выпустят веса, так будет OpenRAIL++.

Так они ж не с нуля сделали, они дообучили веса, натрененые изначально вообще CompVis

>>557779
> у SD - пермиссивка, не вирусная:
Я на цивите краткое описание этого open rail++ смотрел, там мержи и дообученные нельзя продавать указано. То есть уже точно не полностью свободная. Может она вирусная только в плане продажи, хз, а в плане сервиса - нет. Саму лицензию я читать, конечно же, не буду. Есть еще вариант, что создатель прошлых весов в особом порядке для них пролиценщировал

Sd корнями из MIT идет, нет? Вообще, судя по политике sai, создается впечатление, что они очень хотят закрыть свои модели. И думаю если б не вирусность, то с радостью как open ai закрыли бы. На сайте ни слова про локальное использование
Аноним 29/11/23 Срд 09:11:21 558037 298
>>557836
> Если на практике включить CFG 1.5 - сразу пидорасит.
Плюс негативы работают не корректно. Просто рандомно меняют картинку, а не то, что указал в негативе
Аноним 29/11/23 Срд 09:28:50 558040 299
>>558004
В командной строке у Кохи был флажок --resume, посмотри, как он работает.
Аноним 29/11/23 Срд 09:34:11 558042 300
>>558040
в какой нахуй командной строке, у меня эта визуальная хуета автоматика
Аноним 29/11/23 Срд 10:30:50 558070 301
>>558042
> в какой нахуй командной строке
> Stable Diffusion технотред
Аноним 29/11/23 Срд 10:31:40 558071 302
>>558042
> в какой нахуй командной строке
Командная строка - это терминал. Консоль. PlayStation 5
Аноним 29/11/23 Срд 11:26:07 558090 303
>>558042
Ну лично я сторонник баша, хотя вот zsh и dash тоже хвалят. Главное - не cmd
Аноним 29/11/23 Срд 11:27:15 558092 304
Там Linaqruf опубликовал ебейшую XL модель, го пробовать.
Аноним 29/11/23 Срд 11:35:31 558098 305
image.png 130Кб, 1842x906
1842x906
Аноним 29/11/23 Срд 11:42:58 558102 306
Анончики, хочу тренировать лору, подскажите, что такое регулярязационные изображения?
Аноним 29/11/23 Срд 12:20:25 558119 307
>>558098
Братишка, не выебывайся и спроси иначе. Повторяй за мной: "аноны, помогите, я не знаю как в командную строку, что нужно сделать?"
Аноним 29/11/23 Срд 12:37:19 558127 308
>>558119
Нахуй мне твоя командная строка не впёрлась, мне нужно через визуальный интерфейс автоматика как белый человек запустить дообучение, а не пердолить в линуксы
Аноним 29/11/23 Срд 13:37:07 558147 309
>>558098
>>558127
Где тут автоматик? Или пихаешь свою модель в качестве исходной и тренишь дальше с новым запуском шедулера, или через --resume как и сказали продолжаешь, но тогда шедулер продолжится и если он завершился то заново начинай.
Аноним 29/11/23 Срд 15:08:04 558221 310
Сука блять, что ха хуйня. Драйвер не обновлялся, дистр не обновлялся, нихуя не обновлялось, но NansException: A tensor with all NaNs was produced in Unet. This could be either because there's not enough precision to represent the picture, or because your video card does not support half type. Try setting the "Upcast cross attention layer to float32" option in Settings > Stable Diffusion or using the --no-half commandline argument to fix this. Use --disable-nan-check commandline argument to disable this check.
Да какова ж хуя, что сломалось-то бля. И ведь --no-half --no-half-vae есть, и float32 тоже попробовал выставить, и все равно залупа. Не буду же я --disable-nan-check ставить чтобы черные квадраты получать.
ГОВНО ЖОПА
Аноним 29/11/23 Срд 15:19:21 558232 311
image.png 56Кб, 831x596
831x596
>>558147
> Или пихаешь свою модель в качестве исходной
Как его туда запихать? там нет кнопки добавить другую свою
Аноним 29/11/23 Срд 15:24:36 558236 312
>>558232
Пиздос, ты даже в гуе заблудился, даже блять мышкой натыкать не в состоянии. Кастом нажми, мудила.
Аноним 29/11/23 Срд 15:25:12 558237 313
>>558232
Белый блять человек он, обезьяна ёбаная.
Аноним 29/11/23 Срд 15:34:13 558240 314
>>558236
Если в тебе осталась хоть капля мужского согласись, что это было не так очевидно как ты это преподносишь. custom должен быть вынесен отдельно, а не в общем списке с моделями, это я тебе как дизайнер говорю.
Аноним 29/11/23 Срд 15:35:54 558241 315
>>558240
>custom должен быть вынесен отдельно
>это я тебе как дизайнер говорю.
А я-то думаю, почему с каждым годом интерфейсы все всратее и всратее.
Аноним 29/11/23 Срд 15:40:02 558248 316
>>558241
потому что их делают индусы, а не я.
Аноним 29/11/23 Срд 16:31:22 558292 317
heyBarsee-17295[...].mp4 4545Кб, 1280x720, 00:00:53
1280x720
Аноним 29/11/23 Срд 16:33:04 558296 318
>>558292
Вот кстати, а треда на видеогенерацию нет, чтоль?
Или он где-то утонул?
На дипфейки вижу, а вот чисто видео - что-то нет.
Аноним 29/11/23 Срд 16:36:22 558301 319
>>558296
А зачем он? Видеогенерация все еще кал
Аноним 29/11/23 Срд 16:55:00 558327 320
>>558221
Настало время переустанавливать автоматик!
>>558232
Действительно белый человек. Выбираешь "кастом" и потом вручную прописываешь путь к своей моделке. Чтобы не обосраться - скопируй из проводника.
>>558292
Если бы эти видеогенераторы были в действительности также хороши как на промо видео.
Аноним 29/11/23 Срд 17:03:18 558334 321
>>558035
Ну вон Имад твитнул выше, рассматривают Юнити-монетизацию для новых core-моделей. Типа если зарабатываешь этой моделью, башляешь им фиксированную плату, а для остального можешь юзать и файнтюнить как хочешь.
Аноним 29/11/23 Срд 17:10:37 558337 322
>>558292
Ехал черрипик через черрипик.
Помнится ещё год назад кто-то показал ахуительный рил с переносом стиля голливудско-диснеевского качества, а воз и ныне там.
Заебись было бы иметь хорошую видео модель, но по демо-рилам не судят.
Аноним 29/11/23 Срд 17:21:12 558338 323
input0t.mp4 1387Кб, 1280x1920, 00:00:02
1280x1920
Аноним 29/11/23 Срд 17:46:31 558350 324
Аноним 29/11/23 Срд 17:55:17 558361 325
>>558337
>Ехал черрипик через черрипик.
Как будто картинки не так генерятся, лол.
На одну хорошую - десяток-другой не очень.

>>558301
НАИ в начале тоже кал был (сравнивая с текущим состоянием дел), а тред до сих пор есть.
Аноним 29/11/23 Срд 18:07:09 558374 326
>>558361
Они пока хуже наи и даже дефолтной SD1.4
Аноним 29/11/23 Срд 19:28:28 558421 327
Сап, вечерний. ЕОТ. А вот пиков её косплея на конкретного персонажа в хорошем качестве - раз, два и обчёлся. Но есть шакалы а-ля 384х640 (то есть у самих фоток-то разрешение поболе будет, но они со сцены и там другие тяночки тоже есть, не такие интересные.

Вопрос: чем апскейлить? Каким апскейлером? К моим услугам все те, что есть на гравити.

Персонаж очень уж оригинальный - бульбазавр в бикини.
Аноним 29/11/23 Срд 20:08:20 558480 328
>>558361
>Как будто картинки не так генерятся, лол.
>На одну хорошую - десяток-другой не очень.
Нет. Если меняешь сид, уже что-то не так. Черрипик это следствие ограничений, как и промпт инжиниринг, рандом непригоден для практического юзания.
Аноним 29/11/23 Срд 20:16:41 558499 329
изображение.png 11Кб, 279x131
279x131
>>558480
>рандом непригоден для практического юзания.
При этом вся ИИ-генерация картинок построена на создании изображения из рандомного шума.
Ага.

P.s. Опять капчу поменяли. Как вот такое решать, ё-моё?!
Аноним 30/11/23 Чтв 16:02:36 559049 330
Аноним 30/11/23 Чтв 16:22:19 559058 331
>>559049
В интеграциях с фотошопом/критой уже давно есть.
Аноним 30/11/23 Чтв 17:16:57 559081 332
Штош... 1050 показывала ~60it/s, 1630 показывает ~18it/s (возможно что еще немношк разгонится)
Охуеть, это даже быстрей чем на моей домашней 1063 хотя userbench показывает что она мощнее в джва раза.
Аноним 30/11/23 Чтв 17:33:59 559092 333
Как добавить вариативности в инпаинтинге? Сиды, смена шедулера не помогают. Модель генерирует результаты с минимальными изменениями
Аноним 30/11/23 Чтв 19:02:10 559155 334
>>559049
Так это давно было в плагинах под комфи, и для блендера, и для криты. Через OBS это костыль какой-то.

>>559092
Деноис повысь, наверно.

>>559081
>1050 показывала ~60it/s, 1630 показывает ~18it/s
Чтобля, где ты там столько итераций накопал, 4090 еле до 60it/s допукивает при всех оптимизонах
Аноним 30/11/23 Чтв 19:10:47 559173 335
Аноним 30/11/23 Чтв 20:30:50 559270 336
mediaGAJenO1W0A[...].jpg 273Кб, 1315x984
1315x984
Аноним 30/11/23 Чтв 20:52:24 559293 337
Аноним 30/11/23 Чтв 21:05:32 559301 338
>>559270
Это хайрезфикс кохи, только вместо интерполяции конволюшеном жмут.
>>559293
Тайлинг, сразу нахуй.
Аноним 30/11/23 Чтв 21:15:50 559313 339
>>559301
Там же только первая половина от кохи.
Аноним 30/11/23 Чтв 21:57:06 559339 340
>>559313
Вторая половина про Свин - это оптимизации скорости для хайрезов в основном.
Аноним 30/11/23 Чтв 23:06:14 559418 341
Без имени.png 69Кб, 1434x646
1434x646
>>559155
Не бомби, это я ошибся перепутав показания. Не it/s а s/it то есть секунд на 1 шаг. Не стал исправлять, подумал что вы и так поймете. Пикрил 1063 из консоли (об этом нюансе я писал тут >>554424), для 1050 и 1630 так же скорость с запуском из консоли, через гуи я ебал запускать теряя половину скорости. 1050 я уже не пруфану в любом случае, а вот 1630 завтра принесу если не забуду.

Ну и еще я на днях попробовал на интол арк А380 завестись. В вебморде запуск через openvino появился, но ебать какой же это костыль. Короче я нишмог, и ебаться особого желания не было - воткнул невидию обратно.
Аноним 01/12/23 Птн 02:52:08 559660 342
>>559155
>>559058
Шо, прям вот так с переключениями по контролнетам, с позером, в котором есть скелет, и прочими свистоперделками, типа сегментации?
Или все-таки тупо "что-то рисую, оно мне это обрабатывает"?
Аноним 01/12/23 Птн 04:39:24 559707 343
>>559660
>Шо, прям вот так с переключениями по контролнетам, с позером, в котором есть скелет, и прочими свистоперделками, типа сегментации?
Ну да, в плагине под криту оно так и работает. Можно и скелет в векторе подвигать (и списать с позы), и IPAdapter есть, и сегментация, и хуяция, и естественно нормальный критовский инструмент доступен - кисти, слои ебошишь, перспективные гайды, трансформации и т.п. https://github.com/Acly/krita-ai-diffusion
Плагин под блендер это вообще конвертация комфи-нод в блендерные. https://github.com/AIGODLIKE/ComfyUI-BlenderAI-node/ плюс есть риг готовый https://toyxyz.gumroad.com/l/ciojz
Аноним 01/12/23 Птн 06:08:49 559745 344
а экстракт метод мерджа хорош, не такой ебнутый как трейн дифренс
Аноним 01/12/23 Птн 06:37:42 559753 345
>>559707
Та не, это не совсем то, что на видео показывали.

Хотя в ФШ и того нет поди...

Блин, не хочется криту осваивать. Лениво ппц.
Аноним 01/12/23 Птн 07:16:05 559769 346
1701404164601.jpg 215Кб, 1080x952
1080x952
1701404164619.jpg 148Кб, 1080x806
1080x806
Аноним 01/12/23 Птн 07:21:23 559775 347
Аноним 01/12/23 Птн 07:36:39 559783 348
>>559769
Потестил - ну смешанное впечатление. На 896х896 иногда мутации проскакивают, но редко. Но судя по рекомендуемому промпту на негатив - они выполняют дофига работы. (Там стена текста из missing limbs и т.п.), модель он обучил их воспринимать корректно

А по фотореализму - кажется стало только хуже, и до EpicPhotogasm очень далеко...
Аноним 01/12/23 Птн 09:16:27 559819 349
>>559418
Не забыл. Вот для 1630 например
Аноним 01/12/23 Птн 09:43:22 559824 350
>>559819
Бля. Скрин проебал, комп ребутнул. Позже принесу мб.
Аноним 01/12/23 Птн 16:03:55 560013 351
>>559769
по ощущениям на выходе как будто лцм механики присобачили с убиранием оверхита, надо допердолить через экстрактомердж с фотогазмом и чекнуть
Аноним 01/12/23 Птн 22:15:04 560315 352
Аноним 02/12/23 Суб 00:58:15 560569 353
При тренировке ведь чем больше размер батча, тем хуже результат? (модель хуже обобщает)

Если да, можно ли это побороть?
Аноним 02/12/23 Суб 07:45:00 560765 354
>>560569
Наоборот. Для LION рекомендован батчсайз 32+.
Аноним 03/12/23 Вск 00:07:38 561406 355
Аноним 03/12/23 Вск 02:37:27 561523 356
Аноним 03/12/23 Вск 04:48:43 561556 357
Аноны, а никто не в курсе, как лору-слайдер натренить?
Инструкции может есть какие?
Офигенская же штука (в некоторых случаях).
Аноним 03/12/23 Вск 05:13:03 561562 358
Аноним 03/12/23 Вск 13:49:54 561751 359
>>561562
Что-то нифига не понял из его коллаба, если честно.
Датасет куда грузить? Само генерится, чтоль, и потом на сгенерившимся тренируется?
Аноним 03/12/23 Вск 13:53:24 561754 360
Почему когда я ставлю Train batch size больше 1 время тренировки увеличивается, а не уменьшается? В чем смысл этих batch size тогда?
Аноним 03/12/23 Вск 14:13:29 561784 361
Шаред мемори?
Аноним 03/12/23 Вск 15:24:23 561831 362
>>543635 (OP)
Почему софт такое говно? Бесконечный бета-тест.
Аноним 03/12/23 Вск 15:30:23 561836 363
изображение.png 51Кб, 1499x447
1499x447
>>561751
>>561562
Хм. Походу так и есть.
Он генерит картинки, и потом через их сравнение (?) что-то там тренирует.
Однако Коллаб дохлый, выдает ошибку.
Какой-то кусок из софта необходимого чтоль не встал, или еще что-то?
Аноним 03/12/23 Вск 16:13:51 561895 364
>>561831
Купи подписку на OpenAI - там все на релизе, для таких как ты
Аноним 03/12/23 Вск 16:49:39 561910 365
Корочи, я потренил лоры на своих еотовых на разных настройках.
Лучше всего получилось по гайду хача - больше всего похоже на оригинал из всех остальных натрененых, отдельные генерации я бы отнес к категории реальных фото. Но только лишь отдельные - все равно не идеал, я бы доучил.
А по советам из треда получилось говно, норм результаты выдавало только на 0.8-0.9, более ранние эпохи генерили анатомически верно и соответствовали промту, но черты лишь отдаленно похожи. Говно, нирикаминдую. Вы походу на своих пресетах тренили на какую-нибудь маняме, у которой из черт лица - три черточки и две закорючки.
Ух бля, чет я заебался генерить всю эту залупу, лучше бы дальше с инпейнтом развлекался.
Аноним 03/12/23 Вск 17:03:31 561917 366
>>561910
Нормальная лора и должна выдавать норм результаты на 0.6-0.8
Аноним 03/12/23 Вск 17:05:55 561919 367
>>561917
Нет. Нормальная должна работать вплоть до 1.2-1.3.
Только потом уже должны начинаться заметные косяки.
То, что работает только на 0.6-0.8 - пережарено, перетренировано, или просто закосячено.
Аноним 03/12/23 Вск 22:17:37 562165 368
>>561919
С чего бы, лол? Твоя нормальная работа при 1.2-1.3 это недотрен..
Аноним 03/12/23 Вск 22:21:53 562173 369
>>562165
C того, что она работает на таких числах - и выдает приемлемый результат (конечно не совсем приемлемый, с косяками, ибо все-таки перебор - но никакого сильного искажения или пережаривания картинки быть не должно).
Аноним 03/12/23 Вск 22:45:58 562200 370
>>562173
Ну если тебе нравится, то ок. Только нормальный диапозон около 1, а 1.3 - потолок
Аноним 03/12/23 Вск 23:02:13 562220 371
>>562200
Так о чем и речь же.
Если лора не совсем ломается на 1.3 - это значит, что базовый диапазон у нее как раз в районе единицы.
Все, что крутится на 0.6-0.8 - на единице обычно выдает лютый пережар.
Аноним 04/12/23 Пнд 04:59:51 562487 372
Все разработчики нового AnimateAnyone - чонги Суй хуй в чай. Как же подгорает с пиздоглазой ордынской вьетнам хуйни когда она всюду лезет. Сиди бля в загоне и жри летучую мышь, ИИ - для белых людей.
Аноним 04/12/23 Пнд 13:56:59 562697 373
1701687418900.jpg 434Кб, 1080x1943
1080x1943
В ветке release candidate stable-diffusion-webui уже есть changlog на 1.7.0

Что за новые доп сети OFT и GLora? Про офт я пробовал понять документ по ним, вроде как типа та жа лора, только не портит какие-то концепты из основной сети. Но по примерам качественного отличия не заметил
Аноним 04/12/23 Пнд 14:33:12 562725 374
>>562697
> пробовал понять документ по ним
Нахуй вы вообще лезите туда, если буквы не понимаете?
Аноним 04/12/23 Пнд 19:32:30 562994 375
Мужики, куда делся кроп из имг2имг на автоматике?
Аноним 04/12/23 Пнд 22:13:15 563269 376
Аноним 04/12/23 Пнд 22:23:01 563287 377
>>562697
> OFT
Новая база. Только лучше всё же COFT брать, чтоб оверфит не ебал. OFT пойдёт шизам с микродатасетами хотя лучше насемплить 2-5 вариаций капшенов, чем эпохи дрочить и ловить момент где оно перестаёт ломаться на 1.0.
> GLora
Кал, очередной способ как сделать оверфит на ещё меньшем количестве параметров, аналог лоха. Делался для LLM, за результат на графике никто не отвечает.
Аноним 05/12/23 Втр 04:39:44 563508 378
Аноним 05/12/23 Втр 22:30:50 564333 379
Есть ли разница в скорости генерации если устанавливать софты на HDD или SSD?
Аноним 05/12/23 Втр 22:53:01 564354 380
>>564333
Нет. Но тягать туда-сюда модели и результаты генераций комфортнее на ссд, разумеется.
Аноним 06/12/23 Срд 05:44:16 564520 381
>>564333
>>564354
А лучше на SSD M.2 7000 Мбайт/сек. Там модели за 2-3 секунды меняются, мердж моделей идет в районе 8-10 секунд, если не меньше.
Советую Kingston FURY Renegade, по цена/качество самое то.
Аноним 06/12/23 Срд 08:23:28 564615 382
изображение.png 44Кб, 954x224
954x224
Можно как-то сделать чтобы контролнетовские модели не подгружались каждый раз при нажатии на генерейт? Заебывает сильно
Аноним 06/12/23 Срд 08:47:31 564631 383
>>564615
Выключи CN. Или ты хочешь пользоваться им без моделей что ли, шиз?
Аноним 06/12/23 Срд 08:52:03 564632 384
>>564615

Ну вот к примеру, я включил модули контролнета, нажал генерейт, он их подгружает, производит генерацию и выгружает из памяти эти модули. При следующем нажатии на генерейт все происходит по новой - ждать ~20 сек подгрузки модулей перед генерацией. Смысл этого дрочева, если я не меняю параметры и модули в контролнете? Понял о чем я, шиз?
Аноним 06/12/23 Срд 10:08:59 564651 385
>>564632
Нахуй ты сам с собой разговариваешь, шиз? Нахуй ты кэш CN-моделей выключил в настройках и траллишь тут тупостью?
Аноним 06/12/23 Срд 10:13:38 564653 386
>>564651
А я ничего не выключал. Зачем ты себе что-то надумываешь, шиз?
Аноним 06/12/23 Срд 10:15:00 564655 387
>>564651
Но я теперь хотя бы знаю в какую сторону копать. Спасибо тебе, ЧСВ дебил
Аноним 06/12/23 Срд 12:28:31 564713 388
где 1.6
Аноним 06/12/23 Срд 13:14:15 564729 389
Sup!

Меня мучает такой вопрос - на сколько сильно влияет кол-во памяти в видеокарте на результат генерации в СД? У меня 3070 на 8гб, генерирую уже год, получается вроде хорошо, хотя апскейлить больше чем на 1500х1500 из-за 8гб не получается, но это не страшно, меня больше волнует сильно ли я теряю именно в качестве.

Действительно ли на одной и той же модели, промпте и даже сиде результаты будут ОЧЕНЬ разные на моей 8гб и на условной 24гб?

Просто думаю может зря я хуйней вообще занимаюсь, раз нет карточки нормальной.

Пытался найти сравнения в инете, но не нашел.
Аноним 06/12/23 Срд 13:16:14 564731 390
Аноним 06/12/23 Срд 13:17:42 564732 391
>>564729
>на сколько сильно влияет кол-во памяти в видеокарте на результат генерации в СД?
Нинасколько.
>Действительно ли на одной и той же модели, промпте и даже сиде результаты будут ОЧЕНЬ разные на моей 8гб и на условной 24гб?
Нет, будет то же самое.
Аноним 06/12/23 Срд 13:20:09 564734 392
>>564732
Тогда на что именно влияет объем видеопамяти? Не просто ведь так за ним гонятся люди
Аноним 06/12/23 Срд 13:23:31 564739 393
>>564734
На то, что влезает в него (особенно при тренировке), и на размер батча.
Аноним 06/12/23 Срд 13:25:03 564740 394
>>564729
Очень разные результаты будут если у тебя 2 или 4 гига, medvram/lowvram меняют. В твоем же случае разница на том же сиде не будет. Для работы с большими тайлами - tiled vae используй. Тут уже достаточный размер поддерживается чтобы не было артефактов. Сложности могут быть только с контролнетами в больших разрешениях и всякими дополнительными моделями, что уже вместе с сд может не влезть.
Другое дело что перфоманс с 24 гигами если это не амд вырастет в разы, сможешь делать больше и в итоге лучше.
Аноним 06/12/23 Срд 13:27:32 564743 395
>>564740
>Очень разные результаты будут если у тебя 2 или 4 гига, medvram/lowvram меняют.
Несёшь хуйню и рад.
Аноним 06/12/23 Срд 13:30:48 564746 396
>>564743
Чому ты порвался? Это факт, с данными параметрами на мелких картах не воспроизвести оригинальные генерации. Будет ли средний результат в итоге лучше или хуже - хз.
Аноним 06/12/23 Срд 13:32:21 564749 397
>>564746
Это не факт, а выдумки дегенерата, несущего хуйню и не краснеющего при этом.
Аноним 06/12/23 Срд 13:46:39 564756 398
https://showlab.github.io/X-Adapter/

Адаптер для полторашных лор, контролнетов и т.п. к SDXL - без переобучения. Ни весов, ни даже кода не видать.

Интересно, если это возможно то можно ли тренить лоры под SD 1.5 и юзать через такой адаптер на SDXL?
Или допустим в принципе запилить две модели - одну большую, другую маленькую, и файнтюнить маленькую, а юзать через адаптер на большой.

Наверняка результат хуйня, где-то должен быть подвох.
Аноним 06/12/23 Срд 13:59:42 564766 399
>>564749
Истеричка, как ты можешь объяснить то, что счастливые владельцы нищекарт не могут воспроизвести сиды нормальных генераций?
Аноним 06/12/23 Срд 14:05:05 564770 400
Аноним 06/12/23 Срд 14:06:49 564771 401
Итак, вводные данные.
AMD Ryzen 7 5800X 8-Core Processor
64Gb Ram
AMDGPU RX6800
Gentoo линух

Блять, не догоняю слегка эти ваши мануалы. Пол мануала объясняется как вкорячить git с питоном на Шиндошс и на костылях деплоить ебаться с неродной системой.
Есть по простому?
С какой репы качать саму нейронку?
Из чего оно состоит? Типа оболочки которую брать на гитхабе, а потом ещё лутать запечённые датасеты? Есть вариант перевода чтобы нейронка хавала русский язык нативно? Как использовать несколько датасетов?
Аноним 06/12/23 Срд 14:10:11 564775 402
>>564766
Бурной фантазией твоего сознания, как же ещё? Всё воспроизводится, если ты берёшь тот же самый воркфлоу и модель на той же точности, без xformers. Если у тебя не так - пруфани, ибо это экстраординарное заявление, требующее экстраординарных доказательств. Примерно как сказать что синус на 4090 может достигать четырёх, не то что на калькуляторе.
Аноним 06/12/23 Срд 14:17:47 564785 403
>>564771
Ты что вообще пытаешься сделать, амудебил? Инференс или обучение? Если первое, то блять ставь первый попавшийся уй, там везде есть совместимость с амудой и инструкции для самых конченых.
https://github.com/AUTOMATIC1111/stable-diffusion-webui
https://github.com/comfyanonymous/ComfyUI
https://github.com/invoke-ai/InvokeAI
https://github.com/lllyasviel/Fooocus
https://github.com/easydiffusion/easydiffusion
>Есть вариант перевода чтобы нейронка хавала русский язык нативно?
Нет. Ну точнее оно немного хавает за счёт того что обучалось также и на русскоязычных кэпшенах, но нормальных результатов не жди.
>Как использовать несколько датасетов?
>лутать запечённые датасеты?
Какие блять датасеты, поехавший? Куда запечённые? Разберись чего ты хочешь, для начала.
Аноним 06/12/23 Срд 14:18:59 564787 404
>>564775
> Бурной фантазией твоего сознания, как же ещё?
О, дефолтный наезд от чсв шиза, ты нормально общаться вообще не умеешь?
> Если у тебя не так - пруфани
У меня все в порядке, но какое-то время назад был вайн что на нищекартах сиды не воспроизводились. Было вроде то же, но с явными отличиями. Тогда же на 4х-гиговом паскале это проверил, с опциями оптимизациями памяти на выходе другая генерация. Буквально в том же автоматике с запуском по метадате, просто при смене железки и параметров.
Возможно это связано не с low/med vram а с работой всего на старых картах, но хз.
> Примерно как сказать что синус на 4090 может достигать четырёх
В военное время может достигать и 5, или быть красного цвета.
Аноним 06/12/23 Срд 14:26:22 564804 405
>>564787
>ты нормально общаться вообще не умеешь?
Ладно бы ты просто давал некорректную инфу, но ты настаиваешь на своей правоте, когда тебе говорят что ты несёшь хуйню. Как ещё блять с такими общаться? Извините сэр, мне кажется вы неправы, сэр. Срал вам в горло, всего хорошего.
>У меня все в порядке, но какое-то время назад был вайн что на нищекартах сиды не воспроизводились.
Никогда не было такого вайна. Были дебилы, которые не разобрались как это работает, либо врубили xformers или любую другую подобную шнягу, которая давала невоспроизводимые генерации. Вот у меня блять есть 970 4ГБ на старом компе, 3060 12ГБ на новом, и арендую я 3090, 4090, или A100 когда надо, и везде всегда будет один и тот же результат.
Аноним 06/12/23 Срд 14:31:28 564814 406
>>564804
> Ладно бы ты просто давал некорректную инфу, но ты настаиваешь на своей правоте, когда тебе говорят что ты несёшь хуйню.
Вот, это чисто про истеричные вбросы чсв шиза, знания которого кончаются на поверхностных ухватках в отличии от самоуверенности, и после очередного фейла он сливается, чтобы вскоре опять всплыть.

> я не видел значит не было и быть не может
Справедливо да
> xformers
> невоспроизводимые генерации
лол

А ведь мог бы сам погуглить ту херню, еще на гитхабе и прочих около сд ресурсах обсуждали почему нищуки не могут пройти всякие аскотесты и специальные отдельные версии для них пилили.
Аноним 06/12/23 Срд 14:31:57 564815 407
>>564804
>Как ещё блять с такими общаться?

Да ты со всеми здесь так общаешься, обиженный в ИРЛ, видимо
Аноним 06/12/23 Срд 14:36:38 564821 408
>>564815
Ты похоже общаешься с голосами у себя в голове, выдумывая каких-то неизвестных людей.
>>564814
Так ты пруфы-то дашь, или будешь продолжать нести хуйню? Без пруфов можешь нахуй идти.
Аноним 06/12/23 Срд 14:54:58 564838 409
>>564731
То, что можно команду стрелочками указывать, как повернуть голову или часть тела - это что-то новенькое? Или есть в контролнетах?

А еще команда поменять позу выглядит интересно, хотя возможно это работает в img2img с контролнетом, я не пробовал
Аноним 06/12/23 Срд 15:17:21 564862 410
>>564838
>То, что можно команду стрелочками указывать, как повернуть голову или часть тела - это что-то новенькое? Или есть в контролнетах?
На это можно натренить контролнет свободно. его можно на любые пары натренить На цивите есть кастомные КН на контроль положения источников света, например. Вопрос только в том что контролнеты относительно большие. Тут новация походу в том что эта хуйня меньше по параметрам и требует датасет поменьше, её проще тренить с нуля.
Аноним 06/12/23 Срд 17:23:20 565030 411
>>564862
>На цивите есть кастомные КН на контроль положения источников света, например.
Это лоры-слайдеры же, не контролнеты.
Аноним 06/12/23 Срд 17:26:58 565032 412
>>564729
Больше размер памяти - больше картинка в нее помещается - больше деталей ИИ на ней нарисует. Сложно передать текстуру кожи на фуллбоди-персонаже, если у тебя картинка всего 1280х1024.
Где-то дополнительные детали - хорошо, а где-то не очень.

Хотя текстуру кое-где можно и апскейлом сделать, а вот именно детали - уже нет.
Аноним 06/12/23 Срд 19:41:10 565156 413
>>564821
> Так ты пруфы-то дашь
Ты это серьезно? Миллион постов "почему после смены видеокарты я не могу воспроизвести сиды", "влияет ли medvram/lowvram на качество", демонстрация проблем на паскале и недотьюирангах. Плюс посты в тредах этой доски.
Держи даже разбор аскотеста где это продемонстрировано http://web.archive.org/web/20230516140252/https://imgur.com/a/DCYJCSX сраный имгур его выпилил но интернет все помнит
После ознакомления можешь в очередной раз проследовать нахуй. Каждый раз как в первый, уже бы пора чсв поубавить и вникать в вопрос перед выебонами
Аноним 06/12/23 Срд 19:55:31 565166 414
>>565030
https://civitai.com/models/80536/ вот он. Это больше пруф ов концепт, но вообще такие вполне можно натренить полуавтоматически просто создав пары в блендере. Контролнет это довольно универсальная хрень, можешь например натренить его на парах изображение-камера и получишь крутилятор камеры, простор для экспериментов большой. Вот например https://civitai.com/models/191956/
Аноним 06/12/23 Срд 20:02:53 565172 415
>>565156
>Ты это серьезно? Миллион постов "почему после смены видеокарты я не могу воспроизвести сиды", "влияет ли medvram/lowvram на качество", демонстрация проблем на паскале и недотьюирангах. Плюс посты в тредах этой доски.
Где блять всё это? Такое ощущение что я пытаюсь научить овоща завязывать шнурки. Ты притащил совершенно невероятное заявление, противоречащее здравому смыслу и пониманию как это работает. Это тебе надо куда-то там лезть за постами, по дефолту ты упорствующий долбоёб.

>Держи даже разбор аскотеста где это продемонстрировано http://web.archive.org/web/20230516140252/https://imgur.com/a/DCYJCSX
Что тут продемонстрировано? Вижу только беспруфный вскукарек:
>did you launch webui with the --medvram, --lowvram, or ----no-half options? if so, then you're ok, it's normal for these options to cause very slight variation in the output due to how it works.
В чём суть демонстрации?

Не отвечай мне пока не притащишь пруфы, ты заебал, не интересно мне слышать твои виляния без субстанции.
Аноним 06/12/23 Срд 21:53:34 565315 416
>>564771
Поставь себе генту - уравненовесь свой либидо,
Гента такая классная, гента всегда нова...
Аноним 06/12/23 Срд 21:55:00 565321 417
>>564785
завали свой выходной поток, мразь ты форточная, и воздай же ретивую хвалу Линусу нашему Торвальдсу за создание Великого Гита!
Аноним 06/12/23 Срд 21:56:14 565326 418
>>564804
На дуэль его каналью!!!
Аноним 06/12/23 Срд 22:17:40 565356 419
vaeany.png 362Кб, 761x645
761x645
vaesd.png 390Кб, 761x645
761x645
extra.png 369Кб, 761x645
761x645
Аноны, а можно как-то косяки с цветовыми пятнами на апскейле забороть?

Понятно, что они из-за ВАЕ вылазят, но, блин, что СДшное, что НАИшное, что всякие энифинги - они все гадят пятнами в одни и те же места. Просто где-то более заметно, а где-то менее.

Пикрил примеры: вае энифинга (клон НАИ), вае СД (840000-ema), и апскейл в то же самое разрешение, тем же самым апскейлером, но экстрой.

Вот как с таким говном бороться, если тайловый апскейл нужен?
Аноним 06/12/23 Срд 22:34:32 565399 420
Сап ананасы я лоу айку работяга с завода, скачал стейбл диффужн что бы ебать свою новенькую 4070ti, сегодня чутка ей попользовался вроде генерит что то, но я думаю надо в матчасть вкатываться что бы не тупить, пожскажите с чего начать
Аноним 06/12/23 Срд 22:44:16 565424 421
>>565399
> работяга с завода
> что бы не тупить, пожскажите с чего начать

Начни с поиска нормальной работы
Аноним 06/12/23 Срд 22:55:29 565441 422
>>565399
>>565424

Не слушай токсика, сегодня у него месячные, срет по всем ИИ-веткам подряд.

Посмотри в соседних тредах - NAI (аниме) и SD (реализм, иллюстрации). Там в шапках очень много полезной информации.
Аноним 06/12/23 Срд 22:56:44 565442 423
>>565356
vq-gan поробуй. Но вообще это нормальное состояние VAE. Даже если кажется нет синяков - есть желтизна на белом возле лейна. Частично пофиксить можно пересев на мыльный семплер.
Аноним 06/12/23 Срд 22:56:49 565443 424
>>565441
Спс анончик, два чая тебе и сотен нефти
Аноним 06/12/23 Срд 23:39:00 565529 425
>>565442
Ссылку бы еще, да где его искать.
Желтизну у линий не шибко видно (это всё-таки абсурдрес 4к уже), а вот синяки - прям в глаза бросаются. Я уже и размер тайлов пытался менять, и апскейлеры - остаются, и всё тут.

Собственно, поэтому на апскейл экстрой и перешел. Из-за таких вот косяков.
Аноним 07/12/23 Чтв 01:49:53 565703 426
>>565172
Ого, уже похоже на обсуждение а не просто визг, красавчик, без иронии.
> Где блять всё это?
В гугле вбиваешь что-то типа "stable diffusion seed reproduction lowvram", можно сразу по гитхабу или реддиту не говоря о базированном "cuda different result on new architecture", мл инженер арендующий A100 епта. В репе автоматика ишьюсы среди которых есть немалая доля относящаяся к этому, на реддите ветки (хотя те в основном были в первом полугодии были и протухли). Там целое исследование этого запилили и было много примеров как оно может искажаться, причем чем больше операций с пикчей и сложнее тем больше разница, уходящая далеко за мелочи от xformers. Сейчас 404, можешь заняться изысканиями если есть мотивация.
> Ты притащил совершенно невероятное заявление
Оно верное, ранее были замечены проблемы с повторением пикч на старом железе которое требовало этих опций, о чем много свидетельств.
> противоречащее здравому смыслу
Противоречит только в случае если быть узколобым и не вникать. Причин для проебывания сидов здесь может быть множество, от того как (насколько корректно и без потерь) организована выгрузка частей моделей при этих опциях, до реализации работы отдельных операций в нищекартах без поддержки нужных инструкций в сочетании со всеми оптимизациями, которые уже оче давно перестали быть детерминированными, это к твоему примеру про косинус. Могут быть вообще баги в либах куды, которые никто уже не будет устранять по причине смерти той серий карт, когда находят ошибки в элементарных операциях в современном GCC уже ничего не удивляешься.
> В чём суть демонстрации?
> these options to cause very slight variation in the output
Выделил специально, глаза не видят?
> Не отвечай мне
лол
Аноним 07/12/23 Чтв 02:05:03 565723 427
January2023.png 557Кб, 512x768
512x768
December2023.png 557Кб, 512x768
512x768
Вот уж не знаю, чего у вас там за косяки, но я сейчас взял свою генерацию, которой почти год уже (в январе на чистом сливе НАИ сделана была), закинул ее в ПНГ-инфо, тыкнул Generate, и получил 99.5% совпадение.
С тех пор чего только не поменялось. Автоматик обновлялся. Иксформерсы-хуёрмерсы, куды-приблуды. Даже комп у меня уже другой, с 2070 на 4080 пересел. Результат - пикрил.

Единственный случай, когда я столкнулся с невозможностью повторить старую картинку - это когда у меня в пнг-инфо пробилась какая-то картинка с "вирусным" параметром Eta noise seed delta, я ее отправил в т2и, и эта вот дельта у меня из-за нее в настройки скрытно прописалась. И все следующие картинки с новым параметром генерились.
Спасибо какому-то чуваку с гитхаба, который про эту штуку рассказал. С тех пор я ее в квиксеттингс автоматика вынес, висит там, ноль показывает, как и должно быть.
Аноним 07/12/23 Чтв 02:09:26 565734 428
>>565356
Попробуй kl-f8, она артефачит меньше всего, хотя полностью проблему не решает. Если не помогает - смириться. Или поправить в фотошопе используя восстанавливающую кисть, или добавив в то место участок из экстры, он хорошо получился. Вообще склейка разных частей - довольно дефолтная тема в sd, очень быстро и эффективно.
>>565529
> Ссылку бы еще
https://dropmefiles.com/1ZL7b
Вроде оно, пароль стандартный, учти что его желтые артефакты могут быть даже более заметны в некоторых случаях.
>>565723
Это же замечательно, а с каким железом и параметрами генерировал раньше, менялось ли что?
> с "вирусным" параметром Eta noise seed delta
Это просто смещение номера сида для повторения поведения наи.
Аноним 07/12/23 Чтв 02:41:21 565780 429
>>565734
>Попробуй kl-f8
Та же жопа, только в профиль. Что-то среднее между СД и НАИ. СД с виду даже менее заметно артефачит (по крайней мере на этой пикче).
>Вообще склейка разных частей - довольно дефолтная тема в sd, очень быстро и эффективно.
Склейка хороша, когда я саму картинку делаю.
Апскейл должен идти по принципу "тыкнул и готово", а не создавать еще больше артефактов и лишней работы.
>Вроде оно, пароль стандартный
Да, это получше. По центру и сверху артефакты почти ушли, нижний, правда, всё равно остался. Самый лучший вариант из предыдущих трех (НАИ-СД-КЛФ), но не идеал.
Странно, ну чистые же линии в оригинале, никаких особых переходов яркости нет, вся картинка такая же - а артефачит именно там.
>а с каким железом и параметрами генерировал раньше, менялось ли что?
Так я ж написал. Всё, что с начала года могло поменять - поменялось. Начиная с версии автоматика и заканчивая личным компом, виндой, и всем остальным софтом. Абсолютно две разные системы, неизменными остались только модель, вае, и те метаданные, что были прописаны в саму картинку.
>Это просто смещение номера сида для повторения поведения наи.
Вот оно и прописалось. Его ж нигде не видать, только в настройки лезть - а результат сразу заметен, как невозможность повторить старую генерацию.
Аноним 07/12/23 Чтв 04:01:49 565846 430
Кто знает как без косяков проставить тегги и описания изображений, нужна либо программа либо что-то для автоматического тегирования без обсёров. В kohya_ss есть что-то, но качество так себе.
Что на сегодяшний день лучше всего работает?
Аноним 07/12/23 Чтв 06:46:26 565942 431
>>565846
>В kohya_ss есть что-то, но качество так себе.
Если тебе тамошних анимублядских клип-блип теггеров не хватает, то или запускай локально CogVLM (желательны 40GB, в 24 влезает кое-как если ужаться), или бери GPT-4V. Можешь LlaVA, но она хуже обоих.
Аноним 07/12/23 Чтв 06:53:20 565946 432
image.png 110Кб, 1721x751
1721x751
>>565942
я не понял, что 40 в 24 влезает. нормально объясни по человечески чем анимублядские клип-блип теггеры отличаются от других и как эти другие найти и присобачить. там вроде как есть специальное поле, я нашёл какой то https://github.com/jmisilo/clip-gpt-captioning
вставляю ссылку туда и не работает ничего, или вставляю название, но не работает.
у меня видюха на 16гб если что.
>GPT-4V
как его брать и как всунуть?
Аноним 07/12/23 Чтв 07:18:20 565950 433
>>565946
Мимо другой анон, предполагаю не влезает по той же причине почему webui требует no-half. Т.е. из-за отсутствия операций с fp16 требует примерно в 2 раза больше памяти
Аноним 07/12/23 Чтв 07:52:28 565955 434
>>565946
>чем анимублядские клип-блип теггеры отличаются от других
Тем что не пользуются полноценными визуальными моделями. GPT-4V видит картинку и является частью GPT-4, она просто неестественно хорошо разбирает происходящее на пикчах, можно по тегам если попросить, можно натуральным языком, можешь её заставить хоть поэму в гекзаметре на древнегреческом сочинить по картинке.
>как его брать и как всунуть?
Заплатить OpenAI и юзать. Всунуть готовым образом в койя_сс никак, придется самому городить колхоз на питоне, или юзать отдельную приблуду вроде этой https://github.com/vladignatyev/bulktag

>я не понял, что 40 в 24 влезает. нормально объясни по человечески
Если не GPT-4V, то топовая локальная модель сейчас это CogVLM. Она здоровенная и хорошо видит то что на картинке, но требует 80GB (я оказывается напиздел про 40), так что тут только арендовать. A100 80GB стоит порядка 2 баксов в час на vast.ai on-demand, тебе из этого понадобится может несколько минут протегить твои картинки (смотря сколько их там конечно). А вот автотеггер тебе пилить придётся самому, готовых решений нет.

>у меня видюха на 16гб
Можешь попробовать LLaMA-13B. Она сильно лучше ссаного BLIP, но хуже даже CogVLM. Демка есть тут https://llava.hliu.cc/ , автоматических теггеров под неё не знаю, поищи, может есть.

Решений вообще без пердолинга нет, как ты думаю уже понял.
Аноним 07/12/23 Чтв 07:59:24 565956 435
Аноним 07/12/23 Чтв 12:38:33 566048 436
image.png 6Кб, 325x124
325x124
>>565950
>no-half
да нет, там заёба, чтобы не было no-half нужно открыть конфиг и поставить false вместо true и тогда обучение запускается
Аноним 07/12/23 Чтв 12:38:39 566049 437
square1280f0a92[...].jpeg 65Кб, 1280x1280
1280x1280
>>565321
>Великого Гита
Он теперь под мелкософтом
Аноним 07/12/23 Чтв 12:58:25 566057 438
image.png 184Кб, 1261x735
1261x735
image.png 420Кб, 1069x923
1069x923
>>565955
>LLaMA-13B
Как то он странно описывает, как будто для книжки, а не для обучения.
Не думал, что описать и протеггить будет так сложно и более энергозатратно чем обучить, я думал обучение это самое сложное.
А вообще насколько влияет правильное теггирование и описание на результат тренировки? Я тренирую на людях и у меня проёб с одеждой, планирую начать делать паки с разными куртками, дождевиками, футболками и т.д. для добавления в модель по типу Realistic Vision, сейчас протеггил 50 картинок вручную методом Manual Captioning в kohya_ss
Аноним 07/12/23 Чтв 13:03:34 566062 439
>>566057
> >LLaMA-13B
> Как то он странно описывает, как будто для книжки, а не для обучения.

Это проблема не лавы, а карточки персонажа. Нужно ей чтоб в контексте были примеры того, как надо отвечать
Аноним 07/12/23 Чтв 13:04:44 566063 440
Погодите, а что вы тут обсуждаете? В саму ламу уже добавили мультимодальность? Или это лава? Я просто забросил следить за текстовыми моделями
Аноним 07/12/23 Чтв 15:02:50 566122 441
Screenshot2.png 1213Кб, 1419x795
1419x795
Screenshot1.png 1113Кб, 1391x790
1391x790
image.png 15339Кб, 2304x3072
2304x3072
Обучил модель на сотнях мужских фото, добавил слово "дождевик" в промпт, лица неплохие, хоть и иногда растянутые бывают, но одежда полное дерьмо. Ну думаю создам пак с дождевиками и дообучу модель. В итоге получилось это, теперь модель пытается делать вместо крупных портретов моих мужиков этих манекенов с дообучения даже в полный рост кадрирование появляется и руки везде, да и вообще сами плащи выглядят почти так же хуево как и до дообучения.
Что я делаю не так?
Почему в модели realistic vision одежда выглядит нормально, а тут деформация на деформации и ещё руки везде и лысый мужик из дообучения везде появляется
Аноним 07/12/23 Чтв 15:29:28 566135 442
>>566122
Потому что капшены говно. Если нет нормальных качественных ручных капшенов, то генерируй на каждый пик по 5 капшенов в пару предложений и потом тренируй на них по очереди с батчсайзом 8-16, разрешение меньше 768 никогда не делай. Вместо кучи эпох лучше насемплить побольше капшенов. Так будет хоть какая-то генерализация и понимание у сетки что ты от неё хочешь. А так у тебя сетка в душе не ебёт что за "дождевик", может это капюшон или согнутые руки для позирования, сетке это не понятно. Ещё пробуй уменьшать размер лоры чтоб как меньше инфы влезало в неё, COFT попробуй взять или глору если датасет большой.
Аноним 07/12/23 Чтв 16:10:29 566175 443
image.png 20Кб, 677x265
677x265
image.png 18Кб, 942x273
942x273
>>566135
>по 5 капшенов в пару предложений и потом тренируй на них по очереди с батчсайзом 8-16
Я не думаю, что большое значение имеет капшон больше одного короткого предложения, врядли оно вообще понимает контекст и все такое, у меня помимо капшенов ещё и файлы txt с теггами имеются.
Ты про тренинг батчсайз? Я его ставлю на 1 всегда, так быстрее обучается. В чем смысл ставить 8-16 ? Это же просто сколько картинок одновременно обучается, по идее должно быть быстрее если больше батчсайз, но у меня время обучения увеличивается.
>А так у тебя сетка в душе не ебёт что за "дождевик", может это капюшон или согнутые руки для позирования
Там где человек с надетым капюшоном я так и пишу, а вообще очевидно, что дождевики разных цветов, есть на молнии, а есть на кнопках, хули там не понять то.
>Ещё пробуй уменьшать размер лоры
я делаю Finetuning 768x1024
Аноним 07/12/23 Чтв 16:17:22 566185 444
>>566175
> врядли оно вообще понимает контекст и все такое
Понимает. Не прям как текстовая модель, но в какой-то степени есть понимание. И оно лучше, чем просто каша из пяти слов. Особенно когда у тебя тренируемый объект очень отличается между пиками.
> В чем смысл ставить 8-16 ?
В генерализации.
> хули там не понять то
Хотя бы указывай какие характеристики у дождевика - цвет, фасон. А иначе он так и будет думать что это самый статистически стабильный объект на пиках, а не одежда всех цветов радуги.
> Finetuning
Тогда и не спрашивай почему он обучается чему-то непонятному.
Аноним 07/12/23 Чтв 16:28:42 566210 445
>>566185
>какие характеристики у дождевика - цвет, фасон
я и указываю цвет, и на молнии он или на кнопках.
>В генерализации.
а русским языком это как?
>Тогда и не спрашивай почему он обучается чему-то непонятному.
чувак который создал модель realistic vision тоже Finetuning использовал
Аноним 07/12/23 Чтв 16:38:37 566222 446
XXL21135.jpg 592Кб, 768x1024
768x1024
XXL235.jpg 691Кб, 768x1024
768x1024
XXL8.jpg 203Кб, 768x1024
768x1024
пиздец из меня учитель, оно даже позы повторяет
Аноним 07/12/23 Чтв 16:55:19 566243 447
image.png 15968Кб, 2304x3072
2304x3072
Аноним 07/12/23 Чтв 17:33:36 566295 448
>>566063
Лава. Это жуёбок очепятался я
Аноним 07/12/23 Чтв 17:41:53 566310 449
>>566057
Ну вообще кэпшены с хорошей VLM получаются очень быстро, просто нет готовых решений. Если у тебя лора, то пикч 20-50 и вручную можно затегить.
>А вообще насколько влияет правильное теггирование и описание на результат тренировки?
Максимально. Модель хавает смысл из пар картинка-текст.

>>566135
>Если нет нормальных качественных ручных капшенов
Уже CogVLM даёт не менее пиздатые описания чем человек, и замечает каждую деталюху на пикче, в чём можно убедиться на их демке. Может описать позу и все объекты. Лишь изредка ошибается. Не говоря уже о гопоте-4.

>>566122
>>566222
Теги должны быть максимально подробные, но при этом не превышать твой выбранный лимит токенов (в кохе можно выбрать не 75 а например 225). Описывать надо каждую значимую деталь (включая фон, позы, настроения, цвета и т.п.), чтобы потом он мог генерировать без этих деталей. Если не описывать ненужное, он склеит его с нужным.
Аноним 07/12/23 Чтв 19:52:10 566522 450
>>566310
> CogVLM
На уровне лавы 1.5, хуже её файнтюнов. Обсерается в композициях сложнее клоузапа. Ручные капшены всё ещё ничего даже близко не заменит, даже жпт, у которой галлюцинации на реальных фото через раз.
Аноним 07/12/23 Чтв 21:07:20 566649 451
Screenshot (433).jpg 219Кб, 1552x744
1552x744
Screenshot (434).jpg 130Кб, 1098x574
1098x574
>>566522
>> CogVLM
>На уровне лавы 1.5, хуже её файнтюнов. Обсерается в композициях сложнее клоузапа.
Бля, ну даже не знаю...
>даже жпт, у которой галлюцинации на реальных фото через раз.
Мне кажется ты даже не пробовал. Она охуевшие детали замечает, которые сам не сразу высмотришь, ещё и по ним какие-то вещи выводит. Ни о каких галлюцинациях через раз там даже речи не идёт. Она ошибается изредка, но в целом у неё охуенная точность и детальность, человеку надо усраться чтобы каждую картинку так описать как это делает GPT-4V.

Но не суть. Главное что при файнтюне на 10к пикч, или тренировке кучи лор, ты не будешь это всё делать вручную, это пиздец дроч. Нормальный автокэпшен это более чем годная вещь. Если бы ещё и поиск в вебе и сортировку можно было поручить нейронке, это было бы дважды охуеть.
Аноним 07/12/23 Чтв 21:10:44 566658 452
Screenshot (435).jpg 228Кб, 1546x746
1546x746
Screenshot (436).jpg 168Кб, 1525x630
1525x630
>>566649
Другая рандомная пикча, ткнул из папки все_ебанулись наугад
Аноним 07/12/23 Чтв 21:16:42 566667 453
image.png 712Кб, 463x636
463x636
XXL1.jpg 296Кб, 768x1024
768x1024
XXL.jpg 67Кб, 768x1024
768x1024
>>566310
>Теги должны быть максимально подробные
какая разница сколько тегов если оно не может понять форму сраной куртки и пытается скопировать целиком позу человека с датасета
Аноним 07/12/23 Чтв 21:17:46 566669 454
Screenshot (437).jpg 235Кб, 1534x741
1534x741
Screenshot (438).jpg 181Кб, 1534x716
1534x716
>>566658
Ещё одна рандом пикча, результаты абсолютно несравнимые, это разного уровня модели совершенно. А на вопросы нет/да CogVLM вобще почти безупречно отвечает, если заставить хорошую LLM дополнительно переписать её ответы в виде проверочных вопросов, а потом CogVLM на них отвечать по пикче.

Впрочем даже теггинг ллавой на голову выше сраного блипа.
Аноним 07/12/23 Чтв 21:24:40 566676 455
>>566667
Бля, анон, челы с цивита как-то умудряются даже на одной пикче тренить так чтобы не повторять позы.

А что за датасет у тебя? Там одна и та же поза везде?

Чтобы оно не оверфитило датасет, нужно его разбавлять регуляризационными пикчами, штук по 5-20 на каждую пикчу датасета. Т.е. пикчи того же класса, например фотки мужиков в парке, не обязательно в дождевике. Только нельзя их генерить (во всяком случае на модели той же архитектуры), получается жопа с усилением собственных артефактов. Регуляризация помогает усреднить всю эту хурму, чтобы оно не фокусило конкретные куски из него.
Аноним 07/12/23 Чтв 21:34:13 566689 456
>>566676
Кек. Похоже я всн это время так делал, но не клал их в папку reg..
Аноним 07/12/23 Чтв 21:36:06 566690 457
>>566122
>Обучил модель на сотнях мужских фото
Ты делаешь файнтюн, будку или лору? Думаю в твоих условиях достаточно лору или ликорис сделать из 20-30 нормально подобранных и протегенных картинок (+регуляризация без дождевиков, её тегить не надо). Сотни лишь испортят дело.
Аноним 07/12/23 Чтв 21:50:58 566707 458
>>566669
Интересно, а на борушные тэги для аниме-моделей такого нет?
Аноним 07/12/23 Чтв 21:51:23 566708 459
>>566057
>Как то он странно описывает, как будто для книжки, а не для обучения.
Всё зависит от того как ты захочешь потом промптить. Хочешь натуральный язык - оно сделает тебе его по дефолту. Хочешь теги - запроси у неё теги. Это же обычный чатбот, который понимает изображения. А не специализированный теггер, который заранее знает что тебе надо.
Аноним 07/12/23 Чтв 21:56:32 566712 460
Ёбаный насвай, неделю не запускал и хуяк ошибки.
При выборе TRT модели не генерирует

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument mat1 in method wrapper_CUDA_addmm)

хуле ему сделать надо?
Аноним 07/12/23 Чтв 21:59:39 566714 461
>>566707
CogVLM понятия не имеет о тегах данбуры (если попросить то просто ставит теги какие ей покажется нужными, но не данбуровские 1girl и т.п.). Можно попробовать расшатать GPT-4V, она может их знать. Но вряд ли, скорее нужен специфический файнтюн.
Аноним 07/12/23 Чтв 22:19:51 566734 462
>>566714
>специфический файнтюн
Вот и я так думаю.
WD-таггеры и прочие не очень хорошо картинку разбирают, к сожалению, могут просто дофига дичи накидать.

Если что-то появится - это будет просто шикарно, сразу качество тренировки лор подымется.
Аноним 07/12/23 Чтв 22:42:41 566750 463
>>566714
>специфический файнтюн.
Там на гитхабе есть описание такого. Вопрос только сколько займет по времени и какое железо надо
Аноним 07/12/23 Чтв 22:51:49 566755 464
55.png 696Кб, 832x857
832x857
66.png 701Кб, 847x905
847x905
>>566676
>регуляризационными пикчами
в файнтюнинге нет этой хуйни с регуляризационными пикчами, это тебе не дримбут.
>А что за датасет у тебя?
основной это портреты мужиков, дообучение делал на 50пикчах из дождевиков
>>566690
>Сотни лишь испортят дело.
это файнтюнинг, я хочу сделать модель такого же качества как realistic vision только с улучшением, так как там лица слишком модельные получаются и через img2img похожие лица трудно воссоздать, а у меня с этим нормально, так как в датасете присутствует множество простых славянских круглых ебальников, как начнут получатся портреты с одеждой планирую добавить фото окружающей среды и всего остального, но первостепенной важности портреты конечно.
Аноним 07/12/23 Чтв 23:09:56 566763 465
>>566750
>It is recommended to use the 490px version. However, if you have limited GPU resources (such as only one node with 8* RTX 3090), you can try 224px version with model parallel.
Т.е. обучение даже шакальной 224х224 версии еле влезает в большой утюг с 192ГБ VRAM, полноценной видимо ещё больше. Риг с 4x A100 80GB SXM (т.е. объединённой в единый пул памятью) встанет тебе примерно в $7.5/час на vast.ai и дороже на других хостингах, и это ещё если в него влезет. А вот сколько времени надо это хз. Рассчитывай от получаса до 10 часов, я думаю. (чисто пальцем в небо) Можно связаться с яйцеголовыми или в иссуях на гитхабе спросить. На самом деле я думаю что модель можно урезать по точности и сократить расходы на тренировку. В общем задача под силу энтузиасту, хоть и на грани.

Конечно всё это сначала надо протестить на простеньком компе, чтобы весь датасет был в норме и все скрипты работали, прежде чем включать утюг.

кстати забавно что туториал датасет у них по решению капчи, лол
Аноним 07/12/23 Чтв 23:37:23 566784 466
>>566763
>192ГБ VRAM
Звучит больно;(
Хотя ~70 баксов не так много, можно потом на донатах отбить, наверное (но не у нас)
Аноним 08/12/23 Птн 13:46:00 567207 467
Что такое free-u, какая-то удудшалка для sd генераций. Норм или нет?
Аноним 08/12/23 Птн 15:38:05 567253 468
>>567207
Потыкал. В большинстве случаев какой-то переуонтраст делает, что черные детали сливаются. В целом детали может быть лучше, но по отдельности мелкие детали похуже
Аноним 08/12/23 Птн 16:03:35 567270 469
>>567207
По опыту использования, фрию частично помогает против нейрохуйни и бодихоррора, но средство не ультимативное и как улучшение какого-то изображения, которое хотелось бы починить работает плохо - просто другую картинку сгенерит, может и не поломанную, но другую.
Аноним 08/12/23 Птн 20:03:16 567518 470
>>567207
>>567253
>>567270
Оно может сделать лучше, особенно на малых шагах. Беда в том что коэффициенты надо выбирать для каждого конкретного случая, а прямого алгоритма не существует. Это примерно такое же шаманство как латент трэвел или прямое редактирование нейронов. Можно попробовать сделать гигантские XY чарты, но всё равно оно останется непредсказуемым и оттого малоюзабельным.
Аноним 08/12/23 Птн 23:18:18 567667 471
>>566049
Ты путаешь с гитхабом, даун. Или пруфы в visual студию!
Аноним 09/12/23 Суб 01:10:01 567733 472
>>566049
> >Великого Гита
> Он теперь под мелкософтом
🤡 Это серьезно?
Аноним 09/12/23 Суб 01:47:37 567746 473
1702075658585.png 3Кб, 482x107
482x107
Установил по гайду, сразу всё запустилось и работало. Сегодня решил запустить через lauch, и какая-то ошибка вылезает в командой строке на секунду, так что я даже заскринить не могу. Щас запустил через файл webui-user, нажал generate и такая ошибка вылезла.
Аноним 09/12/23 Суб 06:16:05 567809 474
>>567733
А ты думал? Каких только шизиков не бегает тут.
Аноним 09/12/23 Суб 06:17:39 567810 475
>>565321
Причём тут гит, какие форточки, что ты несёшь, поехавший.
Аноним 09/12/23 Суб 06:19:01 567811 476
>>567746
>и такая ошибка вылезла
В консоли-то что пишет?
Аноним 09/12/23 Суб 08:58:33 567848 477
кто знает что такое шаги накопления градиента и нахуй оно надо если можно просто поставить больше эпох?
Аноним 09/12/23 Суб 08:58:45 567849 478
Что в данный момент не позволяет создать архитектуру для нейронок как SD, но чтобы трейнить с нуля, за короткое время на небольших данных и с нужными тебе параметрами? (То бишь не зависимую от каких-либо pretrained весов с корявыми эмбедингами, при этом с базовым знанием мира, понимающая в принципе что от нее требуется, этакая pretraining-free)
Аноним 09/12/23 Суб 09:06:10 567853 479
>>567849
> как натренировать модель без тренировки
Никак. Иди нахуй с такими дегенеративными вопросами.
Аноним 09/12/23 Суб 09:29:37 567868 480
>>567849
>>567853
Ничто не мешает этому, это называется zero-shot learning. Все эти методы трансфера стиля/концептов/объектов типа IPAdapter, reference-only controlnet и т.п. это оно и есть. Результат неизбежно хуже чем полноценная тренировка, но в долгосрочной перспективе это выигрышный путь.
Аноним 09/12/23 Суб 09:55:09 567879 481
>>567868
> zero-shot learning
Ты хоть ознакомился бы с ним. Оно не отменяет необходимость в натренированной модели.
> типа IPAdapter
Который конечно же без тренировки работает, да? CLIP для извлечения "фичей" тоже уже без тренировки на миллиардах пиков работает?
> reference-only controlnet
Технически минимальные отличия от img2img, разница лишь в каком месте UNET применяется референс - в кросс-аттеншене, а не просто пикча на вход UNET передаётся. Без натренированного UNET это всё так же не будет работать, а от твоего референса UNET не научится рисовать то что не умеет.
> в долгосрочной перспективе это выигрышный путь
Никому не нужно такое говно. Сейчас наоборот идёт весь упор на повышение качества моделей через вариации RL, где помимо основной модели нужно ещё иметь модели для ревардов/скоров.
Аноним 09/12/23 Суб 14:37:07 568192 482
>>567879
Я просто в глаза ебусь, думал что этот даун хочет без файнтюна, а он предлагает вообще без модели обойтись. Этого конечно не бывает.
>Никому не нужно такое говно. Сейчас наоборот идёт весь упор на повышение качества моделей через вариации RL, где помимо основной модели нужно ещё иметь модели для ревардов/скоров.
Речь об zero shot vs файнтюнинг. Зерошот на базе универсальной модели всегда будет более востребован, файнтюнят лишь из-за того что результат лучше.
Аноним 09/12/23 Суб 15:13:27 568213 483
1643908969002.jpg 17Кб, 620x576
620x576
>>565780
> Апскейл должен идти по принципу "тыкнул и готово", а не создавать еще больше артефактов и лишней работы.
Пикрел
>>565942
> Можешь LlaVA
С анимублядскими только кое как bakllava справляется, и то потом ее выдачу нужно сильно обрезать или прогонять через другую LLM. Новые мультимодалки возможно получше в этом отношении будут.
>>565955
> Заплатить OpenAI и юзать.
Полноценный датасет выйдет очень дорого, но еще раньше упрешься в рейтлимиты.
> CogVLM. Она здоровенная и хорошо видит то что на картинке, но требует 80GB
> CogVLM supports 4-bit quantization now! You can inference with just 11GB GPU memory!
Пробовал кто?
>>566649
> >На уровне лавы 1.5, хуже её файнтюнов. Обсерается в композициях сложнее клоузапа.
Ее бы локально пустить с нормальными настройками семплинга и промтом. Текстовая часть в этих моделях очень глупенькая и с ней надо как с ребенком ложечкой кормить, тогда отвечают.
>>566714
> CogVLM понятия не имеет о тегах данбуры
Потом можно через другую llm прогнать попросив сделать теги. Но лучше сразу wd tagger из нескольких моделей.
Аноним 09/12/23 Суб 15:15:58 568215 484
>>568213
>Новые мультимодалки возможно получше в этом отношении будут.
как их искать и где?
Аноним 09/12/23 Суб 15:30:45 568226 485
>>568215
Речь про этот самый CogVLM и еще какая-то выходила недавно. Из легковесных - ShareGPT4V различает очень хорошо и меньше галлюцинирует, но слаб в непотребствах. Вон из llama треда их сравнение https://rentry.co/r8dg3
В перспективе наиболее рабочим вариантом может быть связка интерогейтеров, мультимодалки и LLM как в примере https://rentry.co/pvnhr
тут на основе wdtagger, clip и общения с Bakllava китайская сеть описывала пикчи и достоаточно эффективно осеивала галлюны последней и большей частью давала верное описание. На дикую графоманию описания внимания не обращай, это легко меняется промтом.
Сюда имплементировать CogVLM, ShareGPT4V, устроить сортировку по содержимому пикчи в соответствии с возможностями мультимодалок, добавить еще промежуточные этапы - легко превзойдет gpt4v в зирошоте, а то и в диалоге.
Аноним 09/12/23 Суб 16:31:06 568278 486
в какой последовательности и каккими калькуляционными методами лучше всего сращивать концепты моделей? допустим у нас есть реалиситиквижн и фотогазм, максимально усредненное значение можно получить через экстракцию из фотогазма в рв + рв в фотогазм и потом их вейтедсумить пополам с альфа слоем

а дальше? допустим я хочу присадить анимеконцепты, беру модель и через трейндифренс с 0.5 присаживаю, получаю уже не фотореал, а псевдо 2д, далее могу через смуфадд или долго повторяя экстракт получить более менее реалистик назад при этом сохранив концепты из аниме модели

может есть какой-то более умный метод?
Аноним 09/12/23 Суб 16:55:07 568302 487
>>568226
Мультимодалки ламы с CLIP примерно все одинаковые. Cog уже лучше, но я им недавно на 12к пикч генерировал капшены - сутки вышло по времени, блять. Зато сильно лучше всего говна что до этого видел. А чистый CLIP хорош разве что вычистить мусор из датасета побыстрому, если тянешь фоточки со всяких помоек или стоков, то мусора там достаточно, приходится чистить.
Аноним 09/12/23 Суб 17:09:53 568316 488
Аноним 09/12/23 Суб 20:15:23 568473 489
>>568278
Анон, ты про свеженький реалистиквижн, шестой? Ты если его с фотогазмом... того, ты это... выложи куда-нибудь. Интересно, потянет ли плод трудов твоих скорбных реалистиковские 768х1024.
Аноним 10/12/23 Вск 04:32:47 568887 490
>>568302
> Мультимодалки ламы с CLIP примерно все одинаковые.
Sharegpt4v из них выделяется сильно, но у него и свой проектор не работающий с остальными. От ллавы же можно легко на любую 7б/13б подключить и она как-то будет работать.
> на 12к пикч генерировал капшены
Круто, пускал локально квантованную версию или арендовал/абузил апи? Покажи на примерах что получилось и если не стесняешься - промт запроса, было бы полезно и интересно.
> CLIP хорош разве что вычистить мусор из датасета
Ага, ему еще можно свои наборы капшнов кормить а он уже их отранжирует под каждую пикчу. Для разбивки по категориям самое то, даже с анимублядскими справляется только ссущих почему-то отправляет в safe for all ages категорию, пиздец блять
Аноним 10/12/23 Вск 08:51:46 568964 491
https://github.com/mlpc-ucsd/TokenCompose
Киллер-фича для SD, - она допиливает модели практически до уровня DALL-E 3. (Не считая стилистических биасов, ибо масштаб не тот.) Изображения будут точно следовать промптам после дотрейна по инновационному методу?
Аноним 10/12/23 Вск 10:42:57 568996 492
00013-2317495874.png 668Кб, 512x768
512x768
Господа, паоменял жесткий диск в пука и установил чистую винду. Раньше использовал stable diffusion webui, но уже больше года прошло. Что сейчас принято устанавливать у анонов? И есть ли ссылка на гайд?
Аноним 10/12/23 Вск 10:49:24 568998 493
>>568996
Уёв/движков полно, выбирай любой.
>всё тот же автоматик1111
>ComfyUI
>fooocus
>InvokeAI
>EasyDiffusion
и т.д. и т.п.
Аноним 10/12/23 Вск 10:51:24 568999 494
>>568998
Автоматик сильно отстает от новых или если привык к нему, то нет смысла переходить на что-то другое?
Аноним 10/12/23 Вск 10:53:34 569001 495
>>568887
> Sharegpt4v
Он же хуже балаклавы.
> что получилось
Ну Cog внезапно даже в порнуху умеет. Проёбы всё ещё частые, но это по крайней мере в пределах 10%, а не как в прошлых сетках, где буквально каждый раз проёбывается. С терминологией, конечно, надо ебаться в промпте, чтоб всякие "white substance" или "posterior" не лезли. Ещё из неприятного - у него странное понимание лежащей тянки, она должна лежать как будто спит чтобы он её назвал лежащей, а не сидящей. Проиграл что цензуру мозаикой на хуях/пиздах он понимает и даже понимает что под ней, но приписывает что она "for privacy", лол.
Вот примеры что на порнушные пики он генерит, на этих описаниях всё чётко как на пике, без галлюцинаций.
> The photo is a side-by-side comparison of a woman in two different states of undress. On the left, she is wearing a blue t-shirt and glasses, standing in an outdoor setting with trees and a body of water in the background. On the right, she is completely nude, sitting on a bed with a radiator and window curtains behind her.
> This explicit photo showcases two Asian women engaging in a passionate oral interaction inside a well-lit room with green curtains in the background. The woman on the left wears a beige turtleneck and gold earrings, while the woman on the right dons a white top. Both are visibly sweaty, suggesting intense physical activity, and both have their tongues deeply inserted into each other's mouths.
> This porn photo features a young woman with long brown hair wearing white lingerie. She is positioned in a room with floral wallpaper, sunlight streaming in from a window, and a bouquet of flowers on the floor. The woman has a heart-shaped butt plug inserted into her anus and is holding a small white object near her vagina.
> This is a close-up adult photo featuring a woman with her face covered in cum. She wears a green sleeveless top and has her finger touching her lips. The background shows a room with a dresser and a closed white door.
Аноним 10/12/23 Вск 11:00:42 569003 496
>>568999
Не особо отстаёт, можешь ставить. Хотя новые фичи быстрее в комфи приплывают, как правило, но в автоматик тоже быстро. Ну можешь комфи поставить чисто чтоб ознакомиться как работает, принцип там иной совсем.
Аноним 10/12/23 Вск 11:04:27 569005 497
>>569003
Есть гайд для низкоайсикьюшных по установке и настройки комфи?
Аноним 10/12/23 Вск 11:07:01 569007 498
Аноним 10/12/23 Вск 11:10:19 569009 499
>>568964
Это же модель с весами, а не способ для любых моделей. Прочёл и похоже я слишком брейнлет для этого. Как-то не очень понял как оно работает и что нужно для апгрейда произвольной модели.
Аноним 10/12/23 Вск 11:32:38 569016 500
Untitled.jpeg 55Кб, 768x768
768x768
Untitled2.jpeg 98Кб, 768x768
768x768
Untitled3.jpeg 73Кб, 768x768
768x768
Untitled4.jpeg 74Кб, 768x768
768x768
>>568964
>man walking upside down on the ceiling
>koi fish doing a handstand on the skateboard
>yellow ball on the green box on the white plate in the park
>overturned car
Этому конечно далеко до дали-3, ололо. Многих вещей он изначально не понимает. Но тем не менее охуенно останавливает протекание токенов друг в друга и вообще в целом улучшает взаимодействие объектов. Как они это делают без огромного трансформера для кодирования текста?
Аноним 10/12/23 Вск 11:47:28 569023 501
>>568964
а нахуя они на 1.4 делали? они ебанутые?
Аноним 10/12/23 Вск 11:51:24 569025 502
>>569023
Они делали на 2.1, т.е. ещё более ебанутые
Аноним 10/12/23 Вск 11:59:02 569030 503
Господа, кто-нибудь пробовал textual inversion для sdxl натренить? На civitai их подозрительно крайне мало.
Есть персонаж, реальный человек, с не очень качественным набором фото. На 1.5 лучшие результаты получал сочетанием лоры и ти.
Аноним 10/12/23 Вск 12:12:28 569034 504
>>569016
>Как они это делают без огромного трансформера для кодирования текста?
Ответ - никак, они файнтюнят на его выхлопе. Генерят пикчу по промпту, сегментируют объекты из результата на основе существительных, выделенных из промпта, и файнтюнят на этом. DreamSync выглядит лучше, там LLM на основе промпта задаёт проверочные вопросы по пикче, которые потом проверяет VLM, и на этом тренятся. Если соединить это со StyleAligned, будет пиздато.

Но все эти способы имеют один недостаток - они не научат сеть тому что она в принципе не может сгенерить, они только улучшают то что есть.
Аноним 10/12/23 Вск 12:29:26 569039 505
>>569016
> Этому конечно далеко до дали-3
Двачую, дали вообще не может в нормальную композицию реалистика, тут бы сначала дали догнал SDXL.
Аноним 10/12/23 Вск 13:30:54 569051 506
>>569030
Их мало потому что то TI проку мало, и их используют главным образом для негативов под SD.
>На 1.5 лучшие результаты получал сочетанием лоры и ти.
Мог бы сделать полноценный файнтюн в таком случае.
Аноним 10/12/23 Вск 13:31:12 569052 507
>>569007
Спасибо. Попробую.
Аноним 10/12/23 Вск 13:52:48 569064 508
Аноны, а как можно скриптом загрузить промпт из картинки в stable-diffusion-webui? Т.е. сэмулировать перетягивание картинки в Prompt и нажатие на "Read generation...".
Скажем имеем картинку C:\123\666.PNG, запускаем скрипт - он подтягивает из неё промпт.

Суть такая, что есть дохрена картинок с "удачным" промптом, хотелось бы для кажной из них сгенерировать по 50 картинок с разным сидом.
Аноним 10/12/23 Вск 14:17:50 569078 509
>>569001
> Он же хуже балаклавы.
Не, в сценах без нсфв или где это не главный элемент он сильно лучше, может сходу четко описать сцену с большим числом объектом не сбиваясь и сохраняя консистентность выдачи, также четко выдает координаты. Его слабые места - необычные позы, стилизованное 2д, левд и подобное, в них бакллава уже лучше.
> Ну Cog внезапно даже в порнуху умеет.
По примерам весьма неплохо, это успех похоже. Через апи пробовал или локально? Настройки семплинга там сильно влияют на качество ответов и галюны. Так вот уже можно хорошо датасеты описывать и сортировать.
>>569034
> они не научат сеть тому что она в принципе не может сгенерить
Вносить в нее это новое той же лорой, а в процессе обучение постепенно снижать ее вес. Разумеется с адекватной реализацией а не так топорно, но по принципу.
>>569064
Exif же.
Пишешь простейший парсер и делаешь обращения по api, предварительно его включив в параметрах запуска. Описание его в репе есть.
Аноним 10/12/23 Вск 14:48:48 569092 510
>>569078
> локально
Локально на 4090.
> Настройки семплинга там сильно влияют на качество ответов и галюны.
Влияет на внимательность к деталям, я в промпте покороче его заставляю писать, поэтому от семплинга влияет что он проигнорит. На галлюцинации не особо, с разным семплингом по ощущениям одинаковая частота проёбов. Хотелось бы, конечно, миростат заюзать, но его нет в transformers и пока лень пердолить хуки из webui. Квантование только bnb, в балаклаве удобнее было с llama.cpp.
Аноним 10/12/23 Вск 15:18:10 569105 511
>>569051
спасибо! тоже думал насчёт файнтюна. даже попытался на runpod.io , но что-то не получилось. там есть готовый образ машины с кохьей, лора sdxl збсь тренится. файнтюн хз почему никак. думал может vram не хватает, но и на а100 с 80 гб не идёт.
локально на 8гб карте есть вариант файнтюн sdxl сделать?
Аноним 10/12/23 Вск 16:57:34 569163 512
>>569105
Файнтюн SDXL на полной точности требует гигов 60, если не ошибаюсь. Я тоже только лоры делал, на самом деле.
Аноним 10/12/23 Вск 21:02:51 569300 513
Аноны, гугл полностью забанил эту тему, или в бесплатном Колабе ещё можно тренить ЛОРЫ ?
Аноним 10/12/23 Вск 21:35:32 569324 514
>>569030
попробовал сам, работает, получилось. только очень долго. может где протупил с настройками.
15 картинок 100 повторов 10 эпох, картинки 1024*1024, xformers, full bf16, gradient checkpointing, 3 вектора, остальное не помню. на 4090 около 3 часов.
Аноним # OP 10/12/23 Вск 22:11:35 569351 515
Есть предложения по правкам для шаблона? Если нет, катну завтра как есть.
Аноним 10/12/23 Вск 22:24:50 569358 516
>>569078
>делаешь обращения по api
Вот это для меня пока непонятно
Аноним 10/12/23 Вск 22:52:30 569375 517
Аноним 10/12/23 Вск 23:09:13 569378 518
ебанул lycoris на sdxl модели, по гайду https://civitai.com/articles/908/tutorial-lycorislocon-training-using-kohyass
заебись вообще получается, причём на довольно хуевом датасете
и памяти немного хавает, на 4090 в 5 потоков не всю память сжирает, на полном бф16 с хформерами и adamw

в комфи почему-то вылетает, в фокусе норм
Аноним 11/12/23 Пнд 01:08:41 569450 519
>>569300
> Аноны, гугл полностью забанил эту тему
Гугл забанил Gradio, он больше ничего не банил. Или у нас такие пользователи технотреда, которые не знают разницы между gradio и stable diffusion?
Аноним 11/12/23 Пнд 03:17:40 569541 520
>>569450
При чем тут градио, если банят даже за скрипты, лол
Аноним 11/12/23 Пнд 03:26:11 569546 521
>>569541
Относительно недавно (ну может, с недельку назад) тренил коховскую будку - и ничего, брат жив, ягель плодоносит...
Аноним 11/12/23 Пнд 04:28:54 569590 522
Аноны, как должен выглядеть файл CAPTION (1.txt) к прилагаемому файлу обучения (1.jpg). Читаю сейчас про тренировки и везде этот вопрос как-то опускается как будто это И ТАК ВСЕМ ОЧЕВИДНО.

Какая кодировка файла должна быть?
Допускаются ли символы новой строки "\\n" ?
Нужны ли пробелы между токенами ? Всегда ли разделитель запятая? Чувствительно ли обучение к регистру?

Короче вот так правильно?
1) token_1, token_2, token_3

Или вот так?
2) token_1,token_2,token_3

Или вот так?
3)
token_1
token_2
token_3
Аноним 11/12/23 Пнд 04:33:42 569592 523
>>569450
У меня сохранились колабовские нотбуки времен когда SD только появился, там ни о каком Gradio ещё речи не было. Хочешь сказать что я могу с их помощью в колбе сейчас генерить пики и никто до этого не догадался, что надо просто интерфейс сменить?
Аноним 11/12/23 Пнд 04:42:38 569593 524
>>569590
Да и нужны ли нижние подчеркивания в токене, состоящем из нескольких слов "white_background" или "white background" ?
Аноним 11/12/23 Пнд 07:32:54 569631 525
>>569300
>>569450
Они забанили внешние УИ в принципе, а реализовано это через бан скриптов по именам, кажется.
Аноним 11/12/23 Пнд 10:55:08 569695 526
>>569592
Я пробовал это делать уже после разговоров о бане автоматика. На голых diffusers. Работало, ЧСХ.
Аноним 11/12/23 Пнд 11:34:48 569704 527
>>569590
Если ты про коху, то хоть как. Весь файл будет в промпт впихнут как есть. Если используешь перемешивание токенов, то через запятую.
Аноним 11/12/23 Пнд 13:35:23 569785 528
20231211133029.jpg 253Кб, 2044x1138
2044x1138
Аноним 11/12/23 Пнд 13:59:55 569798 529
>>569785
Нахуй. Зачем тратить в два раза больше VRAM? Зачем тренить отдельную модель? И самое главное - как тренить негатив, где брать консистентный говняк для такого?
> negative prediction be handled by the vase model and the positive by the finetune
Так ещё может вдруг негативные лоры переизобретут спустя пол года, лол.
Аноним 11/12/23 Пнд 15:16:26 569873 530
>>569798
>где брать консистентный говняк для такого?
В интернете, бро, в интернете. 90% всего контента - это консистентный говняк.
А еще можно нагенерить всякого. Вот уж где простор для разных абоминаций и пикч плохого качества.
Аноним 11/12/23 Пнд 18:20:33 570083 531
>>569798
Кажется мы стали забывать для чего на самом деле нужны негативы. Это не способ фиксить кривые пальцы и прочий говняк. Негативы - то чего ты не хочешь видеть на пикче, для исключения концептов с неё. Вот он тебе рисует по запросу "conductor" бортпроводницу или медную жилу. А ты пишешь "person" в негатив и он тебе рисует только медную жилу. Рисует он тебе мужика в шапке, пишешь "шапка" в негатив и он тебе рисует мужика без шапки. Рисует он тебе кучу зелени, пишешь "грин" в негатив и у тебя осень на дворе.
Аноним 11/12/23 Пнд 18:47:23 570117 532
>>569785
Что реально нужно - это негативы для зирошот хреновин вроде IPAdapter. Чтобы можно было отфильтровать то что ты НЕ хочешь брать из референса. А то оно хватает всё подряд из референсной пикчи.
Аноним 11/12/23 Пнд 20:08:08 570242 533
>>570083
> Негативы - то чего ты не хочешь видеть на пикче, для исключения концептов с неё.
Он для этого очень хуёв. Намного лучше удаление этих концептов из кросс-аттеншена через NegPiP. Негатив в этом плане плох потому что он должен знать и уметь нарисовать этот концепт. Если он рисует в позитиве хуиту не понимая что он рисует, то и негатив вычтет такую же хуиту. bad hands всегда были на грани плацебо/рандома. В 2023 году негатив используют только для стиля и каких-то общих концепций, например удалить траву/деревья/дома или типа того, когда он их рисует без твоих просьб.
Аноним 11/12/23 Пнд 20:39:29 570281 534
>>570242
>Он для этого очень хуёв.
Вот и ответ, для чего тот чел предлагает
>>569798
>тратить в два раза больше VRAM
Аноним 11/12/23 Пнд 20:40:59 570285 535
уважаемые аноны, подскажите, как повысить гибкость лоры?
лора натренена на человека. с простыми промптами результат хороший. но стоит добавить что-то посложнее, по одежде например, что-нибудь прописать в негатив - всё распидарашивает, даже лицо.
или лора для этого не подходит?
Аноним 11/12/23 Пнд 21:14:48 570324 536
>>570285
Натренировать заново на датасете с большим количеством более подробных тэгов.
Сам датасет побольше сделать, и поразнообразнее.
Сохранять почаще, чтоб понять, на какой эпохе насыщение наступает, и использовать именно её.

Генерить без лоры, использовать только на этапе инпэинта.
ПЕРЕКАТ Аноним # OP 11/12/23 Пнд 22:58:37 570478 537
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов