Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Создать тред Создать тред
Check this out!

Генерация откровенного NSFW-контента на доске /nf/

<<
Каталог
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №36 /llama/ Аноним 09/01/24 Втр 18:51:42 597686 Ответ
Llama 1.png 818Кб, 630x900
630x900
Деградация от к[...].png 88Кб, 705x526
705x526
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
17045391425820.png 1074Кб, 960x1280
960x1280
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде

Предыдущие треды тонут здесь:
>>592177 (OP)
>>583852 (OP)
Пропущено 70 постов
70 с картинками.
Пропущено 506 постов, 70 с картинками.
Аноним 12/01/24 Птн 17:17:47 604643
>>604633
Такая же была проблема, на wizard-vicuna 13b 4b-128g act-order, поставил другую модель и все ок
Аноним 12/01/24 Птн 18:35:42 604837
>>603665
от души, братиш, заценю. вообще было бы неплохо собрать на вики список интересных моделей.
Аноним 14/01/24 Вск 03:08:13 608495
Ботоводам Сап. Вкатился недавно, скачал всё по вашим гайдам. Но вот дела какие:
Модель которую я скачал (из гайда) отвечает мне "привет и тебе" на мой привет примерно минуты 3.
При этом у меня 3060ti, 16гб очень быстрой озу и i510400.
Я что-то делаю не так или это норма на моём конфиге?
AI Chatbot General № 434 /aicg/ Аноним 12/01/24 Птн 08:33:35 603678 Ответ
image.png 1144Кб, 1808x1182
1808x1182
No, you cant..mp4 3425Кб, 960x720, 00:00:51
960x720
AI Chatbot General № 434

БОТОДЕЛЫ!!!! Прикрепляйте новых ботов к оп-посту!!!!

Общий вопросов по чат-ботам и прочего тред.

- Фронтэнды -
Agnai, SillyTavern, RisuAI
Гайды: https://rentry.co/ultimatespoonfeed | https://rentry.co/ClaudForAgnai | https://rentry.co/Tavern4Retards (Гайд на английском)
https://github.com/SillyLossy/TavernAI | https://github.com/ntvm/SillyTavern (Форк нв-куна)
https://agnai.chat/
https://risuai.xyz/

- GPT -
Джейлы на 4: https://rentry.co/SillyTavern_JB_Pack | https://rentry.co/fa5fv | https://dumb.one/gpt/prompts-scraped/ | https://rentry.co/lobstersgpt | https://rentry.org/crustcrunchGPT | https://rentry.org/Myuu_Jippy
Джейлы на Turbo: https://rentry.co/YAnonTurbo | https://rentry.co/hochi-reupload

- Claude -
Джейлы: https://rentry.co/SillyTavern_JB_Pack | https://rentry.co/ClaudeJB | https://rentry.co/absolutejail | https://rentry.co/pitanonbots#prompt-presets | https://rentry.co/XML-dva-shiza | https://rentry.co/crustcrunchJB | https://rentry.co/CharacterProvider | https://rentry.org/MyuuTastic
Удаление Human/Assistant: https://rentry.co/TavernNoAss | https://rentry.co/HumAssistOff
Префилл: https://rentry.co/aui3u
Мемо: https://rentry.co/DrunkArcadeExample

- Bing -
https://github.com/Barbariskaa/Biba
Гайд: https://rentry.co/BingZOVEdition

- Локалки -
https://openrouter.ai/
Гайд (на английском): https://rentry.co/meta_golocal_list

- Ботоводчество -
https://www.chub.ai
https://booru.plus/+pygmalion
https://avakson.github.io/character-editor/
https://agnai.chat/editor
https://rentry.co/botmaking_tips
https://rentry.co/MothsBotMakingStuff
https://rentry.co/oaicards
Боты анонов: https://rentry.co/2chaicgtavernbots | https://rentry.co/2chaicgtavernbots2

- Село 2ch -
https://rentry.co/selo2ch

- Архив тредов-
https://rentry.org/2ch-aicg-archives

- GIGACHAT -
https://rentry.co/3bc7r

- Character.AI -
https://beta.character.ai/
https://rentry.co/CAI-FAQ
Боты анонов: https://rentry.co/CAI-bots

- Прочее -
Проверить ключ:
GPT
https://github.com/Buhankoanon/OAI_API_Checker | https://github.com/CncAnon1/kkc
Claude
https://github.com/Definetelynotbranon/Anthropic_API_Checker
Специфические промпты в джейл для кума: https://rentry.co/jinxbreaks
Забавные промпты после кума: https://rentry.co/weirdbutfunjailbreaksandprompts

- Конкурсы -
Общая информация: https://rentry.co/2chaicgthemedevents
Текущий конкурс: >>597408 →

- Шапка -
https://rentry.co/shapkacaitreda

БОТОДЕЛЫ!!!! Прикрепляйте новых ботов к оп-посту!!!!

- Локальные языковые модели: >>597686 (OP) -

- Прошлый тред: >>601628 (OP) -
Пропущено 173 постов
173 с картинками.
Пропущено 1686 постов, 173 с картинками.
Аноним 14/01/24 Вск 00:59:02 608267
>>608256 →
Я думаю можно еще копнуть в сторону скуфопромпта, чтобы ИИ отыгрывал не чара, а рассказчика с прописанной личностью (например можно рассказчику прописать даже прописать примеры аутпута без соевой прозы и потирания ручек), а тот в свою очередь уже чара. ХМЛК помню тоже чет такое упоминал.
Аноним 14/01/24 Вск 00:59:26 608268
Олды на месте?
Аноним 14/01/24 Вск 00:59:57 608269
коммивояжеры на месте
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов