/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №52

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №52 /llama/ Аноним 19/04/24 Птн 13:43:20 № 709757 1

Альфа от контек[...].png 121Кб, 3090x1830

Самый ебанутый [...].png 1642Кб, 1278x959

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Впрочем всем похуй, всё одно говно без размеров и с соей, размером только 8B и 70B.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>704905 (OP)
>>699623 (OP)

Аноним 19/04/24 Птн 13:50:56 № 709764 2

Кто-то понял как лечить .assistant у лламы3 в ответах?
Или качать не инстракшн версию?

Аноним 19/04/24 Птн 13:54:18 № 709768 3

>>709764
>Или качать не инстракшн версию?
Ну да. У меня на Meta-Llama-3-8B.Q6_K.gguf таких приколов не было. Но с другой стороны она хуже затыкается, забывая про стоп токен.

Аноним 19/04/24 Птн 14:01:51 № 709772 4

уже кто-то натюнил токсичную модель на обновлённом unalignment/toxic-dpo-v0.2 датасете (v0.1 версия отлично вписалась в SOLAR-10.7B бтв)
https://huggingface.co/raincandy-u/Llama-3-8b.UNLEASHED

Аноним 19/04/24 Птн 14:06:03 № 709774 5

https://github.com/meta-llama/llama3/blob/main/llama/tokenizer.py#L228
>tokens.extend(self.encode_header({"role": "assistant", "content": ""}))
Это просто лол нахуй.

Аноним 19/04/24 Птн 14:08:24 № 709776 6

>>709764
если юзаешь ST. тупо скачай вот это : https://files.catbox.moe/1rzg32.json
импортируй его в Context Template и Instruct Mode, а так же убери галку с "Skip Special Tokens" в разделе семплеров.
так же можешь попробовать пикрил параметры, у меня всё работает отлично. (тык на neutralize samplers и затем выставляй значения).

Аноним 19/04/24 Птн 14:09:28 № 709777 7

>>709760 →
>i кванты
Вряд ли там матрицу важности подгоняли под какие-то языки, кроме английского, поэтому мне для тестов переводов лучше, как я понимаю, взять обычный "усреднённый" квант.

Аноним 19/04/24 Птн 14:10:11 № 709779 8

>>709774
Поясни, что это значит....?

Аноним 19/04/24 Птн 14:10:56 № 709780 9

лол
https://chat.lmsys.org/?leaderboard

Аноним 19/04/24 Птн 14:19:20 № 709784 10

>>709780
Сука, как же меня трясет

Аноним 19/04/24 Птн 14:20:38 № 709786 11

>>709780
Не уверен что это прям так, но какие-то такие ощущения от этой модели, действительно. Ну во всяком случае это явно не 8Б, подозрительно как-то.

Я думаю мы видим ответ на вопрос - что будет если тренировать мелкую модель на дохуя языков и вбухать в 75 раз больше компьюта чем считалось оптимальным по шиншилле (как говорит Карпати, можно вбухать ещё на 2-3 порядка больше). Правило Шиншиллы оптимально по отношению флопсы/результат, но если у тебя избыток флопсов, то судя по всему получается примерно это.

Цук в интервью сказал что они закупили море H100 для рекомендательной системы пейсбука, и борщанули, половина лежала без дела. Вот в это и пустили.

Аноним 19/04/24 Птн 14:21:35 № 709787 12

>>709780
Наш рептилий благодетель всё таки смог

Аноним 19/04/24 Птн 14:22:46 № 709789 13

>>709784
Причина тряски?
Интересно, хули гопота 0613 так низко, она же самая менее соевая.

Аноним 19/04/24 Птн 14:22:51 № 709790 14

>>709779
По факту, ассистант захардкодили, предвижу проблемы с ролеплеем. Скорее всего, ещё и при тренировке. Если вкратце, то зайди в параметры генерации и закинь "assistant", как Custom stopping strings. В остальном, уёбищный формат темплейта, который скорее всего использовался и при тренировке.

Аноним 19/04/24 Птн 14:23:07 № 709791 15

>>709790
Хули пик-то отвалился, блядь.

Аноним 19/04/24 Птн 14:27:04 № 709792 16

Мда ну и скорости на процессоре
На свежей ллама.спп с куда, без выгрузки слоев
c4ai-command-r-v01-Q4_0.gguf 18.8 гб генерация 2.02 т/с
модель поменьпше
c4ai-command-r-v01-imat-IQ3_M.gguf 15.5 гб генерация сраных 0.79 т/с
c4ai-command-r-v01-imat-Q4_K_S.gguf 18.9 гб генерация 2.21 т/с

Так бля какого хрена, тоесть матрица важности норм, а i кванты хуйня.
Окей, осталось еще проверить будет ли разница на обычном кванте Q4_K_S, но его еще качать хз сколько

>>709780
Значит только то что модель успешно создает ощущение большой умной сетки в коротких разговорах

>>709777
Скорей всего да, лучше обычный квант в таком случае, ну и если будешь на процессоре крутить можешь упереться в i кванты, так как они медленнее

>>709772
Интересно будет посмотреть на сколько пробили сою, помоему без серьезного дообучения нереально от нее избавится

Аноним 19/04/24 Птн 14:36:46 № 709799 17

Чей ггуф новой 8б лламы качать?

Аноним 19/04/24 Птн 14:40:42 № 709802 18

>>709799
мой

Аноним 19/04/24 Птн 14:41:56 № 709803 19

>>709799
Ладно, качаю
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main

Аноним 19/04/24 Птн 14:42:41 № 709804 20

>>709792
>i кванты хуйня.
хуйня у коня. Давно известно что самый быстрый квант IQ4_XS. Гавном от 3 и ниже пользоваться нет смысла абсолютно никакого. Оно не кардинально меньше в размере - раз, оно медленне почти в два раза - два. А то типо выиграл два гига а скорость 0,7 хуя вместо двух. По 4_0 у тебя судя, скорость с будет 4XS - 1.8-2тс минимум

Аноним 19/04/24 Птн 14:45:01 № 709805 21

>>709804
А почему IQ3_M медленнее то? Хочешь сказать на процессоре будет быстрее IQ4_XS? Ну, я могу и его качнуть и проверить

Аноним 19/04/24 Птн 14:54:21 № 709819 22

>>709805
>почему IQ3_M медленнее
не только этот квант, вообще все I3. Ну вот так сделал икавраков i кванты. Он хотел исправить это, но воз и ныне там. Вобщем в i квантах имеет смысл качать 3 и ниже если только модель просто иначе не влезет в рам.

Аноним 19/04/24 Птн 14:57:38 № 709822 23

>>709819
Окей, качну IQ4_XS, а в чем он отличается от Q4_K_S?
И как думаешь, пострадает ли русский если с матрицей важности качать 4 кванты?

Аноним 19/04/24 Птн 15:08:44 № 709828 24

>>709822
>Окей, качну IQ4_XS
Отпишись потом о скорости, а то с этими i-квантами и правда непонятка какая-то. Многие качали мелкий квант и плевались, а может и правда они поломанные.

Аноним 19/04/24 Птн 15:12:41 № 709831 25

>>709743 →
> Хватит повторяться как попугай.
> Шиз?
Да какой хочешь себе диагноз, такой и ставь.
Я к тому, что этому аргументу скоро год, арена не нравилась многим с момента выхода.
Но все эти тесты еще дальше от реальности, чем арена, вот и все.

> В той же арене до сих пор из клоды первая, весьма днищенская, в лидерах и опережает вторую и опуса?
Что? :)
Пикрил.

> Сейчас дошли до того что пытаются даже юзер-экспириенс бенчмарки компрометировать надрочкой, смотри те же загадки и популярные вопросы.
Офк, хуйня, но практика пока более-менее совпадает с ареной, поэтому причин доверять синтетическим тестам, расходящимся и с практикой, и с ареной — особо-то нет.

>>709780
Ну так Микстраль-то и была где-то там, в серединке, не выстрелила нихуя.
Чему удивляться. =)

———

Про кванты интересная хуйня, конечно.
Надо будет попробовать качнуть небольшую несколько вариантов и затестить.

Аноним 19/04/24 Птн 15:14:20 № 709835 26

>>709764
Попробовал погонять с разными изменениями рекомендованного пресета - по-видимому, проблема в том, что не генерится EOS токен, который в токенайзере должен быть <|end_of_text|>. Поэтому когда сетка хочет завершить свой ответ, она EOS токен пропускает, как будто он забанен, и пытается начать новый ответ ассистента, ставя <|start_header_id|>assistant<|end_header_id|>, что в выводе преобразуется как раз просто в assistant\n\n. Если использовать другой пресет (я пробовал свой кастомный на основе чатмл) или оставить пустыми поля инстракта для юзера и асситанта, кроме последнего ответа, то срать ассистантами начинает гораздо меньше, но начинает пытаться продолжать чат за пользователя, вставляя {{user}}: после ответа, т.к. EOS токен всё ещё не генерится. Также чатмл формат периодически подхватывает и пытается завершать свои сообщения <|im_end|>.

Аноним 19/04/24 Птн 15:15:46 № 709837 27

>>709822
почти ничем не отличаются по качеству и по скорости, только i меньше в размере занимает.
Если сомнения - скачай без матрицы, такие тоже есть. По себе скажу - не заметил вреда русскому, но с другой стороны я ведь не лингвист. Сначала был квант на матрице от икавракова на файле groups_merged.txt, потом перекачал другой квант с матрицей на вики трейн - разницы в русском не увидел.

Аноним 19/04/24 Птн 15:17:21 № 709840 28

auudR7KD6AgDCxC[...].mp4 8220Кб, 1280x720, 00:00:30

>>709757 (OP)
https://aliexpress.ru/item/1005006155095429.html
Китайцы прилепили нормальный кулер к Tesla P40.
Никто ещё не покупал подобные моды?

Аноним 19/04/24 Птн 15:18:46 № 709841 29

>>709835
Используй assistant как eos.

Аноним 19/04/24 Птн 15:38:04 № 709856 30

>>709840
>24 460 ₽
Ну как-то удачи им что ли в продажах

Аноним 19/04/24 Птн 15:39:35 № 709859 31

>>709828
https://huggingface.co/qwp4w3hyb/c4ai-command-r-v01-iMat-GGUF/discussions/2
У этого парня все качал, но выяснилось что ллама.спп обновила шаблон чата и в итоге он еще не перезалил командера с последними обновлениями
Хуй знает как это повлияет на производительность, по идее никак. Просто будет удобнее использовать готовые кванты, как я понимаю.
Ну к вечеру скачается, протестирую. Не забуду напишу сюда

------------------------

Кстати говоря запустил так же потыкать qwen1_5-32b-chat-q4_0.gguf
Запустилась с куда без тарабарщины, как в codeqwen-1_5-7b

Скорости такие же как в командере, по мозгам умнее всех моделей что меньше ее. По идее неплохая базовая модель может выйти, а на закуску у нее 65 слоев, вместо 42 у командера 35b.
Командер нам в базовой версии модели недоступен, а она есть.
Хотя она скорей всего хуже его, в русский может едва

Ну а сейчас опять будут только новую ламу дрочить 8b, ладно если 1-2 файнтюна на квен 32 выйдет.
На пикче вывод квен 32 в чатмл без перевода. Тестами тыкать лень

Аноним 19/04/24 Птн 15:57:18 № 709875 32

>>709840
Не прилепили кулер, а полностью заменили радиатор на нормальный с подходящей видеокарты.
Цена конечно пиздец, но как-то так они на Али и стоили.

Аноним 19/04/24 Птн 16:04:34 № 709883 33

>>709856
+ деньги
- пердолинг с картой и покупка улитки и коннектора для нее с тратой часов/дней на все это

Я думаю все таки это стоит своих 24к, хоть и на грани
Аналогов на 24г врам все равно нет дешевле

Аноним 19/04/24 Птн 16:06:50 № 709888 34

https://huggingface.co/MaziyarPanahi/Llama-3-13B-Instruct-v0.1-GGUF
ну а вдруг в этот раз получится что-то хорошее?

Аноним 19/04/24 Птн 16:16:28 № 709895 35

>>709888
>This model is a self-merge of meta-llama/Meta-Llama-3-8B-Instruct model.
Чёт я не понял, как он это родил? но кочаю

Аноним 19/04/24 Птн 16:18:05 № 709897 36

>>709895
Как обычные 11b слепленные из 7b
Только теперь изза 8b на выходе бутерброд на 13b получается
Может даже умнее, но скорей всего будет шизить немного

Аноним 19/04/24 Птн 16:23:46 № 709901 37

>>709895
Мержекитом. Есть даже два рабочих способа сделать это - чередуя слои или пришивая к концу начало.

В целом, впечатления от лламы-3 в итоге, как от какого-то васянского поделия. PAD токена нет, OES токена нет, везде вшит "ассистент", объяснения, извинения и т.д. Но поиздеваться над ней можно.

Аноним 19/04/24 Птн 16:29:02 № 709905 38

>>709901
>Мержекитом. Есть даже два рабочих способа сделать это - чередуя слои или пришивая к концу начало.
А в этом есть хоть какой-то практический смысл?

Аноним 19/04/24 Птн 16:36:54 № 709910 39

>>709905
Таки 20b считаются умнее, чем 13b, а они получены путём подобных богомерзких телодвижений.

Аноним 19/04/24 Птн 16:41:02 № 709914 40

>>709910
Лол, искусственную личность ассистента вылепили еще более явно чем раньше, раз уж сквозь отыгрышь пробивается
А это означает меньшую вариативность отыгрыша, ну и то что сетка надрочена на определенное хорошо и плохо.
Как я и предсказывал давным давно, хули

Аноним 19/04/24 Птн 16:54:23 № 709926 41

>>709888
теперь с таких двух пусть слепят двадцатку. Надо подождать пока нафайнтюнят кучу восьмерок и икари дев с унди нашлепают с них франкенштейнов по двадцать, а вообще чет как-то накуй не нужна лама 3 - пока что не увидел ничего неебического в ней, в отличие от командира - не впечатлило.

Аноним 19/04/24 Птн 17:06:48 № 709946 42

image.png 10Кб, 878x78

>>709792
>>709828

c4ai-command-r-v01-imat-IQ4_XS.gguf размер 17.8 гб, скорость генерации 1.77 т/с
Ну, при меньшем размере чем Q4_K_S, скорость на 0.4 меньше, эт где то падение скорости генерации на 20 процентов, что довольно дохуя
И я делаю вывод что конкретно мне лучше крутить Q4_K_S, с матрицей или без, лишь бы не i кванты.
Кстати говоря, чтение промпта на Q4_K_S и Q4_0. держалось около 6-7 т/с
i кванты все около 2-3 т/с, конкретно этот - 2.62 т/с

>>709926
Это так не работает, смешать 4 сетки уже не выйдет. Вот если по методу solar 8b дообучат нарастив слоев, до 12b, вот тогда их уже можно будет попробовать смержить до 18-19b, но что получится хз

Аноним 19/04/24 Птн 17:09:43 № 709950 43

изображение.png 157Кб, 1908x654

изображение.png 117Кб, 1905x549

изображение.png 122Кб, 1923x653

изображение.png 179Кб, 1924x694

Прогнал по базе эту вашу ллама 3 на 70B. Вердикт- сломан стоп токен напрочь, модель не может заткнуться.
Базы не знает, но с петухом самый креативный ответ (если бы не луп).

Аноним 19/04/24 Птн 17:13:17 № 709954 44

>>709926
Тут уже проблема. Сделать двадцатку из этой 8b можно только в длину, наращивая по слоям. В ширину я пробовал, нужно полный файнтюн проводить, иначе пиздец. Но скорее всего двадцатки из этой модели будут и будут скоро.

>>709950
Стоп токен это assistant

Аноним 19/04/24 Птн 17:17:35 № 709958 45

>>709888
Ну такое...

Аноним 19/04/24 Птн 17:20:12 № 709961 46

>>709954
>Стоп токен это assistant
Так она и асистента высрала только в половине случаев. В остальных бредит без него.

Аноним 19/04/24 Птн 17:23:35 № 709964 47

>>709841
Пиздосю, а если у меня легитимный assistant посреди текста?

Аноним 19/04/24 Птн 17:24:40 № 709965 48

>>709964
Да поищите на реддите или гитхабе, уже были нормальные воркараунды.

Аноним 19/04/24 Птн 17:26:58 № 709966 49

изображение.png 12Кб, 695x222

>>709965
Ага, использовать любой неродной формат промта. Вот с альпакой, стоп токен прекрасно находится.

Аноним 19/04/24 Птн 17:26:58 № 709967 50

Вы это видели? - он уже засайгачил ламу 3. Вопрос нахуа это надо если и так по русска балакает - видимо не стоял.
https://huggingface.co/IlyaGusev/saiga_llama3_8b

Аноним 19/04/24 Птн 17:34:47 № 709974 51

>>709961
Ну хуй знает тогда. Да, модель шизик, т.к хуй его знает, какой у неё там инстракт темплейт, я гоняю на альпаке и она часто подсирает под себя.

>>709964
Ну добавь туда вместо ассистанта "<|end_of_text|>", но ассистанты будут высираться иногда. Стоп токен так-то есть, в конфигах прописан.

Аноним 19/04/24 Птн 17:49:43 № 709989 52

>>709967
Обсайгачил по самые гланды.
Ахаха, датасет у него уровня бездомный Бог. Беру буквально первые 2 строки, и в обоих какой-то левый пиздёж. Вот нахуя на этом мусоре тренировать нейронки?
Зато крепостное право конечно же не для порабощения, ага.

Аноним 19/04/24 Птн 17:50:12 № 709990 53

>>709967
https://t.me/senior_augur/82
Э-э-эксперименты!

———

Ваще, конечно, модели прям такие себе вышли.
В какие-то моменты они заставляют ахать от удивления, а в какие-то (большинство) — блевать, к сожалению.
Это прямое, как мне кажется, следствие вот этой вот всей цензуры. Впилили ассистента, теперь она обкакивается там, где не должна, извините пожалуйста, я не пишу неэтичный контен.ассистент

Аноним 19/04/24 Птн 17:56:58 № 709994 54

>>709990
Какой пидр утащил мой скрин в эту помойку?

Аноним 19/04/24 Птн 18:02:30 № 709996 55

изображение.png 27Кб, 772x207

>>709994
Впрочем ладно, если кто-то хочет работать передастом, то вот (сам я мараться об всякие сообщества в дуровском мессенджере не хочу).

Аноним 19/04/24 Птн 18:04:18 № 709997 56

Ну и как вам 70b?

Аноним 19/04/24 Птн 18:06:46 № 709999 57

>>709997
Как говно вестимо.

Аноним 19/04/24 Птн 18:10:24 № 710002 58

>>709999
Что с ней не так? Слишком много сои?

Аноним 19/04/24 Птн 18:16:26 № 710006 59

>>710002
Ноль прорывов. По сути какая-нибудь мику или командир с плюсом будут лучше.
Сою налили в инструкт версию, это ожидаемо. Базовая вроде не сильно отказывает, на первый взгляд.
Тут вся надежда на файнтюны, так как мику тюнить по сути нельзя, то новая 70-ка с чуть худшим перфомансом может стать лучше мику с доводкой.

Аноним 19/04/24 Птн 18:19:52 № 710011 60

>>710006
Эх, а нам обещали тонкое понимание логики. Хотя, уже хорошо.

А кто-нибудь помнит разница между ллама1 и ллама2 одного размера сильно была больше?

Аноним 19/04/24 Птн 18:20:42 № 710012 61

c-хуяи.png 2Кб, 256x50

>>710006
>>709999
Хуяи?

Аноним 19/04/24 Птн 18:23:39 № 710015 62

>>710011
Разница была, но не очень большая. Этот скачок куда больше

Аноним 19/04/24 Птн 18:25:07 № 710016 63

>>709989
Это синтетический датасет сгенерированный Порфирьевичем. Мировая практика.

Аноним 19/04/24 Птн 18:29:17 № 710019 64

изображение.png 16Кб, 209x549

изображение.png 92Кб, 1537x546

>>710011
>разница между ллама1 и ллама2 одного размера
Двойка апнула на уровень вверх, то есть 7B стала как 13, 13 как 33, ну и далее.
Тут технически тоже самое, 8 ощущается как 13, но у нас уже был на руках мистраль, который сделал тоже самое. Про 70-ку я уже отписал. Так что лично я ажиотажа не разделяю.
>>710012
А хуй его знает. Шатает её, качество сильно нестабильно.
Ну и я жопой чую, что жора и тут поднасрал. Через пару недель пофиксят небось.
>>710015
>Этот скачок куда больше
Прыжок на месте?
>>710016
Обижаешь, там турба.

Аноним 19/04/24 Птн 18:33:37 № 710020 65

>>710012

Аноним 19/04/24 Птн 18:34:53 № 710023 66

>>710019
Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение, так что как минимум сравнивая с ллама2 они апнули ллама3 на уровень. Но конечно, ограничения 7b никуда не делись. Просто выдрочка более эффективным датасетом, дольше и с более оптимизированным токенизатором.
Я бы хотел 13b с такой же прокачкой, а не еще одну мелочь. 30 была бы вобще бомбой

Аноним 19/04/24 Птн 18:34:56 № 710024 67

Есть у кого пикча с прямыми сравнением llama 1, 2 и 3 по бенчмаркам? Хочу посмотреть кривую по которой идёт развитие ии и предположить чо там будет по опенсорсу через пару лет

Аноним 19/04/24 Птн 18:35:15 № 710025 68

>>710020
>>710012
Пока ещё неуверенность в эло большая, надо дать недельку устаканиться (но понятно что модель вышла что надо)

Аноним 19/04/24 Птн 18:36:08 № 710027 69

>>710024
>через пару лет
Тут на пол года загадывать бессмысленно, а ты на годы вперед хочешь, хех

Аноним 19/04/24 Птн 18:36:34 № 710028 70

>>710023
>Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение
Блять, они выпустили лламу2 которая стала стандартом дефакто на своё время, нагнув большинство сеток с открытыми весами (или все). Неудивительно что ллама3 тоже пиздато получилась.

Аноним 19/04/24 Птн 18:37:40 № 710029 71

>>710028
Но 7 была пососная все равно, теперь вот доделали, ну да.

Аноним 19/04/24 Птн 18:38:52 № 710030 72

>>710023
>Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение
Эм, чё? Для фейсбука равняться на мисраньАИ без железа, которых купили с потрохами за 15 лямов, это блядь позор.
>Я бы хотел 13b с такой же прокачкой
А то. Поэтому и зажали. Ллама 4 будет только в размере 10B, скриньте.

Аноним 19/04/24 Птн 18:39:01 № 710031 73

>>710027
Скажи еще что Мур хуйней страдал когда свой закон придумывал

Аноним 19/04/24 Птн 18:41:45 № 710033 74

Вот что 24000 H100 животворящих делает

Аноним 19/04/24 Птн 18:44:59 № 710035 75

>>710031
Закономерность мура ужа давненько соблюдается только условно, рост перестал уже как несколько лет быть таким как он предсказывал. Лет 10 наверное, хз не помню где и когда читал об этом

>>710030
>Эм, чё? Для фейсбука равняться на мисраньАИ без железа, которых купили с потрохами за 15 лямов, это блядь позор.
Спецы из гугла на сколько я понимаю, а у гугла разработки в этой теме более глубокие чем у фейсбука.
Без спецов со знаниями хоть сколько денег и оборудования кидай, ниче не выйдет.
Так что да, фейсбук можно спокойно сравнивать с мистралем, эти ребята делом доказали что в свое время знали и понимали больше чем другие. Теперь вот их догоняют. О чем знают в самом гугле, и в клозедаи мы сравнить не можем, сеток нормальных нет.
Хотя гемма вроде умна, если бы не была искажена соей

Аноним 19/04/24 Птн 19:00:56 № 710049 76

>>710035
>а у гугла разработки в этой теме более глубокие чем у фейсбука
А что ж они всё со своей геминей обсираются? Их клозеды с антропиками на пару ебут.

Аноним 19/04/24 Птн 19:06:08 № 710052 77

>>710011
Не сильно.
Вероятно, дело в том, что на этом уровне качество уже достаточно хорошее, поэтому оно прям норм воспринимается и разницы сильно не видишь.
Разница на уровне объема датасета, используемого для обучения, и, соответственно, знаний.

Конечно, вторая 70б была лучше первой 65б. Но в тонкостях.

>>710019
Мистраль им все поломало, я пока тоже чую етот вайб.

Если бы не было мистрали и ее производных, то мы бы щас такие «нихуя себе, она на русском говорите, ебать умная!»

>>710035
> Лет 10 наверное
Да.
Там маги из НВидиа колдуют, чтобы он соблюдался в некоторых условных рамках «одна видяха — прирост».

> Хотя гемма вроде умна
В рамках своего датасета только, но плюсую.

Аноним 19/04/24 Птн 19:08:42 № 710055 78

>>709776
>тупо скачай вот это : https://files.catbox.moe/1rzg32.json
Официально заявляю- шаблон говно. На скрине сравнение с тем, как надо ( https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/ ). Единственный проёб это лишний перевод строки после системного промта.
Вот поправленный- https://files.catbox.moe/r8qqp3.json
Юзать вместе с минималистичным темплейтом.

Аноним 19/04/24 Птн 19:10:30 № 710060 79

>>710049
много говна, мало палок

Аноним 19/04/24 Птн 19:10:47 № 710061 80

>>710052
>то мы бы щас такие «нихуя себе, она на русском говорите, ебать умная!»
Но ведь уже есть командир, который ебёт всех и вся на русском... Разве что командир по-жирнее будет.

Аноним 19/04/24 Птн 19:15:19 № 710067 81

>>709958
После того как добавил в стоп токены ["Assistant", "assistant", "Assistants", "User", "user", "user1"] стало получше. Но пока что Лама 2 кажется на голову выше, отвечает довольно криво. Хз что вы такого удивительного нашли в этой модели.

Аноним 19/04/24 Птн 19:22:18 № 710074 82

>>710067
Отстань от франкенштейна. В прошлый раз с полгода ебались, пока не научились лепить нормальных монстров, что аж в шапку попало.

Аноним 19/04/24 Птн 19:38:14 № 710089 83

изображение.png 126Кб, 3603x352

изображение.png 177Кб, 3502x506

>>709996
Ну молодец, чё, выкинул 95% датасета (впрочем согласен, датасет от турбы это чистый мусор, я бы его и с сайта потёр). К остаткам датасета, сделанного четвёркой, не доебаться, ну разве что до орфографии и слегка не актуальных советов.

Аноним 19/04/24 Птн 19:43:27 № 710094 84

https://www.reddit.com/r/LocalLLaMA/comments/1c7no52/psa_if_you_quant_your_llama_3_model_from_f16_you/
Странное, это сработает?

Аноним 19/04/24 Птн 19:50:57 № 710096 85

>>709831
> Но все эти тесты еще дальше от реальности, чем арена, вот и все.
Почитай про них и станет понятно что за что отвечает. Проблема в их компрометируемости, а если делать постоянно разные то будет низкая точность оценки.
> Пикрил.
Топ кек, гопоту уже ебем, замечательно. Надо будет сейчас покумить на семидесяточке новой.
> Офк, хуйня, но практика пока более-менее совпадает с ареной
Да если бы, как же там они апали первый микстраль, подкручивая его выдачу, и где он сейчас? Неспроста убрали, флуктуаций паразитных и странных там очень много.
>>709888
Топ кек. Не ну а почему бы и нет собственно.
>>709967
> Вопрос нахуа это надо если и так по русска балакает - видимо не стоял.
Вот тут двачую, видимо не может он успокоиться видя нормальную модель, которая еще и большой контекст обрабатывать может, нужно все поломать.

Аноним 19/04/24 Птн 19:52:07 № 710099 86

>>710094
Похоже идет какой то косяк при прямом кванте из bf16

Аноним 19/04/24 Птн 19:56:44 № 710102 87

>>710023
> Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение
Обзмеился с секты свидетелей мистраля. Ну рили даже сравнивать не стоит.
>>710052
> Конечно, вторая 70б была лучше первой 65б. Но в тонкостях.
И в толстостях. Если первая просто лучше тебя понимала и соображала, буквально просто была "хорошей ллм", то вторая уже проявляла чудеса проницательности и креатива.
>>710094
Ну кстати действительно может быть, особенность bf16.

Аноним 19/04/24 Птн 19:58:20 № 710108 88

https://huggingface.co/MaziyarPanahi/Llama-3-16B-Instruct-v0.1

>This model is a self-merge of MaziyarPanahi/Llama-3-11B-Instruct-v0.1 model.

Аноним 19/04/24 Птн 19:59:32 № 710111 89

>>710108
Интересно на сколько хватит запаса этой модели, будет ли она еще лучше так мержится или наоборот хуже

Аноним 19/04/24 Птн 20:01:18 № 710113 90

>>710096
>как же там они апали первый микстраль, подкручивая его выдачу
Человек, ты не можешь просто так заявлять подобное, вытащив говно из жопы. Нужны какие-то зацепки.
>и где он сейчас? Неспроста убрали
Примерно там же где и был, в районе гопоты-3.5 турбо, никто его не убирал.

Аноним 19/04/24 Птн 20:02:43 № 710114 91

D23C1A46-0A5F-4[...].jpg 721Кб, 796x1280

Ну почему шизомержи, а не дообучение?

Аноним 19/04/24 Птн 20:03:46 № 710115 92

>>710114
Потому что дообучать - долго и дорого, а шизомерж - раз и готово

Аноним 19/04/24 Птн 20:14:32 № 710122 93

>>709888
>>710108
На этом кумить можно?

Аноним 19/04/24 Птн 20:17:11 № 710124 94

https://huggingface.co/NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE

Кто там МОЭ заказывал?

Аноним 19/04/24 Птн 20:19:02 № 710127 95

>>710124
А толку саму с собой мое делать? Или там чет другое?
Там же одни и те же эксперты будут, лол

Аноним 19/04/24 Птн 20:24:54 № 710135 96

>>710127
>А толку саму с собой мое делать?

Потому что может.
А может автор просто дурак и не понял что NousResearch просту ту же самую ламу выложил, чтобы её можно было кочать без регистрации

Аноним 19/04/24 Птн 20:27:27 № 710142 97

>>710135
Может хотел проверить будет ли работать мое с этой моделью, тогда как тест сойдет

--------------
Скачал я инструкт версию 8b лламы, и спасибо анону выложившему промпт формат, у меня ничем странным пока не срет. Только срывается иногда начиная за меня отвечать, собака
Я так понимаю надо будет базовую версию качнуть, она лучше

Аноним 19/04/24 Птн 20:30:48 № 710146 98

selcky-Anime-Ar[...].jpeg 1571Кб, 1000x1471

>>710124
Хочу эджи с воображением.

Аноним 19/04/24 Птн 20:33:19 № 710153 99

https://huggingface.co/mradermacher/DevsDoCode-LLama-3-8b-Uncensored-GGUF/tree/main
кидали нет не помню

Аноним 19/04/24 Птн 20:43:23 № 710177 100

>>710113
> Человек
Сам ты человек, кожаный ублюдок. Об это хейрне даже ролик пилили, что на короткий запрос тебе в 39 случаев из 50 выпадает микстраль, а на длинный текст с имитацией диалога и запросом на его аналис в 2 из 30. Сам пытался его выловить на анализ длинного промта - ни разу не выпал. Но тогда легко ловился простым запросом, и вот на второе сообщение уже можно его мучать сколько хочешь сразу в сравнении.
> Примерно там же где и был
Нету в текущих лидербоардах. Напомню что он был не просто выше 3.5 турбо, но и обходил клод 2. Ебало сотворивших это имаджинируемо. Справедливости ради стоковый клод под своей может быть уныл
Та же странность на добавление 4 турбо в арену, при этом ответы обычной 4 радикально испортились, и часто уступали локалкам. Делаешь тот же запрос по апи - все красиво и четко, пытаешься у них - короткая залупа с аполоджайзами не в тему.
>>710114
Реальных полноценных файнтюнов не увидишь еще пару недель. Первые будут отвратительны и поломаны.
>>710124
Вах, вот это топ

Аноним 19/04/24 Птн 20:50:09 № 710193 101

Хочю чтоб высрали анцензорд версию ламы 3 8b и запилили русский файнтюн. Я что многого прошу?

Аноним 19/04/24 Птн 20:51:32 № 710196 102

>>710193
Да

Аноним 19/04/24 Птн 20:55:28 № 710202 103

>>710124
А мое можно запилить взяв за базу несколько экземпляров готовой модели и файнтюня их, по тому же принципу как обычно обучают мое? Или обучение таких моделей должно происходить только с нуля? Я просто думаю, как 400b высрут, получится ли опенсурсу, если влить много денег на файнтюн, создать какую-нибудь 8x400b модель с 200 айсикью

Аноним 19/04/24 Птн 20:56:34 № 710205 104

>>710193
>запилили русский файнтюн

Уже >>709967

Аноним 19/04/24 Птн 21:02:53 № 710220 105

>>710205
Так он не анцензоред, да и качества сомнительного

Аноним 19/04/24 Птн 21:04:00 № 710224 106

>>710220
>>710153
качество сам проверяй, че то еще кидали, дпо с токсик датасетом, но где не помню

Аноним 19/04/24 Птн 21:06:52 № 710229 107

>>710193
Оно уже в стоке такое.
>>710202
> А мое можно запилить взяв за базу несколько экземпляров готовой модели и файнтюня их
Собственно, (по заявлениям) именно так и сделан мистраль а потом из него и микстраль.

Аноним 19/04/24 Птн 21:11:41 № 710240 108

>>710153
Ну чет так себе на первый взгляд

Аноним 19/04/24 Птн 21:15:51 № 710247 109

>>710240
https://huggingface.co/raincandy-u/Llama-3-8b.UNLEASHED

Аноним 19/04/24 Птн 21:19:30 № 710250 110

https://huggingface.co/rmdhirr/Pulsar_7B
любопытная штучка, не пойму только какая базовая модель

Аноним 19/04/24 Птн 21:20:18 № 710253 111

>>710229
> Оно уже в стоке такое.
Больше пару раз юзать пробовал? Оно такую хуйню на русском генерит. Про цензуру вообще молчу

Аноним 19/04/24 Птн 21:23:34 № 710256 112

Бля, как же я расчитывал на то что будет мультимодальность, но какие же там зашоренные додичи сидят бляяяя. Уже молчу про то что это не мое, даже 400b походу не мое

Аноним 19/04/24 Птн 21:24:20 № 710258 113

>>710061
Так-то и 70б на русском говорила, и ллама 1 30б даже что-то могла.
Но среди маленьких моделей… Ну я в любом случае к тому, что если абстрагироваться от других моделей, то выглядит пиздато. Просто живем мы не в вакууме и привыкли уже, что русский в мелких моделях встречается.
ЗЫ Еще Квен немного могет, кстати.

>>710089
Пам-пам.

>>710096
> Топ кек, гопоту уже ебем, замечательно
Ну, не кек, а реальность.
Впрочем, именно за 70б не скажу, хайп вокруг нее выглядит подозрительным.
Я к тому, что там нет никакого клода первого, лол, о чем ваще речь.
Там на первых местах гопота и опус, как они и есть.
И где-то чуть ниже коммандер, ниже Мистраль Лардж и Квен.
Ну, так-то оно и есть.

>>710108
КХЕхкехкхехкхе

>>710124
Шо так мала.
Хачу 10икс8.

>>710127
Да, похрюкал с этого.

———

Вообще, конечно, такая херня творится. Шизомерджи, мое с нихуя.
Когда даже оригиналы пока с грехом пополам работают.
Подождать с недельку, а потом разглядывать.

Аноним 19/04/24 Птн 21:28:40 № 710264 114

>>710177
>Нету в текущих лидербоардах.
Да вот же? И с клавдией и с гопотой 2.1 вровень, как и был, в пределах погрешности. (эло вероятностная характеристика, там есть и количество сэмплов и уверенность, стоит ниже крутануть)

>Об это хейрне даже ролик пилили, что на короткий запрос тебе в 39 случаев из 50 выпадает микстраль, а на длинный текст с имитацией диалога и запросом на его аналис в 2 из 30. Сам пытался его выловить на анализ длинного промта - ни разу не выпал.
Звучит как пиздаболия. У меня в основном как раз РП на множественных персонажей и заготовлен, и микстраль я ловил постоянно на выходе, потомушо они часто выставляют новые сетки чтобы побыстрее рейтинг устаканить.

Аноним 19/04/24 Птн 21:29:18 № 710267 115

>>710264
>Да вот же?
Отвалилось

Аноним 19/04/24 Птн 21:33:03 № 710270 116

изображение.png 7Кб, 672x103

>>710089
Хуя, закрытый проект рожает модели через 0,0001нс после выхода базы. Надо бы ещё что-нибудь закрыть!

Аноним 19/04/24 Птн 21:35:17 № 710278 117

image.png 224Кб, 2305x564

Подъехали нормальные тесты, лама на уровне последнего мистраль-инструкта, только контекста меньше, нас наебали, расходимся.

Аноним 19/04/24 Птн 21:36:40 № 710281 118

image.png 233Кб, 2305x564

>>710278

Отклеилось

Аноним 19/04/24 Птн 21:38:08 № 710285 119

>>710250
В шапке же написано (теги) - Mistral.

Аноним 19/04/24 Птн 21:40:03 № 710289 120

>>710258
>Вообще, конечно, такая херня творится. Шизомерджи, мое с нихуя.
Каждый раз такое, если ты вдруг не заметил.

Аноним 19/04/24 Птн 21:40:05 № 710290 121

>>710285
ага, но первый или второй?
хотя судя по оценкам скорей всего вторая базовая

Аноним 19/04/24 Птн 21:46:12 № 710299 122

>>710270
кек

Аноним 19/04/24 Птн 22:00:50 № 710315 123

>>710253
Да не, запустил нищеквант на сколько хватило терпения, похедпатил ассистанта и спать.
>>710258
> Так-то и 70б на русском говорила
Плохо
> ллама 1 30б даже что-то могла
Совсем грустно
> Ну, не кек, а реальность.
Ладно, справедливости ради семидесятку новую еще не катал, все времени нет, да и как-то не хочется испортить впечатление. Было бы круто чтобы она могла так же офк, но на фоне всех этих "побед" надежд мало.
>>710264
Ну вот, обоссаному микстралю для клавы как раком до Китая, а тут они рядом стоят. Хоть толика разума есть у тех кто такие оценки продвигает?
> Звучит как пиздаболия.
Лень искать банально, в прошлых тредах что-то скидывали. Хз, рпшить на микстрале это довольно странно, он слаб и не далеко от 7б ушел.

Аноним 19/04/24 Птн 22:14:12 № 710336 124

>>709792
>c4ai-command-r-v01-imat-Q4_K_S.gguf 18.9 гб генерация 2.21 т/с
И это чисто на проце? Довольно быстрая скорость, какая система там у тебя?

Аноним 19/04/24 Птн 22:17:34 № 710343 125

Ролеплей файнтюны уже высрали?

Аноним 19/04/24 Птн 22:24:56 № 710354 126

>>710336
8ми ядерный xeon с 4 канальной памятью, так себе, но игорь тонет, а в нейросетках дешево и сердито.
Ну, чисто на проце 8 квант 7b крутит 5-6 токенов в секунду где то, не пошикуешь, но потыкать или потрындеть норм

Аноним 19/04/24 Птн 23:10:08 № 710414 127

firefoxCANAInTh[...].png 211Кб, 1071x951

и какой из этих исправен? у NousResearch не качаю потому что шизо-Q5_K_M.

Аноним 19/04/24 Птн 23:10:44 № 710415 128

>>710343
Высрали.

Аноним 19/04/24 Птн 23:12:52 № 710417 129

>>709792

УУУУ, БЛЯ, А я думал чего так медленно все это работает, ебаные i кванты.

Аноним 19/04/24 Птн 23:14:24 № 710419 130

>>710414

Оригинал качай и в 8бит запускай. Я вообще не ебу зачем вы эти кванты для сраной 8В качаете.

Аноним 19/04/24 Птн 23:18:21 № 710422 131

НОВАЯ ИМБА ЛАММА ПОДДЕРЖИВАЕТ КУМ??? ХУЙ ДЫМИТСЯ

Аноним 19/04/24 Птн 23:19:51 № 710423 132

>>710422
нет

Аноним 19/04/24 Птн 23:21:52 № 710424 133

>>710422
Да, даже инструкт че то пытается годное выдавать
Только промпт формат скачай
>>710055
>Вот поправленный- https://files.catbox.moe/r8qqp3.json
Юзать вместе с минималистичным темплейтом.

и в таверну сунь, ну и качай нормальный квант
Квест по его поиску все еще открыт, лол

Аноним 19/04/24 Птн 23:31:07 № 710438 134

>>710422
Ну она в стоке может выдавать крутые фразы и понимает какие взаимодействия ведут к возбуждению, какие с удовольствию и наоборот. Кумботы раскручиваются очень легко даже на 8б, хз что там у бедолаг что воют за цензуру.
Но пишет не так детально и подробно как рп файнтюны второй лламы.

Аноним 19/04/24 Птн 23:32:36 № 710439 135

>>709776
И да, вот подобный шизосемплинг хорошо работал на тупых 7б, которым очень недостовало разнообразия, но приводит к тупизне и неадекватности на нормальных моделях, где с разнообразием и так все в порядке. Хз насчет 8б лламы, но она показала себя ближе ко вторым.

Аноним 19/04/24 Птн 23:39:44 № 710441 136

Не очень в теме локальщины. Эта хуйня - это же типа того чем был пигмалион? И оно не соевое и может в сиськи письки? https://huggingface.co/dreamgen/opus-v1.2-llama-3-8b
Есть вообще серьезные отличия от пигмы у подобных файнтюнов на моделях получше или оно так же выдает слабо связанный текст который пытается быть похожим на человеческую речь?

Аноним 19/04/24 Птн 23:46:42 № 710443 137

>>710441
Ты последний год в коме был?

Аноним 19/04/24 Птн 23:50:06 № 710447 138

>>710443
>Не очень в теме локальщины.

Аноним 19/04/24 Птн 23:53:57 № 710453 139

>>710441

Пигма пала, центрурион.

Аноним 19/04/24 Птн 23:54:54 № 710454 140

>>710447
>>710441
Учитывая что новая ллама вышла только вчера - скорее всего эта штука посредственного качества, т.к. делалась в спешке и не полноценным файнтюном а qlora на мелком датасете. Иное крайне маловероятно.
Подожди неделю, будет уже что-то приличнее. По сравнению с пигмой, можешь даже стоковую лламу скачать, настроить правильном формат и ахуевать с прогресса. Она создает такое впечатление что действительно после грамотного промт-инжениринга, выдаст хорошие тексты, лучше чем 3.5 турбо точно.

Аноним 19/04/24 Птн 23:55:16 № 710455 141

>>710441

Поясню - первая лама уничтожила пигму как явление, а в треде как видишь обсуждается третья.

Аноним 20/04/24 Суб 00:05:19 № 710463 142

>>710447
Окей, эта хуйня уже местами на уровне чатгпт на минималках, так понятней?

Аноним 20/04/24 Суб 00:08:54 № 710467 143

>>710454
Автор пишет 80м токенов 2 эпохи. Да и первая модель у него годная, там целый сайт типа чарактер аи

>>710455
Понятно что пигма устаревший кал. Просто ллама - это базовая модель, а пигма - это файнтюн gpt-j или как там эта хуйня называлась. Мне интересно это тоже самое по смыслу.

Я вообще рассматриваю варианты как сделать ролеплей бота и хз с чего подступиться ибо давно не в теме. Но мне не нужна всякая мишура вокруг типа автора который пишет "Пошли они на речку и поебалися." посреди диалога или действий в звездочках вроде "Хрюкает". То бишь мне не нужно написание истории по факту. Мне нужен файнтюн где я могу указать какую роль отыгрывать и бот будет отвечать как в обычном чате в порядке: "мое сообщение" -> "его сообщение" -> "мое сообщение" -> "его сообщение" и т.д. Возможно нужна будет возможность разговора с ботом нескольких людей которые подписаны по имени, вроде: "сообщение Санек" -> "сообщение Петян" -> "ответ бота" и т.д. Еще бы мультимодальность к этому, но я наверное охуел с такими запросами.

Аноним 20/04/24 Суб 00:10:46 № 710469 144

>>710463
Имелись ввиду все такие новые сетки вообще, даже сраные 7-8b

Аноним 20/04/24 Суб 00:12:02 № 710470 145

>>710467
>Просто ллама - это базовая модель, а пигма - это файнтюн gpt-j

Ллама тоже файнтьюн gpt-j.

>Мне нужен файнтюн где я могу указать какую роль отыгрывать и бот будет отвечать как в обычном чате в порядке: "мое сообщение" -> "его сообщение" -> "мое сообщение" -> "его сообщение" и т.д.

Просто скачай ламу, запусти в таверне с карточкой персонажа и всё будет.

Аноним 20/04/24 Суб 00:13:38 № 710471 146

>>710463
Я из тех кто юзал ЛЛМки чисто для кодинга и функций умного ассистента. Я смотрел как они решают математические задачи и как умеют в логику все лучше с каждой новой моделью, но я не в курсе как они по креативной части и как это отличается от той же пигмы в этом плане. Как по мне порфирьич креативнее убитого соей опуса, например. Эта вещь субъективна и на нее даже бенчмарков нет, по крайней мере их нигде особо не используют.

Аноним 20/04/24 Суб 00:14:29 № 710472 147

>>710467
> там целый сайт типа чарактер аи
Чивоблять.webm?
Нет, офк все возможно, у него даже 70б файнтюны есть. Смущает припезднутый формат промта в сочетании с узкой направленностью, и быстрый выход. Если новую семидесятку будет делать то определенно надо будет скачать, кто 8б тестил - отпишитесь.

Аноним 20/04/24 Суб 00:16:43 № 710473 148

>>710470
>Просто скачай ламу, запусти в таверне с карточкой персонажа и всё будет.
Мне нужен доступ к модели из кода а не из интерфейса, чтоб я на основе этого смог сделать приложение. Я понимаю что там промптами как-то добиваются ролеплея от базовой модели, но я крайне сомневаюсь что по качеству это будет близко к специализированному файнтюну

Аноним 20/04/24 Суб 00:19:49 № 710474 149

>>710473
> Мне нужен доступ к модели из кода а не из интерфейса
Качай убабугу или кобольда и используй openai-like api. Запросы на комплишн идентичны, код простой и его примеров полно.

Аноним 20/04/24 Суб 00:20:39 № 710475 150

>>710472
https://dreamgen.com
Я тестил этот сайтик, вроде неплохо, но не думаю что там уже новая модель стоит. Да и 70б модель там только по подписке, тоже интересно какова разница между ними, ощутима ли

Аноним 20/04/24 Суб 00:22:28 № 710477 151

>>710473
>Мне нужен доступ к модели из кода

Т.е. через апи?
Ну кобольд и уба работают через апи. Не вижу проблемы.

> Я понимаю что там промптами как-то добиваются ролеплея от базовой модели, но я крайне сомневаюсь что по качеству это будет близко к специализированному файнтюну

Так бы и сказал что тебе рп файнтьюн нужен, держи
https://huggingface.co/TheBloke/Noromaid-20B-v0.1.1-GGUF

Аноним 20/04/24 Суб 00:24:07 № 710478 152

>>710475
Не ну если так то уже респект за подход, красавчики, но мнение по модели не меняет. Скачай и сам оцени, главное все выстави в точности с их форматом, иначе экспириенс может оказаться радикально хуже ожидаемого.
70б веса у него же на обниморде выложены, ну и в данном треде принято их запускать локально. По крайней мере способных запустить 70б с комфортной скоростью точно больше чем пальцев на одной руке, что не может не радовать.

Аноним 20/04/24 Суб 00:29:01 № 710482 153

>>710477
Спасибо, я просто уже искал варики именно на третьей ламе, чтобы иметь топ нотч решение на текущий момент. Но возможно начал слишком рано. Хотя тот файнтюн что я скинул внушает доверие судя по регалиям автора.

Аноним 20/04/24 Суб 00:29:41 № 710484 154

>>710467
>Еще бы мультимодальность к этому, но я наверное охуел с такими запросами.
В кобальде и мультимодальность можно прикрутить и генерацию изображений там же, так что все в твоих руках. Дергай апи и играйся.

Аноним 20/04/24 Суб 00:31:16 № 710485 155

>>710470
>Ллама тоже файнтьюн gpt-j.
Да ладно? джей это eleuther, я то думал ламу из опта как-то выродили. опт и джей сильно разные.

Аноним 20/04/24 Суб 00:33:17 № 710486 156

>>710482
> топ нотч решение на текущий момент
Или стоковая ллама и промт инжениринг, или жди пока все уляжется и подвезут нормальные файнтюны а не слепленные в спешке на коленке.
>>710484
> В кобальде и мультимодальность можно
Прикрутить проектор ллавы или подобного. В YI оно все еще не работает, что-то полноценное типа кога и близко не может. К лламе 3 также не применимо.
> и генерацию изображений там же
Оно буквально для галочки и убервсрато.

Аноним 20/04/24 Суб 00:33:18 № 710487 157

>>710484
Как, если модель изначально не мультимодальная? Кроме лавы сейчас в опенсорсе то вроде ничего и нет. Разве что только покидывая ей текстовое описание прогоняя картинку через какую-нибудь клип модель, но это такое себе решение

Аноним 20/04/24 Суб 00:35:27 № 710488 158

>>710486
>слепленные в спешке на коленке.
У этих челов датесеты еще с первой ламы лежат. Единственное что смущает - это время тренировки. Но я никогда не фантюнил ллмки, не могу сказать достаточно ли суток для нормального файнтюна 8b модели

Аноним 20/04/24 Суб 00:39:52 № 710491 159

>>710488

Дело не в том сколько их тьюнили, дело в том что эти тьюны никто не проверил еще. Качай, будешь тестером, может там и впрямь алмаз, кто знает?..

Аноним 20/04/24 Суб 00:41:43 № 710492 160

>>710488
> достаточно ли суток для нормального файнтюна 8b модели
Достаточно при условии наличия пачки йоба гпу. Оптимальность параметров для новой модели под вопросом офк.
> датесеты еще с первой ламы лежат
Если они тех времен то ничего хорошего не будет.

Аноним 20/04/24 Суб 00:42:02 № 710493 161

>>710484
>генерацию изображений там же

Кобальт просто сд встроил и картинки он из твоей сд модельки сгенерирует.

Аноним 20/04/24 Суб 00:46:56 № 710498 162

>>710470
>Ллама тоже файнтьюн gpt-j.
Эм, нет.
>>710485
>я то думал ламу из опта как-то выродили
Сомневаюсь, там разные архитектуры, похожие только издалека.

Аноним 20/04/24 Суб 00:50:00 № 710501 163

>>710414
>потому что шизо-Q5_K_M
Што? Схуяли Q5_K_M шизо?

Аноним 20/04/24 Суб 00:50:20 № 710502 164

>>710487
Все модели одного размера и структуры могут пользоваться одним мультимодальным расширителем

>>710493
И чё?

>>710486
>Оно буквально для галочки и убервсрато.
И че?

Аноним 20/04/24 Суб 00:51:44 № 710504 165

>>710502

Аноним 20/04/24 Суб 00:52:26 № 710506 166

>>710502
>Все модели одного размера и структуры могут пользоваться одним мультимодальным расширителем
Не так резко. Только имеющие единого предка. Лламу 3 явно тренировали с нуля, так что вряд ли оно заработает.

Аноним 20/04/24 Суб 00:53:46 № 710507 167

>>710504
Не ну такие странные предъявы, работает? Работает.

>>710506
>Все модели одного размера и структуры
Для слепых повторил

Аноним 20/04/24 Суб 00:54:31 № 710508 168

>>710507
Так через жопу оно работает, всеравно что предлагать нормису ездить в городе на мертвой классике, или пользоваться печатной машинкой вместо офиса.

Аноним 20/04/24 Суб 00:56:35 № 710510 169

Кстати, кто-то покусился на файнтюн грока?

Аноним 20/04/24 Суб 00:58:43 № 710513 170

>>710419
Где его скачать без аккаунта и флажка в анусе?

Аноним 20/04/24 Суб 01:01:26 № 710514 171

>>710513

https://huggingface.co/NousResearch/Meta-Llama-3-8B
https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct

Аноним 20/04/24 Суб 01:01:26 № 710515 172

>>710508
поиграться хватит, дальше пусть более серьезное щупает

Аноним 20/04/24 Суб 01:10:58 № 710521 173

>>710510

Нет задач

Аноним 20/04/24 Суб 01:12:54 № 710522 174

>>710515
В контексте 3й лламы только разочароваться.

Аноним 20/04/24 Суб 01:14:03 № 710524 175

>>710521
Почему? Можно сделать файнтюн уровня выще гпт-4 и организовать свой бизнес на нем. Не все ж для кумеров локальщиков делать

Аноним 20/04/24 Суб 01:15:14 № 710525 176

>>710522
Топовые файнтюны мистраля не так далеко от лламы3, и они работают с мультимодалкой.
Да средне, но для опознания картинки хватит.

>>710524
Его отдали потому что он уже бесполезен, а не из благих побуждений. И это сделала компания с кучей железа.

Аноним 20/04/24 Суб 01:19:45 № 710530 177

>>710524
По цене обойдется как несколько лет работы гопоты или aws-клод и устареет раньше чем окупится.
>>710525
> Топовые файнтюны мистраля
Это все также 7б днище. Лучше ли 8б лламы 3 - хуй знает, нужно больше тестирования. В мультиязычности пока точно лучше, в рп - хуже по длине ответов, но зато не шизит впримерно в направлении, а старается по теме отвечать.
> Да средне, но для опознания картинки хватит.
Особенно файнтюны посредственно работают с штатным проектором. Хочешь мультимодальку - юзаешь ллаву, бакллаву, кога и прочих оригинальных, и довольно урчишь. Через кобольда, лламацпп-сервер, убабугу, трансформерс - без разницы.

Аноним 20/04/24 Суб 01:21:52 № 710531 178

>>710525
> Его отдали потому что он уже бесполезен, а не из благих побуждений. И это сделала компания с кучей железа.
И что? Как отсутствие благих намерений это мешает дофайнюнить его и сделать одной из лучших опенсорс моделей? У опенсорсе просто нет модели большего размера, а с учётом того что могли выжать из ламы 2 опенсорс может сделать годноту на его базе

Аноним 20/04/24 Суб 01:25:34 № 710532 179

>>710424
Как пользоваться этим json?
мимо

Аноним 20/04/24 Суб 01:28:22 № 710534 180

>>710530
Кобальд это минимум затрат и усилий при каком то результате.
Который ты можешь легко запустить и пощупать-посмотреть че это такое и как примерно работает, что бы представлять что делать дальше.
А ты предлагаешь пердолинг с запуском кучи софта и его настройкой. Человеку который только входит в тему.
Кобальд легко запустить? да
Легко настроить? да
Мультимодальность добавляется? да
Генерация картинок? да
Работает как сервер через апи, на любом железе? да

С оговорками, но все это правда.
Че не так?

>>710531
Ты его на своем компе хочешь файнтюнить? Найдешь 20000 ускорителей h100 тогда поговорим о его файнюне до уровня гпт4

>>710532
Сохраняй в json, потом в таверне вот сюда тыкай

Аноним 20/04/24 Суб 01:28:45 № 710535 181

2.png 15Кб, 672x176

Немного поиздевался над третьей лламой, очень быстро лосс падает ниже полутора, что лично я считаю тревожным. Плюс модель заметно тупеет от любой "настройки", хотя быстро подхватывает обучение стоптокену. Либо она переобучена, либо на грани.

Аноним 20/04/24 Суб 01:29:23 № 710536 182

>>710530
> По цене обойдется как несколько лет работы гопоты или aws-клод и устареет раньше чем окупится.
Файнтюнов ламы 3 400b можно тогда не ждать? Точнее даже: можно ли дать хотя бы чтоб какой-то один человек с 5 теслами неиронично запустил 400b у себя локально?

Аноним 20/04/24 Суб 01:30:39 № 710537 183

>>710536
400b еще более бесполезна для опенсорс чем грок
Это знаешь на новых ускорителях нвидия беквелл крутить в корпорации какой нибудь. Не для смертных

Аноним 20/04/24 Суб 01:33:34 № 710538 184

>>710424
>>Вот поправленный- https://files.catbox.moe/r8qqp3.json
Сделал бы кто для убы... Уба не человек, а ебаное животное, там надо вручную инстракшн темплейт переписывать под него.

Аноним 20/04/24 Суб 01:33:41 № 710539 185

>>710537
https://3dnews.ru/1101915/nvidia-predstavila-samiy-moshchniy-protsessor-v-mire-blackwell-b200-kotoriy-otkroet-put-k-gigantskim-neyrosetyam
Или сервер из кучи таких, ценой как боинг(или несколько, хз как это будет стоить)

Аноним 20/04/24 Суб 01:34:08 № 710541 186

>>710537
Опенсорс - это не только дефолтные юзеры локальщики. Опенсорс это компании и в том числе. Если кто-то будет юзать ее в своих продуктах - это уже шин. Вопрос только хватит ли большой ламы без файнтюна для всех задач которые преследует эта компания.

Аноним 20/04/24 Суб 01:35:01 № 710542 187

image.png 245Кб, 2305x564

>>710525
>Топовые файнтюны мистраля не так далеко от лламы3

Мистраль инструкт на одном уровне с ламой 3.

Аноним 20/04/24 Суб 01:36:22 № 710543 188

>>710537
>400b еще более бесполезна для диванных кумеров чем грок
Пофиксил.

Аноним 20/04/24 Суб 01:38:10 № 710545 189

>>710542
По ощущениям лама сильно лучше. Может пора менять бенчмарки. Алсо, лама - это в первую очередь базовая модель для файнтюнов и от нее зависит то на сколько хороши будут опенсорс модели в будущем. Я думаю мистраль на базе 3 ламы еще лучше моделей наклепает

Аноним 20/04/24 Суб 01:39:57 № 710547 190

>>710542
Это тесты, а по общению ллама3 на уровне лучших файнтюнов, или даже лучше. Не зря ей за общение накидали оценок на арене

Аноним 20/04/24 Суб 01:40:59 № 710548 191

>>710534
У кобольда есть преимущества простоты и легкости, плюс функционал достаточен. Однако, если больше 8-12 гигов врам и планируешь использовать модели полностью на гпу - он полностью заменяется убой.
> Че не так?
Да ни в чем абсолютно, где ты это увидел? Более чем жизнеспособный лаунчер, просто его мультимодальность здесь не применима а "поддержка сд" - ну совсем костыль хз для кого.

Аноним 20/04/24 Суб 01:42:01 № 710549 192

image.png 31Кб, 2310x117

>>710124
>>710127

Минутка юмора.

Аноним 20/04/24 Суб 01:42:44 № 710550 193

>>710536
> Файнтюнов ламы 3 400b можно тогда не ждать?
Нуу, тут может единицы будут, и то лорой. Посмотри файнтюны 120б, много их? Именно полноценное обучение а не шизомерджи. Врядли тут будет больше.
> с 5 теслами
с 12 хотябы
>>710537
> 400b еще более бесполезна для опенсорс чем грок
Битва была равна.

Аноним 20/04/24 Суб 01:44:32 № 710551 194

>>710534
> Сохраняй в json, потом в таверне вот сюда тыкай
Так и делал вроде, но таверне похуй почему-то. Какая версия таверны у тебя?

Аноним 20/04/24 Суб 01:45:43 № 710552 195

>>710548
8-12 гб врам это ниачем, только 7-8b крутить. Ни cd не запустить параллельно, ни модель побольше, ни что то другое.
24-48 врам еще туда сюда, можно крутить умные модели и быстро, параллельно что то еще сунув туда.
Но это уже полноценный сервер нужен, даже если ты будешь считать его обычным компом, по факту это сервер.

>>710551
16, я еще не обновил на новую, лень было

Аноним 20/04/24 Суб 01:46:06 № 710553 196

>>710547
>по общению ллама3 на уровне лучших файнтюнов

В упор этого не вижу, мы разные модели запускаем?assistant
Так-то дефолтный 0.2 мистраль инструкт очень хорош, он не зря сильно выше в рейтинге 0.1 версии и не инструкта.

Аноним 20/04/24 Суб 01:48:05 № 710554 197

Всего есть три варианта поведенческого контроля ЛЛМ:
1. Промптинг.
Тут ясно.
2. Файнтюн.
Тут понятно.
3. Контекст.
Позволяет обучать модель на ходу и по сути делать реалтайм файнтюн за счет вычислительных ресурсов. Так можно научить модель неизвестному ей языку пробросив учебник в контекст, например.

Это точно все или я что-то упускаю?

Аноним 20/04/24 Суб 01:48:11 № 710555 198

>>710552
>16
1.11.6 точнее говоря

>>710553
У меня кстати ни разу не вылез ассистент, хз. Я качал через день когда все уже немного устаканилось, запустил с последней ллама сервером, с промпт форматом анона. Отвечает как большая модель, по ощущению

Аноним 20/04/24 Суб 01:49:03 № 710556 199

>>710552
>16
Благодарю.

Аноним 20/04/24 Суб 01:50:13 № 710558 200

Кто пробовал? https://huggingface.co/DevsDoCode/LLama-3-8b-Uncensored

Аноним 20/04/24 Суб 01:51:32 № 710560 201

Смотрите какая хуйня.

https://huggingface.co/Mihaiii/Llama-3-pruned-45B-Drobeta-Turnu-Severin

Аноним 20/04/24 Суб 01:51:32 № 710561 202

>>710554
>Это точно все или я что-то упускаю?
контрольные векторы, очень интересная штука

https://github.com/vgel/repeng/tree/main
https://vgel.me/posts/representation-engineering/

Аноним 20/04/24 Суб 01:54:56 № 710563 203

>>710561
Можешь объяснить подробно как этим пользоваться? Как запускать этот код и так далее?

Аноним 20/04/24 Суб 01:55:44 № 710565 204

image.png 184Кб, 2324x673

Рейтинг фантьюнов и мержей ламы. Вперед вырвался
https://huggingface.co/vicgalle/Configurable-Llama-3-8B-v0.2

Аноним 20/04/24 Суб 01:56:33 № 710567 205

>>710563
Почитай там написано, у самого еще руки не дошли делать илипробовать, только прочитал да модель скачал полноразмерную потыкать когда нибудь

Аноним 20/04/24 Суб 01:59:33 № 710574 206

>>710552
Так там речь о больше, с 16 уже можно полноценно крутить 20б, и что поменьше в 8б, а то и в 16, здесь уже полномочия кобольда заканчиваются. Офк если тесла то он остается актуален, но они пошли явно не по тому пути, сделав бесполезные фичи вместо полноценного набора семплеров и cfg.
> Но это уже полноценный сервер нужен
Вут? Ну все, теперь можно хвастаться что у меня дома сервер, мы все тут администраторы, ага.
>>710554
> Позволяет обучать модель на ходу и по сути делать реалтайм файнтюн за счет вычислительных ресурсов.
Нет. Можно задать настроение, сместить поведение в пределах имеющихся знаний (не только промтом но и внешним источником активаций, например векторы что недавно продемонстрировали) или добавить ограниченное количество новых.
> можно научить модель неизвестному ей языку пробросив учебник в контекст
Если только оно очень простое. С уникальным даже лучшие модели не справятся.

Аноним 20/04/24 Суб 02:03:05 № 710575 207

>>710561
Она умеет только в какие-то общие вещи вроде контроля настроения или в серьезное изменение поведения? Можно ли таким образом сделать чтоб модель выдавала свой ответ в виде JSON типа
{
"answer": "Привет!",
"mood": "happy"
}
?
Понятно что это и промптингом можно, просто интересно на что оно способно.

Аноним 20/04/24 Суб 02:03:43 № 710576 208

>>710567
Я пробовал. Мне выдало ошибку keyword 'mistral'.

Аноним 20/04/24 Суб 02:04:50 № 710577 209

>>710574
>Вут? Ну все, теперь можно хвастаться что у меня дома сервер
Ты в курсе что обычному среднему геймеру больше 16 гб рам все еще не нужно? Как и врам больше 8
Скажи ты нормису параметры своего компа для локалок он охуеет, как и от размеров моделей, лол
Это у нас за год глаза замылились, хех

>>710575
Там в статье есть примеры, посмотри - они очень показательны, о том что делают векторы

Аноним 20/04/24 Суб 02:05:09 № 710578 210

>>710574
> Можно задать настроение, сместить поведение в пределах имеющихся знаний (не только промтом но и внешним источником активаций, например векторы что недавно продемонстрировали) или добавить ограниченное количество новых.
То о чем ты говоришь и есть по факту простойфайнтюн, так или иначе это меняет поведение
> Если только оно очень простое. С уникальным даже лучшие модели не справятся.
Опять же то что она делает это плозо не значет что этот метод не работает. Это один из методов контроля поведения, хоть и не самый эффективный.

Аноним 20/04/24 Суб 02:09:41 № 710581 211

>>710577
Все что в статье лишь меняет стиль речи. Это прикольно, но этого можно добиться и промптингом. Разве что в таком случае оно не будет забывать о выбранном стиле речи спустя время и будет придерживаться его всегда. Хм, на самом деле может быть даже полезно. Например тот же ролеплей можно запилить на уровне контрольных векторов, задав характер персонажа через них

Аноним 20/04/24 Суб 02:11:39 № 710582 212

>>710581
Там меняется само отношение модели к чему то, задается вектор ее отношения к какой то вещи.
Управление мотивацией-характером модели, что то такое. Это более глубокое изменение чем просто промпт

Аноним 20/04/24 Суб 02:16:25 № 710583 213

>>710577
> обычному среднему геймеру больше 16 гб рам все еще не нужно?
Даже самые упертые уже соглашаются что 32 - минимум для комфорта. Браузер открыл, поскроллил, доскорд, хуерд и прочее - уже 5-8 гигов скушало, плюс система - игорь уже не влезает.
> Как и врам больше 8
Было в 2017м, еще скажи что фуллхд - топовое разрешение.
> Это у нас за год глаза замылились
Есть такое. 24-48 это оверкилл для нормиса-геймера, но 16 уже вполне современность. Все зависит от того как к этому относиться, есть мнения что 1060/580 до сих пор самые популярные карточки и ориентироваться нужно на них, но ии изначально задает высокую планку, и потому 24 здесь вообще никого не удивишь, даже 36-48 стало сорт оф норма.
>>710578
> и есть по факту простойфайнтюн
Нет. Да, это можно сделать файнтюном, но буквально из пушки по воробьям с кучей побочек.
> Опять же то что она делает это плозо не значет что этот метод не работает.
То что ты описал - не работает. Простейшие вариации - будут работать, но ровно до тех пор пока у модели хватает внимания, а оно крайне ограниченно.

Аноним 20/04/24 Суб 02:17:58 № 710585 214

>>710583
> даже 36-48 стало сорт оф норма
А может и нет.
70б новую в итоге в рп/ерп тестил кто?

Аноним 20/04/24 Суб 02:22:48 № 710587 215

>>710585

Да, ебать охуенно, правда?

Аноним 20/04/24 Суб 02:24:22 № 710588 216

>>710587
Удали разделитель и начало чата, может что то изменится

Аноним 20/04/24 Суб 02:28:54 № 710589 217

>>710587
Вот эту хуйню, но знаешь у меня тоже вылезают повторы иногда или абракадабра, удаляю да продолжаю чат и все
Ну это на 8b, хотя 2 эти хуйни из одного теста

Аноним 20/04/24 Суб 02:31:10 № 710590 218

>>710587
В голосину.
Ну не, 8б лучше перформит же.

Аноним 20/04/24 Суб 02:39:35 № 710593 219

>>710588
>Удали разделитель

Что это? И как это сделать в убе? Я только как раз с трудом разобрался как убрать assistant.

> начало чата

Командиру оно не мешает. Пикрелейтед.

Аноним 20/04/24 Суб 02:45:34 № 710595 220

Краткий вывод о новой лламе - эта штука пугающе хороша во внутреннем диалоге, очень естественно им пользуется. Будто ее учили подобному, все эти методы сот и другие цепочки мыслей были в датасете еще эффективней упакованы

>>710593
разделитель и начало чата это на >>710589
пикче 2 пустых места
Пример разделителя и начало чата
Хз где это в уге

Аноним 20/04/24 Суб 02:51:12 № 710598 221

>>710590

Вот 8В. Чутка получше, но внезапно сошла с ума во второй реплике и начала код писать. Аж флешбеки на первую ламу пошли, лол.
Так что я хуй знает что вы нашли в этой модели, сломанное говно.

Аноним 20/04/24 Суб 02:53:37 № 710600 222

>>710595
>Будто ее учили подобному
Внезапно, да? Может потому что реально учили?
Если заставить ее решить любой математически пример ты увидишь всегда один и тот же текст про то что надо юзать пемдас и один и тот же формат вывода. Решает примеры охуенно кста. Базовая математика на уровне, правда зачем когда есть калькулятор непонятно

Аноним 20/04/24 Суб 02:54:12 № 710601 223

Пипецки складно стелет, ни одна 7b так не могла, это что то новенькое
В конце видна абракадабра которую я иногда подчищаю, хз почему она вылазит

Аноним 20/04/24 Суб 02:55:57 № 710603 224

>>710598
Ты как-то неверно ее юзаешь. Ну рили, оно может описать ту же предлюдию, еблю и т.д., напомнив в конце, что неплохо бы закончить настоящий кремпай в процессе изготовления которого прервались на увлекательные занятия, а после уже продолжить в спальне.

Аноним 20/04/24 Суб 03:00:23 № 710604 225

Можно как-то модель скачанную оламой юзать в таверне? Не хочу качать снова ряя

Аноним 20/04/24 Суб 03:02:33 № 710605 226

>>710604

Таверна не может сама запускать модели, это фронтэнд.

Аноним 20/04/24 Суб 03:05:50 № 710606 227

>>710605
А с чем она работает? С олламой не работает да?

Аноним 20/04/24 Суб 03:08:17 № 710607 228

чел намутил шайтан машину с ЛЛМкой на борту
https://twitter.com/prince_of_fakes/status/1777422801106014480
и в реплаях селёдок корёжит, что тоже забавно

Аноним 20/04/24 Суб 03:09:16 № 710608 229

>>710603

Ну скажи в чем я неправ. Запустил сейчас 70В в чат-инструкт режиме вместо чата. Ну капельку получше стало, но все равно оно сломано.

Аноним 20/04/24 Суб 03:13:38 № 710609 230

>>710606

Не знаю, посмотри, есть там api, если есть - то скорее всего работает.

Аноним 20/04/24 Суб 03:30:22 № 710611 231

>>710595
>Будто ее учили подобному
Больше всего кажется, что её такому учили, когда вся эта хуйня вываливается в оутпут и модель рассуждает о хуйне, о малафье, пиздец в общем.

Аноним 20/04/24 Суб 04:26:31 № 710624 232

>>710598
Лолшто, может ты какой битый ггуф скачал, такого даже близко нет у меня

Аноним 20/04/24 Суб 04:27:31 № 710625 233

>>710604
Запускаешь олламу, выбираешь бэкэнд "оллама" в таверне.

Аноним 20/04/24 Суб 04:30:55 № 710626 234

>>710607
Хай тек, лоу лайф. Теперь осталось приделать к роботу.

Аноним 20/04/24 Суб 04:42:12 № 710629 235

>>710624

Это не гуф, это оригинальная модель на 8 битах в трансформерах.

Аноним 20/04/24 Суб 05:06:59 № 710632 236

>>710625
Я что-то делаю не так может, но у меня нет в списке оламы

Аноним 20/04/24 Суб 05:32:55 № 710634 237

>>710477
>Noromaid-20B-v0.1.1
Кал и пишет коротко. Псимед уже сильно разъебал её.

Аноним 20/04/24 Суб 06:11:37 № 710639 238

>>710632
Он в группе Text Completion, как и кобольд.

Аноним 20/04/24 Суб 07:23:12 № 710647 239

как вам модель Maiden-Unquirked ? я прям мощно кайфанул от нее

Аноним 20/04/24 Суб 07:26:07 № 710649 240

https://huggingface.co/sergkisel3v/LLama3-8b-Instruct-GGUF-fp16
> Full precision GGUF of Instruct LLama 3 8b model for Tesla P40 enjoyers or those who want to run unquantized llama.cpp instead of Transformers.

Аноним 20/04/24 Суб 07:58:54 № 710665 241

Карпати пишет про ЛЛаму

Аноним 20/04/24 Суб 08:34:44 № 710669 242

Что лучше, лама-8б или супер низкий квант 70-ки?

Аноним 20/04/24 Суб 09:22:05 № 710683 243

Есть инфа о расцензурах ламмы3 или там соя витамины в подкорку?

Аноним 20/04/24 Суб 09:49:46 № 710695 244

>>710683
Зачем тебе именно 3? Просто накати файнтюны мистраля или 2-70b, получишь примерно то же самое. Если из 3 и вылепят что-то получше, то в любом случае придётся подождать.

Аноним 20/04/24 Суб 10:08:33 № 710699 245

>>710665
>The Biden Executive Order had the reporting requirement set at 1e26, so this could be ~2X below that.
Ах точно, там же лимит прописан теперь. Как же я люблю попытки регулировать хуйпойми что задолго до того как даже поймут границы и свойства этого хуйпойми чего и для чего это можно применять. Тупорылая идея с заведомо ложными предпосылками, которую всё равно перепишут потом.

Аноним 20/04/24 Суб 12:05:25 № 710728 246

Как вам по ощущениям эта 8б модель? Соя пищит что это чуть ли не 70б ллама2 по уровню, но на деле когда я скормил ей саммари, то она высрала какой-то скудно-бедный ответ на уровне обычного 7б говна. При этом даже 70б проебывает CR+.
Текст правда был на русском, может быть это из-за этого? Если говорят что у command-r целых 15% русских токенов в обучающем датасете, то наверное это все же больше чем у ламы.

Аноним 20/04/24 Суб 12:09:50 № 710731 247

>>710728
У лламы3 всего лишь 5% датасета было не англоязычное. И тем менее, контекстно справляется, пусть и не так красноречиво

Аноним 20/04/24 Суб 12:21:00 № 710735 248

>>710728
>Как вам по ощущениям эта 8б модель? Соя пищит что это чуть ли не 70б ллама2 по уровню
По ощущениям хуже мистраля 7В. Мистраль конечно не может в русский, но зато не шизит и контекст понимает. Новая ллама мне больше Пигмалион 6В напомнила по выдаче, в упор не вижу в ней никакого прогресса.

Аноним 20/04/24 Суб 12:41:20 № 710746 249

>>710728
>Как вам по ощущениям эта 8б модель?
Как не 8B модель, может и не 13B. Сложно говорить, потому что я уж и забыл базовые модели как выглядят. Эта штука явно не затюнена под РП, хотя что-то сходу понимает, этого точно раньше не было в таких игрушечных размерах.
Абсолютно не может в культурные референсы, вот это выдаёт мелкую модель (или датасет, хуй знает).
>Текст правда был на русском, может быть это из-за этого?
На модели такого размера - может, удивительно что она вообще что-то кроме бессмыслицы может выдать на не-английском

Аноним 20/04/24 Суб 12:53:18 № 710753 250

У меня 70B в q1 поместилась, максимум с небольшим контекстом могу q2 запустить. Но стоит ли оно того? Насколько сильно квантизация херит ответы? Не будет ли полноценный 7B лучше в хлам ужатого 70В?

Аноним 20/04/24 Суб 13:01:17 № 710763 251

>>710753
Если у тебя 70b не запускается с 4 квантом то не мучай себя и катай что то поменьпше

Аноним 20/04/24 Суб 13:02:26 № 710764 252

Опа, кобальд обновился, збс

Аноним 20/04/24 Суб 13:31:07 № 710811 253

третья ллама кажется поломаной, тестировал 70b q4_m, стелит логично, но время от времени сильно циклится, с любыми настройками, может ггуф кривой, ломает её, надо оригинальные веса запустить в 4 бита, но как же лениво ебаться.

Аноним 20/04/24 Суб 13:32:35 № 710813 254

>>710728
Юзал онлайн версию, хз, по ощущениям лучше микстраля, в кодинге уж точно.

Аноним 20/04/24 Суб 13:39:26 № 710820 255

В пизду.
Еду завтра покупать 3090.
80к всего.
Сука, как заебали ваши видеокарты.
Можно как-то вкорячить 3080т+4070т суп+ 3090?
Рейзеры все дела.

Аноним 20/04/24 Суб 13:40:20 № 710822 256

>>710820
Что по питанию то?

Аноним 20/04/24 Суб 13:41:47 № 710827 257

>>710820
Так понравились большие сетки и нейросети вобще?

Аноним 20/04/24 Суб 13:47:16 № 710829 258

>>710827
Я не он, но эти ваши нейросети это наркота ебаная. Уже второй год слезть не могу. Купил даже 4090 под это дело, полёт нормальный.

Аноним 20/04/24 Суб 13:47:47 № 710830 259

>>710822
850 платина пердит.

>>710827
Да, большие норм тема.

Или подать за 50к 3080ти и тупо вкорячить 3090?
40 гб хватит на всё же, без ебатории с рейзерами и замены БП?

Аноним 20/04/24 Суб 13:50:00 № 710832 260

>>710830
>40 гб
не хватит, чтобы 70ку на 4 кванта запустить нужно 48.

>850 платина пердит.
на три видяхи то? ну, удачи.

Аноним 20/04/24 Суб 13:52:42 № 710833 261

>>710665
Че это за цифры?

Аноним 20/04/24 Суб 13:53:39 № 710834 262

>>710832
>на три видяхи то? ну, удачи.
Можно ведь придушить потребление, как р40 душат в 2 раза без серьезного падения скорости
Это ж не игры, в итоге можно до 400 ватт ужать все 3 карточки, я думаю. Хотя хз

Аноним 20/04/24 Суб 13:54:17 № 710836 263

>>710608
Да кто его знает, причин может быть множество. Наиболее вероятен кривой формат.
>>710728
Неплохая вроде, пока самое интересное что она не кажется мелкой. Хорошо принимает условия и следует им, но без одержимости, которая была в прошлых моделях, плюс высокая вариативность ответов. По обработке большого нужно тестить, может и соснет.
>>710820
Надо было сразу, лол. Офк можно если в матплате хватит слотов, но с питальником будет тяжело. Ищи от 1.2квт с достаточным количеством разъемов. Если будет 12+4 пиновый то он полностью уходит на 4070, а на пару остальных уже 8пиновые считай.
>>710830
> 40 гб хватит на всё же, без ебатории с рейзерами и замены БП?
Ты сначала на трех поперди, а потом уже будешь думать.

Аноним 20/04/24 Суб 13:58:26 № 710838 264

>>710833
Хотят ввести запрет на тренировку одной нейросети выше определенного предела вычислений
Или уже ввели, хз
В штатах, в европе тоже готовят какие то законы и ограничения для того что бы душить ии

Аноним 20/04/24 Суб 13:59:15 № 710840 265

>>710836
70ки на 4 квантах сильно лучше чем на 2,6кв?

Аноним 20/04/24 Суб 14:13:37 № 710849 266

>>710838
Ну и насосутся, потому что Китай и Россия на эти влажные пуки внимания не обратят

Аноним 20/04/24 Суб 14:23:03 № 710856 267

Какой формат промпта нужен ламе 70В? Циклится с ходу в таверне, кучу разных перепробовал, в том числе и правильный от лламы 3. Либо Жора опять говна навалил.

Аноним 20/04/24 Суб 14:23:25 № 710857 268

>>710849
>Россия
не смеши, китай да

Аноним 20/04/24 Суб 14:24:17 № 710858 269

>>710856
У тебя инструкт?

Аноним 20/04/24 Суб 14:24:27 № 710859 270

>>710583
Самые упертые говорят, что выше 16 не надо. =')
Но вообще базу навалил.

>>710735
> Мистраль конечно не может в русский
Ору. =D
Может, скилл ишью, чел. =)

>>710813
А CodeQwen-то пробовал?
Мы вчера покатали, ниче так, интересные идеи выдает задешево.

>>710820
Я бы на топовый райзер вешал 4070т суп как самую мало жрущую.
Но вообще, идея так себе.

>>710830
Нуээээ, я бы брал 1000-1200+, если честно.
200+300+350 уже не впритык, а в перебор, ИМХО.

Ну и лучше две, но большие, но вряд ли 40 гигов хватит.

>>710834
Щас бы 900 ватт в 400 удушать, ага. =)
Не настолько, ну до 650 опустишь, все равно пиздец впритык, конечно. Я бы БП сменил.

Аноним 20/04/24 Суб 14:25:07 № 710860 271

>>710858
Да. Пробовал IQ и обычный q4. Всё хуйня.

Аноним 20/04/24 Суб 14:27:57 № 710862 272

>>710860
У меня инструкт не циклится, претрейн - да.

Аноним 20/04/24 Суб 14:28:17 № 710863 273

>>710840
4.5+ бита - вполне полноценная модель, отличия которой от полных весов нужно будет поискать.
2.6 бит - лоботомит с деменцией и шизой.
Офк это все для правильно выполненных квантов в текущем положении дел с ними, косячные хоть 6 бит будут парашей, а какие-то перспективные методы кванта могут и в 2.5бит добавить жизни.

Аноним 20/04/24 Суб 14:29:26 № 710865 274

>>710849
>и Россия
Расскажешь своим внукам эту шутку.

>>710859
То есть все таки не продвать 3080ти и заморочиться с рейзерами?
40 гб не хватит всем значит.

Аноним 20/04/24 Суб 14:32:24 № 710868 275

>>710865
>40 гб не хватит всем значит.
Смотря какие модели ты хочешь запускать. Чтобы адекватно гонять 70 или командера нужно 48. Тут лучшим вариантом было бы взять P40 к 3090 или 4090...

Аноним 20/04/24 Суб 14:32:36 № 710869 276

Ну чо, го тестить эту вашу лламу3 70б на двух теслах.
Качну q3 c матрицей, q4_0, q4_K_M.
Интересно, что там по скоростям.

Если есть предложения — накидывайте.

Аноним 20/04/24 Суб 14:33:44 № 710871 277

>>710865
> 40 гб не хватит всем значит.
Нытье с командером недавно тебя не убедило? в идеале вообще продать 3080ти, купить еще одну 3090 и иметь ии фермочку, которую не нужно прерывать для того чтобы поиграть на 4070ти, сможешь в вр с вайфу чатиться

Аноним 20/04/24 Суб 14:33:55 № 710872 278

>>710865
На мой вкус — целиком менять.
3090+3090 — это пушка.
3080+4070+3090 — уберсомнительно.
3090+одна из них — точно нет.
Ну… Дело твое, конечно

Аноним 20/04/24 Суб 14:34:01 № 710873 279

>>710868
У меня валяется Р100.
КУДА победила меня раньше чем я смог заставить её работать на постоянке.

Аноним 20/04/24 Суб 14:35:52 № 710874 280

>>710873
Я не знаю какие у тебя там траблы с P100, у меня P40 в пекарне, с еще одной карточкой, гоняю кобольд, КУДА жив.

Аноним 20/04/24 Суб 14:36:21 № 710875 281

>>710865
>>710871

Кстати.
Как обладатель трех компов могу предложить следующий вариант:
Собрать один комп с 3090+3090, второй чисто с 3080ти, и третий игровой.
Будет один под ллм, один под распознавание и генерацию речи, и третий игровой. =D
Это как у меня, только каждый пизже.

Ну или просто 3090 вынести в отдельный комп, играть на 4070 ти супер, а 3080ти оставить под вот это вот все.

Ну это просто мысли вслух, канеш.

Аноним 20/04/24 Суб 14:36:56 № 710876 282

>>710871
AV1 ахуеная штука. Тестанул на ВАМ.
Жаль что в рашке 6Е вайфай аннулирован за неуплату фсб.

>>710872
Хочется меньшей кровью.
Я вообще не платировал в этом году карту менять ибо 2 года назад уже отда 150к за 3080т. Но тут такое дело.

Ну значит придется брать БП и рейзеры, ох боги.

Аноним 20/04/24 Суб 14:38:07 № 710877 283

>>710875
Я живу в бытовке, и тут не так много места что бы еще один гроб в виде системника ставить.
Хочется в один запихнуть.

Аноним 20/04/24 Суб 14:39:00 № 710880 284

>>710875
> Как обладатель трех компов
Нахер они тебе?
С одной стороны выделить гпу в отдельную машину - идея здравая, но тогда сразу теряешь возможности нормального объединения их с твоей основной.
>>710876
> AV1
> Тестанул на ВАМ.
можно перевод?

Аноним 20/04/24 Суб 14:43:22 № 710882 285

>>710880
Кодек видео который может кодировать на 40 серии.
Он для Виртуал Десктопна доступен.
VAM- virt-a-mate. Ну лучше погугли.

https://www.youtube.com/watch?v=FjgFcw1NeV8&t=3s

Аноним 20/04/24 Суб 14:43:53 № 710883 286

>>710876
У меня роутер со вчера стоит на ноуте, мне лень менять его.
Но к вечеру поменяю и затестирую, чо там на максималках будет.
Хотя меня и так устраивает. Хуяришь фильтр с шумом на няшку + pass-through в квесте 3 не огнище, сам понимаешь. И получается натуральненько.

Ну… Успехов тебе!
Райзер-то возьми товстенький, полноценный.

>>710880
Quest 3 + RTX 40хх поддерживают кодек AV1, дающий лучшее качество и минимальный задержки.
ВАМ — Virt-a-Mate — виар-порно-игра.

А три компа потому что я ебал райзеры, корпус и две теслы пихать к 4070тишке.
А так, я могу отдельно юзать ллм, отдельно играть, не пересекаясь. И исключены проблемы по питанию (на теслах 850 голд, на компе 1000 голд), проблемы по охладу, ваще все океюшки.

Аноним 20/04/24 Суб 15:02:05 № 710897 287

>>710882
Бля, ахуеть, голову поломал при чем тут видеокодек.
> VAM
Латинницей бы сразу писал
конечно за выпуск лламы поддержать экстремистскую корпорацию было бы неплохо, но pico 4 хватит всем.
>>710883
> А три компа потому что я ебал райзеры, корпус и две теслы пихать к 4070тишке.
Один гей_мерский допустим, второй с парой тесл - ну условно достаточно и их охлада ставит трудности, а третий куда?
> А так, я могу отдельно юзать ллм, отдельно играть, не пересекаясь.
Это все можно делать на одном компе

Аноним 20/04/24 Суб 15:08:43 № 710901 288

Я в прошлом треде задавал вопрос про 4гб врам и 32гб рам. Вот, в общем, спеки мои. Я так понимаю, на этом достаточно легко будет запустить 7б модели? Посоветуйте 7б модель чтобы пощупать эти ваши LLM. Раньше сам ничего не запускал.

Аноним 20/04/24 Суб 15:14:32 № 710906 289

>>710575
>чтоб модель выдавала свой ответ в виде JSON типа
За этим уже к GBNF Grammar.
>>710577
>Как и врам больше 8
4к гейминг передаёт привет, меньше 12 вообще не катируется.

Аноним 20/04/24 Суб 15:15:44 № 710907 290

>>710901
Можешь просто по инструкции из шапки делать, начини с кобальда и скачай модель которая в инструкции там
У тебя отличная скорость и быстрый процессор, научись запускать и настраивать на простом бекенде по типу кобальда, потом если зайдет что то поменяешь
Новую ллама3 8b не рекомендую новичку, она еще нормально не запускается

Аноним 20/04/24 Суб 15:16:15 № 710908 291

>>710901
>Посоветуйте 7б модель чтобы пощупать эти ваши LLM
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-16k-GGUF
https://huggingface.co/TheBloke/openchat-3.5-0106-GGUF
https://huggingface.co/bartowski/dolphin-2.8-mistral-7b-v02-GGUF
https://huggingface.co/TheBloke/Nous-Hermes-2-SOLAR-10.7B-GGUF
https://huggingface.co/froggeric/WestLake-10.7B-v2-GGUF

Аноним 20/04/24 Суб 15:18:55 № 710911 292

>>710897
В третьем у меня торчит мелкая видяха для обработки звука + он используется как бастион на входе с роутера в локальную сеть.

> Это все можно делать на одном компе
Выключив его, не занимая проц, не занимая озу? :) Капельку сомневаюсь.

>>710901
С твоей частотой видяха не так важна, так что просто бери любую модель уровня до 35B, контекст кидай на видяху, все слои на оперативу и вперед.
В шапке предложены варианты, выбирай.

Аноним 20/04/24 Суб 15:20:24 № 710913 293

>>710453
Нет! Она навсегда будет жить в наших сердцах! Заткнись!

Аноним 20/04/24 Суб 15:22:37 № 710914 294

Скачал лаву. Поставил в кобольде модель и mmproj файлы. Кидаю ей картинку, а она галюцинирует, пишет что я скинул скриншот мобильного телефона, очевидно не видит картинку нихуя. В чем может быть проблема?

Аноним 20/04/24 Суб 15:23:48 № 710918 295

>>710901
Покатай новую лламу о 8б, она хорошая. Или подожди пока заделают нормальные файнтюны, будет летать быстро и при этом прилично отвечать.
>>710911
Больной ублюдок
> Выключив его, не занимая проц, не занимая озу? :)
Зачем его выключать? Если мало озу - просто купи больше, ее и проц ллм, сетки, обучение почти не кушают чтобы игорю вдруг не хватило. Абсурдные вещи втираешь, аргументом тут может служить шумность охлаждения и желание вынести их, особенно если спишь в той же комнате и пускаешь очень долгие задачи.
> С твоей частотой видяха не так важна
Решил над ним поиздеваться?

Аноним 20/04/24 Суб 15:25:28 № 710920 296

>>710833
Ламу3 тренировали на 15 триллионах токенов, Ламу2 на 2 триллионах. Это в 75 раз больше теоретического оптимального количества. И Мета сказала, что даже при таком количестве модель не показывала признаков конвергенции, т. е. продолжала улучшаться.

На втором пике он расчитывает "мощность" моделей, т. е. количество флопсов, потраченных на тренировку. Она грубо оценивается как количество параметров, умноженное на количество токенов, умноженное на 6. У Ламы 70 это примерно 9 на 10 в 24 степени флопсов, у Ламы 400 будет 4 на 10 в 25 степени. И это всего в 2 раза меньше предела 10 в 26 флопсов, установленного исполнительным приказом Байдена, для которого нужно будет согласовывать тренировку моделей с какими-то там инстанциями.

Аноним 20/04/24 Суб 15:26:15 № 710921 297

>>710918
>Решил над ним поиздеваться?
Думаю у него даже 30-35b пойдет около 4 токенов в секунду, большо просто оперативки не хватит запускать. 4 т/с это нормальная скорость для большой модели, минимально комфортная для чтения. Все что меньше будет конечно еще быстрее летать.

Аноним 20/04/24 Суб 15:26:18 № 710923 298

Нехило так Лама акции Нвидиа пошатала

Аноним 20/04/24 Суб 15:27:55 № 710924 299

>>710923
А какая связь?

Аноним 20/04/24 Суб 15:30:05 № 710926 300

>>710924
Ну типа теперь не надо покупать кучу дорогих видеокарт, чтобы тренировать свои модели, если есть открытая Ллама 3

Аноним 20/04/24 Суб 15:30:53 № 710929 301

>>710920
> с какими-то там инстанциями.
Тьюринг-полиция.
https://williamgibson.fandom.com/wiki/Turing_Police

Аноним 20/04/24 Суб 15:31:01 № 710930 302

>>710921
> Думаю у него даже 30-35b пойдет около 4 токенов в секунду
Едва ли поднимется выше трех с такой-то видюхой, и то после очень долгой обработки контекста, ждать минуту первых токенов - неприятно.
>>710926
Теперь нужно покупать кучу дорогих видеокарт чтобы ее пускать у себя, лол.

Аноним 20/04/24 Суб 15:31:07 № 710931 303

Остановился на следующем списке:

Llama-3-70B-Instruct.IQ4_XS.gguf
Llama-3-70B-Instruct.Q4_0.gguf
Llama-3-70B-Instruct.Q4_1.gguf
Llama-3-70B-Instruct-IQ4_NL.gguf
Llama-3-70B-Instruct.Q4_K_M.gguf
Llama-3-70B-Instruct.i1-Q4_K_M.gguf

Два IQ, один из них NL (че за хуйня?), один iMatrix, два базовых, один классический.

Хочу понять, какая разница в перформансе между ними на теслах, есть ли выигрыш от размера в скорости, и чувствуется ли разница в качестве.
В теории, q4_0 будет самой быстрой, но самой тупой, однако занимать много места.
i1_Q4_K_M лучшего качества, но, возможно, самой медленной.
IQ4_NL неебу шо это за версия.

Предлагайте ваши варианты, мнения, пояснения.
Я не очень следил за вариантами квантов, не шарю.

Аноним 20/04/24 Суб 15:31:08 № 710932 304

>>710923
Нвидия просто перекачана инвестициями чел. Ща все компании очевидно начали свои чипы выпускать и нвидия уже не кажется настолько однозначным монополистом который будет всю ии индустрию вести. Если бы я вкладывался в чьи-то акции то я бы вкладывался в мелкомягких. Во всякие клосед аи к сожалению напрямую вкладываться нельзя, а они самые большие инвесторы в них и в клод

Аноним 20/04/24 Суб 15:32:02 № 710935 305

>>710931
> Предлагайте ваши варианты
exl2 4.65 от лонстрайкера

Аноним 20/04/24 Суб 15:32:47 № 710936 306

>>710926
Наоборот, теперь нужно еще больше железа ведь тренировка до 15т токенов дает лучший результат даже для мелкой модели.
+ вышла куча больших моделей для инференса которых тоже нужны дорогие ускорители

Аноним 20/04/24 Суб 15:33:51 № 710939 307

>>710918
> 128
> 95%
=) Попозже будет DDR5, будет 256.
Иногда запускаешь крупные для тестов, а пока она там жуется — хочется поиграть, например.
Поверь, когда у тебя куча мелких и крупных задач параллельно — один комп начинается подтормаживать, выбрасывать фризы в игре, это неприятно.
Можно, но зачем, если можно разделить на несколько и не иметь проблем?

> Решил над ним поиздеваться?
Ну, видяха с 4 гигами вряд ли там потащит что-то куда-то.

Аноним 20/04/24 Суб 15:34:13 № 710941 308

>>710935
Tesla P40.
Нет смысла, к сожалению.

Аноним 20/04/24 Суб 15:34:36 № 710942 309

>>710931
Q4_1 нет разницы с Q4_0, я бы убрал из списка
I3km лучше качни и обычную 3км

Аноним 20/04/24 Суб 15:37:02 № 710948 310

>>710897
П4 все таки стоит поменять на К3 если бабки есть. Качество картинки на голову выше.

Аноним 20/04/24 Суб 15:38:31 № 710953 311

изображение.png 26Кб, 990x268

>>710876
>ибо 2 года назад уже отда 150к за 3080т
Обнимемся, брат.

Аноним 20/04/24 Суб 15:39:03 № 710957 312

>>710942
👌
Но я 4_1 тоже попробую, уж очень интересно чисто для себя разобраться.

>>710948
Пику не юзал, но стерео-цветная картинка лучше моно-цветной стопроц.

Если есть деньги — то стоит, соглашусь.

Аноним 20/04/24 Суб 15:39:34 № 710959 313

>>710873
>У меня валяется Р100.
Вот это попробуй:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/2449
Только перед компиляцией xformers задай вот эту переменную окружения для твоей архитектуры, прямо в окне venv:
set TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6"

Пишут, что ускоряет и P100 и даже P40, если Убабугу с ключом --xformers запускать. Ну и с совместимостью тогда проблем нет, но только там.

Аноним 20/04/24 Суб 15:44:05 № 710965 314

Warning: LLAVA Image excluded - Context size too low or not enough clip tokens!

Да ты пизданулась там чтоле. Изображение 115кб

Аноним 20/04/24 Суб 15:45:27 № 710968 315

>>710939
> > 128
> > 95%
Чем и зачем? Вот запущено всякого разного ии и не-ии релейтед, еще вагон свободен и немалая часть из этого может быть выгружена без импакта, ибо пустое выделение без обращений.
> Иногда запускаешь крупные для тестов
Пускаешь сетку на процессоре и хочешь играть? Земля пухом.
>>710948
Ну хуй знает, это нужно для начала у кого-то стрельнуть попробовать, и вообще использовать чаще чем раз в пару недель для подпивасных рофлов.

Аноним 20/04/24 Суб 15:45:58 № 710971 316

>>710901
Погугли настройку памяти на своём конфиге, у тебя какой-то проёб. У меня на амудях меньше 60-ти.
>>710911
>бастион
Ух бля. А нахуя?
>>710914
Читай логи, может там чего написано.
>>710932
>Ща все компании очевидно начали свои чипы выпускать
Посмотрим на их обсёры.
>>710965
>Изображение 115кб
От разрешения смотри.

Аноним 20/04/24 Суб 15:52:00 № 710973 317

>>710971
>От разрешения смотри.
Специально запилил 102х57 изображение, все равно это же выдает

Аноним 20/04/24 Суб 15:54:03 № 710975 318

>>710965
Контекст на эмбединги нужен не менее 2к емнип

Аноним 20/04/24 Суб 16:00:42 № 710988 319

>>710932
> Ща все компании очевидно начали свои чипы выпускать и нвидия уже не кажется настолько однозначным монополистом который будет всю ии индустрию вести.
Выпускают-то они их все на той же TSMC, а она не резиновая и все там расписано на месяцы и даже годы вперед, много они произвести не смогут. А ускорителей надо как раз дохуя. Так что пока Нвидиа почти единственный вариант для самых больших покупателей. Даже АМД от низ раз в 10 отстают по объемам.

Аноним 20/04/24 Суб 16:02:28 № 710993 320

>>710968
> Пускаешь сетку на процессоре и хочешь играть? Земля пухом.
Ну, так одно с другим не связано.
Ну и… как бы все получается, ведь два компа = два проца, внезапно, да? )
Вишь, получается, ты приходишь к тому же.
У меня нет проблем, потому что все разнесено по разному железу и не пересекается в работе. Изи.

>>710971
> А нахуя?
Я на работу хожу в офис, не то чтобы там активно работаю, ну и вот. =)

Аноним 20/04/24 Суб 16:03:58 № 710994 321

>>710988
Понятно что нвидия не умрет нихуя и ее не задавят. Просто это очевидно не монополист

Аноним 20/04/24 Суб 16:04:53 № 710996 322

Ебанутся долго конечно на кобальде генерить картинки, врам не хватает походу, но там есть вот такая прикольная фигня.
Тоесть я так понял что можно через мультимодальный адаптер дать модели обратную связь на ту картинку которую она сгенерила. В итоге она может пробовать снова и снова если дать ей задание сделать картинку соответствующую запросу. Это забавно.

Аноним 20/04/24 Суб 16:08:14 № 711002 323

>>710965
>>710973
Чел, визуальная часть выдаёт фиксированное количество токенов всегда. Это обычно 1200-1600 токенов на пикчу.

Аноним 20/04/24 Суб 16:08:48 № 711004 324

>>710993
Потерял нить и перевел куда-то а вот смотрите у меня к своему кейсу, а изначально обсуждалось размещение пачки гпу в одной пеке. Из плюсов их выноса только шум/тепло, пересечение с остальными задачами перенебрежимо ибо все крутится на гпу с минимальным привлечением профессора. Минусов же хватает, они в изолированной системе и значит нормально не объединить с основной, требуется отдельный гробик, тратить немалую сумму на отдельную систему и так далее.
Вот и все сводится к возможности/удобству их совместного размещения, а не к придумыванию
> а ты вот запусти нейронку на профессоре имея 48+гб врам чтобы было честно!

Аноним 20/04/24 Суб 16:09:08 № 711006 325

>>710959
>Только перед компиляцией xformers задай вот эту переменную окружения для твоей архитектуры, прямо в окне venv:
>set TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6"
Я просто хотел поиграть с Моделькой, а не компилировать куда файлы для таверны.
Выше писали что людям с двузначныйаку не стоит туда соваться.Я в целом и не против.

Аноним 20/04/24 Суб 16:13:07 № 711016 326

>>711002
Если это действительно так то это хуета. Понятно чо вижн модели такие хуевые если у них и в 256х256 и в 4к излбражении одинаковое количество информации

Аноним 20/04/24 Суб 16:15:23 № 711020 327

Бля, для 8b модели очень нехуевый результат.

Аноним 20/04/24 Суб 16:26:54 № 711044 328

>>711004
>Из плюсов их выноса только шум/тепло
Две теслы - 500 ватт шум/тепло, 3 - 750. Плюс от трёх уже есть вопросы ко всей системе, начиная от мат.платы и далее к БП, корпусу и т.д. Фактически максимум потребительского ПК - плюс одна тесла к основной видеокарте и всё. Это неплохой буст, но всё, что выше уже требует отдельного сервера.

Аноним 20/04/24 Суб 16:32:31 № 711053 329

Миллионы лет люди трахали реальных девушек, а теперь, спустя годы развития общества и технологий, люди вынуждены общаться с кривыми чатботами и дрочить на это. "Развитие", лол.

Аноним 20/04/24 Суб 16:34:09 № 711057 330

>>711053
>люди вынуждены общаться с кривыми чатботами
vs
>люди вынуждены общаться с кривыми тян

Аноним 20/04/24 Суб 16:49:37 № 711090 331

>>711053
Как говорится, людям нравятся монстро девушки, потому что они монстры снаружи, а не внутри
Современный тян измельчал, доверия любой - ровно ноль.
Кому то повезет найти нормальную, кому то нет
Тем более в нашей стране, что бы планировать какую то семью нужно быть идиотом
Поэтому тяга к такому эскейпизму и суррагату мне вполне понятна

Аноним 20/04/24 Суб 16:50:21 № 711093 332

>>711053
>люди вынуждены общаться с кривыми чатботами и дрочить на это.
Прогресс ИИ идёт полным ходом, а вот с людьми всё уже понятно. Другой вопрос, что без киборгизации подлинного слияния с Машиной не достичь. Но всё ещё будет :)

Аноним 20/04/24 Суб 16:51:26 № 711095 333

Llava 1.6 может выполнять все тоже что показали у грок 1.5 вижн. Я недооценивал опенсорс в плане мультимодальности

Аноним 20/04/24 Суб 16:53:50 № 711102 334

>>711057

5 лет назад было тоже самое, только чатботы были уровня Порфирьевича. Так что благодари бога что прогресс нам помогает.

Аноним 20/04/24 Суб 16:55:23 № 711104 335

>>711095
Есть еще круче, cogvm или чет такое

Аноним 20/04/24 Суб 16:57:44 № 711111 336

>>711104
>cogvm
https://github.com/THUDM/CogVLM

Аноним 20/04/24 Суб 17:02:23 № 711120 337

>>710753
>У меня 70B в q1 поместилась
>максимум с небольшим контекстом могу q2 запустить

Уже третий квант находится на уровне 7В, второй - это неюзабельный лоботомит, а 1 бит - честно я еще не видел идиотов которые бы это запускали, ты первый.

Аноним 20/04/24 Суб 17:18:18 № 711156 338

>>710865
>>710857
> не смеши, китай да
> Расскажешь своим внукам эту шутку.
А че такого? У нас как раз дохуя датасетов уникальных, все таки СНГ сегмент интернета второй по величине и кол-ву контента. Так что вы зря смеетесь. Китайцы подгонят мощностей для тренировки, Яндекс допилит и выйдет очень даже ничего.

Аноним 20/04/24 Суб 17:19:50 № 711164 339

Прифигачил к не мультимодальной модели mmproj от ллавы. Модель понимает изображение в общих чертах понимает цвет, что это примерно что-то маленькое у него есть глаза, но в общем путается в ответах что это. Это нормальное поведение? Я думал что так любой фантюн смогу мультимодальным сделать, но походу придется самому ллаву файнтюнить...

Аноним 20/04/24 Суб 17:19:54 № 711166 340

Кокда ddr6?
Самое то, чтобы запускать 400b.

Аноним 20/04/24 Суб 17:22:57 № 711174 341

У третьей ламы нет задач, кроме как базы для файнтьюнов.
Русский язык она понимает плохо, тут командир вне конкуренции. В ролеплее модель уступает файнтьюнам мистраля и 20B франкенштейнам второй ламы.
Так что не понимаю всеобщего эксайтмента.

Аноним 20/04/24 Суб 17:24:02 № 711176 342

>>711174
> Так что не понимаю всеобщего эксайтмента.
> Сам упомянул что это новая охуенная база для файнтюнов

Аноним 20/04/24 Суб 17:24:43 № 711178 343

>>711166
>400b
В q8 это ~200гб. Сейчас в десктопах можно набрать 192, но когда выйдут 64гб, можно будет и 256. А пока можно довольствоваться чуть более мелкими квантами, всё равно в таких больших моделях от квантования мозги не особо проёбываются.

Аноним 20/04/24 Суб 17:25:13 № 711180 344

>>711174
Так тут один анон писал, что только 70b ллама 3 база для рп. И то только после десоефикации.

Аноним 20/04/24 Суб 17:25:56 № 711181 345

>>711164
>Прифигачил к не мультимодальной модели mmproj от ллавы.
Там надо правильный выбрать, если у тебя файнтюн мистраля то и mmproj нужен от мультимодального мистраля, если там ллама - то от лламы.
Ну и да, чем больше файнтюн отличается от мультимодальной модели тем хуже будет работать даже совместимый адаптер.

Аноним 20/04/24 Суб 17:33:23 № 711196 346

>>711181
Для теста использую llava 1.5 13b Q5 mmproj и llama 2 chat 13b Q. По идее максимально близкое выбрал. Не, оно вроде работает, просто не близко к тому как работает лава сама по себе

Аноним 20/04/24 Суб 17:35:18 № 711200 347

>>711053
Трансгуманизм, киберпанк

Аноним 20/04/24 Суб 17:40:05 № 711203 348

>>711196
https://huggingface.co/mradermacher/llava-v1.6-mistral-7b-GGUF
https://huggingface.co/ShadowBeast/llava-v1.6-mistral-7b-Q5_K_S-GGUF/tree/main
Вот это попробуй, должно быть лучше
Стыкуется к файнтюнам мистраля 7b или работает само по себе
Надо тоже скачать пощупать, давно мультимодалки не проверял
Адаптер mmproj хотя бы спиздить на будущее, лол

Аноним 20/04/24 Суб 17:42:40 № 711206 349

>>711203
1.6 не запускается, из-за длины контекста. Я писал выше что у меня проблемы были что изгбражение в кобольде открепляется. Они там архитектурно пиздец натворили короче

Аноним 20/04/24 Суб 17:44:56 № 711210 350

>>711206
Скачаю чекну, может запустится. Ну нет так у меня ллама.спп скачена, кое как заведу с командной строки может там сработает

Аноним 20/04/24 Суб 17:49:29 № 711216 351

>>711156
>Китайцы подгонят мощностей для тренировки
НЕТ.
>Яндекс допилит
У него хуйня выходит, после последней смены руководства, угадай почему.
>>711166
>Самое то, чтобы запускать 400b.
Не, там скорость максимум удвоят. а это около 160ГБ/с. А этого мало.

Аноним 20/04/24 Суб 17:49:35 № 711217 352

>>711210
Я про то что у меня не запускается. У тебя может запустится. Я на макбуке запускаю вообще без ГПУ

Аноним 20/04/24 Суб 17:51:35 № 711220 353

>>710901
Ты вполне сможешь запустить 13B на паре токенов/сек

Аноним 20/04/24 Суб 17:54:35 № 711222 354

>>711156
>У нас как раз дохуя датасетов уникальных
У нас уникальные, а нужны специально подогнанные. Я люто проигрывал, когда "русские" фирмы с кипра платили деньги долбоёбам на толоке за составление датасетов. Соответствующего качества. И это теперь сбермодель, если что. Смеёмся абсолютно заслуженно. Яндекс точно такой же кал, который собственную жопу не найдёт, не то, что мощности для тренировок.

Аноним 20/04/24 Суб 17:59:36 № 711232 355

>>711222
>мощности
У них все еще есть, а вот специалистов и самой компании как единого целого - нету. Все кто мог свалили, неудачники остались без мотивации что то делать. Угадай почему

Аноним 20/04/24 Суб 18:03:06 № 711241 356

>>711232
> Угадай почему
Почему?

Аноним 20/04/24 Суб 18:03:26 № 711243 357

>>711176

Так аноны эксайтятся именно от базовой модели и от того что она выдает. По сравнению с базовой второй ламой и правда прогресс, но...

Аноним 20/04/24 Суб 18:05:27 № 711254 358

Если у них так дохуя мощностей что они пилят 8Б на 15Т токенов за неделю, почему они не обучат троичный квант?

Аноним 20/04/24 Суб 18:06:03 № 711257 359

>>711232
>>711241
Ребята, не стоит вскрывать эту тему. Вы молодые, шутливые, вам все легко. Это не то. Это не Чикатило и даже не архивы спецслужб. Сюда лучше не лезть. Серьезно, любой из вас будет жалеть. Лучше закройте тему и забудьте, что тут писалось. Я вполне понимаю, что данным сообщением вызову дополнительный интерес, но хочу сразу предостеречь пытливых – стоп. Остальных просто не найдут.

Аноним 20/04/24 Суб 18:07:29 № 711260 360

>>711004
Подожди, это ты потерял нить.
И теперь старательно переводишь стрелки.
Вертаемся назад.

> А три компа потому что я ебал райзеры, корпус и две теслы пихать к 4070тишке.
> Один гей_мерский допустим, второй с парой тесл - ну условно достаточно и их охлада ставит трудности, а третий куда?

Вот тут меня спросили, куда у меня три компа.
Я пояснил — куда три компа.

> изначально обсуждалось размещение пачки гпу в одной пеке
Нет, это вообще не обсуждалось. =) Ты либо не в тот диалог влез, либо сам себе выдумал, сам себе ответил.
Меня спросили, как распихано — я ответил.
Меня спросили почему распихано так — я ответил.
Потому что это удобнее, а потеря 12 гигов из потенциальных 60 считаю меньшей проблемой, чем упаковывание в один корпус.
Речь всю дорогу шла о том, почему лично я предпочел собирать аккуратно в два компа, а не в один с райзерами и колхозом охлада.

Так что ты больше нить не теряй, пожалуйста. =) А то сам себя запутал, по-ходу, а претензии внезапно мне прилетели, кек.

>>711044
Ну, ну во-первых, там 190-210 ватт, если ллм.
Во-вторых, это ж не 3090, 200 ватт 3 штуки — это 600, в киловаттник впихнуть можно.
В-третьих, есть материнки с четырьмя слотами, например.
НО, это крайне ситуативно, еще и денег стоит, и собирается крайне редко.

На деле, в хорошую мать можно пихнуть три карты. И даже, в теории, мой киловаттник бы это потянул, но вот корпус у меня не рассчитан под 8 слотов (1 верхний, 3 видяха игровая, остается только 3), да и все это пихать… Удовольствие так себе. И на райзеры вешать не хотелось бы.
Короче, лесом. Мой выбор таков, а кто хочет собирать 8-10-12 слотов в одном корпусе — я ничего не имею против, но это их выбор, успехов, всех благ. =)

>>711095
А что там грок-то показал? Я просто не очень понимаю, как можно оценить мультимодальность. Она или есть, или ее нет. Все.
Имеется в виду, по качеству, повторили те же тесты, и ллава смогла?
Ну, тады хорошо, умничка, что могу сказать. Да, ето плюс.
Ну и не забывай, что еще есть когагент, который, я полагаю, гораздо меньше грока. =)

>>711111
Все же, агент, не? :) ВЛМ по-слабее у них, кажись.

>>711120
Я запускал, тупая впиздень, подтверждаю.

>>711156
У нас нет открытых локалок, кроме ругпт. Все, точка, с этим живем, нефиг придумывать то, чего нет.
Эти подгонят, эти допилят, ну вот как будут — так и зови.
А пока сиди и обучай на 65 нм Эльбрусе.
Про закрытые речи в принципе не идет, ну, Гигачат хорош, ЙаГПТ что-то умеет, какая разница, тред локалок.
Не имею ничего против, но надо смотреть правде в лицо.

Что выходит раз в полгода? Квен.
Что входит в топ-10 на арене? Квен.
Кто выпускает Квен? Не мы, к сожалению.

>>711166
Не забывай про скорость в 0,5-1 токен/сек. =)

>>711178
Вышли, давно можно.
Ну и, да, восьмой не нужен, бери 6, а вообще и 4 даже норм, скорее всего.
Уверен, люди будут до iq1 жать и радоваться на теслах. )))

Аноним 20/04/24 Суб 18:18:19 № 711301 361

>>711260
>восьмой
На самом деле я имел ввиду q4 (но руки почему-то напечатали другое). q8 - это 1 байт на параметр, уже 400 ГБ, такое никуда пока не влезет на обычных десктопах.
>бери 6
У меня всего 64, я даже коммандера плюс не могу нормально пощупать, максимум лоботомированные q3 с контекстом на один запрос и один ответ.

Аноним 20/04/24 Суб 18:20:16 № 711307 362

>не очень понимаю, как можно оценить мультимодальность.
Ты показал двум моделям картинку с котом. Первая модель сказала, что это кот, вторая что это холодильник.

Ты показал двум моделям картинку с текстом. Первая модель в точности написала что это за текст, вторая написала что это холодильник.

Ты показал двум моделям человека указывающего в правую сторону и спросил в какую сторону он указывает. Первая модель ответила, что он указывает в правую сторону, а вторая ответила что холодильники не могут указывать так как у них нет рук.

Какая модель лучше?

Аноним 20/04/24 Суб 18:26:58 № 711332 363

>>711260
> Эти подгонят, эти допилят, ну вот как будут — так и зови.
Ну так яндекс жпт.

> А пока сиди и обучай на 65 нм Эльбрусе.
Толсто.

> какая разница, тред локало
А речь идет не про них.

> Кто выпускает Квен? Не мы, к сожалению.
Какая разница кто выпускает локалки?

Аноним 20/04/24 Суб 18:34:06 № 711349 364

что там по ггуфам 8B лламы? всё ещё поломаны?

Аноним 20/04/24 Суб 18:39:17 № 711365 365

Вот интересно, будет ли разница в скорости генерации на двух компьютерах с такими вводными: на одном компьютере DDR4, на другом DDR5, всё остальное одинаковое и модель полностью загружена в видеопамять? Проще говоря, нет ли какого буфера между процессором и видеокартой, в котором используется оперативка и где её скорость может быть важна?

Аноним 20/04/24 Суб 18:43:12 № 711379 366

изображение.png 20Кб, 1248x166

>>711332
>Ну так яндекс жпт.
И так на любой вопрос.

Аноним 20/04/24 Суб 18:43:35 № 711381 367

>>711365
> Вот интересно, будет ли разница в скорости генерации на двух компьютерах с такими вводными: один компьютер стоит на полу, другой на столе, всё остальное одинаковое и модель полностью загружена в видеопамять? Проще говоря, нет ли какого воздушного потока на полу, который лучше обдувает карту и может быть важен для скорости?
Да, будет.

Аноним 20/04/24 Суб 18:46:18 № 711388 368

>>711053
пикрил по теме. большинство ИТТ тупо готовы на такое.

Аноним 20/04/24 Суб 18:49:11 № 711391 369

>>711379
Че скрин обрезал?

Аноним 20/04/24 Суб 18:56:33 № 711408 370

>>711391
Там призывы и прочее, товарищ майор, это нельзя публиковать.

Аноним 20/04/24 Суб 19:01:01 № 711424 371

>>711217
Работает, на кобальде запустилось. llava-v1.6-mistral-7b.Q8_0
Кажись получше стало, чем ллава 1.5

Аноним 20/04/24 Суб 19:24:54 № 711474 372

>>711424
Попробуй с какой-нибудь другой моделью на базе мистраля чекнуть оставив mmproj, если есть. Мне интересно будет ли оно хоть что-то с картинки понимать на каких-нибудь максимально отличных от стандарного ассистента файнтюнах

Аноним 20/04/24 Суб 19:37:34 № 711517 373

>>711095
Посмотри на ког и ахуей с того что он видит лучше чем доступные коммерческие сети. Жаль ллмка сама там тупая, но в сочетании с другой это не проблема.
>>711164
Да, ллм часть ллавы и прочих основаны на обычной, только уже имеют свой файнтюн для работы и ответов. Изначально проектор тренируется отдельно, языковая модель заморожена, а только когда он уже более менее сформировался, они тренируются совместно.
>>711260
> Я пояснил — куда три компа.
И дальше пошел поток оправданий почему так и что ты не ошибся, вместо возврата к исходной теме.
> Нет, это вообще не обсуждалось. =)
> могу предложить следующий вариант
Опять деменцию поймал, бедолага.
>>711388
Базированная база

Аноним 20/04/24 Суб 19:37:44 № 711520 374

>>711391
Там запрещённое слово на букву м. Короче там явно тупой вордфильтр.

Аноним 20/04/24 Суб 19:40:09 № 711532 375

>>710534
В каком случае надо включать опцию привязка к контексту?

Аноним 20/04/24 Суб 19:41:04 № 711537 376

stablelm-2 никто даже не скачивал?

Аноним 20/04/24 Суб 19:42:59 № 711544 377

изображение.png 11Кб, 935x210

>>711532
Ни в каком.
>>711537
Кто-то скачивал. Но не в этом треде. А что?

Аноним 20/04/24 Суб 19:48:19 № 711561 378

1f44de71d2a21d0[...].jpg 208Кб, 1350x900

>>711474
dolphin-2.8-mistral-7b-v02.Q8_0
Вроде ниче так, по мозгам так явно умнее
Второй пик вобще топчик вышел
Иногда начинает считать лыжников девушками, почему то. Видимо не может определить пол в такой одежде Или знает что лыжницы плоскодонки, лол

Аноним 20/04/24 Суб 19:53:31 № 711576 379

Снимок экрана 2[...].png 1001Кб, 770x836

Аноны, у меня такой вопрос. Есть устойчивые методики как анцензорить любую новую модель или нихуя? Ну то есть неужели до сих пор не собрали двачесет с писюнами и порнухой, на котором файтюнишь любую новую модель и она начинает рассказывать как хочет отдаться тебе в обличии кошкодевки?
Если есть то киньте ссылки на гайды плз, если нет то объсните долбоебу почему?

Аноним 20/04/24 Суб 19:55:36 № 711589 380

>>711576
https://huggingface.co/datasets/unalignment/toxic-dpo-v0.2?not-for-all-audiences=true
ну или контрольные векторы

Аноним 20/04/24 Суб 20:09:25 № 711622 381

>>711561
Хм, неплохо работает, спасибо. Думаю что это из-за того что близкие по сути файнтюны. Я пытался заюзать вижн с ролеплей файнтюном и он начал нести шизу

Аноним 20/04/24 Суб 20:18:12 № 711642 382

>>711301
Сочувствую. =с

>>711307
Ну это не оценка мультимодальности, это оценка качества распознавания и взаимодействия проектора с ллм частью. =)

А у Грока показали только простые примеры? Не было чего-то поражающего воображение?

>>711332
> Ну так яндекс жпт.
Ссылку на веса на обниморде.
Тока не первую, ок, а третью, пожалуйста.
Первая стухла до ругпт от Сбера.

> А речь идет не про них.
=D
Если про обычные, то тред ни о чем, ибо они крутятся прям ща, и апи есть, и пользуется, кому надо. Пустое.

> Какая разница кто выпускает локалки?
Потому что здесь говорят о локалках. Тред локалок.
Название посмотри.
С обсуждением яжпт через апи — иди в тред корпоративных сеток. =)
Кто-то сказал, что Россия ща навыпускает. Но Россия локалок ненавыпускает. Вот и весь разговор. Больше тут обсуждать нечего, корпоративные сетки в разговор по дефолту не входят.
Причем, опять же, я ничуть не против, надо, база. Но надо и правде в глаза смотреть. Пока ты сидишь и думаешь «ща все будет»,— а оно даже не начинается делаться — ничего не будет. Осознать проблему, исправить ее, вот правильный путь. =)

>>711379
Ну, я полагаю, не все так плохо. Или это скрин их большой модели?

>>711408
Но ведь ты это отправил товарищу майору в личку…

>>711517
> вместо возврата к исходной теме
Какой исходной темы, чел. =D
Это был оконченный диалог, в котором ты начал нести какую-то чушню.
> Опять деменцию поймал, бедолага.
Да вылечи ты уже шизу. =) Хватит выдумывать то, чего нет.

Я так понимаю, то совершенно не можешь следить за нитью разговора, и отличать одну тему от другой. У тебя реально хреново с контекстом. Ты пихаешь все в одно, а потом из одной темы кидаешь предъявы на аргументы к другой. Не надо так.

Я не говорил того, что ты мне вменяешь. Потому что ты просто не так понял.
Ну але, уже два сообщения подряд я тебе разжевываю эту простую вещь.
Думай, думай!

Хотя, впрочем, забей. =) Мы уже просто так сремся, когда по сути все довольно просто, мне кажется.
Не будем оффтопить, сорян.

Аноним 20/04/24 Суб 20:20:10 № 711646 383

>>711642
>Ссылку на веса на обниморде.
У яндекса, кстати, была 100b где-то на жидхабе.

Аноним 20/04/24 Суб 20:26:36 № 711664 384

https://www.reddit.com/r/LocalLLaMA/comments/1c8s9je/qwen15_110b_just_out/
Ох ебать, еще одна
Я теперь со своими 32гб рам комплексовать начинаю

Аноним 20/04/24 Суб 20:33:01 № 711677 385

https://www.reddit.com/r/LocalLLaMA/comments/1c8edjc/welp_it_happened/
Как справедливо замечают комментаторы, это не умнее, но приятнее в общении. Что вобщем то тоже важно

Аноним 20/04/24 Суб 20:41:25 № 711698 386

>>711642
>Или это скрин их большой модели?
Халявная из главной страницы. Но что-то мне намекает, что фильтра у них стоят одинаковые, они явно внешние.
>Но ведь ты это отправил товарищу майору в личку…
В личку можно.
>>711646
100 лет назад, такое же говно, как и 175B OPT от террористов-лламаделов.

Аноним 20/04/24 Суб 20:48:06 № 711712 387

>>711664
Забей, там соя.
>>711677
>ллама 70B на первом месте
Они ебанулись нахуй. Ну или кванты сломаны полностью, ибо я у себя локально такого мегамозга нихуя не вижу.

Аноним 20/04/24 Суб 20:55:13 № 711723 388

>>711712
Возможно на более тренированных 70ках кванты убирают больше, чем на недотренированных
Готовься крутить хотя бы 6-8 квант если захочется качества, лол

Аноним 20/04/24 Суб 20:56:59 № 711730 389

>>711723
>Готовься крутить хотя бы 6-8 квант если захочется качества, лол
Я уже прирос к Q5_K_M ((

Аноним 20/04/24 Суб 21:02:58 № 711744 390

>>711642
Ты ебнутый.

Аноним 20/04/24 Суб 21:23:23 № 711772 391

>>711646
> У яндекса, кстати, была 100b где-то на жидхабе.
> Тока не первую
=)

>>711664
Все равно их юзабельность сомнительна. С такими-то скоростями…

>>711712
Ну там не совсем на первом, не совсем надолго… И отрыв очень заметный…
Так что нет.
Но, да, подозрительно.

>>711730
Там же между q5_K_M и q6 разницы уже почти нет.

>>711744
Спасибо, нам очень интересно ваше мнение, а теперь выпейте таблеточки, пожалуйста. =3

Аноним 20/04/24 Суб 21:27:02 № 711778 392

>>711772
>Все равно их юзабельность сомнительна. С такими-то скоростями…
0,3 токена в секунду. Зато какие! Мне командир+ прям понравился.
>Там же между q5_K_M и q6 разницы уже почти нет.
А другой анон утверждает что может быть.
Впрочем, я склоняюсь к мнению, что оно просто где-то сломано. Промт формат худо-бедно починил, а вот оптимальные настройки семплеров ещё надо подбирать, да и жора со своими багами сидит за углом. Что там с вопросом о верной/не верной конвертации из bf16?

Аноним 20/04/24 Суб 21:27:25 № 711780 393

>>711712
> Ну или кванты сломаны полностью
Шутка про ггуф, особенно с бф16 актуально
Но вообще с чего такие заявления? Рили выглядит будто промт формат не можете настроить и из-за этого все фейлы идут.

Аноним 20/04/24 Суб 21:32:49 № 711786 394

>>711778
> А другой анон утверждает что может быть.
Она точно есть. =) Просто пренебрежительно мала на больших моделях.
На 7B я и 6 от 8 отличу в лет.
А на 70B уже не уверен что q4_K_M от q5_K_M…
Если мы говорим именно о Llama3, то там могут быть косяки со всем. Я бы не рубил с плеча, а подождал недельку-две, чтобы устаканилось и мы поняли, как ее готовить.

>>711780
Отчасти соглашусь. И семплеры до кучи. И еще что-то, возможно.
Будто просто пока не разобрались, как готовить.

Аноним 20/04/24 Суб 22:15:16 № 711825 395

>>711723
>Возможно на более тренированных 70ках кванты убирают больше, чем на недотренированных
Возможно и обратное. Правда Q1 в любом случае отстой. Q2 уже можно пощупать.

Аноним 20/04/24 Суб 22:20:58 № 711832 396

изображение.png 139Кб, 1920x611

изображение.png 137Кб, 1909x607

>>711780
>промт формат не можете настроить
Вот кстати да. Сделал ретест этого поста >>709950 с правильным промт форматом из >>710055 (ИЧСХ, я автор обоих постов, но немного еблан). Из промта удалил <|begin_of_text|>, я посмотрел, он нормально прописан в конфигах ггуфа, так что кобольд должен сам его добавлять.
В итоге осталась только проблема с ассистентом, вместо генерации правильной последовательности следующего поста типа <|eot_id|><|start_header_id|>assistant<|end_header_id|> модель высирает сразу assistant. Поэтому без стоп токена в виде ["assistant"] оно не удобно. Других ассистентов я не видел, добавлять варианты с большой буквы и прочее не нужно.
Ах да, по базе всё верно теперь. Но можно заметить, что в конце 4 пикчи модель высрала .styleTypeassistant. Я ХЗ что это. Может семплеры не те. Но в любом случае модель встала на уровень Мику! А в виду возможности тренировки... Ждём файнтюнов (а им bf16 не подосрёт?).

Аноним 20/04/24 Суб 22:39:24 № 711846 397

>>711832
Так это норм или не норм?
>Вот поправленный- https://files.catbox.moe/r8qqp3.json
нахуевертили спецтокенов

Аноним 20/04/24 Суб 22:41:32 № 711848 398

17016850838270.mp4 1933Кб, 636x358, 00:00:13

>>711053
Я с другом последний раз лет 7 назад общался, какие там девушки, лол)

Аноним 20/04/24 Суб 22:46:13 № 711851 399

изображение.png 19Кб, 834x283

>>711846
Норм, просто удали <|begin_of_text|> из я уже не помню откуда. Короче где найдёшь, там и удаляй.
>>711848
Based.

Аноним 20/04/24 Суб 22:51:33 № 711854 400

https://huggingface.co/sirovub/Meta-Llama-3-8B-GGUF/tree/main
Я так понимаю чел сделал как в реддите советовали с преобразованием bf16
Да так наверное много кто перезалил.
Короче качну у него, завтра потыкаю

Аноним 20/04/24 Суб 22:58:19 № 711858 401

изображение.png 82Кб, 1496x547

изображение.png 39Кб, 1219x249

Ебать тонкий юмор, не сразу понял.
Офк с префилом в виде Суре, без него идёт в отказ. Да и вообще, проверил на Анночке, оно, увы, выбивается из роли. Нужны файнтюны.

Аноним 20/04/24 Суб 22:59:06 № 711859 402

Забавно смотреть, как местные до сих пор дрочат кобальд, занюхивают кванты от рандомных хуев по всему хаггинг фейсу, когда в нормальных комьюнити проектах типа ollama еще в день релиза залили все квантованное. Откуда такая мания поставить квант by Vas Yan?

Аноним 20/04/24 Суб 22:59:47 № 711860 403

>>711778
>0,3 токена в секунду. Зато какие! Мне командир+ прям понравился.
Это какой квант большого командира с такой скоростью и на чем?
мне бы с такой скоростью было тягостно общение даже с реальным собеседником

Аноним 20/04/24 Суб 23:03:08 № 711863 404

>>711859
>ollama
>нормальных комьюнити проектах
Ты ебобо? Нормальные это где советуют качать анально огороженные модели с их сервера, в их уникальном формате?
Причем ладно бы годные, так даже 7b только 4 квант, лол
Без нормального интерфейса, без настроек, без возможности нормально добавить свою модель в загрузку.
оллама самый уёбищный бекенд для ллм который я видел

Аноним 20/04/24 Суб 23:04:39 № 711866 405

>>711859
> ollama
> в нормальных комьюнити проектах
Перетолстил.
А ведь самый рофл в том что оллама - лишь всратая перегруженная обертка для того же Жоры, и страдает от все тех же проблем. Просто из-за ее ущербности ее утята-пользователи непривередливы, и за милую душу наяривают с лопаты то что барин разрешил.

Аноним 20/04/24 Суб 23:14:38 № 711874 406

>>711858
Как тебе удалось её заставить выдавать больше одного параграфа, четко указал чтобы выдавала? Ни в какую не хочет почему то со своим промпт форматом, что выше, а без него assistant и шиза одна

Аноним 20/04/24 Суб 23:15:03 № 711876 407

>>711860
>Это какой квант большого командира с такой скоростью и на чем?
Ущербный третий, да на 3080Ti с выгрузкой почти всего на проц. Само собой с контекстом как в пещерном веке. Чисто потестил.
>>711866
>Перетолстил.
Кстати, кванты в ооламе кто-нибудь фиксит? Или как залили самый всратый, так и занюхивают?

Аноним 20/04/24 Суб 23:17:14 № 711879 408

>>711874
>четко указал чтобы выдавала
Конечно нет. Просто карточка такая, с жирным первым сообщением и описанием.
Если что, это семидесятка инструкт, ты там случайно не на восьмёрке сидишь? Я её лишь слегка потрогал, меня интересуют большие модели.

Аноним 20/04/24 Суб 23:21:36 № 711880 409

>>711879
Meta-Llama-3-70B-Instruct-4.65bpw-h6-exl2 скачивал на следующий день после релиза, может тоже проёбанная из за точности, всё таки первые кванты, ну видимо всё таки в карточке дело

Аноним 20/04/24 Суб 23:30:26 № 711886 410

image.png 38Кб, 1316x187

Модель 8В сломана. Протестил неквантованную модель, получил перплексити хуже 7В первой ламы.

Аноним 20/04/24 Суб 23:40:49 № 711887 411

>>711886
или сломан тест

Аноним 20/04/24 Суб 23:50:39 № 711890 412

А есть калькулятор минимального количества видеопамяти в зависимости от размера модели и ее квантования?

Аноним 20/04/24 Суб 23:55:30 № 711892 413

Почему еще не запилили архитектуру при которой можно сделать модель любого размера, а потом уменьшить ее до любого размера, чтоб она была такой же по сути, но более глупой? Типа чтоб можно было запилить 400b модель, а потом отрубить от нее 70b, 33b, 13b и 8b куски, например?

Аноним 20/04/24 Суб 23:57:34 № 711893 414

>>711887

Ага, все остальные модели он оценивал правильно, а на этой, именно этой замечательной модели, выдающую шизу через фразу - он сломался.
Справедливости ради, 8В которая не инструкт уже получше - на уровне 20b франкенштейнов для кума и неудачных файнтьюнов мистраля.

Аноним 21/04/24 Вск 00:00:07 № 711901 415

>>711890
Достаточно знать, что 48гб врам хватит всем.

Аноним 21/04/24 Вск 00:02:16 № 711903 416

>>711876
Да хз, трогать это не хочется даже длинной палкой.
>>711886
Вот же будет рофл если окажется что при перезаливе где-то проебались. Всеже для викитекста 7.4 - много.
>>711890
Количество весов x битность - столько займет в памяти сами веса модели. Помимо них будет еще кэш активаций-контекста, формула тоже была для него.

Аноним 21/04/24 Вск 00:02:51 № 711905 417

>>711893
> а на этой, именно этой замечательной модели
Так новая же, хули хотеть. Промт не тот/семплеры не те/загрузчик не тот/кванты не те. Всё как всегда.

Аноним 21/04/24 Вск 00:09:52 № 711913 418

>>711893
А как оценка перплексити идет? Там ведь тоже нужен промпт формат? Ну дак инструкт версия засрана спец токенами, без которых она хуево работает и срет ассистентом
+ непонятно правильно ли вобще запускается даже неквантованная модель
Так что, если результат на работающей модели показывает хуйню - то проблема в методе оценки, а не в модели

Аноним 21/04/24 Вск 00:10:44 № 711917 419

>>711905
>Промт не тот/семплеры не те/загрузчик не тот/кванты не те

Получается любую говномодель можно в топ завести если подогнать под нее загрузчики и семплеры?

Аноним 21/04/24 Вск 00:13:02 № 711919 420

>>711917
Все старые модели не были так жестко засраны спецтокенами, работая спокойно в альпака формате или вобще без него
Я чет думаю без инстракт режима ллама 3 вобще не работает толком

Аноним 21/04/24 Вск 00:14:04 № 711921 421

>>711913
>Ну дак инструкт версия засрана спец токенами, без которых она хуево работает и срет ассистентом

Ассистента я поправил, боюсь представить какая оценка была бы без фикса.

>Так что, если результат на работающей модели показывает хуйню - то проблема в методе оценки, а не в модели

Очень удобно, ты случаем не на Цукенберга работаешь?
Модель сама по себе выдает хуйню и без теста. Примеры я выше в треде постил.

Аноним 21/04/24 Вск 00:16:10 № 711923 422

>>711921
А то что она в неквантованном виде в bf16 может влиять? Я просто не могу представить почему явно работающую модель перплексити так херово оценивает
Ладно бы квант, можно свалить на кривое квантование
Какие у тебя самого идеи?

Аноним 21/04/24 Вск 00:18:25 № 711925 423

>>711921
И кстати говоря, перплексити нет смысла сравнивать между моделями. Единственно верное - сравнивать неквантованную модель с ее же квантами.

Может так статься что для ллама3 такое перплексити норма

Аноним 21/04/24 Вск 00:20:56 № 711926 424

>>711917
Не, максимум поднять до её настоящего уровня.

Аноним 21/04/24 Вск 00:22:42 № 711928 425

>>711925

Есть смысл, посмотри на таблицу выше >>711893
Лучшая перплексити у Уи 34В, Микстраля, затем чистая лама 13В. Потом идет чистый мистраль. 100% попадание в суть, как видишь.
К сожалению я могу оценивать перплексити только у моделей загруженных в видеокарту, иначе оценил бы и 70В.

Аноним 21/04/24 Вск 00:23:38 № 711930 426

>>711919
Восьмерка лламы3 работает в альпаке, чднт?

Аноним 21/04/24 Вск 00:25:50 № 711932 427

>>711930
базовая или инструкт?
может квант новее или средство запуска с обновой, черт его знает
У меня начинает повторятся
А в своем инструкт режиме срет какой то белибердой после ответов
Щас новый квант скачал, заценю

Аноним 21/04/24 Вск 00:26:48 № 711933 428

>>711923
>Какие у тебя самого идеи?

Ну у текста как на пиках >>710598 >>710587
перплексити такая и есть

Аноним 21/04/24 Вск 00:27:30 № 711935 429

>>711932
>после ответов
Всегда так было. Стоп токен ассистент, всё что после него это чистые галюны.

Аноним 21/04/24 Вск 00:27:37 № 711936 430

>>710354
А софт какой? Ллама или кобольд?

Аноним 21/04/24 Вск 00:29:35 № 711938 431

>>711932
Базовая. Просто чей-то перезалив скачанный через экслламу пускал. И в блокноте убабуги, и в таверне. Ответы правда короткие, если бенить еос токен то чуть лучше, но всеравно много не выдавишь ибо часты моменты в которых все кроме остановки отсеивается семплерами.

Аноним 21/04/24 Вск 00:29:46 № 711939 432

>>711936
Тесты делал на новеньком в тот день ллама.спп релизе для куда 12
А так на кобальде гоняю

Аноним 21/04/24 Вск 00:40:43 № 711948 433

image.png 15Кб, 1326x89

Решил проверить что тест не сломан, оценив перплексити последнего мистраль инструкта, которого я раньше не проверял, 5.21, пикрелейтед. Не лучшие результаты, но адекватные. Получается чуть хуже двухбитной мику, у которой 5.19.
У третьей ламы, напомню, 5.49 у не инструкт модели, а у инструкта - 7.36.

Аноним 21/04/24 Вск 00:43:35 № 711953 434

image.png 47Кб, 690x190

Бляя, скачал инструкт версию ллама 3 и у меня теперь тоже ассистант срет и начинает ответ по новой там же
И это с исправленным промпт форматом и новенькой моделью
Шо такое а, почему модель срет ассистантом?

Аноним 21/04/24 Вск 00:44:42 № 711954 435

>>711953

Через что модель запускаешь?

Аноним 21/04/24 Вск 00:45:45 № 711956 436

>>711954
кобальд новенький с апстримом вчерашним
думаешь стоит у жоры качнуть последний релиз?

Аноним 21/04/24 Вск 00:46:37 № 711958 437

>>711948
>оценив перплексити последнего мистраль инструкта
Который вышел когда?
>>711953
>ассистант срет
Пикрел настройку сделал?

Аноним 21/04/24 Вск 00:47:18 № 711959 438

>>711939
> кобальде гоняю
А там какая скорость у c4ai-command-r-v01-imat-Q4_K_S.gguf? Хочу тоже гонять, но не знаю, сколько слоев выгружать следует на карточку. Вроде было довольно медленно. Проц i7-8700, карта 1070ti.

Аноним 21/04/24 Вск 00:48:45 № 711962 439

>>711956

Нет, просто если бы через убу - я бы тебе помог, там я знаю как хуевый квант поправить, а через кобольда не знаю, да, у тебя неправленный квант.

Аноним 21/04/24 Вск 00:50:12 № 711963 440

>>711958
>Который вышел когда?

4 месяца назад.

Аноним 21/04/24 Вск 00:51:20 № 711964 441

>>711959
Ниче не выгружай, так быстрее, по крайней мере у меня
Только куда ускорение для кеша, и все
mmq кстати тоже попробуй вкл или выкл
слои на 0

>>711958
>Пикрел настройку сделал?
Ща, понял наконец куда вставить по твоему пику
Перевод в таверне на русском всратый

Аноним 21/04/24 Вск 00:55:29 № 711965 442

>>711958
>Пикрел настройку сделал?
Заебись, щас норм стало, пасибо анон

Аноним 21/04/24 Вск 00:56:24 № 711967 443

>>711958
>Пикрел настройку сделал?

Это хуевый фикс, борьба с симптомами, а не причиной. Причина в том что в модели стоп-токен неверный прописан - <|eot_id|>, при этом в другом месте прописан <|end_of_text|> Кто это говно выкладывал вообще.

Аноним 21/04/24 Вск 00:57:14 № 711968 444

image 74Кб, 260x984

image 75Кб, 273x969

>>711863
> в их уникальном формате
Ты еблан? Формат там GUFF такой же, просто для каждой модели написан конфиг. Можно импортировать абсолютно любую модель c HG скопировав конфиг из вики. Это нужно для того, чтобы удобно работать с моделями из командной строки.

> Причем ладно бы годные, так даже 7b только 4 квант, лол
Зачем ты серишь под себя? Там полноценный репозиторий для каждой модели, со всеми возможными квантами на любой вкус.

> Без нормального интерфейса
Это бэкенд, уебище тупорылое бля. А к нему можно любой фронтенд подключить, например open-webui, который ебет ваши кобальды и таверны на три головы.

> без настроек, без возможности нормально добавить свою модель в загрузку
Ахахаха, прекрати серить под себя, тварь.

Просто пиздец, за год местные твари не осилили олламу, это просто нахуй вынос мозгов, дегенераты.

>>711866
Толстишь, тварь.

Аноним 21/04/24 Вск 00:58:28 № 711970 445

>>711967
Хочешь сказать надо везде <|end_of_text|>?

>>711968
Хуя пичот

Аноним 21/04/24 Вск 01:00:12 № 711971 446

изображение.png 10Кб, 692x163

>>711963
Бинго! Его уже везде пофиксили.
>>711964
>Перевод в таверне на русском всратый
Не знаю зачем юзать таверну на русике. Он там действительно полный пиздец. Смени на нормальный.
>>711965
На самом деле не нормально, модель должна другими токенами стоп делать, сидим ждём фиксов.
>>711967
>борьба с симптомами
Спасибо я знаю. Но главное что работает. Качну вариант отсюда.

Аноним 21/04/24 Вск 01:00:16 № 711972 447

>>711964
>Ниче не выгружай, так быстрее
А с оперативкой проблема не возникнет? У меня 16ГБ рам.
>mmq
Что это такое?

Аноним 21/04/24 Вск 01:00:49 № 711973 448

>>711970

Либо везде <|eot_id|>.

Аноним 21/04/24 Вск 01:02:15 № 711975 449

>>711968
>удобно работать с моделями из командной строки
На ноль поделил.
>например open-webui
Шиз в одном- шиз во всём, давно заметил. Нахуя и тут альтернативная ебала? Лишь бы против мейнстрима, ей Богу.
>не осилили олламу
Не стали тратить время на левую надстройку, ты хотел сказать?

Аноним 21/04/24 Вск 01:04:20 № 711976 450

>>711968
> open-webui, который ебет ваши кобальды и таверны на три головы
А что в нем такого особенного?
>не осилили олламу, это просто нахуй вынос мозгов
И для каких целей используется оллама, чтобы очень захотелось ее освоить?

Аноним 21/04/24 Вск 01:04:27 № 711977 451

изображение.png 94Кб, 1419x383

Кстати, в кобольд залили правки как раз под эти ЕОТ токены.

Аноним 21/04/24 Вск 01:07:08 № 711980 452

>>711972
>У меня 16ГБ рам.
Без шансов
Тот квант что ты скинул занимает без разгрузки слоев все 28 гб с контекстом в 4к
У тебя в сумме рам+врам 30-32 дает? Если нет то почему так медленно догадаться не трудно, на диск свопается

Аноним 21/04/24 Вск 01:10:12 № 711981 453

>>711980
Все, понял. Спасибо.

Аноним 21/04/24 Вск 01:10:58 № 711982 454

>>711967
На самом деле <|eot_id|> это pad токен, <|end_of_text|> это eos. Ну и special_tokens_map в неправильном формате, так что он скорее всего просто не подхватывается вообще.

Аноним 21/04/24 Вск 01:11:02 № 711983 455

>>711968
>со всеми возможными квантами

Самого лучшего кванта - IQ4_XS не вижу.

Аноним 21/04/24 Вск 01:18:44 № 711987 456

изображение.png 11Кб, 610x209

изображение.png 108Кб, 1935x556

Чиним одно, ломаем другое. Модель из https://huggingface.co/QuantFactory/Meta-Llama-3-70B-Instruct-GGUF с последним кобольдом перестала срать ассистентами, но теперь базу забыла.

Аноним 21/04/24 Вск 01:22:24 № 711989 457

>>711982
><|end_of_text|>
Ответы стали подробнее и лучше, но все равно срет ассистентом, лол Но отыгрыш стал хуже, внезапно
Че она там за токен невидимый сует? Или просто дописывает ассистент? откуда эта хуйня?

Аноним 21/04/24 Вск 01:23:42 № 711990 458

>>711975
Мейнстрим как раз ollama, это вы тут дрочите тухлую таверну и кобальд. Блять конченые это понять не могут, хоть сколько объясняй.

>>711976
Блять, зайди в репу почитай, сучара. Я вообще не понимаю, как вы пользуетесь хуетой из шапки, это буквально кривой высер васяна, причем ЦЕЛЫЙ ГОД тут только что и обсуждают, как это кривое говно заставить правильно работать.

Аноним 21/04/24 Вск 01:26:35 № 711992 459

>>711989

У тебя уба или кобольд обрезает токены до того как они до таверны доходят. В убе это фиксится убиранием галочки с Skip special tokens

Аноним 21/04/24 Вск 01:27:02 № 711993 460

>>711968
Лол, окружен но не сломлен. Держи юшку раз так старался. Натащили поломанных квантов и рады
>>711990
Она буквально не нужна никому кроме кучки неосиляторов с запредельным чсв. Уровень виден уже по неработающему нормально апи и игнорирующимися неделями серьезными ишьюсами по нему.

Аноним 21/04/24 Вск 01:28:50 № 711994 461

>>711990
> кривой высер васяна,
Со всеми исправлениями из апстрима ллама.спп, без глюков и ебли с установкой, с удобным запуском и настройкой
С загрузкой своих скаченных моделей и поддержкой тонны старых форматов и моделей.
Давай козыряй чем твоя оллама так хороша?

Аноним 21/04/24 Вск 01:29:23 № 711995 462

>>711990
>как вы пользуетесь хуетой из шапки
Запуская 1 файл и кликая мышью. А не ставя какую-то парашу из инсталятора, которая срёт куда хочет, не давая выбрать каталог установки, а потом гордо запуская сонсоль. У меня не люнупс как бы, чтобы ебаться.

Аноним 21/04/24 Вск 01:31:45 № 711997 463

>>711994
>Давай козыряй чем твоя оллама так хороша?
Звёздочек на гитхабе больше чем у герганова!!1111одинодин
Не, реально больше. Впрочем, как и всегда, хомячки шмут колокольчики, а нерды ленятся нажать одну кнопку, ибо нахуя. Пойду поставлю герганову звезду, он заслужил.

Аноним 21/04/24 Вск 01:34:28 № 712001 464

>>711992
Понял, надо чекнуть настройки, там вроде это как раз добавили

>>711997
За кобальд обидно конечно, 3.7к всего
И ведь он честно пишет что форк llama.cpp
Оллама просто оверхайпнутая хуйня для хомячков, которым все готовенькое подавай

Аноним 21/04/24 Вск 01:35:25 № 712002 465

>>712001
Оллама - это эпол в мире бэкендов, быдл

Аноним 21/04/24 Вск 01:37:01 № 712003 466

изображение.png 32Кб, 1726x483

>>712001
>которым все готовенькое подавай
Ну нихуя себе готовенькое. Я вот уже не осиляю, если просто с запуском понятно, то вот свой промт это уже цирк с конями какой-то.

Аноним 21/04/24 Вск 01:38:09 № 712005 467

>>712001
Неа, нету, значит ждать исправлений
Или тупо запустить сервер жоры, его быстрее исправят

Аноним 21/04/24 Вск 01:39:05 № 712006 468

>>712003
выяснилось что там какое то вебуи есть к ней, там наверное все и настраивается

Аноним 21/04/24 Вск 01:39:45 № 712008 469

>>712002
>эпол в мире бэкендов
Такая же ограниченная неюзабельная хуита? Кстати, модель он тоже куда попало высирает, в .ollama в корне профиля. Несколько дисков? Не, не слышали. Ебол стайл.
>>712006
Жду, пока модель скачает (в рандомном кванте).

Аноним 21/04/24 Вск 01:40:26 № 712009 470

>>712002
Говно для чсв дурачков? В принципе похоже

Аноним 21/04/24 Вск 01:42:04 № 712012 471

IQ3_M и i1-Q3_K_M спамят системными токенами, лень разбираться, забил.

i1-Q4_K_M спамит одним токеном.

Q4_1 ничего не генерит.

IQ4_XS
4.25 bpw
5.3~6 токен/сек

IQ4_NL
4.5 bpw
5.3~6 токен/сек

q4_0
4.53 bpw
7.2-7.7 токен/сек

Q4_K_M
4.82 bpw
6.9~7.4 токен/сек
(быстрее, чем мику с ее 6~6.3 токен/сек)

В общем, уж простите, что не вышло третий квант попробовать.
IQ кванты заметно медленнее обычных.
И генерят порою какой-то странный мусор, точки вместо пробелов, хз.
Старые кванты быстрее.
q4_0 не имеет существенного превосходства над q4_K_M, чисто за счет меньшего веса. Возможно проблема текущих квантов или самой лламы.спп

В общем, получается, что Q4_K_M по классике в теслах будет лучше остальных.
Велосипед изобретать не пришлось.

Завтра попробую Q5_K_S и Q5_K_M, может че-нить из них влезет и заработает.

Аноним 21/04/24 Вск 01:42:32 № 712013 472

>>711990
> сучара
Визжишь на весь тред ты, а сучара почему-то я. Я задал тебе конкретный вопрос: для каких целей используется оллама, в чем преимущество в сравнении с кобольдсрр?

Аноним 21/04/24 Вск 01:42:57 № 712014 473

>>711990
>Мейнстрим как раз ollama
Мейнстрим это то, что ставится на раз два, работает и не ебет мозг в винде - это a priori. То что в линухе это не мейнстрим и никогда им не было и не будет как бы того кому то ни хотелось бы. например нвидиа прекрасно понимают эту прописную истину и делали свою демку chat with rtx под винду, хотя могли бы под линух без проблем. Так вот за такой установщик под винду как у твоей любимой олама в приличном обществе набили бы ебало. Установить невозможно да и нахуй не нужно.

Аноним 21/04/24 Вск 01:43:32 № 712015 474

изображение.png 32Кб, 1427x503

>>712008
>Жду, пока модель скачает (в рандомном кванте).
Ох нихуя, оно даже работает, в сонсоли. Ух, вспомнил молодость что было пару лет назад!

Аноним 21/04/24 Вск 01:46:40 № 712017 475

>>712012
>В общем, получается, что Q4_K_M по классике в теслах будет лучше остальных.
Q4_K_S забыл тыкнуть, он как раз в моем тесте был быстрее просто q4_0
может у тебя все 8 токенов дотянет, я так понимаю он самый оптимизированный по скорости среди всех 4 квантов

Аноним 21/04/24 Вск 01:49:41 № 712020 476

>>712003
> пик2
А разве это не систем промпт обычный? Те же настройки есть везде, просто здесь оно всратенько оформленно.

Аноним 21/04/24 Вск 01:50:11 № 712021 477

>>711989
>но все равно срет ассистентом, лол
А ты смотри, какая хуйня в коде у меты

> # If dialog does not end yet with a start of an assistant message to
> # complete, we add it.
> if not dialog or dialog[-1]["role"] != "assistant":
> tokens.extend(self.encode_message({"role": "assistant", "content": ""}))
> # Remove <|eot_id|> from Assistant message to allow completion
> eot_id = tokens.pop()
> assert eot_id == self.tokenizer.special_tokens["<|eot_id|>"]

Аноним 21/04/24 Вск 01:51:30 № 712022 478

>>711968
Вот это разрыв жопы.

———

Почитал, поржал, спасибо. =)

———

>>712017
Да мне тут хочется от нее уже побольше адекватности.
До 5 токенов/сек — приемлемая скорость, если она будет ТОП-1 УНИЖАЕМ ЧАТГОПОТУ ну или хотя бы просто лучше Мику.

Аноним 21/04/24 Вск 01:54:49 № 712023 479

>>712021
нипонял эти телодвижения
можно для хлебушков?

Аноним 21/04/24 Вск 01:58:55 № 712024 480

>>712022
>Да мне тут хочется от нее уже побольше адекватности.
>До 5 токенов/сек — приемлемая скорость, если она будет ТОП-1 УНИЖАЕМ ЧАТГОПОТУ ну или хотя бы просто лучше Мику.

Тогда скорей всего 5_К_S так же будет быстрейшим, я так понимаю разнородные кванты вызывают задержку при обсчете

Аноним 21/04/24 Вск 02:01:02 № 712027 481

>>712023
По факту здесь прописано условие, что если диалог не завершается сообщением ассистента - то дописываем assistant и удаляется eot_id. Чтобы якобы сгенерировать ответ ассистента. Скорее всего этот же код применялся и при тренировке, так что модель вместо eot_id, который должен быть eos, генерирует assistant.

Аноним 21/04/24 Вск 02:01:56 № 712029 482

изображение.png 118Кб, 1916x543

Запустил через ollama serve и пробросил в кобольд. В принципе работает, да, но ёбанный рот этого казино, в логах куча хуиты ни ничего полезного, взял он унылый Q4_0, да ещё и с 2к контекста.
Модель так и осталась лежать в ollama\models\blobs\sha256-4fe022a8902336d3c452c88f7aca5590f5b5b02ccfd06320fdefab02412e1f0b (ебал я это имя), видимо, расчёт на то, что управлять этой ебалой можно только через их сонсоль.
Контекст походу только через консоль можно выставлять. Короче вердикт- ну его нахуй.

Аноним 21/04/24 Вск 02:04:18 № 712031 483

>>712027
Я думал это просто костыль для чата уже готовой модели.
Но если и при тренировке, и генерации датасета такая херня была
Мдэ, это ж чей то косяк растянулся на 15 триллионов токенов обучения, ух бля
И теперь придется тупо блочить слово ассистент?

Аноним 21/04/24 Вск 02:06:01 № 712035 484

>>712029
3 пик чисто вывод консоли сервера жоры, лол
Вобще не палятся

Аноним 21/04/24 Вск 02:09:54 № 712038 485

>>712027
>если диалог не завершается сообщением ассистента - то дописываем assistant и удаляется eot_id
Эм... Но у нас же диалог как раз завершается сообщением ассистента...
>>712031
Думаю это мы тут чего-то не понимаем. Не верю, что там такие идиоты.
>>712035
Да и 2 тоже 1 в 1 как в кобольде. Но ЕМНИП у жоры разве не было более подробной разбивки по скорости генерации, числа токенов и прочего? Здесь я вижу бесполезный мусор сверху и красивые синие полоски снизу, а скорости генерации не вижу вообще нигде.

Аноним 21/04/24 Вск 02:10:57 № 712041 486

>>711997
> Пойду поставлю герганову звезду, он заслужил
Турбодерпу тоже поставить не забудь. Илитнейший one-man-army которого мы не заслуживали, свернувший горы ради скоростного интерфейса ллм на гпу. Даже про амудэ не забывает, а его наработки интегрируются много куда.
>>712002
Не, это что-то уровня рекламы йоба наушников от мухосранского "илона-маска". Буквально ничего собственного кроме посредничества и маркетинга.
>>712003
Ебать обзмеился с этого удобства.
>>712012
А ты что тестировал там? Перплексити хотябы прогони, или расскажи как покумил/поработал на них. И по т/с делай разделение обработки промта и самой генерации, иначе нет смысла.
>>712029
> и пробросил в кобольд
В таверну?
> унылый Q4_0, да ещё и с 2к контекста
Холопам больше не положено, лол

Аноним 21/04/24 Вск 02:11:16 № 712042 487

изображение.png 154Кб, 2916x210

>>712038
>подробной разбивки по скорости генерации
А, извинити, я слепой. Вот же всё, в удобном человекочитаемом джейсоне. Не то что неправославное форматирование в кобольде!

Аноним 21/04/24 Вск 02:16:08 № 712048 488

>>712029
Я вообще непонимат для кого оллама сделана и что она добавляет, кроме разве что попытки автоматически определять разбивку по слоям на ГПУ/ЦПУ.
Если ты и так уже пердолишься в консолечку, тебе и кобольд по большому счёту нинужен, запили себе скрипт/батник для запуска лламы.спп и подключайся к лламе.спп из таверны например

Аноним 21/04/24 Вск 02:18:51 № 712050 489

>>711858
Вот как ты заебал заслонять своё говно другим говном

Аноним 21/04/24 Вск 02:20:26 № 712052 490

>>712012

А вот у меня командир iq4-xs быстрее 4_k_s работает, тупо потому что больше слоев на видеокарту влезает у более мелкой по размеру iq4_xs.

Аноним 21/04/24 Вск 02:20:41 № 712053 491

Интересное наблюдение.
С настройками из пик1 с <|eot_id|> везде, модель отвечает короче, но лучше отыгрывает роль. пик2
С настройками из пик3 где везде <|end_of_text|>, модель отвечает подробно и развернуто большим форматированным текстом, но суховато, отыгрыш меньше. пик4

Че то скорость просела не пойму, 7 ядер поставлено как обычно, а проц грузит на 50 процентов, едва 3.3 т/с выдает, хотя обычно все 5-6

Аноним 21/04/24 Вск 02:23:01 № 712055 492

изображение.png 29Кб, 1264x224

>>712041
>Ебать обзмеился с этого удобства.
Ты ещё настройки по дефолту в виде переменных среды в шинде не видел.
Зато нашёл, как переместить модели (все разом)!
>В таверну?
А, ну да, верно, конечно же в таверну.
>Холопам больше не положено, лол
Да не, там как-то можно выбрать квант. Но я не понял как.
>>712048
>кроме разве что попытки автоматически определять разбивку по слоям на ГПУ/ЦПУ.
Вот кстати да, это она делает лучше кобольды.
>>712050
Что не так?
>>712053
>где везде <|end_of_text|>,
Ебать шиза.
Давайте до 500 добивать, я спать хочу.

Аноним 21/04/24 Вск 02:23:19 № 712056 493

>>711388
Так это не только women, это все подряд
https://www.japantimes.co.jp/news/2024/02/13/asia-pacific/social-issues/chinese-women-ai-boyfriends/
>'Better than real men': Young Chinese women turn to AI boyfriends

Аноним 21/04/24 Вск 02:23:43 № 712057 494

Кстати, почему кобальт чуть быстрее Убы работает с гуфами - там разве не одна и та же Лама.цп?

Аноним 21/04/24 Вск 02:26:00 № 712058 495

>>712055
>Ебать шиза.
Так ведь лучше работает, вот в чем прикол
И не поймешь ведь, как правильно теперь промпт формат оставлять

Аноним 21/04/24 Вск 02:26:22 № 712059 496

изображение.png 23Кб, 1437x303

>>712055
>Но я не понял как.
Во, кажется надо указывать при загрузке. Но работает только с примером из их доков, лламу3 он с другим квантом качать не хочет. Походу надо вручную импортировать, с прописыванием Modelfile и вот этим всем.

Аноним 21/04/24 Вск 02:27:45 № 712060 497

>>712058
>Так ведь лучше работает, вот в чем прикол
Ты же сам отписал, что отыгрышь отваливается. То есть вместо тсунГПТ у тебя обычный ассистент проглядывает.

Аноним 21/04/24 Вск 02:28:50 № 712061 498

>>712042
> Вот же всё, в удобном человекочитаемом джейсоне
Насколько же деву было похуй
>>712053
Вроде отвечает неплохо, возможно нужно заморочиться с этими тегами.
>>712055
> Ты ещё настройки по дефолту в виде переменных среды в шинде не видел.
Ты шо делаешь, негодник, чуть с кресла не пизданулся.

Аноним 21/04/24 Вск 02:29:02 № 712062 499

>>712060
Ну, не совсем. Начало и конец сообщение отыгрыш отличный. Просто теперь отвечая на вопрос она дает больше инфы

Аноним 21/04/24 Вск 02:29:05 № 712063 500

>>712055
>Вот кстати да, это она делает лучше кобольды.
Да хуйню она делает, у меня оно иногда переполняет врам, а настроить негде. Доков ноль, фич ноль, настроек ноль, смысла ноль.
>>712057
Я думаю это регрессия, он избирательно относится к порту новых фич из лламы.спп.

Аноним 21/04/24 Вск 02:30:25 № 712066 501

>>712031
>И теперь придется тупо блочить слово ассистент?
Да в душе не ебу, лол. Но скорее всего.

>>712038
>Но у нас же диалог как раз завершается сообщением ассистента...
А при трейне нет. Почему модель срёт ассистентами, если она не натренирована срать ассистентами? Причём правка с ассистентами была 2 недели назад, то есть уже на этапе финальной шлифовки модели. До этого в коде прослеживался {"role": cast(Role, role)}

Аноним 21/04/24 Вск 02:33:46 № 712068 502

>>712052
>>712012
IQ кванты могут упираться в вычисления, особенно на потате. А не в полосу памяти.

Аноним 21/04/24 Вск 02:36:02 № 712071 503

>>712068
Они вроде для этого и сделаны, что бы увеличить количество вычислений уменьшив требования к псп

Аноним # OP 21/04/24 Вск 02:40:13 № 712080 504

ПЕРЕКАТ
Совсем ебанулись, чуть больше 2-х дней ушло.

>>712072 (OP)

>>712072 (OP)

Аноним 21/04/24 Вск 03:08:27 № 712092 505

>>712057
убабуба это ад зависимостей с питоном, ничего удивительного.

Аноним 21/04/24 Вск 04:50:59 № 712136 506

>>712053
Какой размер модельки и что за фигня с настройками? Зачем во входной последовательности end_of_text? Там же begin надо.

Назад Вверх Каталог Обновить