4 deliberate_v2-empty-15-time_27_08_2023-16_10_37

Пример применения позы Controlnet БЕЗ подсказки, но с негативом

acidwave deliberate_v2-glowwave style 1 2-15-Time_04_09_2023-11_57_42

(glowwave style:1.2)

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Пример токена который можно "натянуть" на позу человека, но который не предназначены для него - glowwave.

Человек - примечания к карточкам из категории

Это примечание к разделу по карточкам для токенов связанных с человеком, в эти карточки входят такие разделы как "общий стиль", "Этнос", "Раса" и другие.

Prompt:

( acid pixie style:1.2)

Negative: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Краткие выводы и рекомедации:

Благодаря карточкам стилей, референсов, художников мы постараемся понять суть - как токен влияет на композицию центральным элементом которой является определённый объект, например человек. Стоит иметь ввиду: мы НЕ сравниваем модели, т.к. на одинаковых настройках это не совсем объективно.

Самое важное, не воспринимайте результат  с тестами как конечный вариант, прежде всего нужно понять суть токена или эксперимента - это основная цель. 

Негатив, пожалуйста помните, грамотное использование негатива равносильно грамотному использованию подсказки. Т.к. в карточках токенов используются разные модели я вынужден был собирать более или менее безвредный негатив для повышения качества с учётом применения разнообразных токенов в подсказке и с учётом тематики центрального объекта в самой категории. 

Разрешение и соотношение лучше использовать рекомендуемое для каждой конкретной модели, но это не тот путь самурая которым мы идём, наша цель в первую очередь проанализировать токены. Однако, получать убогий вариант на разрешении 512-512 со смазанными лицами - не доставит удовольствия ни мне, ни Вам. Поэтому фиксация позы через CantrolNet позволяет не только увеличить разрешение и качество отдалённых лиц, но и сравнить разные токены и модели без эффекта "разбегания глаз" - когда не знаешь куда смотреть.

ControlNet с препроцессором openpose - нужен для сравнения работы на различных моделях при использовании минимальной подсказки. 

Если хотим "БОЛЬШЕ" стиля:

  • перемещаем стиль в начало подсказки
  • перемещаем центральный объект в конец подсказки
  • увеличиваем вес стиля, точнее его основу, например: (стиль:1.4) 
  • уменьшаем начальный шаг с которого начинается применение стиля при использовании конструкции [ : (стиль) : 0.3]
Откуда взялись такие параметры и подсказка с негативом?

выбираем параметры и подсказку с негативом

(gyaru style:1.2)
redhead, European female, 20 years old

 

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 512x512, Model: deliberate_v2, CFG Rescale phi: 0, Version: v1.6.0

Как понять что из себя представляет токен?

рассмотрим токен gyaru

Всё бы хорошо если бы мы рассматривали всего один токен и на одной модели. Но теперь представьте что все другие токены "вертят" как хотят барышню во всех позах, а потом мы это всё кучкуем и выкладываем в категорию - получаем сначала "ВАУ" эффект, а затем "вырвиглаз". Кроме того, для понимания сути токена, нам нужно: улучшить качество генерации без применения дополнительных инструментов и получить полный или почти полный рост для оценки стиля одежды с формой человека, ибо токены влияют на всё - включая окружение.

(gyaru style:1.2)

redhead, European female, 20 years old

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

 

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, Version: v1.6.0

А как улучшить результат?

добавим негатив

Увеличим разрешение, обязательно при этом вставим негатив. Получаем приемлемый результат, но конкретно на этом токене, модели и параметрах. Благодаря негативу мы повышаем качество картины и избегаем (пытаемся по крайней мере) анатомических особенностей генерации в SD. Но у нас по прежнему разные позы на разных моделях и токенах, а так же на некоторых токенах выскакивают руки из жопы в прямом смысле этих слов.

gyaru deliberate_v2-gyaru style 1 2-15-Time_04_09_2023-11_04_41

gyaru style,
1 Man and 1 Woman, full body, typical features face and modern clothes

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1, Size: 1024x1365, Model hash: c9e3e68f89, Model: juggernautXL_v9Rundiffusionphoto2, Version: v1.8.0

(gyaru style:1.2)

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Как улучшить восприятие токена?

Controlnet или подсказка

Что бы максимально раскрыть суть токена, нам необходимо сделать результат более однотипным как в категории так и внутри карточки, это необходимо что бы глаза не разбегались, а сразу улавливали отличия. Так же, очень полезным будет анализ токена не только на примере подсказки, но и при использовании контролируемой позы с максимально короткой подсказкой, для этого мы применим openpose из controlnet. Таким образом, можно легко и просто, прям из категории, визуально оценить влияние токена на примере коротенькой подсказки, а при наведении на карточку оценить другой подход в виде применения токена в форме стиля с применением openpose. Примеры настроек ниже, а результаты генераций выше.

Может можно как-то проще исследовать токены?

ответы на возникающие вопросы

grid-0300 grid-0293

(electro swing style)

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 67, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Зачем нужен негатив?

Негатив

Можно и без негатива, но удовольствие не то! Получается слишком много анатомических уродств и картинки выходят уж совсем неинтересными, особенно это касается моделей SD1.5. На XL дела обстоят получше.

deliberate_v2-redhead European female 20 years old glowwave style-15-Time_04_09_2023-12_32_10 deliberate_v2-redhead European female 20 years old glowwave style-15-Time_04_09_2023-12_19_54

[redhead, European female, 20 years old : (glowwave style:1.2) : 0.3]

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Как применить к готовой генерации?

[ исходник : стиль : 0.X ]

Пример применения токена "световая волна" на примере начала генерации стиля после 20 и 30 % вместо исходника. Альтернативой является более мягкая форма [ исходник : исходник + стиль : 0.X ]. Применение данной формы остаётся на ваше усмотрение и является отличным инструментом для анализа влияния токена при сохранении композиции, однако очень сольно будет зависеть от подсказки, настроек и используемой модели.

juggernautXL_v9Rundiffusionphoto2-femme fatale style 1 2-2-Time_20240503183106 epicrealism_naturalSinRC1VAE-femme fatale style 1 2-2-Time_20240503183446

(femme fatale style:1.2)

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2 меняем на revAnimated_v121, Clip skip: 2, CFG Rescale phi: 0, Version: v1.6.0

Как выбрать модель?

Модель

Модель должна как можно проще объяснить суть токена без лишнего отвлечения внимания, поэтому для главной генерации отображаемой в карточке токена довольно хорошо подходит  juggernautXL_v9Rundiffusionphoto2 или более поздняя версия.

Разные модели по разному "слушают токены". Поэтому внутри карточки можно увидеть несколько вариантов с использованием разных моделей.

revAnimated_v121-biopunk style 1 4-15-Time_04_09_2023-12_50_19 revAnimated_v121-biopunk style 1 4 masterpiece best quality beautiful-15-Time_04_09_2023-12_51_56

(biopunk style:1.4)

(masterpiece, best quality, beautiful, high quality, highres:1.2), (ultra-detailed, best shadow), (detailed background), (beautiful detailed face, beautiful detailed eyes), detailed skin, high contrast, (best illumination, an extremely delicate and beautiful), ((cinematic light)), colorful, hyper detail, dramatic light, intricate details

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: revAnimated_v121, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

А ещё улучшить результат?

дополним подсказку

Прописать подробнее подсказку добавив ништяки и изменив вес токена - это хороший способ повысить качество генерации. Но для понимания сути токена - опять таки, это излишние манипуляции, которые к тому же увеличивают время на поиск токена в описании и в целом усложняется анализ. Поэтому для категорий старался оставить  минимальную подсказку. Можно было бы обойтись и без слова style в подсказке, да и вес не указывать - но ввиду того что у нас куча разношёрстных токенов и моделей, то указание токена в качестве стиля и увеличение его веса является скорее необходимостью, нежели прихотью.

подведём итоги по вышесказанному

Кратенькие выводы

Использование ControlNet для ЧЕЛОВЕКОВ при анализе токенов позволяет:

  • увеличить разрешение повысив тем самым качество отдалённых лиц и общей композиции на SD1.5 моделях, особенно старых версий.
  • получить стабильную позу, для последующего быстрого сравнения изменений как на разных моделях, так и токенах
  • сократить подсказку на прописывании человека в качестве центрального элемента композиции, его позы, расположения камеры
  • уменьшить искажения и прочие особенности, особенно на повышенном разрешении и неквадратном соотношении сразу на всех моделях и токенах.

Использование негатива позволяет:

  • уменьшить количество анатомических уродств, т.к. в некоторых случаях даже ControlNet не справляется.
  • повысить общее качество картинки.

Для каждой категории есть своя исходная (отображаемая в первую очередь в категории и карточке) и альтернативная (при наведении на картинку в категории) модель.

Конечно, исходная модель как и любая другая не претендует на звание лучшей в мере, это лишь один из инструментов под рукой для анализа и в будущем наверняка появится более подходящая модель.

Параметры такие как разрешение с соотношением сторон - прямо пропорционально влияют на качество исходной генерации. НО могут влиять как в положительную, так и отрицательную сторону, например увеличение разрешение добавляет детали, делает более чёткими линии, прорисовывает отдалённые лица, но при этом повышает вероятность появления дублей элементов и искажение пропорций тела. Можно конечно было применить hires, Adetailer, Upscaler кучу других умных слов, но тогда тест токена уже превратился бы в тест этих самых расширений, а это уже отдельная тема. Поэтому было решено применить компромиссное решение для вторичных генераций на моделях SD1.5. а именно применить ControlNet и препроцессор OpenPose на минимально возможной подсказке - в этом случае получилось увеличить качество за счёт разрешения и в совокупности с Негативным описанием избавиться, ну почти избавиться, от явных искажений в анатомии. Заодно, благодаря повторяемости результата становится проще оценивать влияние токена на разных моделях.

В качестве первичной генерации (отображаемой первой в карточке категории) уже используется более современная модель, основанная на других начальных и дополнительных данных, а следовательно дающая представление о токене под другим углом. В совокупности с улучшенным восприятием человеческого описания для достижения желаемого результата при повышенном разрешении, появляется возможность использовать только положительную подсказку.

Поза - для SD1.5 выбрана не случайно. Да, красивее выходит картинка когда крупным планом с одним единственным персонажем, согласен. Но у нас цель - исследовать токен, а он может влиять на одежду, окружение, ощущение позы в конце концов! С одним токеном мы получаем изящно стоящую девушку, а на другом токене (или seed) получаем мужичка в позе насравшего в штаны. Это и многое другое можно увидеть только на позе в полный рост, а тем более на картине с двумя человеками можно проанализировать гораздо больше параметров токена нежели на портрете одного единственного, пускай и симпатичного персонажа.

"Правильные" токены и параметры - они существуют?

особенности выбора

grid-0001 grid-0002

(black nation)

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

 

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, Clip skip: 2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Processor Res: 512, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Почему тогда в разных категориях нельзя использовать одинаковый промпт?

nation vs style

Почему нельзя, можно, и на потолок гадить при желании можно 😉

Вот вам пример с расами, почему так нежелательно делать. Например Black style и Black nation - это явно два схожих, но разных токена. Сам по себе style или nation играет роль только в совокупности с другим токеном. Даже если пропустить один из слоёв (clip skip поставить 2) дав тем самым додумать модели подсказку - естественно результат получится как будто использовали кардинально разные токены.

grid-0028 grid-0029

Dwayne Johnson and Jennifer Aniston, (adventurecore style:1.2)

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, ADetailer model: face_yolov8s.pt, ADetailer prompt: Dwayne Johnson and Jennifer Aniston, ADetailer confidence: 0.3, ADetailer dilate/erode: 32, ADetailer mask blur: 4, ADetailer denoising strength: 0.4, ADetailer inpaint only masked: True, ADetailer inpaint padding: 32, ADetailer version: 23.9.1, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

А можно ли сделать генерацию интереснее?

добавляем знаменитостей

Для довольно интересного результата достаточно прописать главных персонажей. А потом ещё заглянцевать ADetailer'ом - вообще супер. Но есть одно НО - персонажи очень сильно влияют на токен, сам персонаж - это целый стиль! Т.е. если мы введём актёров кино - получим перекос в сторону реалистичности, если введём персонажей мультфильмов или игр - соответственно получим перекос в ту или иную сторону, в итоге на анализ токена с первого взгляда уйдёт гораздо больше времени. Пример с Dwayne Johnson and Jennifer Aniston VS rick and morty - мы теряем суть токена, а начинаем сравнивать уже персонажей, отсеивая что относится к ним, а что к исследуемому токену, теряем время, путаемся, уходим бухать от безысходности бренного мира.

revAnimated_v121-mad scientist style 1 6-15-Time_06_09_2023-10_29_14 revAnimated_v121-mad scientist style-15-Time_06_09_2023-10_28_34

mad scientist style

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: revAnimated_v121, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Почему для SD1.5 вес 1,2?

сравнение весов

В принципе можно было бы обойтись и без весов (картинка справа), или обойтись круглыми скобками - которые не только повышают немного вес, но и дают понять нейронке отношения токенов не как отдельных элементов, а как единого целого, особенно актуально когда токены состоят из нескольких слов. Но на малых весах, при условии анализа множества токенов и на разных моделях, приходится вглядываться в изменения которые вносят некоторые токены, а на больших весах могут проявится дефекты которые нужно будет устранять расширяя подсказку или негатив, что в свою очередь приведёт уже не к анализу токена - а к борьбе со злом и это уже совсем другая история. В реальных работах можете без проблем использовать веса вплоть до 1.4, т.к. подсказка будет разбавлена подробным описанием композиции и прочими ништяками. Хотя может Вас устроит веса и побольше (на картинке справа вес 1.6)

4 tmp33u8_2g3

prompt: {тут можно прописать только токен}

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 67, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "preprocessor: none, model: control_v11p_sd15_openpose_fp16 [73c2b67d], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 64, 64)", Version: v1.5.1

А откуда взялись остальные параметры?

параметры

Большинство параметров - это настройки по умолчанию, либо рекомендуемые для многих моделей. Кроме разрешения которое было увеличено благодаря ControlNet, настройки последнего тоже по умолчанию. Seed - подбирался исходя из наименьшего количества непотребств. Например на seed = 67, при использовании ControlNet с позой выше и моделями Deliberate_v2 или RevAnimated - можно получить заготовку, которая позволяет поэкспериментировать с токенами без негатива, и при этом получать более "чистый" результат с минимальным количеством непотребств - персонажи получаются одетыми, руки ноги чаще на месте.

подведём итоги по вышесказанному

Кратенькие выводы

В мире генерации есть аналог Бозона Хиггса - это своего рода усилитель придающий основополагающие свойства элементарным частицам токена. Это может быть как слово "style", "by", "mode", так и целые направления, например "nation" - хотя сами по себе эти слова не несут определённого влияния на композицию, а вот в совокупности с другими токенами уже имеют решающее значение.

Для генерации решающее значение может иметь лишняя запятая, тем более при генерации следует уделять внимание центральному объекту, например известный Персонаж в любом случае будет не только влиять на форму тела и лицо, но и вносить свой стиль и менять композицию. Даже что-то абстрактное, по типы woman или people вносят свои коррективы. Поэтому ControlNet с позой человека позволил нам убрать из подсказки лишние "базончики" - сократить тем самым подсказку и сосредоточиться на влиянии исследуемого токена.

Вес токена = 1.2 для SD1.5 был выбран не случайно, на короткой подсказке и при условии использования на разных токенах и моделях - это оптимальное значение для привлечения внимания к влиянию токена без глобальных искажений. Конечно некоторые токены можно без вреда для здоровья увеличивать и до 2, но некоторые уже на 1.4 херят лицо или выращивают лишнюю конечность.

Параметры будь то Sampling method, Sampling steps,CFG Scale и другие по возможности оставлялись по умолчанию. Опять таки из-за разношёрстности токенов и моделей, как и решаемых задач, эти и другие параметры подбираются индивидуально, а для нашей задачи значения по умолчанию вполне рабочий вариант.

({токен:1.2} {Бозон Хиггса})

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

На что следует обратить внимание в разных категориях?

особенности категорий

(antartican nation)


Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck


Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: epicrealism_naturalSinRC1VAE, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Processor Res: 512, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

Что-то явно не то с некоторыми категориями?

этнос и расы

Дело в том, что в ряде категорий допущены вольности в силу объективных причин. Например в категории этнос, смешаны такие понятия как национальность, расы и прочее, несмотря на то, что хоть это и разные вещи, но простые смертные не особо видят разницу между этими понятиями. Поэтому, решено было поделить всё что относится к людям и не добавляет рога-крылья-копыта с острыми ушами (т.е. не вносит изменения в конструкцию человека) поместить в категорию этноса, а всё что относится к роботам, пришельцам, эльфам, оркам и прочим мифическим существам (т.е. всё то что вносит в конструкцию человека дополнительные элементы не свойственные человеку) - поместить в расы. Причём решено включить в этнос несуществующие в принципе категории людей, например: Антарктический, Чёрный, Туземский. Сделано это специально для анализа восприятия нейросетью всего того бреда, что кожаные мешки ей подсовывают. Естественно и перевод этих токенов был доверен chatGPT - поэтому не удивляйтесь, специально не правил, оставил как есть.

deliberate_v2-cambodian nation 1 2-15-Time_06_09_2023-23_25_55 deliberate_v2-The Cambodian token adds features specific to the-15-Time_06_09_2023-23_26_25

The Cambodian token adds features specific to the peoples and cultures of Cambodia. Thus, the skin of a person will be light brown or various shades of brown, and the physical features will change in accordance with the ethnic characteristics of the people of the region. Hair can be black or dark brown, with varying textures and lengths, depending on the culture and individual. Traditional costumes and accessories can be added to the image, such as Cambodian national costumes, headdresses and jewelry. Moreover, elements of Cambodian culture and nature such as the temples of Angkor, local art, activities and rice fields can be used in the background landscape.

 

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

 

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0

ИИ для ИИ?

ChatGPT

Естественно, в одну харю на Colab и чистом энтузиазме далеко не уедешь. Поэтому ИИ помогал как мог при описании токенов и их переводах. Кривожопенько конечно, но это порой наталкивает на очень интересные решения. Например, если взять описание токена и запихнуть перевод в подсказку, то иногда выходят годные вещи.

deliberate_v2-Sailor Moon cinestill 1 2 RAW analog chubby-123123125-Time_08_09_2023-15_39_13 deliberate_v3-Sailor Moon cinestill 1 2 RAW analog chubby-123123125-Time_08_09_2023-15_39_58

Sailor Moon
(cinestill:1.2)
(RAW,analog), chubby body,( wearing cotton panties with bra), smiling at camera, (skin_details:1.2), perfect teeth, (detailed face), blushing, detailed glossy eyes, blonde pastel rainbow braided hair, sharp,(background is messy bedroom),details, 8k, absurdes, pov, hi res, highly intricate details, analog, raw, cinestill, volumetric lighting, deep rich colors, ((zoomout))

Negative prompt: doll, (disfigured:1.3)

Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 123123125, Size: 512x768, Model: deliberate_v2, ENSD: 31337, CFG Rescale phi: 0, Version: v1.6.0

А если выйдет новая модель?

новые модели

Конечно, прогресс не стоит на месте и к моменту написания этих строк на civitai вывалилась очередная пачка шедевров. И нет что бы пилить одну модель, каждый художник лепит свою мегабимбическую, лучшую в мире. Да и расширения расширяются как на дрожжах. 

Куда мы движемся лучше один раз увидеть - чем сто раз прочитать.

Если будет необходимость - модели будут меняться по ситуации. Но сами понимаете перегенерировать, обработать и залить пол тысячи картинок из-за того что стало чуть покрасивее - ну такое себе удовольствие.

The colorful ink spreads, forming the shape of a tornado that swirls around a dancer, cinematic shot, dynamic composition, incredibly detailed, sharpen, details, intricate detail, professional lighting, film lighting, anamorphic, lightroom, cinematography, bokeh, lens flare, film grain, ((cinematic)), (cozy:1.4), colorful, ink, glass
Studio Ghibli


Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 475770882, Size: 960x1280, Model: dreamshaperXL10_alpha2Xl10, CFG Rescale phi: 0, Version: v1.6.0

Планы на будущее

SD XL

Конечно, потихонечку, с выходом новых моделей и расширений будет осуществлён переход на новые рельсы и о моделях 1.5 будут забывать, но тем не менее токены, они и в Африке токены. Полученные знания очень пригодятся на разных моделях, а качество будет лучше.

А что дальше?

взгляд в Будущее

Актуальная ли будет информация при выходе новых моделей?

будущее моделей

Скорее всего, даю лишнюю сгенерированную конечность на отсечение, все модели будут двигаться в сторону упрощения, аля MidJourney - достаточно будет ввести буквально пару фраз и модель сама додумает ваши хотелки и паразит ваше воображение мозговыносящим крышесносным Шедевром всех времён и народов. НО, всегда будет но, что бы добиться того, что Вы действительно хотите, всё равно нужно будет правильно сформулировать поставленную задачу. А это невозможно без правильного набора слов - токенов, и приёмов работы с расширениями. Вместе с тем, по мере объединения моделей с LORA, первая будет обрастать своим синтаксисом, токенами, негативами и прочими особенностями превращающими модель в целый "швейцарский нож" со всеми вытекающими озабоченностями.

Пригодятся ли знания токенов?

будущее токенов

Да. Несомненно, значения токенов будут меняться, расширяться, но в целом по прежнему будут определять основные черты. Каждая модель будет встраивать в себя всё больше и больше новых понятий, расширять свой функционал, видоизменяя при этом свой набор токенов. Возможно даже появится свой нейроязык для какой-нибудь модели.  

А что с расширениями?

будущее расширений

Естественно всё будет двигаться от простого к сложному (ComfyUi)  , от сложного к простому (midjourney) и так до посинения. В итоге любой школьник сможет замутить свой комикс, мультик или даже фильм. Однако, сделать это стильно и качественно сможет далеко не каждый. 

Все расширения проходят закономерный жизненный путь и учиться пользоваться этими инструментами никогда не поздно. Неважно как будут развиваться расширения, нужно уже сейчас получать удовольствие от их использования.

А стоит ли сейчас заморачиваться с генерацией картинок, если можно тупо листать чужие картинки и получать удовольствие?

ХМ...

Вопрос из разряда: "Зачем жениться если есть интернет и ресторан на против?" 

Ответ очевиден, но есть нюанс - для текущего поколения, когда ИИ выглядит как манна небесная, это что-то потрясающее. Для нового поколения все эти картиночки будут как для нас наскальные рисунки. Будущее текущих нейросетей скорее всего переберётся в плоскость реалтайма в виртуальной реальности, но это уже совсем другая история...