Пример применения позы Controlnet БЕЗ подсказки, но с негативом
Prompt
(glowwave style:1.2)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
Пример токена который можно "натянуть" на позу человека, но который не предназначены для него - glowwave.
Человек - примечания к карточкам из категории
Это примечание к разделу по карточкам для токенов связанных с человеком, в эти карточки входят такие разделы как "общий стиль", "Этнос", "Раса" и другие.
Prompt:
Negative: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Краткие выводы и рекомедации:
Благодаря карточкам стилей, референсов, художников мы постараемся понять суть - как токен влияет на композицию центральным элементом которой является определённый объект, например человек. Стоит иметь ввиду: мы НЕ сравниваем модели, т.к. на одинаковых настройках это не совсем объективно.
Самое важное, не воспринимайте результат с тестами как конечный вариант, прежде всего нужно понять суть токена или эксперимента - это основная цель.
Негатив, пожалуйста помните, грамотное использование негатива равносильно грамотному использованию подсказки. Т.к. в карточках токенов используются разные модели я вынужден был собирать более или менее безвредный негатив для повышения качества с учётом применения разнообразных токенов в подсказке и с учётом тематики центрального объекта в самой категории.
Разрешение и соотношение лучше использовать рекомендуемое для каждой конкретной модели, но это не тот путь самурая которым мы идём, наша цель в первую очередь проанализировать токены. Однако, получать убогий вариант на разрешении 512-512 со смазанными лицами - не доставит удовольствия ни мне, ни Вам. Поэтому фиксация позы через CantrolNet позволяет не только увеличить разрешение и качество отдалённых лиц, но и сравнить разные токены и модели без эффекта "разбегания глаз" - когда не знаешь куда смотреть.
ControlNet с препроцессором openpose - нужен для сравнения работы на различных моделях при использовании минимальной подсказки.
Если хотим "БОЛЬШЕ" стиля:
- перемещаем стиль в начало подсказки
- перемещаем центральный объект в конец подсказки
- увеличиваем вес стиля, точнее его основу, например: (стиль:1.4)
- уменьшаем начальный шаг с которого начинается применение стиля при использовании конструкции [ : (стиль) : 0.3]
выбираем параметры и подсказку с негативом
Prompt
(gyaru style:1.2)
redhead, European female, 20 years old
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 512x512, Model: deliberate_v2, CFG Rescale phi: 0, Version: v1.6.0
рассмотрим токен gyaru
Всё бы хорошо если бы мы рассматривали всего один токен и на одной модели. Но теперь представьте что все другие токены "вертят" как хотят барышню во всех позах, а потом мы это всё кучкуем и выкладываем в категорию - получаем сначала "ВАУ" эффект, а затем "вырвиглаз". Кроме того, для понимания сути токена, нам нужно: улучшить качество генерации без применения дополнительных инструментов и получить полный или почти полный рост для оценки стиля одежды с формой человека, ибо токены влияют на всё - включая окружение.
Prompt
(gyaru style:1.2)
redhead, European female, 20 years old
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, Version: v1.6.0
добавим негатив
Увеличим разрешение, обязательно при этом вставим негатив. Получаем приемлемый результат, но конкретно на этом токене, модели и параметрах. Благодаря негативу мы повышаем качество картины и избегаем (пытаемся по крайней мере) анатомических особенностей генерации в SD. Но у нас по прежнему разные позы на разных моделях и токенах, а так же на некоторых токенах выскакивают руки из жопы в прямом смысле этих слов.
Prompt левый
gyaru style,
1 Man and 1 Woman, full body, typical features face and modern clothes
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1, Size: 1024x1365, Model hash: c9e3e68f89, Model: juggernautXL_v9Rundiffusionphoto2, Version: v1.8.0
Prompt правый
(gyaru style:1.2)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
Controlnet или подсказка
Что бы максимально раскрыть суть токена, нам необходимо сделать результат более однотипным как в категории так и внутри карточки, это необходимо что бы глаза не разбегались, а сразу улавливали отличия. Так же, очень полезным будет анализ токена не только на примере подсказки, но и при использовании контролируемой позы с максимально короткой подсказкой, для этого мы применим openpose из controlnet. Таким образом, можно легко и просто, прям из категории, визуально оценить влияние токена на примере коротенькой подсказки, а при наведении на карточку оценить другой подход в виде применения токена в форме стиля с применением openpose. Примеры настроек ниже, а результаты генераций выше.
ответы на возникающие вопросы
Prompt
(electro swing style)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 67, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
Негатив
Можно и без негатива, но удовольствие не то! Получается слишком много анатомических уродств и картинки выходят уж совсем неинтересными, особенно это касается моделей SD1.5. На XL дела обстоят получше.
Prompt
[redhead, European female, 20 years old : (glowwave style:1.2) : 0.3]
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
[ исходник : стиль : 0.X ]
Пример применения токена "световая волна" на примере начала генерации стиля после 20 и 30 % вместо исходника. Альтернативой является более мягкая форма [ исходник : исходник + стиль : 0.X ]. Применение данной формы остаётся на ваше усмотрение и является отличным инструментом для анализа влияния токена при сохранении композиции, однако очень сольно будет зависеть от подсказки, настроек и используемой модели.
Prompt
(femme fatale style:1.2)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2 меняем на revAnimated_v121, Clip skip: 2, CFG Rescale phi: 0, Version: v1.6.0
Модель
Модель должна как можно проще объяснить суть токена без лишнего отвлечения внимания, поэтому для главной генерации отображаемой в карточке токена довольно хорошо подходит juggernautXL_v9Rundiffusionphoto2 или более поздняя версия.
Разные модели по разному "слушают токены". Поэтому внутри карточки можно увидеть несколько вариантов с использованием разных моделей.
Prompt
(biopunk style:1.4)
(masterpiece, best quality, beautiful, high quality, highres:1.2), (ultra-detailed, best shadow), (detailed background), (beautiful detailed face, beautiful detailed eyes), detailed skin, high contrast, (best illumination, an extremely delicate and beautiful), ((cinematic light)), colorful, hyper detail, dramatic light, intricate details
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: revAnimated_v121, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
дополним подсказку
Прописать подробнее подсказку добавив ништяки и изменив вес токена - это хороший способ повысить качество генерации. Но для понимания сути токена - опять таки, это излишние манипуляции, которые к тому же увеличивают время на поиск токена в описании и в целом усложняется анализ. Поэтому для категорий старался оставить минимальную подсказку. Можно было бы обойтись и без слова style в подсказке, да и вес не указывать - но ввиду того что у нас куча разношёрстных токенов и моделей, то указание токена в качестве стиля и увеличение его веса является скорее необходимостью, нежели прихотью.
Кратенькие выводы
Использование ControlNet для ЧЕЛОВЕКОВ при анализе токенов позволяет:
- увеличить разрешение повысив тем самым качество отдалённых лиц и общей композиции на SD1.5 моделях, особенно старых версий.
- получить стабильную позу, для последующего быстрого сравнения изменений как на разных моделях, так и токенах
- сократить подсказку на прописывании человека в качестве центрального элемента композиции, его позы, расположения камеры
- уменьшить искажения и прочие особенности, особенно на повышенном разрешении и неквадратном соотношении сразу на всех моделях и токенах.
Использование негатива позволяет:
- уменьшить количество анатомических уродств, т.к. в некоторых случаях даже ControlNet не справляется.
- повысить общее качество картинки.
Для каждой категории есть своя исходная (отображаемая в первую очередь в категории и карточке) и альтернативная (при наведении на картинку в категории) модель.
Конечно, исходная модель как и любая другая не претендует на звание лучшей в мере, это лишь один из инструментов под рукой для анализа и в будущем наверняка появится более подходящая модель.
Параметры такие как разрешение с соотношением сторон - прямо пропорционально влияют на качество исходной генерации. НО могут влиять как в положительную, так и отрицательную сторону, например увеличение разрешение добавляет детали, делает более чёткими линии, прорисовывает отдалённые лица, но при этом повышает вероятность появления дублей элементов и искажение пропорций тела. Можно конечно было применить hires, Adetailer, Upscaler кучу других умных слов, но тогда тест токена уже превратился бы в тест этих самых расширений, а это уже отдельная тема. Поэтому было решено применить компромиссное решение для вторичных генераций на моделях SD1.5. а именно применить ControlNet и препроцессор OpenPose на минимально возможной подсказке - в этом случае получилось увеличить качество за счёт разрешения и в совокупности с Негативным описанием избавиться, ну почти избавиться, от явных искажений в анатомии. Заодно, благодаря повторяемости результата становится проще оценивать влияние токена на разных моделях.
В качестве первичной генерации (отображаемой первой в карточке категории) уже используется более современная модель, основанная на других начальных и дополнительных данных, а следовательно дающая представление о токене под другим углом. В совокупности с улучшенным восприятием человеческого описания для достижения желаемого результата при повышенном разрешении, появляется возможность использовать только положительную подсказку.
Поза - для SD1.5 выбрана не случайно. Да, красивее выходит картинка когда крупным планом с одним единственным персонажем, согласен. Но у нас цель - исследовать токен, а он может влиять на одежду, окружение, ощущение позы в конце концов! С одним токеном мы получаем изящно стоящую девушку, а на другом токене (или seed) получаем мужичка в позе насравшего в штаны. Это и многое другое можно увидеть только на позе в полный рост, а тем более на картине с двумя человеками можно проанализировать гораздо больше параметров токена нежели на портрете одного единственного, пускай и симпатичного персонажа.
особенности выбора
Prompt
(black nation)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, Clip skip: 2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Processor Res: 512, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
nation vs style
Почему нельзя, можно, и на потолок гадить при желании можно 😉
Вот вам пример с расами, почему так нежелательно делать. Например Black style и Black nation - это явно два схожих, но разных токена. Сам по себе style или nation играет роль только в совокупности с другим токеном. Даже если пропустить один из слоёв (clip skip поставить 2) дав тем самым додумать модели подсказку - естественно результат получится как будто использовали кардинально разные токены.
Prompt
Dwayne Johnson and Jennifer Aniston, (adventurecore style:1.2)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, ADetailer model: face_yolov8s.pt, ADetailer prompt: Dwayne Johnson and Jennifer Aniston, ADetailer confidence: 0.3, ADetailer dilate/erode: 32, ADetailer mask blur: 4, ADetailer denoising strength: 0.4, ADetailer inpaint only masked: True, ADetailer inpaint padding: 32, ADetailer version: 23.9.1, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
добавляем знаменитостей
Для довольно интересного результата достаточно прописать главных персонажей. А потом ещё заглянцевать ADetailer'ом - вообще супер. Но есть одно НО - персонажи очень сильно влияют на токен, сам персонаж - это целый стиль! Т.е. если мы введём актёров кино - получим перекос в сторону реалистичности, если введём персонажей мультфильмов или игр - соответственно получим перекос в ту или иную сторону, в итоге на анализ токена с первого взгляда уйдёт гораздо больше времени. Пример с Dwayne Johnson and Jennifer Aniston VS rick and morty - мы теряем суть токена, а начинаем сравнивать уже персонажей, отсеивая что относится к ним, а что к исследуемому токену, теряем время, путаемся, уходим бухать от безысходности бренного мира.
Prompt
mad scientist style
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: revAnimated_v121, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
сравнение весов
В принципе можно было бы обойтись и без весов (картинка справа), или обойтись круглыми скобками - которые не только повышают немного вес, но и дают понять нейронке отношения токенов не как отдельных элементов, а как единого целого, особенно актуально когда токены состоят из нескольких слов. Но на малых весах, при условии анализа множества токенов и на разных моделях, приходится вглядываться в изменения которые вносят некоторые токены, а на больших весах могут проявится дефекты которые нужно будет устранять расширяя подсказку или негатив, что в свою очередь приведёт уже не к анализу токена - а к борьбе со злом и это уже совсем другая история. В реальных работах можете без проблем использовать веса вплоть до 1.4, т.к. подсказка будет разбавлена подробным описанием композиции и прочими ништяками. Хотя может Вас устроит веса и побольше (на картинке справа вес 1.6)
Prompt
prompt: {тут можно прописать только токен}
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 67, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "preprocessor: none, model: control_v11p_sd15_openpose_fp16 [73c2b67d], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: True, control mode: Balanced, preprocessor params: (512, 64, 64)", Version: v1.5.1
параметры
Большинство параметров - это настройки по умолчанию, либо рекомендуемые для многих моделей. Кроме разрешения которое было увеличено благодаря ControlNet, настройки последнего тоже по умолчанию. Seed - подбирался исходя из наименьшего количества непотребств. Например на seed = 67, при использовании ControlNet с позой выше и моделями Deliberate_v2 или RevAnimated - можно получить заготовку, которая позволяет поэкспериментировать с токенами без негатива, и при этом получать более "чистый" результат с минимальным количеством непотребств - персонажи получаются одетыми, руки ноги чаще на месте.
Кратенькие выводы
В мире генерации есть аналог Бозона Хиггса - это своего рода усилитель придающий основополагающие свойства элементарным частицам токена. Это может быть как слово "style", "by", "mode", так и целые направления, например "nation" - хотя сами по себе эти слова не несут определённого влияния на композицию, а вот в совокупности с другими токенами уже имеют решающее значение.
Для генерации решающее значение может иметь лишняя запятая, тем более при генерации следует уделять внимание центральному объекту, например известный Персонаж в любом случае будет не только влиять на форму тела и лицо, но и вносить свой стиль и менять композицию. Даже что-то абстрактное, по типы woman или people вносят свои коррективы. Поэтому ControlNet с позой человека позволил нам убрать из подсказки лишние "базончики" - сократить тем самым подсказку и сосредоточиться на влиянии исследуемого токена.
Вес токена = 1.2 для SD1.5 был выбран не случайно, на короткой подсказке и при условии использования на разных токенах и моделях - это оптимальное значение для привлечения внимания к влиянию токена без глобальных искажений. Конечно некоторые токены можно без вреда для здоровья увеличивать и до 2, но некоторые уже на 1.4 херят лицо или выращивают лишнюю конечность.
Параметры будь то Sampling method, Sampling steps,CFG Scale и другие по возможности оставлялись по умолчанию. Опять таки из-за разношёрстности токенов и моделей, как и решаемых задач, эти и другие параметры подбираются индивидуально, а для нашей задачи значения по умолчанию вполне рабочий вариант.
({токен:1.2} {Бозон Хиггса})
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
особенности категорий
Prompt
(antartican nation)
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: epicrealism_naturalSinRC1VAE, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Processor Res: 512, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
этнос и расы
Дело в том, что в ряде категорий допущены вольности в силу объективных причин. Например в категории этнос, смешаны такие понятия как национальность, расы и прочее, несмотря на то, что хоть это и разные вещи, но простые смертные не особо видят разницу между этими понятиями. Поэтому, решено было поделить всё что относится к людям и не добавляет рога-крылья-копыта с острыми ушами (т.е. не вносит изменения в конструкцию человека) поместить в категорию этноса, а всё что относится к роботам, пришельцам, эльфам, оркам и прочим мифическим существам (т.е. всё то что вносит в конструкцию человека дополнительные элементы не свойственные человеку) - поместить в расы. Причём решено включить в этнос несуществующие в принципе категории людей, например: Антарктический, Чёрный, Туземский. Сделано это специально для анализа восприятия нейросетью всего того бреда, что кожаные мешки ей подсовывают. Естественно и перевод этих токенов был доверен chatGPT - поэтому не удивляйтесь, специально не правил, оставил как есть.
Prompt для правого изображения
The Cambodian token adds features specific to the peoples and cultures of Cambodia. Thus, the skin of a person will be light brown or various shades of brown, and the physical features will change in accordance with the ethnic characteristics of the people of the region. Hair can be black or dark brown, with varying textures and lengths, depending on the culture and individual. Traditional costumes and accessories can be added to the image, such as Cambodian national costumes, headdresses and jewelry. Moreover, elements of Cambodian culture and nature such as the temples of Angkor, local art, activities and rice fields can be used in the background landscape.
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 768x1024, Model: deliberate_v2, CFG Rescale phi: 0, ControlNet 0: "Module: none, Model: control_v11p_sd15_openpose_fp16 [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0
ChatGPT
Естественно, в одну харю на Colab и чистом энтузиазме далеко не уедешь. Поэтому ИИ помогал как мог при описании токенов и их переводах. Кривожопенько конечно, но это порой наталкивает на очень интересные решения. Например, если взять описание токена и запихнуть перевод в подсказку, то иногда выходят годные вещи.
Prompt для левого, в правом меняется только модель
Sailor Moon
(cinestill:1.2)
(RAW,analog), chubby body,( wearing cotton panties with bra), smiling at camera, (skin_details:1.2), perfect teeth, (detailed face), blushing, detailed glossy eyes, blonde pastel rainbow braided hair, sharp,(background is messy bedroom),details, 8k, absurdes, pov, hi res, highly intricate details, analog, raw, cinestill, volumetric lighting, deep rich colors, ((zoomout))
Negative prompt: doll, (disfigured:1.3)
Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 123123125, Size: 512x768, Model: deliberate_v2, ENSD: 31337, CFG Rescale phi: 0, Version: v1.6.0
новые модели
Конечно, прогресс не стоит на месте и к моменту написания этих строк на civitai вывалилась очередная пачка шедевров. И нет что бы пилить одну модель, каждый художник лепит свою мегабимбическую, лучшую в мире. Да и расширения расширяются как на дрожжах.
Куда мы движемся лучше один раз увидеть - чем сто раз прочитать.
Если будет необходимость - модели будут меняться по ситуации. Но сами понимаете перегенерировать, обработать и залить пол тысячи картинок из-за того что стало чуть покрасивее - ну такое себе удовольствие.
Prompt
The colorful ink spreads, forming the shape of a tornado that swirls around a dancer, cinematic shot, dynamic composition, incredibly detailed, sharpen, details, intricate detail, professional lighting, film lighting, anamorphic, lightroom, cinematography, bokeh, lens flare, film grain, ((cinematic)), (cozy:1.4), colorful, ink, glass
Studio Ghibli
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 475770882, Size: 960x1280, Model: dreamshaperXL10_alpha2Xl10, CFG Rescale phi: 0, Version: v1.6.0
SD XL
Конечно, потихонечку, с выходом новых моделей и расширений будет осуществлён переход на новые рельсы и о моделях 1.5 будут забывать, но тем не менее токены, они и в Африке токены. Полученные знания очень пригодятся на разных моделях, а качество будет лучше.
взгляд в Будущее
будущее моделей
Скорее всего, даю лишнюю сгенерированную конечность на отсечение, все модели будут двигаться в сторону упрощения, аля MidJourney - достаточно будет ввести буквально пару фраз и модель сама додумает ваши хотелки и паразит ваше воображение мозговыносящим крышесносным Шедевром всех времён и народов. НО, всегда будет но, что бы добиться того, что Вы действительно хотите, всё равно нужно будет правильно сформулировать поставленную задачу. А это невозможно без правильного набора слов - токенов, и приёмов работы с расширениями. Вместе с тем, по мере объединения моделей с LORA, первая будет обрастать своим синтаксисом, токенами, негативами и прочими особенностями превращающими модель в целый "швейцарский нож" со всеми вытекающими озабоченностями.
будущее токенов
Да. Несомненно, значения токенов будут меняться, расширяться, но в целом по прежнему будут определять основные черты. Каждая модель будет встраивать в себя всё больше и больше новых понятий, расширять свой функционал, видоизменяя при этом свой набор токенов. Возможно даже появится свой нейроязык для какой-нибудь модели.
будущее расширений
Естественно всё будет двигаться от простого к сложному (ComfyUi) , от сложного к простому (midjourney) и так до посинения. В итоге любой школьник сможет замутить свой комикс, мультик или даже фильм. Однако, сделать это стильно и качественно сможет далеко не каждый.
Все расширения проходят закономерный жизненный путь и учиться пользоваться этими инструментами никогда не поздно. Неважно как будут развиваться расширения, нужно уже сейчас получать удовольствие от их использования.
ХМ...
Вопрос из разряда: "Зачем жениться если есть интернет и ресторан на против?"
Ответ очевиден, но есть нюанс - для текущего поколения, когда ИИ выглядит как манна небесная, это что-то потрясающее. Для нового поколения все эти картиночки будут как для нас наскальные рисунки. Будущее текущих нейросетей скорее всего переберётся в плоскость реалтайма в виртуальной реальности, но это уже совсем другая история...