Выделение стиля из готовой картинки

Выделение стиля

Есть несколько вариантов выжимки стиля из картинки, в зависимости от того есть ли информация о генерации картинки или её нет. Во втором случае можно попросить Chat GPT проанализировать загруженную картинку и рассказать о применённом стиле, но для этого нужно иметь платный аккаунт (по крайней мере на момент написания этого материала). Ещё как вариант воспользоваться таким замечательным расширением как interrogator для автоматика1111 или аналогичным сервисом в интернете. Но на civitai или его аналоге полно замечательных людей которые наверняка сделали в нужном Вам стиле всю работу. Остаётся выделить стиль и применить к своей задумке - а как это сделать смотрим далее.

примечание

Стиль - это минимальный набор токенов меняющих композицию определённым контролируемым образом при применении к существующей подсказке. Если теряется контроль над композицией, например вместо мужчины в полный рост после применения стиля получается портрет женщины - это уже не стиль. Стиль может состоять всего из одного токена.

Расширенный стиль - это улучшенный стиль, объединяющий в себе обычные стили, дополненные улучшалками в подсказке и негативе для получения "ВАУ" эффекта. Это довольно сложный элемент подбираемый индивидуально под конкретную модель, семплер и параметры генерации. Зачастую такие стили распространяют сами разработчики модели и "продают" их на платной основе.

Основы

Получение стиля из готового Prompt

0. Берём исходник, повторяем результат

Обычно в исходнике куча мусора и для его определения нужно повторить результат. Сразу оговоримся, стили для XL и SD1.5 отличаются, но алгоритм выявления стиля одинаковый. Для примера возьмём следующий Prompt и сделаем варианты на XL и SD1.5 моделях. На этом этапе полезно воспользоваться такими расширениями как:

DAAM - Attention Heatmap - тепловая карта влияния токенов, оф. разраб к сожалению забил на столь полезное расширение, а его продолжатель на момент написания статьи так же не смог "победить" ошибку в версии Автоматика v1.7 - выдаёт часто пустые окна, вместо картинки с картой, либо кучу других ошибок. Но возможно позже ситуация поправится - внимательно следим.

Cyberpunk, sci-fi, dark-fantasy, soft light, volumetric lighting, highly detailed, HDR, 8k, portrait photo of a war man cyborg robot in a laboratory face, face is skullbone with scares, intricate, elegant, highly detailed, devil-armor, 2D motifs detailed dark fantasy digital painting, concept art, sharp focus, Art by Greg Rutkovski and Wlop, Cosmic Light in BackFront

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 4, Seed: 3844448926, Size: 768x768, Model hash: aeb7e9e689, Model: juggernautXL_v8Rundiffusion, Style Selector Enabled: True, Style Selector Randomize: False, Style Selector Style: base, Version: v1.7.0

1. Обрезаем всё лишнее

Все токены которые не вписываются в определение чёткого эффекта от его применения, удаляем с особой жестокостью. Например мы незнаем за что отвечает HDR и 8K - отмаз что они делают изображение "получше" не прокатит, должен быть чёткий эффект влияния на картину. Так же удаляем дубли токенов, все Lora и прочее. В идеале оставляем только то, что должно отвечать стилю который мы выделяем и минимальное количество улучшалок. С паразитными токенами можно ознакомиться в соответствующем разделе: ABRACADABRA И ПРОЧЕЕ в материале посвящённому камерам.

2. Удаляем Токены-стили в подсказке

Художники, дизайнеры, скульпторы, жанры и направления в искусстве - это сами по себе стили, если они напрямую не относятся к разбираемому стилю (чётко не отвечают что они добавляют или на что влияют), то лучше их добавить позже, на заключительном этапе экспериментов. Иначе получаем стиль в стиле, а это влияет на контроль композиции и превращает вашу работу в красивый, но мусор. Лучше применить несколько разных стилей, чем сочетать всё в одном. В итоге получим более контролируемый результат.

Cyberpunk, sci-fi, dark-fantasy, soft light, volumetric lighting, highly detailed, portrait photo of a war man cyborg robot in a laboratory face, face is skullbone with scares, intricate, elegant, highly detailed, devil-armor, 2D motifs detailed dark fantasy digital painting, concept art, sharp focus, Art by Greg Rutkovski and Wlop, Cosmic Light in BackFront

3. Удаляем определяющие токены

Определяющие - это те токены, которые рисуют конкретный объект в конкретном окружении, позе, одежде и прочем. Всё что мы можем добавить в свои будущие подсказки, мы должны удалить из исходного стиля. То есть, если элементы не предусмотрены самим стилем, то и нехер им там быть. Таким образом мы получаем универсальность применения. Мы можем применить стиль как к молодой девушке, так и брутальному мужчине или вообще к животному, в форме портрета или в полный рост, с эмоцией бешеного хомячка или слюнявого вожделения.

Важно: на этом этапе нам покажется что картинка ухудшается, но эта и не итоговая картинка, это стиль применяемый к вашей композиции и его суть не вызывать "ВАУ" эффект самим своим фактом существования, а преобразовать вашу картину определённым контролируемым образом. "ВАУ" - будем делать на заключительном этапе, сейчас важен контроль!!

4. Удаляем непонятки

Непонятки - это хреньки которые мы не понимаем, а следовательно не можем контролировать. Не можем контролировать и не понимаем на что влияет, ну и нефиг тогда их использовать. Ещё раз, стиль - это минимальный набор токенов влияющих строго определённым образом на ВАШУ картину. Сам стиль не обязан и не должен за Вас рисовать картину. А вот расширенный стиль - это другое дело.

Cyberpunk, sci-fi, dark-fantasy, soft light, volumetric lighting, highly detailed, photo of a war cyborg robot, skullbone, intricate, elegant, highly detailed, devil-armor, 2D motifs detailed dark fantasy digital painting, concept art, sharp focus, Cosmic Light in BackFront

5. Экспериментируем

Ваша подсказка совершенно необязательно должна идти перед стилем. Вполне вероятно, но необязательно, что ваша подсказка с основой композицией будет идти в середине или даже в конце стиля. Методом научного тыка подбираем результат с устраивающим Вас стабильным результатом, делая акцент на том, что вначале должен идти общий стиль картины из применяемого стиля (его может и не быть), затем ваша подсказка, потом преобразование центрального элемента с помощью окончания стиля.

Например: начало стиля определяющего всю картину {prompt} конец стиля определяющий преобразование центрального объекта вашей подсказки.

Где вместо {prompt} будет подставляться ваша подсказка. Модель к которой применяется стиль - играет большую роль, ибо для SD1.5 токен cyborg/robot/android - предполагает наличие человека, а для XL - это смесь живого и роботизированного.

sci-fi, dark-fantasy, Cyberpunk style, cat dynamic pose,highly detailed, war cyborg robot, skullbone, intricate armor

6. Повторяем пункты 1-5

В тот момент когда Вам покажется что всё готово - перекреститесь и ещё раз пройдитесь по всем пунктам. Затем проверьте стиль и ваши ожидания, нужна ли вам броня в нём или может наоборот не хватает торчащих проводов? Лучшим вариантом конечно же будет создать второй стиль со своими особенностями и при необходимости оставить возможность их комбинации.

sci-fi, dark-fantasy, war robot,cat dynamic pose, skullbone, intricate armor

7. Расширяем стиль

ОСОЗНАНО дополняем текущий стиль токенами в нужном нам направлении, например для нашего конкретного стиля:

biomechanical cyberpunk - биомеханический киберпанк
machine fusion - слияние машин
mixed metal and flesh skin - смесь метала и кожной плоти

Так же стоит попробовать добавить Художников или направления:
by Hajime Sorayama, by H.R. Giger, by Ron Arad, Strandbeest style ...

Так же неплохо показывает себя ввод в подсказку название популярного фильма в нужном нам стиле

Добавляя токены улучшайзеров, негатив, стили художников/дизайнеров или скульпторов мы получаем уже расширенный стиль

Попробуйте самостоятельно изменить токен основы композиции cat dynamic pose на что-то своё, если результат меняется контролируемо и даёт "ВАУ" эффект, значит мы выделили стиль.

Так же имейте ввиду что на результат очень сильно влияют настройки генерации, в частности семплер и модель генерации.

sci-fi, dark-fantasy, war robot, cat dynamic pose, skullbone, (mixed metal and flesh skin:1.2), intricate armor

Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, natural, colorful, deformed, sketch, low contrast, watercolor

Steps: 20, Sampler: DPM++ 3M SDE Exponential, CFG scale: 4, Seed: 1, Size: 1024x768, Model hash: aeb7e9e689, Model: juggernautXL_v8Rundiffusion, Style Selector Enabled: True, Style Selector Randomize: False, Style Selector Style: base, Version: v1.7.0

Итог

В результате довольно нехитрых манипуляций можно выделить основу практически из любой понравившейся картинки. Теперь мы можем применять стиль не только к человеку, но и к любым животным, а меняя вес стиля добиваться усиления или его ослабления. Кроме того, мы можем легко видоизменять стиль, ибо разобраться в десятке слов, однозначно влияющих на картинку, гораздо проще нежели в начальной белиберде.