Камеры
Для тех кому больше интересны сами токены, то переходите в соответствующий раздел. Здесь больше раздел "для подумать" на досуге, неспешно поразмышлять за чашечкой кофэ... Prompt внутри ПОЛНОРАЗМЕРНЫХ картинок
Примеры
Полезные ссылки
Очень классный ресурс по токенам для камеры и не только: Figma
Можно было бы и не создавать этот материал, но пока сам не попробуешь - не поймёшь что к чему, зачем и почему. Ну просто всё нуждается в проверке и дополнении. Если кому-то пригодиться, хорошо, а если нет... ну нет 😉
Краткие выводы
В рамках StableDeffusion камера имеет свою специфику использования. в частности
- ВЕС. для XL моделей вес нужно варьировать вплоть до 4, в то время как на моделях SD1,5 на короткой подсказке вес не более 1.4, чем длиннее подсказка - тем больше нужно/можно ставить вес. Вес Хорошо отрабатывает на предметах, которые распространены в том виде в котором должен показывать изменённый вес, например авто есть с разных дистанций и ракурсов, соответственно весом можно и нужно поиграться. А вот с бутылкой - бесполезно. С "Человеком" - всё зависит от описания.
- СООТНОШЕНИЕ. Для камеры важно не только токен в описании, но и то, в каком соотношении сторон Вы генерируете изображение, например: если Вам важно получить человека в полный рост - тогда используйте вертикальную (портретную) ориентацию. Если важно получить крупный план - квадратную ориентацию. А если нужен ландшафт - то естественно горизонтальную ориентацию.
- ПОДСКАЗКА. Очень важна подсказка, если опишите ботинки или скажете стоит на земле - будет генерироваться в полный рост. Если опишете пояс - то по пояс. Если будет много описания посвящённого лицу, то автоматически будет уменьшаться вес всего остального, пропорционально объёму описания лица, а следовательно вырастет вероятность получения только портрета. Важен не только токен камеры, но и окружение способное реализовать в полной мере эффект токена.
- ОБЪЕКТ. Учитывайте на каких видах предмета тренировалась модель. Если бутылка - всё время идёт видом с боку, то естественно очень сложно будет получить вид сверху, в отличии от той же самой машины. А человек в неестественном виде камеры, может и получится, но с большей вероятностью будет искажён.
- Если что-то не получается можете сменить Seed или добавить схожий токен камеры для усиления эффекта.
ИСХОДНИКИ для предварительных тестов
исходники
В качестве исходника для тестов возьмём три объекта:
- Человек - т.к. основное применение SD это генерация человеков, то для примера возьмём популярную личность. Выбор личности будет влиять на качество конечной генерации - меньше будет непотребств как в плане отсутствия одежды, так и изуродованных конечностей. При этом можно будет обойтись минимальным Prompt и стандартными настройками, а результат будет лучше чем при использовании обезличенного варианта.
- Авто - популярная тема, а следовательно есть множество фото на которых обучалась исходная модель, поэтому камера будет отрабатывать даже лучше чем на человеке.
- Бутылка - как ни странно это самый "сложный" объект, дело в том, что в большинстве случаев это фото стоячей бутылки, а следовательно нужно постараться развернуть камеру и отдалить на нужное расстояние
Таким образом, если все три объекта съёмки будут реагировать на токен камеры - считайте что нам несказанно повезло и мы можем его использовать.
Кроме того у нас есть вес токена и модели SD 1.5 и XL. Поэтому смотрим тесты на разных вариантах.
Prompt
Подсказка "основная" для тестов камеры, отличается естественно токеном камеры, весом токена и может быть seed другой. Модель для тестов photon_v1 и RealvisXL_V2:
* настроечки могут немного отличаться (кому надо правой кнопочкой -> скачать, по картинке. Внутри все данные есть)
Scarlett Johansson, (токен камеры:1.3), Street
Negative prompt: (worst quality:1.3), (low quality:1.3), (normal quality:1.3)
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 15, Size: 512x768, Model hash: ec41bd2a82, Model: photon_v1, Style Selector Enabled: True, Style Selector Randomize: False, Style Selector Style: base, Version: v1.6.0
Тест разрешения
На примере full shot (полный кадр).
Ввиду того что всем не угодишь, да и модель будем использовать SD1.5. то в дальнейшем для тестов будем делать акцент для позы человека на разрешении 512-768 px
Тест Seed
На примере full shot (полный кадр).
Стабильный результат на SD1.5 и SDXL не удаётся повторить даже если перенести токен отвечающий за вид в начало, не помогает и увеличение веса до 2. Поэтому для простоты будем экспериментировать с SD1.5
Тест объединения токенов
На примере токенов которые должны давать полный кадр.
Как видно результат улучшается при увеличении веса, чем длиннее подсказка - тем больше нужно увеличивать вес. Вес 1.6 конкретно в нашем случае даёт больше положительных результатов.
Объединение токенов схожих по функция - ни к чему плохому не приводит, а иногда даже помогает. Поэтому смело можете объединять схожие варианты.
Тест подсказки и негатива
Многое зависит не только от того какой токен используется для камеры, но и от окружения! Некоторые эффекты невозможно показать на одном лишь центральном объекте.
На примере Dutch angle shot - когда камера смотрит на героя с завалом горизонта набок, для большего наклона можно повысить вес токена или указать угол, например: FOV 90 degrees. Если невиден эффект - попробуйте поменять Seed, а уже потом меняйте Prompt. Если теряется объект - перемещайте его в начало подсказки, на крайняк увеличивайте вес вплоть до 1.4
вид объекта и вес
По факту:
- Модели XL -вес должен варьироваться вплоть до 3 или даже 4.
- На SD1.5 вес желательно не поднимать выше 1.4 на короткой подсказке.
- Вес нужно корректировать в зависимости от длины подсказки и объекта съёмки.
Основные тесты
Жанры фото
Telephoto shot / Macro chot
Telephoto shot - в фотографии для обычного человека означает, что снимок сделан с помощью телеобъектива, который увеличивает объект на фотографии, делая его ближе и крупнее, чем он на самом деле. Это полезно, например, для съемки далеких объектов, таких как дикие животные, спортивные мероприятия или далёкие пейзажи, чтобы сделать их более четкими и детальными.
Конкретно для SD - очень интересно делает фото мелких объектов, например насекомых. Или наоборот отдалённых объектов, например Луны. Обычные предметы выглядят неэффектно и применение данного токена - нецелесообразно.
Для SD Telephoto это лучший аналог вместо токена Macro - который используется для ещё большего увеличения.
Tilt-shift
Tilt-shift - означает создание изображения с эффектом миниатюры. Когда фотограф делает снимок с использованием этой техники, он меняет фокус и угол обзора так, что объекты на фотографии выглядят как маленькие игрушечные модели или миниатюры. Это создает впечатление, что снимок сделан так, как будто вы смотрите на мир игрушечными глазами. XL - прям "ваще" старается, реально всё подряд делает игрушечным.
Product Shot
Product Shot - это фотография продукта, которая создана с целью показать продукт с его лучшей стороны. Это может быть фотография товара на монотонном фоне или в контексте, который подчеркивает его особенности и качества. Обычно такие фотографии используются для рекламы, продажи или демонстрации продукта на веб-сайтах, в каталогах или в социальных сетях. Важно сделать такую фотографию качественной, чтобы привлечь внимание покупателей и показать продукт в наилучшем свете.
Для SD, нужно понимать что в подсказке, если центральным элементом прописать женщину - то она будет автоматом рекламировать либо одежду, либо аксессуар типа сумочки, если прописать бутылку - то будет с этикеткой некоего бренда, если авто - то оно будет в эффектном ракурсе. НО что бы контролировать результат, важно соблюдать минимальную подсказку, тогда увидите эффект с токеном Product Shot. НО, проще прописать всё то, что как раз и должен делать этот токен с помощью других, более контролируемых токенов. Например, вот Prompt (описание товара заменить на своё):
описание товара
gray background, without background, minimalism
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, cropped, jpeg artifacts
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 5, Size: 512x768, Model hash: ec41bd2a82, Model: photon_v1, Style Selector Enabled: True, Style Selector Randomize: False, Style Selector Style: base, Version: v1.6.0
Long Exposure
Long Exposure - Долгая выдержка в фотографии — это способ делать красивые снимки в условиях недостаточного освещения или для создания эффекта размытости. Когда фотограф делает снимок с долгой выдержкой, камера остаётся открытой на некоторое время, позволяя больше света попасть на фотографию. Это позволяет получить яркие и детализированные снимки ночного неба, потоков автомобилей с размытыми фарами или даже эффектное размытие водопадов.
Для SD - автоматом перемещает нас в ночь с фонарями и с соответствующим эффектом света. Однако, если явно указать солнечный день, можем получить интересный эффект, но придётся жонглировать весами что бы не упасть в ночь. Так же, данный токен отлично справляется с отражениями и освещением, поэтому отлично сочетается с Prompt из раздела Product Shot
Landscape
Landscape - фотографии природы или городских видов, где главный акцент делается на обширных пространствах, пейзажах и окружающей среде. Это могут быть красивые горы, леса, озера, города или даже просто открытые пространства с интересной композицией. Такие снимки стремятся передать общую красоту и атмосферу местности.
Для SD - Landscape добавляют больше зелени, природы. Данный токен очень сильный и исходят из того, что либо объект вписывается в ландшафт, либо ну его нах, главное ландшафт. Отличный токен для общего вида, особенно в широкоформатном формате.
Wildlife
Wildlife - дикая природа, добавляет в кадр природы и зверья. Это может быть как небольшая кошечка или птичка, так и антропоморфное существо или одеть в леопёрдовую шкуру - если генерируем портрет человека, может поместить центральный объект генерации в область где больше зелени и т.д.
Для SD рекомендуется прописывать животное которое хотелось бы увидеть на фото. Отлично работает с весами на SD1.5, а XL лучше знает животных
Astrophotography
Astrophotography - это фотография небесных тел, таких как звезды, планеты, луна, галактики и другие космические объекты. Люди занимаются астрофотографией, чтобы запечатлеть красоту и загадочность космоса, использовать телескопы и камеры для создания впечатляющих снимков звездного неба. Это увлекательное хобби, позволяющее увидеть и запечатлеть то, что невозможно видеть обычным глазом.
Isometric assets
Isometric assets - это специальный способ представления объектов на фотографии так, чтобы все линии, идущие вдоль трех осей (вперед, влево и вверх), выглядели параллельными.
Flat Lay
Flat Lay - это стиль съемки, при котором фотограф снимает объекты сверху, будто с высоты. Вместо того, чтобы снимать объекты на уровне глаз, фотограф выкладывает их на плоскость (например, стол или пол) и фотографирует сверху. Такой подход часто используется для создания креативных и стильных композиций, особенно в съемке предметов, еды или фешн-аксессуаров.
Для SD нужно быть аккуратным, например в "неудачном" стандартном примере невозможно сделать то, что должен сделать токен - ну как разложить сверху улицу, бутылку? А вот с нормальной подсказкой, простой, уже кое что выходит.
orthographic view
Orthographic view - (ортографическое изображение) в фотографии обычно относится к технике съемки, при которой изображение передается без перспективных искажений. Это означает, что все прямые линии на фотографии остаются прямыми, не схожи и не уходят вглубь или кажутся ближе из-за перспективы.
Например, при съемке с ортографическим видом здание будет выглядеть так, будто его фасад строго параллелен фотокамере, без искажений, вызванных углом наклона. Это полезно, например, при архитектурной фотографии, когда важно передать формы и линии объектов точно и без искажений.
Выбор стороны
сторона view
Side view - вид с боку
Back view - вид сзади
Front View - вид спереди
Причём для SD1.5 изменением веса от 0.1 до 1.0 можно немного поворачивать. Но аккуратнее, может и полностью поменять композицию, зависит от подсказки. XL - на вес не реагирует.
Bottom
Bottom - сзади/снизу. Может наклонить персонажа или развернуть задницей. Если не нужна пятая точка, то можете добавить токен rear в негатив. Вообще токен нужно дополнять описанием композиции, т.к. в зависимости от модели генерации данный токен может как повернуть объект задницей, так и положить объект вниз.
В примере эксперимент с разными весами на моделях SD1.5 и SDXL для отражения сути применения. Многое будет зависеть от Seed, объекта на картине, соотношения сторон и используемой модели генерации.
Токен кривожопый для применения, ибо результат зависит от модели генерации, seed и расположения звёзд на небе. Но тем неменее некоторые модели отрабатывают его весьма "интересно".
Point-of-view
Point-of-view - означает угол съемки или точку, с которой фотограф снимает объект. Это важный аспект фотографии, так как выбор точки съемки может влиять на то, как объект будет выглядеть на фотографии. Например, съемка снизу может сделать объект более величественным, а съемка сверху может выделить его мелкие детали. Таким образом, point-of-view позволяет фотографу выбирать, как он хочет передать объект на фотографии, играя с углами и ракурсами съемки.
Для SD полезен в сочетании с такими токенами как например "С уровня земли" - таким образом будет звучать как "точка съемки с уровня земли" и сам токен "земля" уже будет не так актуален и фото получится так как задумывалось, а не фото конкретно земли. Данный токен помещает не столько фотографа, сколько сам объект в описанные условия. В общем интересный "усилитель" для других токенов.
Дистанция до объекта съёмки
macro shot
Macro shot - предназначен для очень близкого крупного снимка чего-то маленького, такого как цветок, насекомое или другие детали. Это позволяет запечатлеть детали и текстуры, которые обычно невидимы с обычного расстояния. При применении макросъёмки для крупных объектов - получаем приближение. Для XL - как обычно, вес не работает.
При максимальном весе можно весьма эффектно сломать картинку получив нечто интересное, попробуйте увеличить вес до 2.
close-up
Крупный план, предполагает что фотограф находится близко к объекту съёмки. Сочетается с усилителями типа extreme, medium. Вес токена критичен в основном для SD1.5 - делает лицо крупнее. Токен отлично работает с весами на SD1.5 на объектах типа авто, а вот с бутылкой - нет. XL с весами в пролёте.
portrait
portrait - рисует... портрет 🙂
Для SD 1.5 вес не влияет на портрет человека, и увеличивает предмет если это возможно что бы он или его часть была отчётливо распознана. С Машиной так можно, а вот с бутылкой - нет, мало того что вес не прокатывает, так ещё и портрет рисует на ней, а Вы что хотели?
level shot
level shot - с уровня чего-то, и тут действует правило: "Если это что-то в подсказке есть, и вес этого чего-то большой, и описано оно подробно, то это что-то будет определённо в кадре"
shoulder level shot - выше груди. Соответственно может пихнуть её туда где её недолжно быть при высоком весе.
Hip Level Shot - "Уровень бедра" означает, что фотография сделана на уровне бедер человека или объекта. То есть камера находится примерно на том же уровне, что и бедра снимаемого объекта.
Ground level shot - означает фотографию, сделанную с очень низкой точки обзора, буквально на уровне земли или близко к ней. Но при увеличении веса ключевым токеном становится "земля", а на всё остальное уже плевать - поэтому нужно быть аккуратнее.
Knee level shot - с уровня колен, соответственно следует описать что-то кроме колен, иначе только их и снимет
Токены отлично работают, если что-то не работает - следует лишний раз прочитать подсказку, возможно в подсказке кроется подсказка почему Ваша подсказка не работает. Возможно придётся что-то убрать или наоборот добавить, например добавить токен Point-of-view или at distance
mugshot
mugshot - снимок прямо, как преступников в американском кино. Может пихнуть человека, особенно на XL. вместо того что вы там понапридумывали.
При увеличении веса - лепит листок "объявления", на XL - вообще лучше не пытаться использовать на предметах
upper body
upper body - верхняя часть тела, "тело" определяющий токен - поэтому рекомендуется только для Человеков.
at distance
at distance - предполагает что фотограф находится на дистанции и может сделать эффект боке при увеличении, сам объект при этом может находится ближе чем расстояние до фотографа.
Вес на токен не влияет, но может немного изменить расстояние до объекта - предмета.
far shot
far shot - дальний снимок. Означает, что фотограф снимает объект или сцену, которые находятся на большом расстоянии от него. Например, снимок далекой горы или животного вдали может быть назван "дальним снимком" или "far shot".
Для SD - токен не актуален сам по себе. Но возможно будет полезен в сочетании с такими токенами как at distance.
full shot
Full shot – это кадр, на котором объект снимка "должен быть" изображен полностью, без обрезок или приближений. Например, если вы фотографируете человека, то на снимке предполагается что он будет показан целиком, от головы до ног, без вырезов.
Однако, для SD - эти все правила и хотелки не работают просто так, из коробки. Проще прописать full -length.
full body
full body – это кадр, на котором объект снимка "должен быть" изображен полностью, причём не просто "объект", а тело, человеческое тело 😉
Для SD естественно пофигу что вы имели ввиду ракурс съёмки, он думает про тело, желательно женское, соответственно и лепит его на все фотки. С большой бутылкой в XL исключение, тут мужик, ибо бутылка "полная". А вот у SD 1.5 проблем нет, нет и бутылки, точнее она есть, но либо в теле либо в сумке, в данном случае body важнее бутылки, несмотря на веса.
long shot
Long shot - съемка объекта или сцены с большого расстояния, так что объект выглядит маленьким или отдаленным на фотографии. Это часто используется для съемки пейзажей, горизонтов или объектов, которые находятся далеко от фотографа. Такие фотографии могут создавать ощущение простора и удаленности.
А по факту для SD - не всегда работает, особенно для предметов, мало того при большом весе может вставить оружие в руки!
establishing shot
Establishing shot - это первое, общее фото, которое помогает зрителю понять место и контекст съемки. Это как бы вступление, которое показывает, где происходит действие и создает общее впечатление о месте. Это фото помогает ориентироваться и готовит к более детальным снимкам.
В контексте SD - большее внимание начинает уделяться окружению, нежели объекту съёмки.
full-length image
full-length image - изображение в полную длину, неактуально для предметов, и добавляет длинные элементы одежды, типа платья, плаща и прочего.
Снимок сверху
overhead
Overhead - предполагается что съёмка будет вестись с расстояния лба и подниматься выше при увеличении веса. Вес для человека срабатывает только для SD 1.5 - при увеличении веса камера становится сверху человека.
Для предметов нужно придерживаться логики - если предмет часто снимают сверху, то токен будет проявлять себя с лучшей стороны, и при увеличении веса будет делать вид сверху, например так будет с машиной. А вот с бутылкой - может как приподнять камеру вверх, так и саму бутылку подвесить на верёвке на уровне лба фотографа. А при увеличении веса токена "head" начинает проявляться в виде головы, несмотря на фото предмета.
Для SDXL характерно выворачивание тела на некоторых Seed.
from above
from above - "сверху" или "с высоты", означает, что фотограф сфотографировал объект с позиции, находясь выше его, как будто смотрит сверху вниз. Это может придать фотографии особую перспективу и позволяет выделить детали, которые не так заметны при обычном взгляде. Например, если фотограф снимает еду сверху, это может сделать ее более аппетитной, а при съемке города с высоты можно увидеть красивый пейзаж или геометрические узоры улиц.
Если что-то при этом получилось лежачим, а нужно что бы стояло - то так и прописываем, токен "standing"
top down view
top down view - означает вид сверху в низ, когда фотограф снимает объект или сцену с точки зрения, находясь выше.
Если что-то при этом получилось лежачим, а нужно что бы стояло - то так и прописываем, токен "standing"
Satellite shot
Satellite shot - съёмка с высоты. При увеличении веса парам пам пам - может добавить спутник, кто бы мог подумать...
Bird’s-eye view
Bird’s-eye view - съёмка с высоты птичьего полёта. Может добавить птичек в кадре.
Вид снизу
Ground level shot
Ground level shot - вид с уровня земли, земля ключевое слово. Для вида снизу нужно добавить точку нахождения фотографа токеном Point-of-view.
Low-Angle Shot
Low-Angle Shot - это когда фотограф снимает с низкого ракурса, направляя камеру вверх. Это придает объектам на фотографии внушительность и могут делать их выглядеть более масштабными. Этот прием часто используется для создания эффекта величия или драматичности.
Для SD критичен объект генерации, если это что-то большое, то без проблем генерируется, а вот с более мелкими вещами - посложнее. С людьми нужно использовать дополнительные токены и вертеть Seed
from below
from below - означает, что фотограф снимает объект или сцену снизу вверх. Это может быть использовано для создания интересной перспективы, подчеркивания высоты объекта или просто для экспериментов с композицией. К примеру, фотография здания "from below" может сделать его кажущимся более величественным.
Наклон камеры относительно горизонта
Фокус
bokeh
bokeh -- эффект размытия фона, который создается с помощью использования большого диафрагменного отверстия в объективе. Когда задний или передний план становится мягким и нечетким, визуальный акцент смещается на основной объект съемки, делая его более выразительным. Этот эффект часто используется для создания красивых и эстетичных фотографий, где фон служит не беспокойным элементом, а скорее фоновым аккомпанементом, подчеркивающим основной объект.
depth of field
depth of field - глубина резкости, это область в кадре, которая остается резкой и четкой. Когда говорят о большой глубине резкости, это означает, что много объектов на переднем и заднем плане будут в фокусе. Например, если вы фотографируете пейзаж с большой глубиной резкости, даже ближайшие цветы и дальние горы будут кажется четкими. С другой стороны, маленькая глубина резкости означает, что только определенная часть кадра будет резкой, а все остальное будет размытым. Это может использоваться для выделения одного объекта или создания эффекта, когда задний и передний планы смазаны, делая фокус на конкретном элементе - именно так этот эффект реализован в SD.
Soft Focus
Soft Focus - мягкий фокус, как видно из примера делает чётким центральный объект и размывает всё остальное. Токен чувствителен к размещению в подсказке, стоит размещать сразу за объектом который нужно сфокусировать первым делом.
Ширина снимка
wide angle
wide angle - "Широкий угол" в фотографии означает, что на снимке можно увидеть больше объектов и деталей в кадре. Это позволяет снимать большие пейзажи, большие группы людей или уловить больше окружающей среды. Эффект широкого угла достигается с помощью специальных объективов, которые делают кадр более широким, чем обычные объективы.
А вот SD - больше интересует токен angle - "угол", и как положено вертел он ваши хотелки под разным углом.
Panoramic
Panoramic - означает создание широкого обзора или панорамы. Это техника съемки, при которой фотограф старается запечатлеть большую область или пейзаж, чтобы в кадре помещалось больше деталей и широкий угол обзора. Такие снимки часто выглядят эффектно и позволяют передать обстановку или красоту местности более полно.
Для SD работает отлично, причём с весами.
monkey's eye view, worm's eye view, alien's eye view ...
monkey's eye view, worm's eye view, alien's eye view - подобные "оригинальные" виды можете допридумывать сами, что самое интересное - это общий для всех крупный план с применением рыбьего объектива, эффекта селфи и щепоточкой преобразования лица в прописанную зверушку. Данный вид подходит больше для поприкалываться, нежели практического применения. Для достижения более стабильного результата, лучше воспользуйтесь сочетанием других токенов, например: gopro, macro shot, Fisheye-shot.
Виды камер
Gopro
GoPro - это камера, которая используется для съемки видео и фотографий в экстремальных условиях. Она очень компактная и прочная, что позволяет ей выдерживать удары, влагу и другие неблагоприятные условия. Люди, которые занимаются активными видами спорта, путешествиями или просто хотят запечатлеть интересные моменты своей жизни, часто используют GoPro для создания красивых видеороликов и фотографий. Эта камера позволяет легко делать снимки на природе, под водой, в движении и в других сложных ситуациях.
Из описания следует что SD будет лепить всё то, что перечислено выше, что бы намекнуть нам чем было снято, а это: "Экшон", "Селфя", сама камера, велики, спортивное снаряжение, широкий угол и прочее. Токен идеально подходит если хотите в пресный пикничёк закинуть драйва.
Pinhole
Pinhole - создает изображение с уникальным характером и мягким, неострым эффектом схожим с фото на гавнёненький телефон в старагавние времена.
Для SD данный токен может сделать чб картинку, или переодеть персонажа в одежду ушедшей эпохи, а тачки взять из нуар фильмов - в общем отправить нас в прошлое/ Если делаете исторические снимки - токен супер!
polaroid
polaroid - основу составляет волшебная рамочка и специфические мягкие цвета отправляющие нас в прошлое.
куча мала
Rollei, Kodak Porta, Lomography, Kodachrome, instax, holga, fujifilm, fujicolor, ektar, ektachrome, autochrome. Высасывать описание к каждой картинке смысла нет, в целом отличаются в каждой конкретной подсказке, но факт - эффект есть! Копируйте, вставляйте в X/Y/Z plot и радуйтесь.
ДОПОЛНИТЕЛЬНЫЕ ТЕСТЫ - УЛУЧШАЛКИ
Суть эксперимента
Сразу скажу что все улучшалки будут зависеть от кучи факторов: используемая модель, подсказка, негатив, параметры генерации, применяемые расширения, вес, расположение в подсказке и вашего расположения духа.
Есть два способа применения токенов, на "свободной" подсказке и на "ограниченной" каким-либо расширением которое не позволяет изменить композицию картины. Т.к. любая точка, запятая, пробел, перенос и пук в воздух способны изменить композицию или добавить некий эффект к генерируемой картинке, то применение улучшающих токенов с КОНТРОЛЬРУЕМЫМ результатом дело неблагодарное, но тем не менее я попытаюсь довести суть всех улучшалок вместе взятых в данном разделе.
Краткие выводы
Любой токен нужно применять осознано, особенно это касается улучшалок, ибо они делают не совсем то, для чего предназначаются. А ещё лучше разбить токен на составляющие по его назначению и применять уже эти составляющие. Например HDR "должен" добавлять яркость в тёмных участках, увеличивая тем самым детальность и добавляя реализм, добавляя блики и отражения, эпичное небо, эпик тени и освещение - помимо всего прочего именно это и предполагает наличие HDR. Может тогда заменить этот токен его составляющими и получить больше контроля?
И ещё, если вам нужны детализированные объекты - опишите их как можно подробнее, не можете описать - тогда тупо пропишите на что обратить внимание при генерации, банально перечислив элементы объекта на картине. Если вам нужно красивое освещение и тени - уделите пару слов этим эффектам.
исходники для быстрого доступа
полезные материалы
...
Настройки
Для анализа токенов нам необходимо исключить влияние сторонних токенов, поэтому применять знаменитость нельзя, как и длинную подсказку. В подсказке нам понадобится занять большую часть центральной композицию главным объектом - человеком с помощью OpenPose (т.е. без описания в подсказке, т.к. сам персонаж сильно влияет на исследуемые токены), передний фон (листья папоротника), средний план (ветка дерева полученная на конкретном seed), задний фон (в виде леса) и источник света (луна). Сюжет "ночью", т.к. токены будут выводить картинку в день, а на дневной картинке некоторые эффекты будут нивелированы.
Ниже два Prompt: для теста позы с длинной подсказкой и лица с токеном вместо подсказки, в обоих случаях используется ControlNet для сохранения позы, что бы легче увидеть изменения.
night, Moon light, on the grass in the forest, (ПАРАМЕТР:0.1), in the foreground is a fern
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), dot, mole, lowres, cropped, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 7, Size: 512x768, Model hash: ec41bd2a82, Model: photon_v1, Style Selector Enabled: True, Style Selector Randomize: False, Style Selector Style: base, ControlNet 0: "Module: none, Model: controlnet11Models_openpose [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0-2-g4afaaf8a
(ПАРАМЕТР:1.4)
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 8, Size: 768x768, Model hash: ec41bd2a82, Model: photon_v1, Clip skip: 2, Style Selector Enabled: True, Style Selector Randomize: False, Style Selector Style: base, ControlNet 0: "Module: none, Model: controlnet11Models_openpose [73c2b67d], Weight: 1, Resize Mode: Crop and Resize, Low Vram: False, Processor Res: 512, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced", Version: v1.6.0-2-g4afaaf8a
Основные тесты
улучшалки HD, HDR, 8K, и т.д.
Сравнение на моделях PhotonV1 и dreamshaper8. Сила веса 0.1 и 1.4
На первом изменило композицию по сути превратив ночь в день, на другой модели отработало получше но есть одно НО, об этом в конце экспериментов в данном блоке.
немного выводов
HDR (High Dynamic Range) - это тоже метод в фотографии, отличается от обычных фотографий тем, что охватывают больший диапазон яркости, что делает их более живыми и реалистичными. Таким образом, фотографии более красочные и детальные. HDR делает засвеченные участки менее яркими, а тёмные наоборот посветлее обнажая тем самым детали скрытые в свете или темноте.
В контексте SD, по факту, токен HDR зависят от контекста подсказки и используемой модели, но в целом можно выделить рад закономерностей, но не правил:
- токен влияет на реалистичность картинки которая изначально была нереалистичной, мультяшной и то, при условии использования универсальной модели способной делать как мульты так и реализм
- на изначально реалистичной картинке всё зависит от подсказки, при этом может либо ничего не происходить, либо может добавить источники света, отражения с бликами, тени поубавить, в конце концов может изменить композицию - например у нас из ночной композиции стала дневной.
- на моделях предназначенных только для реализма или только для мульта - эффект от применения токена не гарантирован и зачастую отличается неким свойством похожим на самовнушение: "Видишь HDR? Нет? А он Есть!".
- Если ну прям горит как хочется применить токен (все же его пишут), тогда токен следует помещать после описания деталей композиции.
Итог: HDR можно заменить токенами: освещения, детальности, реализма, бликами и отражениями, эпичным небом - именно это и предполагает наличие HDR в SD, и хоть это не то что на самом деле должен делать данный токен в композиции. Токен не поправляет картину как положено, а изменяет её на своё усмотрение. В случае отдельных токенов (если лепить не сразу все и вдумчиво) Вы получите более контролируемый результат, в то время как HDR - непредсказуем.
Тесты
Сравнение на моделях PhotonV1 и dreamshaper8. Сила веса 0.1 и 1.4
HD
HD - означает высокую четкость (High Definition). Когда говорят о фотографиях в HD, это обычно означает, что изображение имеет высокое разрешение и детализацию. Это важно для фотолюбителя, потому что чем выше разрешение фотографии, тем более ясные и детализированные детали можно увидеть на снимке. Такие фотографии обычно выглядят более четкими и профессиональными.
В контексте SD, в нашем случае на модели Photon, токен HD сохранил композицию и сделал более детализированными затемнённые участки... А вот на последнем тесте сисечки появились, ну разве не прелесть?
2K,8K,16K,32K
2K,8K,16K,32K - якобы волшебные токены способные взорвать мозг смотрящему на сгенерированное с их помощью изображение.
Есть два способа применения токенов, на "свободной" подсказке и на "ограниченной" каким-либо расширением которое не позволяет изменить композицию картины.
В первом случае текущие токены могут немного насыпать новых объектов, а во втором случае эффект схож с HDR.
Но суть 4K/8K и прочих - не в появлении дополнительных пуговиц на одежде, а в более чёткой прорисовке существующих деталей, повышении их контрастности и чёткости, Сделать вышеперечисленное без фактического увеличения изображения приводит к тому, что SD вынужден придумывать то не знаю что. В итоге ночь превращается в день что бы подсветить детали, и начинают придумываться новые.
Сравнение на моделях PhotonV1 и dreamshaper8. Сила веса 0.1 и 1.4
High bit depth
High bit depth - означает, что каждый пиксель изображения может содержать больше информации о цвете. Простыми словами, чем выше битовая глубина, тем больше оттенков цвета может быть запечатлено в каждом пикселе фотографии. Это позволяет более точно и детально передавать цвета, особенно в условиях сложного освещения или при обработке изображений.
А по факту для SD смотрим конец блока про улучшалки.
Сравнение на моделях PhotonV1 и dreamshaper8. Сила веса 0.1 и 1.4
Precision exposure
Precision exposure (точное экспонирование) в фотографии означает правильное измерение и выбор параметров экспозиции (времени выдержки, диафрагмы и ISO) для получения оптимального кадра. Это важно для того, чтобы избежать пере- или недоэкспозиции фотографии.
Если говорить проще, точное экспонирование помогает добиться правильной яркости и контрастности изображения, чтобы объекты на фотографии выглядели естественно и детали были хорошо видны. Это особенно важно, когда вы фотографируете в различных условиях освещения, например, при ярком солнце или в темном помещении.
Сравнение на моделях PhotonV1 и dreamshaper8. Сила веса 0.1 и 1.4
simsalabim
simsalabim - новый супер дупер токен выводящий ваше творчество на новый, богоподобный, сверх человеческий уровень!! Заменяет сразу все HD, HDR, 4K,8K,16K ... А если серьёзно, этот тест сделан после всех предыдущих специально, что бы показать как можно легко и просто заблудиться среди всех этих улучшалок. Благодаря тесту можно понять, что если SD не знает что делает токен, а модель специально не обучена токену, то начинает его объяснять по-своему, а если не может объяснить, то пытается сделать получше, предположив, что нужно чуть деталей сыпануть, свету больше, бликов, тени ярче, цвета посочнее... А мы такие "Вау" как клёво работает и давай пихать во всё подряд эти HD, 4K и прочее.
И тут мы приходим к логическому умозаключению: если Вы планируете добавить волшебный токен исходя из его назначения, то делайте это не с помощью этого токена, а с помощью составляющих на которые должен влиять этот токен. Тогда и только тогда, Вы сможете контролировать результат сами, а не наслаждаться абракадаброй сгенерированной нейросетью.
Abracadabra и прочее
Вот кратенький список паразитов, кроме тех случаев, когда разработчик модели специально тренировал эти токены:
- adobe lightroom
- photolab
- professional photograph
- magical photography
- masterpiece
- HD,4K,8K...highres
Ultra-sharp focus - ультрачёткий фокус
Deep color accuracy - глубокая точность цвета
Crystal-clear image - кристально чистое изображение
HDR imaging - HDR-имиджинг
Lifelike textures - реалистичные текстуры ткани
Realistic skin texture - реалистичная структура кожи
Realistic object structures - реалистичные структуры объектов
Realistic skin tones - реалистичные тона кожи
8K wallpaper - обои в разрешении 8K
Fine art quality - качество изобразительного искусства
High bit depth - высокая глубина бит
Precision exposure - точная экспозиция
Optimal white balance - оптимальный баланс белого
State-of-the-art optics - передовая оптика
Large sensor size - большой размер сенсора
Perfect composition - идеальная композиция
High-end retouching - высококачественная ретушь
Color grading - цветокоррекция
Advanced post-processing - продвинутая после производственная обработка
Каждое такое слово или словосочетание равносильно "А сделай-ка немного получше чего-нибудь и как-нибудь", в результате нейросеть пыжится сделать то, не знаю что. А хуже всего когда токен состоит из нескольких слов, и одно из них отвечает за какой-либо предмет или целую сцену: STUDIO, OPTICS, SENSOR...
В доказательство проведём пару примеров
Тест 1
Нарисуем мужчину в машине посреди леса, в первом случае используем все ништяки, во втором тупо перечислим элементы на которые стоит обратить внимание - т.е. даже не будем прописывать какими именно должны быть эти элементы.
Тест 2
Нарисуем лес, луну, тропинку.
Заключительный вывод
Если есть возможность немного подумайте прежде чем писать токен, ответьте на вопрос: "Что я хочу получить от применения токена?". Потом просто напишите, свой ответ. Любое знакомое для SD слово будет делать акцент на элементе или эффекте которое оно олицетворяет и прорисовывать его более тщательно. Чем проще токен, тем больше вероятность что SD его знает. Если SD не знает введённое слово, то он попытается сделать "получше" накидав деталей, отражений, теней, цвета и прочего что якобы должно удовлетворить Вас и заодно ещё пару миллиардов кожаных мешков с костями.
Тем не менее, есть модели. которые на новом наборе изображений и тегов сформированных скажем на GPT4+ способны проявить тот или иной токен, но это скорее всего исключение, нежели правило. С каждой моделью нужно экспериментировать и с появлением новых токенов будет ситуация меняться как в одну, так и в другую сторону, будьте бдительны, проверяйте.