depth
Препроцессоры Depth создают карту глубины, где более светлый цвет показывает более близкое расположение к камере, тёмный цвет - отдаляет объект. Приоритет идёт на маску, даже если установить приоритет описания. Данный препроцессор идеально подхлдит если объект в описании по пропорциям схож с маской
оригиналы
Возьмём для примера два разных описания - одно короткое, другое длинное по описанию. Сгенерируем по этим подсказкам изображения. Первое (киборг ангел) будем помещать в главное окно ControlNet для препроцессора глубины - что бы получить маску. А из второго изображения будем использовать только описание, и попробуем вписать его в очертания маски.
Внимание, всегда следует иметь ввиду: вписать впихуемое, например человека в ангела с крыльями, можно без проблем. А вот вписать невпихуемое, например впихнуть киборга с крыльями в очертания обычного человека - получится поместить только киборга.
Preprocessor- это то, что подготавливает загруженное в ControlNet изображение для последующей обработки одной из его моделей, т.к. именно на определённый тип входящего изображения заточена та или иная модель. Обычно, препроцессоры и модели для работы с ними поделены на группы в каждой из которых можно выбрать свой препроцессор и подходящую модель. Но в целом, можно подгрузить результат препроцессора в любую модель, и использовать или не использовать препроцессор для дальнейшей работы модели.
Если предполагается генерировать много картинок на одних и тех же настройках, то можно перетащить результат работы препроцессора в основное окно ControlNet и отключить препроцессор, там самым мы будем экономить время на его обработку!
Изображение обычно помещаемое в главное окно ControlNet:
cyborg with angel wings
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2)
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 17, Size: 768x768, Model hash: f57b21e57b, Model: revAnimated_v121, VAE hash: 15e96204c9, VAE: blessed2.vae.pt, Clip skip: 2, Version: v1.6.0
Изображение от которого берётся описание и параметры генерации:
1girl, upper body, (dutch angle:1.5), wearing leather dress with cowboy hats leather shoes, holding gun aiming toward viewer, grin, blonde hair, freckles, inside old wild west trains, dessert dust, motion blur, one eye closed
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2)
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 31, Size: 768x768, Model hash: f57b21e57b, Model: revAnimated_v121, VAE hash: 15e96204c9, VAE: blessed2.vae.pt, Clip skip: 2, Version: v1.6.0
настройки для тестов
- Control weight = 1. Чем больше - тем больше придерживается линий и меньше описания. В некоторых случаях его необходимо уменьшить, иначе получим "пережжённое" изображение, как в примере с lineart_standart.
- Starting Control Step = 0. Начальный шаг срабатывания ControlNet в % от общего количества шагов, где 1 =100%. До этого генерируется основное описание с негативом, ControlNet не задействуется.
- Ending Control Step = 1. Соответственно, конечный шаг срабатывания controlNet в % от общего количества шагов, опять таки где 1 = 100%. После этого показателя, нейросеть пытается преобразовать картинку в то, что написано в описании, ControlNet отключается а основная модель попытается слепить конфетку из того что есть. Акцент будет идти не только на подсказку, но и на то что уже было сгенерировано, выравнивая всю картину под описание - это важно помнить! Чем больше интервал - тем меньше шансов модели выровнять композицию под описание, приходится вписываться в изображение подготовленное препроцессором.
- Control Mode = balanced. Есть ещё либо больше приоритет на описание, либо больше приоритет на полученное препроцессором изображение. balanced - старается учесть и входящее изображение и описание.
Для препроцессора depth_leres | depth_leres++ есть дополнительные настройки:
Remove Near % - удаляет близко лежащие пиксели, своего рода обрезает ножом часть пирога спереди, в итоге изображение спереди получается плоским, но сохраняется глубина заднего фона
Remove Background % - аналогично обрезает, но только начиная с фона.
Для тестов мы ничего обрезать не будем.
depth_leres
depth_midas
depth_leres++
depth_zoe
depth_anything
Это одна из последних моделей - отличается более точным выделением центральных объектов особенно в сложных сценах.
Кроме того есть специальные модели под это дело