PuLID - замена лица

Кратко по комбинациям Preprocessor и Model:

Расширения для SD

Для замены лица с помощью SD нам понадобятся: FaceSwapLab, ReActor и IP-Adapter или Instant_ID

IP-Adapter — это препроцессоры и модели ControlNet, которые позволяют использовать референс - изображение в качестве подсказки для: позы, стиля, элементов композиции или лица. Огромным плюсом IP-Adapter является то, что он может заменять не только лица, но и его части, а так же части тела или одежду в стиле референса. Для использования этого инструмента, нам понадобятся модели:

Вариант с Instant_ID более требователен к ресурсам ибо работает только на XL (на февраль 2024) - результат конечно есть и он хороший, позволяет в целом получить неплохой результат используя только ControlNet. Тем же кто решиться на эксперимент нужно обновить controlnet до версии не ниже V1.1.440, скачать две модели в папку /models/ControlNet, затем переименовать их как показано ниже с сохранением расширения: ip-adapter_instant_id_sdxl И control_instant_id_sdxl. Затем используя две вкладки подрубить обе модели с соответствующими препроцессорами, подробнее в таблице ниже. На системах с видеопамятью 12 ГБ и ниже, на вкладках Controlnet рекомендую включать галочку "Low VRAM" - иначе будите отлетать по памяти.

Так же нам понадобятся регулировки Control Weight - сила с которой будет копироваться стиль, Starting Control Step и Ending Control Step - Начальный шаг и конечный шаг включения в работу модели ControlNet.

FaceSwapLab, ReActor - это расширения конкретно предназначенные для замены лиц, первое с кучей настроек, второе попроще. Но суть сводится к "Натягиванию" лица на исходник, ещё проще представить как наложение грима в соответствии с референсом, т.е. голова полностью не перерисовывается, а следовательно исходник (форма черепа и разворот) должен быть как можно больше подходить под референс. Плюсом этих расширений является сохранение исходной композиции.

PuLID - одно из последних расширений для замены лица, отличается заменой с сохранением стиля и работой на XL Lighting модели, что должно быть довольно быстро. Для установки расширения нужно перейти на страницу разработчика. Согласно инструкции для автоматика1111 установить расширение через ссылку https://github.com/huchenlei/sd-webui-controlnet-evaclip.git Затем нужно скачать модель для ip-adapter и поместить её в ...\webui\models\ControlNet\ Ну и последнее, нам понадобится XL Lighting модель, например вот такая. Для ComfyUI своя история установки.

Самое замечательное - это то, что всё это может работать одновременно!

Образно, на начало 2024г. препроцессоры и модели можно поделить на sd15 и XL. На XL модели действуют связки ip-adapter_face_id + ip-adapter-faceid_sdxl и ip-adapter_clip_sdxl + ip-adapter-plus_sdxl_vit-h и ip-adapter_face_id_plus + ip-adapter-faceid-plusv2_sdxl но для XL обязательно уменьшаем CFG, незабываем включить соответствующую лору в описание. XL вариант (ip-adapter_clip_sdxl + ip-adapter-plus_sdxl_vit-h) - отлично подходит для замены на нечеловеческое лицо в режиме inpaint через маску. Поэтому вариант XL будем рассматривать только в случае крайней необходимости.

*С выходом новой версии controlnet появилась возможность автоматически выбирать Preprocessor в зависимости от используемой версии основной модели генерации.

Варианты замены лиц111

Существует несколько способов замены лиц222:

Если личность популярная, достаточно вписать её в подсказку. Можно воспользоваться не только именем Актёра, но и именем персонажа. Это самый лучший и простой вариант замены лиц, но нейросеть должна знать вашего героя.
Воспользоваться LoRA/LyCORIS/Embedding - минимодели натренированные на фотографиях необходимого персонажа, дополняют основную модель генерации. Качество обычно хорошее и естественно не все физиономии есть в наличии. Скачать большинство можно с Civitai.
Воспользоваться расширениями предназначенными для замены лиц ReActor или FaceSwapLab, а так же последним вышедшим расширением PuLID. Есть ещё Roop - но на текущий момент он не поддерживается.
Через ControlNet с помощью IP-Adapter или Instant_ID.
Нарисовать самому.

У каждого решения есть свои сильные и слабые стороны. Рассмотрим сложнейший вариант - допустим у нас непопулярный персонаж (ну или мы запамятовали его имя), LoRA и прочего нет на Civitai, а самим не хочется тренировать. В таком случае, самым универсальным и простым решением будет установить Controlnet (IP-Adapter) и расширения для замены лиц ReActor или FaceSwapLab. Именно эти варианты и их сочетания мы и рассмотрим в текущем материале.

Замена лица, части, тела, одежды и прочее

ReActor или FaceSwapLab и IP-Adapter

примеры

А есть ли кратенький пересказ, что бы всё не читать?

Краткие выводы

Нет, нету. Точно нету. Наберитесь терпения, далее я размещу настройки для быстрого доступа в зависимости от режима работы txt2img или img2img. однако рекомендую ознакомиться с тестами.

Основные настройки для txt2img

Идеальный, универсальный рецепт состоит из одной, двух или всех трёх частей:

Получение формы черепа соответствующей референсу (ip-adapter)
Наложение грима на полученный череп (FaceswapLab и ReActor)
Увеличение изображения с устранением косяков.

Результат будет зависеть от того что вы хотите:

Сгенерировать картину с новым лицом
Сгенерировать окружение вокруг лица
заменить лицо на существующем изображении, при этом у Вас может иметься исходный Prompt, так и не быть его.

При этом следует придерживаться следующих моментов:

Подсказка не должна конфликтовать с референсом. Подсказка служит для согласования стиля референса и генерируемого изображения, она должна включать не только то что вы хотите сгенерировать, но и описание референса, если не можете описать то воспользуйтесь расширением interrogator. Подсказка меняет референс, вплоть до того что может всё испортить - поэтому не стоит писать отсебятину, пишем только конкретику согласующуюся с референсом. В данном случае лучше не дописать чем переписать. В режиме img2img подсказку можете не писать, лору прописывать обязательно при использовании FaceID.
В Controlnet закидываем референс - от него многое зависит, можно и на первом этапе получить отличный результат, особенно на XL модели. Если используем маску то желательно что бы референс имел как можно больше общего с исходником. Стиль референса лица (цвета, эффекты и прочее) в любом случае будут оказывать влияние на исходник. Control Weight = 1.3 постепенно можно увеличить до 2, в зависимости от используемой модели для генерации. Во вкладку Multi-input можно помещать несколько референсов - актуально если есть несколько фоток с небольшим изменением ракурса лица или освещением. Рядом с препроцессором щёлкаем солнышко, не должно быть ошибок в консоли, иначе меняем референс. face_id и PuLID препроцессор более привередлив к лицу на референсе, нежели другие, иногда требует более отдалённый портрет нежели обрезанное лицо. Preprocessor и Model Подбираем согласно таблице и используемой модели для генерации, в последних версиях Controlnet появилась возможность автоматического выбора Preprocessor если выставить ip-adapter-auto. XL - требует ресурсов больше, но результат лучше чем SD1.5 уже на первом этапе.
Другие настройки:
CFG=1 для lighting моделей, и CFG=7 для обычной XL или SD1.5
Разрешение выбираем согласно рекомендациям к модели и вашего соотношения.
Семплер опять-таки выбираем исходя из рекомендаций к моделям, Неплохо отрабатывает Sampler=DPM++ SDE Karras или DPM++ SDE SGM Uniform (обязательны для lighting/Turbo моделей).
Количество шагов так же подбираем исходя из модели, для Lighting (Turbo)=4-12, для обычных моделей 20 или чуть больше.
Если итоговый результат с одним только применением ip-adapter нас не устраивает (и перепробовали все референсные фотки с лицом), тогда включаем FaceSwapLab и ReActor в каждый из которых по возможности засовываем немного отличающиеся референсы. Решающий референс будет FaceSwapLab, т.к. он отрабатывает последним. В этом случае задача ip-adapter сводится к формированию правильной формы черепа, не более.
Последовательность запуска расширений для замены лиц играет решающую роль. при желании последовательность можно поменять в настройках SD. Дело в том, что по умолчанию сначала запускается IP-Adapter, а уже на полученный результат накладывается ReActor, и уже затем в FaceSwapLab - это при их одновременной активации. Ещё точнее, IP-Adapter получает позу лица (форму черепа, ориентацию лица относительно камеры, и мимику), а уже затем с каждым шагом накладывает лицо и стиль с референса на генерацию. После получения некоего результата, это изображение отправляется в ReActor и только затем уже в FaceSwapLab. И чем лучше будет результат на каждом этапе, тем лучше будет общий результат. Решающее значение будет иметь референс лица помещённый в последнее включенное расширение, (IP-Adapter, ReActor или FaceSwapLab). В этом же последнем расширении нужно включить Restore face выбрав из списка CodeFormer или GFPGAN, тем самым мы устраним размытость при замене лица.
Для сохранения исходной композиции оригинала - нужно использовать маску в режиме img2img в inpaint вкладке, DS ставим 0.75, и постепенно понижаем до 0.5 - особенно актуально для сложной эмоции на оригинале. На этой же вкладке можно менять часть лица, лицо человека на нечеловеческое, одежду, тело или его часть на референсное (FaceID модели подойдут только для лица человека).
Для передачи стиля из подсказки необходимо понизить параметр в controlnet под названием Control Weight в район 0.5-0.8 и прервать влияние Controlnet на определённом этапе используя параметр Ending Control Step - попробовать интервал 0.25-0.4. Так же для передачи стиля рекомендуется использовать модель ip-adapter_pulid_sdxl_fp16 и тогда можно меньше заморачиваться с дополнительными параметрами, т.к. эта модель хорошо передаёт стиль.
Для замены на нечеловеческие лица, отлично подходит XL связка препроцессора ip-adapter_clip_sdxl и модели ip-adapter-plus_sdxl_vit-h на разрешении 1024-1024 px.
Вместо ip-adapter Вы можете воспользоваться Instant_ID. В этом случае Lora не понадобится, но нужно использовать 2 вкладки Controlnet. С второй вкладки будет браться только расположение лица по глазам и рту, можно подсовывать любое изображение. При этом на вкладках нужно выбрать соответствующие препроцессоры и заранее скачанные модели (см. таблицу). Этот вариант актуален для большей стилизации вставляемого лица под описание или согласование в режиме img2img. Но также, данный вариант более требователен к видеопамяти, поэтому в Controlnet рекомендую включать галочку Low_RAM если видео памяти менее 12ГБ.

Внимание: для увеличения изображения с одновременным улучшением на заключительном этапе можно воспользоваться программкой из серии Topaz - работает быстро, но качество для заменённых лиц заметно выше всё же в SD если внимательно ознакомиться с пунктом "увеличение изображения после замены лица"

Дополнительные настройки для img2img

Настройки дополняют указанные в разделе для txt2img.

Для img2img в режиме inpaint:

Выделяете маской всё лицо или его часть на исходнике, предварительно загрузив изображение в главное окно вкладки inpaint
Mask blur отвечает за размытие в месте пересечения генерации и вашего исходника, если видите чёткую границу - то можно увеличить. Если видите искажение генерации на границе - то уменьшайте.
Mask mode = Inpaint masked (рисовать в маске)
Masked content = original (делать акцент на оригинальном изображении - на повороте головы, на стиле и прочем)
Inpaint area = Whole picture (особо важно при использовании IP-Adapter, будет ли брать кусок аналогичный маске с референса или использовать всю картину, нам нужна вся картина, т.к. расположение лица на референсе зачастую не совпадает с расположением на загруженном в inpaint изображении)
Only masked padding, pixels = 32 (количество пикселей которые можно подсмотреть и заменить в случае надобности. Чем точнее нужно вписать в маску - тем меньше нужно ставить значение, и наоборот)
Sampling method и Steps выбираем исходя из рекомендаций к основной модели.
Жмём обязательно на треугольник в разделе отвечающем за разрешение исходника загруженного в inpaint. Разрешение должно быть пропорционально соотношению исходника и не превышать рекомендуемых для главной модели значений.
Для SD1.5 CFG Scale = 7 (оставляем по умолчанию, меняем если у нас есть подсказка и в соответствии с общими рекомендациями по данному параметру), Для XL CFG Scale = 1.
Для SD1.5 можно варьировать Denoising strength = 0.5 - 0.6 (отвечает за силу с которой допускается вносить изменения в исходник или с каким остервенением следовать референсу помещённому в IP-Adapter, на FaceSwapLab и ReActor - не влияет). Для XL ставим 0.75
Seed можете покрутить если прям всё хорошо, но хотелось бы чуть иначе, например родинка не там, серёжку с референса не получили...)

Для IP-Adapter в режиме img2img:

В ControlNet включаем "Upload independent control image" - для того, что бы можно было загрузить картинку с референсным лицом
Control Weight=1.3

Важные мелочи

Важные мелочи:

Применение разных референсов изображения лица в разных расширениях актуально на сложных генерациях с выразительной мимикой или дополнительными элементами на лице и голове. Ещё раз повторю, обязательно проверяем распознавание лица на референсе с помощью кнопочки солнышка рядом с препроцессором - ошибок быть не должно, иначе меняем фотку референса.

Если мы работаем через маску в режиме inpaint - то лучше использовать фото референса как можно с большими совпадениями c исходником по стилю, эмоциям и развороту головы. Для режима txt2img при новой генерации это менее критично, т.к. новая генерация будет подстраиваться под референс при использовании ip-adapter. Так же в этом режиме для передачи стиля на референс лучше всего использовать варианты с Faceid и модели XL.

Для режима inpaint основную модель генерации нужно подбирать исходя из стиля исходника на котором нужно заменить лицо. Например, если исходник Аниме, то и модель для генерации стоит подбирать подходящую, которая может нарисовать в подобном стиле, если исходник фото реального человека - то и модель соответственно должна быть заточена под реализм и в описании не забывать прописывать соответствующие стили.

Разрешение и качество референса должно быть достаточным для чёткого определения личности, можете показать референс своей бабушке и попросить сказать кто изображён на фото 😛 Требования к референсу: что бы вы сами могли отличить черты лица с первого взгляда, достаточно разрешения 258-258 px при условии что само лицо (черты лица) чётко различимо, но лучше подбирать исходя из разрешения рекомендуемого для модели генерации, не стоит выходить за пределы этих рекомендаций.

Для ReActor и FaceSwapLab важен исходник лица полученный на предыдущем этапе (от Controlnet), точнее важна форма черепа, положение в пространстве, расположение глаз, губ, бровей с глазами, и менее важны сами черты, т.к. на всё это всё равно будет натягиваться маска референса, это можно сравнить с наложением грима. А вот IP-Adapter - уже меньше зависит от исходника, ибо он меняет физически голову, а чтобы не смотрелся как Франкенштейн, то меняется и вся композиция в соответствии с референсом. Все варианты в той или иной степени берут стиль с референса, в том числе и Faceid так же влияет на стиль всей картины если лицо имеет явно выраженные признаки.

Для ControlNet с FaceID требуется более отдалённый план референса, в то время как для ip-adapter_clip чем крупнее лицо и меньше лишних деталей на картине - тем лучше. Если будет использоваться только ControlNet с FaceID - подсказку делайте покороче.

Если что-то непохоже получается, проверяйте включение нужного расширения, нет ли ошибок в консоли, замените референс, проверьте правильную ли Lora вставили в подсказку.

ИСХОДНИКИ

Можете воспользоваться перетаскиванием картинки в окно автоматика - для вставки prompt. "Исходник 1" имеет явные противоречия в подсказке, но тем интереснее эксперимент. На боевой подсказке, никаких знаменитостей или несогласованностей с референсом быть недолжно.

примечание

В интернете вы найдёте довольно много полезной информации по представленным расширениям и не только. Наша задача будет провести дополнительные тесты и попытаться найти новые решения, а так же структурировать знания для быстрого применения. Конечно, для конечного результата требуется ещё ряд манипуляций по улучшению качества, но тут мы разбираем только саму замену лица и фокусы с заменой частей тела, одежды и прочего.

Примечание к "Исходнику 1" - используемая в нём подсказки весьма противоречивая, мало того что там известная актриса, так ещё и брутальный мужик. Тем интереснее увидеть отработку референса женщины.

Основные тесты

XL и ip-adapter / InstantID

Первый этап по замене лица

XL lightig - это турбо модель, отличительной особенностью которого служит уменьшенное количество шагов и CFG. В результате получаем более высокое качество на высокой скорости. Для тестов будем использовать модель dreamshaperXL_lightningDPMSDE с Civitai.

Под "обычной XL моделью" будем понимать не базовую, а уже модифицированную. В примерах будем рассматривать модель juggernautXL_v9Rundiffusionphoto2.

Под первым этапом будем понимать получение правильной форм черепа и основные черты лица. Иногда, особенно при использовании XL моделей, хватает только этого этапа для поучения качественного изображения небольшой фотографии. Если этого мало - тогда приступаем ко второму и/или третьему этапу.

Идеальный, универсальный XL рецепт:

Подсказка должна быть лаконичной, согласующейся с референсом. Чем короче - тем лучше.
Для XL Lighting шагов достаточно 4, для обычной XL хватает 20. Разрешение ставим побольше - так как у нас уже XL модель, например 1024 на 1024 если у вас соотношение сторон квадратное. Обычная XL модель является более универсальным и предпочтительным вариантом для замены лиц. Turbo модели быстрее справляются с задачами и имеют неплохой результат в режиме img2img поэтому вполне могут сгодиться для сценариев с пакетной заменой лиц, например для видео.
Для XL Lighting выбираем семплер DPM++ SDE Karras, для обычной XL семплер можем выбрать другой.
CFG=2 и постепенно увеличиваем до выполнения подсказки или уменьшаем устраняя эффект пережаренности. Для нечеловеческих лиц или не реалистичной стилистики можно выставить по умолчанию на 7. Этот параметр напрямую зависит от подсказки, используемой модели для генерации, качества референса фото и расположения звёзд на небе.
В Controlnet выбираем один из вариантов:
1) Preprocessor=ip-adapter_face_id_plus + Model=ip-adapter-faceid-plusv2_sdxl + в подсказку <lora:ip-adapter-faceid-plusv2_sdxl_lora:1>
2) Preprocessor=ip-adapter_face_id + Model=ip-adapter-faceid_sdxl + в подсказку <lora:ip-adapter-faceid_sdxl_lora:1>
3) При использовании Instant_ID включаете одновременно две вкладки Preprocessor=instant_id_face_embedding + Model=ip-adapter_instant_id_sdxl и Preprocessor=instant_id_face_keypoints + Model=ip-control_instant_id_sdxl, с первой вкладки будет браться референс лица, а со второй расположение головы (глаз и рта).
Повышаем параметр Control Weight=1.3 (для IP-Adapter или первой вкладки с Instant_ID)
Если будем использовать img2img то референс подгружаем непосредственно в Controlnet. Для этого там есть галочка Upload independent control image.

Исходник и референс

Примечания

Только на самом маленьком CFG получилось добиться сходства с референсом (фото). Хорошие результаты получились в режиме txt2img и img2img. В режиме inpaint c маской на лице - результат требует дальнейших манипуляций. Поэтому желательно сразу генерировать с референсом дабы согласовать его стиль с генерируемой картинкой. Однако применение InstantID позволяет гораздо лучше согласовать исходник с референсом как в режиме полноценной генерации, так и в режиме маски.

XL lighting подходит только для режима img2img без маски, в остальных тестах победила "обычная" XL модель. Вариант с турбо актуален для пакетной генерации, например кадров из видео.

В режиме txt2img и img2img для InstantID происходит генерация картинки исходя из описания или стиля референса. А вот в режиме маски - лицо подстраивается под стиль исходника, что является отличительной особенностью применения InstantID.

InstantID можно комбинировать с IP-Adapter для копирования стиля, из особенностей - потребуется понизить вес немного у InstantID.

Тесты

Сравнение ip-adapter_face_id и ip-adapter_face_id_plus

txt2img + IP-Adapter

Сгенерируем картинку по описанию от исходника, в Controlnet закинем референс лица. Проверим на моделях XL и XL Lighting (turbo).

Используя разные семплеры убедимся в возможности применения DPM++ SDE Karras в качестве оптимального решения для Turbo моделей и в возможности поиграться другими семплерами на "обычной" модели XL.
Проверим разные препроцессоры и модели к ним при одинаковых настройках. Напомню что CFG=1 и обязательно прописываем соответствующую lora (см. таблицу в начале)

Сравнение ip-adapter_face_id и ip-adapter_face_id_plus с соответствующими моделями и Lora в подсказке:

juggernautXL_v9Rundiffusionphoto2-Kate Beckinsale Underworld full body shot aughing white-642287368-Time_20240225114014

juggernautXL_v9Rundiffusionphoto2-Kate Beckinsale Underworld full body shot aughing white-642287368-Time_20240225113407

Instant_ID тест позы головы

txt2img + Instant_ID

Не отходя далеко от кассы, здесь следует сравнить применение Instant_ID. А именно, в первой вкладку поместим референс, во вторую исходник (для позы головы). Никакая Lora в описании нам не нужна. Целью данного сравнения является показать как действует вторая вкладка - поза головы, а точнее глаз и рта.

juggernautXL_v9Rundiffusionphoto2-Kate Beckinsale Underworld full body shot aughing white-642287368-Time_20240313133610

XL и Lighting модели, тест на разных семплерах

txt2img + IP-Adapter

Проверим ip-adapter_face_id и ip-adapter_face_id_plus с соответствующими моделями и Lora в подсказке с разными Sampler на "обычной" модели XL и Lighting.

Тест параметра Denoising strength на разных препроцессорах Lighting и обычной XL модели

img2img + IP-Adapter

Поместим исходник в главное окно img2img. А в Controlnet референс. В описание незабываем добавить lora - <lora:ip-adapter-faceid-plusv2_sdxl_lora:1> или <lora:ip-adapter-faceid_sdxl_lora:1> в зависимости от препроцессора и модели (см. таблицу).

Выставим разрешение согласно вашему соотношению, у меня квадрат поэтому выставил 1024-1024. Sampler=DPM++ SDE Karras и 4 шага (т.к. lighting модель).

Описание от референса не вставляем. Чем меньше Denoising strength, тем больше исходника, обычно хватает значение по умолчанию 0.75 или меньше.

Ниже сравнение на Denoising strength=0.5 и 0.75 на примере XL lighting на разных препроцессорах:

dreamshaperXL_lightningDPMSDE-lora ip adapter faceid plusv2 sdxl lora 1-1-Time_20240223161635

dreamshaperXL_lightningDPMSDE-lora ip adapter faceid plusv2 sdxl lora 1-1-Time_20240223155624

dreamshaperXL_lightningDPMSDE-lora ip adapter faceid sdxl lora 1-1-Time_20240224102237

dreamshaperXL_lightningDPMSDE-lora ip adapter faceid sdxl lora 1-1-Time_20240224101821

Ниже сравнение на Denoising strength=0.5 и 0.75 на примере обычной XL на разных препроцессорах:

juggernautXL_v9Rundiffusionphoto2-lora ip adapter faceid sdxl lora 1-1-Time_20240224130112

juggernautXL_v9Rundiffusionphoto2-lora ip adapter faceid sdxl lora 1-1-Time_20240224130028

juggernautXL_v9Rundiffusionphoto2-lora ip adapter faceid plusv2 sdxl lora 1-1-Time_20240224125545

juggernautXL_v9Rundiffusionphoto2-lora ip adapter faceid plusv2 sdxl lora 1-1-Time_20240224125717

inpaint маска + IP-Adapter

Поместим исходник в главное окно inpaint. маской выделим лицо с "запасом" для нового черепа. Mask mode=Inpaint masked (рисовать в маске). А в Controlnet кладём референс. Т.к. стиль референса может значительно отличаться по стилю от исходника, то в данном режиме важно грамотно подобрать (скопировать от исходника) подсказку. В описание незабываем добавить lora - <lora:ip-adapter-faceid-plusv2_sdxl_lora:1>.Чем меньше Denoising strength, тем больше исходника, обычно хватает значение по умолчанию 0.75. Разрешение для XL ставим исходя из пропорций оригинала, в данном случае оригинал квадратный, поэтому поставил разрешение 1024-1024 и Inpaint area=Whole picture. Чуть ниже сравнение XL lighting и обычной XL модели.

juggernautXL_v9Rundiffusionphoto2-Kate Beckinsale Underworld full body shot aughing white-1-Time_20240223172741

dreamshaperXL_lightningDPMSDE-Kate Beckinsale Underworld full body shot aughing white-1-Time_20240223171846

inpaint маска + Instant_ID

Чем меньше Denoising strength, тем больше исходника, обычно хватает значение по умолчанию 0.75. Разрешение для XL ставим исходя из пропорций оригинала, в данном случае оригинал квадратный, поэтому поставил разрешение 1024-1024 и Inpaint area=Whole picture. Снова сравниваем два изображения с Denoising strength=0.75 и 0.9

juggernautXL_v9Rundiffusionphoto2-empty-776846960-Time_20240313132340

juggernautXL_v9Rundiffusionphoto2-empty-776846960-Time_20240313132527

img2img + Instant_ID

Поместим исходник в главное окно img2img. А в первую вкладку Controlnet референс. Вторую вкладку включим как положено, но референс подгружать не будем, пускай расположение лица берёт с нашей основной картинки. В описание lora не нужна.

Выставим разрешение согласно вашему соотношению, у меня квадрат поэтому выставил 1024-1024. Sampler=DPM++ 2M Karras и 24 шага (т.к. будем использовать обычную модель XL).

Описание и негатив пустые. Чем меньше Denoising strength, тем больше исходника, обычно хватает значение по умолчанию 0.75 или меньше. Ниже сравнение оригинала с Denoising strength=0.75 и CFG=2 на примере XL juggernautXL_v9Rundiffusionphoto2:

juggernautXL_v9Rundiffusionphoto2-empty-776846960-Time_20240313122327

XL и ip-adapter / PuLID