小红书 aigc 团队正式发布全新布局可控图像生成框架 instanceassemble,专为解决高难度、多对象复杂场景下的 layout-to-image 生成任务而设计。

该框架采用级联式建模架构,将文本语义理解与空间布局约束分阶段协同处理,并创新性地提出 Assemble-Attention 机制,显著增强模型在密集实例、多目标共存布局中的空间感知能力与像素级对齐精度。


此外,InstanceAssemble 仅需极小规模的 LoRA 微调(参数量占比:SD3-Medium 仅 3.46%,Flux.1 仅 0.84%),即可在不损害原始基础模型性能的前提下,高效支持文本描述 + 参考图像的双模态联合控制。团队同步构建了面向高密度布局的 DenseLayout 新型评测基准,并提出具备强可解释性的布局对齐评估指标 LGS,全面提升布局一致性评估的准确性与可信度。


实验结果表明,InstanceAssemble 在各类复杂布局测试中展现出优异的稳定性与泛化能力,图像生成质量与布局控制精度均处于当前行业前沿水平。
论文标题:InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
论文链接:https://www.php.cn/link/e74186a9024394af6d13cb98b343f11a
项目主页:https://www.php.cn/link/3dff232f506693720caae97d135faa54
源码地址:点击下载











