近期关于text-to-image可控生成问题的讨论

从2022年5月stable diffusion开源开始,生成式AI的文生图模型(Text-to-Image Model in Generative AI)就火出了圈。使用文字生成图像,跳过了绘画技艺的许多步骤,是人类想象力具象化的实用性进展。stable diffusion为代表的文生图模型其生成效果和效率都非常高,大大降低了人类的图像创作成本,受到艺术家、数字绘画爱好者、计算机科学研究者的广泛关注。

但直到今天,文生图模型的使用者依然为可控生成问题困扰。具体的说,通过prompts输入来生成图片时,生成的图片prompts之间的对齐(alignment)会比较弱,典型的表象有:

  • 生成结果中的特定内容(如文字)不可读或者显示不出来
  • 提示词中指定的颜色和数量在结果中没有呈现
  • 提示词中指定的实体数量及其关系在结果中没有完整呈现

所谓可控生成,在公众的视野下,是如何让模型可以在人类的指挥下生成符合人类设想的图像的过程和方法。但从计算机角度对可控生成概念做分解,其实包括以下内容:

  1. 如何评估文生图模型的效果是好是坏?
    1. 图像质量的评价指标
    2. 文本-图像对齐评价指标
    3. 伦理指标(数据集偏见、恶意使用、安全和隐私风险等)
  2. 如何确保文本的概念能正确呈现在结果图片中?
    1. 图像到文本的反演方法(有时文本无法准确描述用户所需的语义,例如生成一个新的主题。为了使用特定概念或主题合成新场景,引入了几个带有所需概念的参考图像,然后将参考图像反演到文本描述中)
      1. DreamBooth
      2.  textual inversion
    2. 使用LLM优化/扩展文生图模型的概念空间
      1. ediff-i
    3. 基于交叉注意力机制文本到图像的编辑
  3. 如何确保结果图片中的对象的空间位置分布符合预期?
    1. 基于草图的空间控制
    2. 基于mask的空间控制
  4. 其他可控编辑方法
    1. 基于样例图片的局部可控生成