警报:AI画漫画的主要难点已有方案解决

2021年的时候我受dataComic启发,曾有个 NLP+交互的方式创建普通漫画的idea,但受限于当时人员有限、开发能力不足未能搞定。2022年10月来浙大访学的时还曾跟浙大博士提过这个idea,当时大家认为能做,于是我派了研究生调研相关AI工具,发现那时的AI绘画(虽然diffusion已经出来了)依然处于魔法召唤时代不可控因素太多,主要是其主要原因还是在于「输入接口」只有自然语言,无法做到对象位置和对象动作的有效控制。当时我估计用多模态机器学习模型可能很快会有牛人做出结果,不出所料,仅仅5个月后这些问题现在都有解决方案了。

首先是对象动作这个大关,用大名鼎鼎的controllnet就可以解决。但是controlnet还不能很好地控制对象的位置,并且使用的时候多有局限性。

最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法GLIGEN,GLIGEN 与最近发布的ControlNet类似,但它具有额外的控制功能。这使用户可以更好地控制 AI 图像生成器的输出,从而使他们能够完全按照需要生成图像。

GLGEN支持四种输入:

  1. 提示词 + 带文本的边界框,如左上图。边界框可以重叠,并指定前后关系。然后边界框里会出现文本对应的内容。
  2. 提示词 + 带图片的边界框,如右上图。系统会把图片内容放到边界框的位置上,并与提示词描述的内容和谐地融入整个画面内。
  3. 提示词 + 带文本的边界框 + 带图片的边界框。文本边界框里会出现文本对应的内容,同时系统会很识趣地把带图片的边界框内容融入画面,特别适合画装饰物。
  4. 提示词 + 关键点框架, 系统会像controllnet那样对关键点框架进行内容渲染。

结论:多模态机器学习恐怖如斯

论文链接:arxiv.org/pdf/2301.0709

项目主页:gligen.github.io/

体验链接:huggingface.co/spaces/g

其他相关:插件(LORA, Dreambooth, Hypernetwork)和模型(ChilloutMix)