警报：AI画漫画的主要难点已有方案解决

发布于 2023年3月14日2023年3月14日作者:zhangdi

2021年的时候我受dataComic启发，曾有个 NLP+交互的方式创建普通漫画的idea，但受限于当时人员有限、开发能力不足未能搞定。2022年10月来浙大访学的时还曾跟浙大博士提过这个idea，当时大家认为能做，于是我派了研究生调研相关AI工具，发现那时的AI绘画（虽然diffusion已经出来了）依然处于魔法召唤时代不可控因素太多，主要是其主要原因还是在于「输入接口」只有自然语言，无法做到对象位置和对象动作的有效控制。当时我估计用多模态机器学习模型可能很快会有牛人做出结果，不出所料，仅仅5个月后这些问题现在都有解决方案了。

首先是对象动作这个大关，用大名鼎鼎的controllnet就可以解决。但是controlnet还不能很好地控制对象的位置，并且使用的时候多有局限性。

最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法GLIGEN，GLIGEN 与最近发布的ControlNet类似，但它具有额外的控制功能。这使用户可以更好地控制 AI 图像生成器的输出，从而使他们能够完全按照需要生成图像。

GLGEN支持四种输入：

提示词 + 带文本的边界框，如左上图。边界框可以重叠，并指定前后关系。然后边界框里会出现文本对应的内容。
提示词 + 带图片的边界框，如右上图。系统会把图片内容放到边界框的位置上，并与提示词描述的内容和谐地融入整个画面内。
提示词 + 带文本的边界框 + 带图片的边界框。文本边界框里会出现文本对应的内容，同时系统会很识趣地把带图片的边界框内容融入画面，特别适合画装饰物。
提示词 + 关键点框架，系统会像controllnet那样对关键点框架进行内容渲染。

结论：多模态机器学习恐怖如斯

论文链接：https://arxiv.org/pdf/2301.07093.pdf

项目主页：https://gligen.github.io/

体验链接：https://huggingface.co/spaces/g

其他相关：插件（LORA, Dreambooth, Hypernetwork）和模型（ChilloutMix）

警报：AI画漫画的主要难点已有方案解决

发表回复取消回复

分类

发表回复 取消回复

分类

发表回复取消回复