智源提倡全新扩散架构OmniGen,AI生图插足一键生成时间
发布日期:2024-11-04 04:43 点击次数:171编订:编订部 HYZ
【新智元导读】LLM长入了谈话生成任务,图像生成不错吗?就在刚刚,智源推出了全新扩散模子架构OmniGen,单个模子就能生成图像,透澈告别繁琐责任流!
大谈话模子(LLM)的出现长入了谈话生成任务,并透澈变调了东说念主机交互。
可是,在图像生成领域,好像在单一框架内处理万般任务的长入模子在很猛进度上仍未得到探索。
近日,智源推出了新的扩散模子架构OmniGen,一种新的用于长入图像生成的多模态模子。
论文地址:https://arxiv.org/pdf/2409.11340
代码仓库:https://github.com/VectorSpaceLab/OmniGen
Demo: https://huggingface.co/spaces/Shitao/OmniGen
OmniGen具有以下脾气:
长入性:OmniGen自然地复旧万般图像生成任务,举例文生图、图像编订、主题驱动生成和视觉条目生成等。此外,OmniGen不错处理经典的运筹帷幄机视觉任务,将其调节为图像生成任务。肤浅性:OmniGen的架构高度简化。此外,与现存模子比拟,它愈加用户友好,不错通过领导完成复杂的任务,而不需要冗长的处理设施和很是的模块(如ControlNet或IP-Adapter),从而大大简化了责任经过。学问搬动:受益于长入方法的学习,OmniGen有用地跨不同任务搬动学问,应付未见过的任务和领域,并展示新颖的功能。询查东说念主员还探究了模子的推理才能和想维链机制的在图像生成领域的潜在诈欺。
基于OmniGen的通用才能,可实施更纯确切图像生成,以上展示一个肤浅 Pipeline:文本生成图像,编订生成图像的部分元素,说明生成图像的东说念主体姿态生成重绘制像,从另一图像中提真金不怕火所需对象与新图像和会
先容
比年来,很多文生图模子在生成式AI的波澜中脱颖而出。可是,这些出色的非凡模子仅能基于文本生成图像。当用户产生更纯真、复杂、缜密等的图像生成需求时,经常需要很是的插件和操作。
举例,若想参考任一姿态生成图像,旧例步调是:用姿态检测器从参考图像中猜度姿态行为条目输入,并加载对应的Controlnet插件,临了提真金不怕火条目输入的特征馈入扩散模子生成图像。
此外,若想基于合照中的特定东说念主物生成新图像,经过愈加繁琐,需要编订图像以确保截至图像仅包含磋磨东说念主物。而诸如InstandID等步调还需使用很是的东说念主脸检测器提真金不怕火面部信息,并用面部编码器提真金不怕火特征以输入模子。
值得戒备的是,万般不同的生成任务以致还需更多不同的插件和操作,如斯复杂、琐碎而冗长的责任流极地面加多了训诲和诈欺的老本。
可是,即便如斯繁琐,巧合也仍难以清闲一般的图像生成的需求,举例基于指定多张相片中的实体生成新图像。
相背,在文本生成领域,以ChatGPT为代表的模子可通过东说念主类领导成功处理万般文本任务。
那么,在图像生成领域,能否通过单个复旧多种输入且耦合多项才能的模子,基于用户领导完成万般生成任务,而无需万般错杂词语的经过吗?
为料理这一挑战性问题,智源发布了长入图像生成模子OmniGen。
OmniGen模子具有邃密的简单性和易用性,集成了多种基础图像生成任务,包括但不限于:文生图、图像编订、脚色一致性生成、基于视觉条目的生成等。OmniGen复旧基于放浪多模态的文图领导完成任务,而无需任何其他很是插件和操作。
才能
OmniGen集多项才能于一体,包括但不限于:
文本到图像生成(Text to Image Generation)指代抒发生成(Referring Expression Generation)通用图像条目生成(General Image Conditional Generation)图像编订(Image Edit)经典运筹帷幄机视觉任务:图像去噪、边际检测、姿态猜度等一定的落魄体裁习才能(In-context Learning)
以下简要展示部分才能恶果:
1. 文本到图像生成
2. 指代抒发生成
OmniGen具备肖似InstandID、Pulid等模子生成脚色一致性图像等才能,即:输入具有单个对象的图像,意会并遵守领导,输出基于该对象的新图像。
同期,OmniGen具有更高阶的才能:指代抒发生成才能,咱们把这种才能界说为好像从包含多个对象的图像中,识别领导所指代的对象并生成新的图像。
举例,OmniGen可说明领导成功从多东说念主图像中定位磋磨对象,并生成遵守领导的新图像,而无需任何很是的模块和操作:
更万般例:
3. 通用图像条目生成
OmniGen不仅复旧肖似ControlNet说明特定显式条目生成图像的才能,还同期具备处理经典运筹帷幄机视觉任务的才能(如东说念主体姿态猜度、深度猜度等)。
因此,OmniGen可凭借单个模子完成所有这个词ControlNet经过:成功使用OmniGen对原图提真金不怕火视觉条目,并基于所提真金不怕火的条目生成图像,无需很是处理器。
同期,OmniGen还能更进一步简化中间经过,一步出图:成功输入原图,输入领导「Following the human pose (or depth mapping) of this image, generate a new image: ...」,就可说明输入图像的东说念主体姿态或深度图磋商生成新图像。
4. 图像编订
OmniGen具备邃密的图像编订才能,而况不错在一次脱手中同期执行多条编订领导,举例:
5. 更多才能
OmniGen具备潜在的推理才能,不错处理对模子意会和推断才能具有一定要求的非显式查询领导。
举例,要求模子删除图中能装水的物品,则模子好像意会和推断出领导触及的图中物体并删除:
另一方面,OmniGen具有一定进度的落魄体裁习才能,可说明参考样例对图像进行处理。
举例,输入一个分割皇后象棋的输入-输出配对样例(Example),模子能识别并分割新输入图像中对应的物体:
想维链(Chain-of-Thought, CoT)步调将任务解析为多个设施,并按律例求解每个设施以取得准确的最终谜底,从而权臣提高了LLM的性能。
那么,是否不错将肖似的替代决策诈欺于图像生成呢?受东说念主类绘画的基本方式的启发,询查东说念主员但愿师法一步一步的绘画过程,从空缺画布上迭代地生成图像。
询查东说念主员进行了初步的探索,微调后模子好像模拟东说念主类步履一步步的生成图片,进一步的优化留予以后的询查。
OmniGen的才能包括但不限于以上实质,还包括基本的图像去噪、边际提真金不怕火等才能。模子权重和代码已开源,用户不错自行探索更多OmniGen的才能。
模子
OmniGen的中枢想象原则是:简单和有用。
因此,询查东说念主员最猛进度甩手了万般很是模块。OmniGen的基本架构为:一个 Transformer 模子和一个VAE模块,共3.8B参数。
其中,Transformer给与于Phi3-mini模子,图像里面改用双向戒备力(Bidirectional Attention) 以契合图像数据脾气。
全体架构
为杀青巨大的通用和泛化才能,询查东说念主员需要基于大范畴和万般化的数据集训诲模子。可是,在图像生成领域,尚无一个可用的通用数据集。
为此,询查东说念主员构建了首个大范畴且万般化的长入图像生成数据集X2I,意为 「Anything to Image」。
其中,不同任务的数据方法被再行组织和长入,以便于料理和使用。
X2I数据集包含约1亿图像,改日经审查等经过后将开源,旨在进一步鼓舞通用图像生成领域的发展。
X2I数据集的一些示例
小结与预测
总之,OmniGen的长入图像生成范式,不但有助于执行万般卑鄙任务,而且故意于组合万般才能清闲更通用的需求。
现时,OmniGen的报告、权重和代码等已开源,宽宥社区共同参与对OmniGen潜在才能的发掘、基人性能的栽植和平庸诈欺的探索。
OmniGen模子是对长入图像生成的初步尝试,还有很大的栽植空间。改日,智源将进一步改良模子基本才能,拓展更多意思的功能。
同期,微调代码已发布,用户可肤浅对其进行微调,由于OmniGen的输入样貌高出万般,用户可自行界说万般各样的微调任务,赋予模子更多有真义的才能。
参考府上:
https://arxiv.org/pdf/2409.11340