智源提倡全新扩散架构OmniGen，AI生图插足一键生成时间

发布日期：2024-11-04 04:43 点击次数：174

编订：编订部 HYZ

【新智元导读】LLM长入了谈话生成任务，图像生成不错吗？就在刚刚，智源推出了全新扩散模子架构OmniGen，单个模子就能生成图像，透澈告别繁琐责任流！

大谈话模子（LLM）的出现长入了谈话生成任务，并透澈变调了东说念主机交互。

可是，在图像生成领域，好像在单一框架内处理万般任务的长入模子在很猛进度上仍未得到探索。

近日，智源推出了新的扩散模子架构OmniGen，一种新的用于长入图像生成的多模态模子。

论文地址：https://arxiv.org/pdf/2409.11340

代码仓库：https://github.com/VectorSpaceLab/OmniGen

Demo: https://huggingface.co/spaces/Shitao/OmniGen

OmniGen具有以下脾气：

长入性：OmniGen自然地复旧万般图像生成任务，举例文生图、图像编订、主题驱动生成和视觉条目生成等。此外，OmniGen不错处理经典的运筹帷幄机视觉任务，将其调节为图像生成任务。肤浅性：OmniGen的架构高度简化。此外，与现存模子比拟，它愈加用户友好，不错通过领导完成复杂的任务，而不需要冗长的处理设施和很是的模块（如ControlNet或IP-Adapter），从而大大简化了责任经过。学问搬动：受益于长入方法的学习，OmniGen有用地跨不同任务搬动学问，应付未见过的任务和领域，并展示新颖的功能。询查东说念主员还探究了模子的推理才能和想维链机制的在图像生成领域的潜在诈欺。

基于OmniGen的通用才能，可实施更纯确切图像生成，以上展示一个肤浅 Pipeline：文本生成图像，编订生成图像的部分元素，说明生成图像的东说念主体姿态生成重绘制像，从另一图像中提真金不怕火所需对象与新图像和会

先容

比年来，很多文生图模子在生成式AI的波澜中脱颖而出。可是，这些出色的非凡模子仅能基于文本生成图像。当用户产生更纯真、复杂、缜密等的图像生成需求时，经常需要很是的插件和操作。

举例，若想参考任一姿态生成图像，旧例步调是：用姿态检测器从参考图像中猜度姿态行为条目输入，并加载对应的Controlnet插件，临了提真金不怕火条目输入的特征馈入扩散模子生成图像。

此外，若想基于合照中的特定东说念主物生成新图像，经过愈加繁琐，需要编订图像以确保截至图像仅包含磋磨东说念主物。而诸如InstandID等步调还需使用很是的东说念主脸检测器提真金不怕火面部信息，并用面部编码器提真金不怕火特征以输入模子。

值得戒备的是，万般不同的生成任务以致还需更多不同的插件和操作，如斯复杂、琐碎而冗长的责任流极地面加多了训诲和诈欺的老本。

可是，即便如斯繁琐，巧合也仍难以清闲一般的图像生成的需求，举例基于指定多张相片中的实体生成新图像。

相背，在文本生成领域，以ChatGPT为代表的模子可通过东说念主类领导成功处理万般文本任务。

那么，在图像生成领域，能否通过单个复旧多种输入且耦合多项才能的模子，基于用户领导完成万般生成任务，而无需万般错杂词语的经过吗？

为料理这一挑战性问题，智源发布了长入图像生成模子OmniGen。

OmniGen模子具有邃密的简单性和易用性，集成了多种基础图像生成任务，包括但不限于：文生图、图像编订、脚色一致性生成、基于视觉条目的生成等。OmniGen复旧基于放浪多模态的文图领导完成任务，而无需任何其他很是插件和操作。

才能

OmniGen集多项才能于一体，包括但不限于：

文本到图像生成（Text to Image Generation）指代抒发生成（Referring Expression Generation）通用图像条目生成（General Image Conditional Generation）图像编订（Image Edit）经典运筹帷幄机视觉任务：图像去噪、边际检测、姿态猜度等一定的落魄体裁习才能（In-context Learning）

以下简要展示部分才能恶果：

1. 文本到图像生成

2. 指代抒发生成

OmniGen具备肖似InstandID、Pulid等模子生成脚色一致性图像等才能，即：输入具有单个对象的图像，意会并遵守领导，输出基于该对象的新图像。

同期，OmniGen具有更高阶的才能：指代抒发生成才能，咱们把这种才能界说为好像从包含多个对象的图像中，识别领导所指代的对象并生成新的图像。

举例，OmniGen可说明领导成功从多东说念主图像中定位磋磨对象，并生成遵守领导的新图像，而无需任何很是的模块和操作：

更万般例：

3. 通用图像条目生成

OmniGen不仅复旧肖似ControlNet说明特定显式条目生成图像的才能，还同期具备处理经典运筹帷幄机视觉任务的才能（如东说念主体姿态猜度、深度猜度等）。

因此，OmniGen可凭借单个模子完成所有这个词ControlNet经过：成功使用OmniGen对原图提真金不怕火视觉条目，并基于所提真金不怕火的条目生成图像，无需很是处理器。

同期，OmniGen还能更进一步简化中间经过，一步出图：成功输入原图，输入领导「Following the human pose (or depth mapping) of this image, generate a new image: ...」，就可说明输入图像的东说念主体姿态或深度图磋商生成新图像。