当前位置：首页 > 人工智能 > 正文

Meta发布先进人工智能视频编辑与生成模型Emu Edit、Emu Video

2023-11-20 19:12:37　　

　　Meta以Emu模型为基础，开发能精确执行文字指令的图像编辑模型Emu Edit，还有简单且高效的文字转视频生成方法Emu Video。

　　Meta延续之前在图像生成基础模型Emu上的研究，发布仅用文字指令就能准确编辑图像的Emu Edit模型。另外，通过分解文字转影片的生成过程，开发团队发展一种称为Emu Video的方法，可以改善最终影片的质量和多样性。

　　Emu Edit是一种创新的图像编辑方法，目的是要简化各种图像操作任务，替图像编辑提供更方便的功能和更高的精确度。 Emu Edit可以接受用户指令，进行各种形式的编辑，包括区域和全局编辑、移除和添加背景，也能够调整颜色并进行几何转换，侦测和分割任务也没有问题。

　　Emu Edit把计算机视觉任务当作指令，纳入到影像生成模型中，进而在影像生成和编辑中，提供更好的控制能力。研究人员指出，当前的图像编辑模型，通常会过度修改图像，或是修改不足，而Emu Edit的优势在于能够准确按照指令进行编辑。

　　Meta使用了1000万个合成样本数据集训练Emu Edit，这是目前同类中规模最大的数据集，每个样本都包含输入图像、任务描述，以及目标输出图像。更大的数据集带来更好的图像编辑能力，使模型能够忠实执行指令，产生比当前所有研究都要好的结果。

　　Emu Video则是一种简单且高效的文字转视频生成方法，该方法运用扩散模型，并以Emu作为实作基础。开发团队解释，这种视频生成架构，能够应对多种输入，包括文字、图像，或是文字和图像的组合。

　　Emu Video将影片生成过程拆分为两个步骤，首先是根据文字提示生成图像，然后基于文字和生成图像产生影片。这种拆分步骤的视频生成方法，让研究人员可以有效地训练生成模型，研究人员进一步解释，这与过去Make-A-Video等需要一系列深层模型的研究不同，Emu Video更简单，仅使用2个扩散模型，就能生成分辨率512x512，每秒16影格长4秒钟的影片。

　　人类的评估都更偏好Emu Video的成果，与之前的研究相比，在影片的质量以及文字提示的忠实程度都有更高的评价。在质量方面，有96%受访者偏好Emu Video而非Make-A-Video方法，而对于文字提示的忠实度，Emu Video则获得85%受访者的青睐。而且Emu Video也能接受文字提示，将用户提供的图像动画化，这项功能超越了过去模型的能力。

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

Meta发布先进人工智能视频编辑与生成...

Meta发布先进人工智能视频编辑与生成模型Emu Edit、Emu Video

相关阅读RELEVANT

榜单

今日推荐

科技互联