IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

Meta发布先进人工智能视频编辑与生成模型Emu Edit、Emu Video

2023-11-20 19:12:37     

  Meta以Emu模型为基础,开发能精确执行文字指令的图像编辑模型Emu Edit,还有简单且高效的文字转视频生成方法Emu Video。

  Meta延续之前在图像生成基础模型Emu上的研究,发布仅用文字指令就能准确编辑图像的Emu Edit模型。 另外,通过分解文字转影片的生成过程,开发团队发展一种称为Emu Video的方法,可以改善最终影片的质量和多样性。

  Emu Edit是一种创新的图像编辑方法,目的是要简化各种图像操作任务,替图像编辑提供更方便的功能和更高的精确度。 Emu Edit可以接受用户指令,进行各种形式的编辑,包括区域和全局编辑、移除和添加背景,也能够调整颜色并进行几何转换,侦测和分割任务也没有问题。

  Emu Edit把计算机视觉任务当作指令,纳入到影像生成模型中,进而在影像生成和编辑中,提供更好的控制能力。 研究人员指出,当前的图像编辑模型,通常会过度修改图像,或是修改不足,而Emu Edit的优势在于能够准确按照指令进行编辑。

  Meta使用了1000万个合成样本数据集训练Emu Edit,这是目前同类中规模最大的数据集,每个样本都包含输入图像、任务描述,以及目标输出图像。 更大的数据集带来更好的图像编辑能力,使模型能够忠实执行指令,产生比当前所有研究都要好的结果。

  Emu Video则是一种简单且高效的文字转视频生成方法,该方法运用扩散模型,并以Emu作为实作基础。 开发团队解释,这种视频生成架构,能够应对多种输入,包括文字、图像,或是文字和图像的组合。

  Emu Video将影片生成过程拆分为两个步骤,首先是根据文字提示生成图像,然后基于文字和生成图像产生影片。 这种拆分步骤的视频生成方法,让研究人员可以有效地训练生成模型,研究人员进一步解释,这与过去Make-A-Video等需要一系列深层模型的研究不同,Emu Video更简单,仅使用2个扩散模型,就能生成分辨率512x512,每秒16影格长4秒钟的影片。

  人类的评估都更偏好Emu Video的成果,与之前的研究相比,在影片的质量以及文字提示的忠实程度都有更高的评价。 在质量方面,有96%受访者偏好Emu Video而非Make-A-Video方法,而对于文字提示的忠实度,Emu Video则获得85%受访者的青睐。 而且Emu Video也能接受文字提示,将用户提供的图像动画化,这项功能超越了过去模型的能力。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT