Meta以Emu模型为基础,开发能精确执行文字指令的图像编辑模型Emu Edit,还有简单且高效的文字转视频生成方法Emu Video。
Meta延续之前在图像生成基础模型Emu上的研究,发布仅用文字指令就能准确编辑图像的Emu Edit模型。 另外,通过分解文字转影片的生成过程,开发团队发展一种称为Emu Video的方法,可以改善最终影片的质量和多样性。
Emu Edit是一种创新的图像编辑方法,目的是要简化各种图像操作任务,替图像编辑提供更方便的功能和更高的精确度。 Emu Edit可以接受用户指令,进行各种形式的编辑,包括区域和全局编辑、移除和添加背景,也能够调整颜色并进行几何转换,侦测和分割任务也没有问题。
Emu Edit把计算机视觉任务当作指令,纳入到影像生成模型中,进而在影像生成和编辑中,提供更好的控制能力。 研究人员指出,当前的图像编辑模型,通常会过度修改图像,或是修改不足,而Emu Edit的优势在于能够准确按照指令进行编辑。
Meta使用了1000万个合成样本数据集训练Emu Edit,这是目前同类中规模最大的数据集,每个样本都包含输入图像、任务描述,以及目标输出图像。 更大的数据集带来更好的图像编辑能力,使模型能够忠实执行指令,产生比当前所有研究都要好的结果。
Emu Video则是一种简单且高效的文字转视频生成方法,该方法运用扩散模型,并以Emu作为实作基础。 开发团队解释,这种视频生成架构,能够应对多种输入,包括文字、图像,或是文字和图像的组合。
Emu Video将影片生成过程拆分为两个步骤,首先是根据文字提示生成图像,然后基于文字和生成图像产生影片。 这种拆分步骤的视频生成方法,让研究人员可以有效地训练生成模型,研究人员进一步解释,这与过去Make-A-Video等需要一系列深层模型的研究不同,Emu Video更简单,仅使用2个扩散模型,就能生成分辨率512x512,每秒16影格长4秒钟的影片。
人类的评估都更偏好Emu Video的成果,与之前的研究相比,在影片的质量以及文字提示的忠实程度都有更高的评价。 在质量方面,有96%受访者偏好Emu Video而非Make-A-Video方法,而对于文字提示的忠实度,Emu Video则获得85%受访者的青睐。 而且Emu Video也能接受文字提示,将用户提供的图像动画化,这项功能超越了过去模型的能力。