阿里巴巴研究团队近日发布了一款名为EMO(Emote Portrait Alive)的AI框架,引领着肖像技术的新潮流。EMO号称可以进行“对口型”操作,只需提供人物照片和音频,模型即可让照片中的人物生动开口,表现出与音频相关的表情和动作,支持多种语言包括中英韩等。
基于Audio2Video扩散模型
EMO基于英伟达的Audio2Video扩散模型构建,该模型使用了超过250小时的专业视频进行训练,为EMO框架提供了强大的基础。研究团队分享了由EMO框架生成的DEMO演示片段,并在ArXiv上发布了模型的工作原理,为广大开发者提供了深入了解的机会。
工作原理解析
该框架的工作过程主要分为两个阶段。首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;其次,利用预训练的音频编码器处理声音并嵌入,结合多帧噪声和面部区域掩码来生成视频。此外,框架还融合了两种注意机制和时间模块,以确保生成视频中角色身份的一致性和动作的自然流畅。
多种实验验证
研究人员引用了一系列实验结果,声称EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,相较于目前的竞品如DreamTalk、Wav2Lip、SadTalker等,EMO表现更加出色,赋予了肖像技术全新的可能性。