IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

阿里巴巴AI团队发布EMO框架:重塑肖像,重现生动

2024-03-03 11:34:42     

  阿里巴巴研究团队近日发布了一款名为EMO(Emote Portrait Alive)的AI框架,引领着肖像技术的新潮流。EMO号称可以进行“对口型”操作,只需提供人物照片和音频,模型即可让照片中的人物生动开口,表现出与音频相关的表情和动作,支持多种语言包括中英韩等。

  基于Audio2Video扩散模型

  EMO基于英伟达的Audio2Video扩散模型构建,该模型使用了超过250小时的专业视频进行训练,为EMO框架提供了强大的基础。研究团队分享了由EMO框架生成的DEMO演示片段,并在ArXiv上发布了模型的工作原理,为广大开发者提供了深入了解的机会。

  工作原理解析

  该框架的工作过程主要分为两个阶段。首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;其次,利用预训练的音频编码器处理声音并嵌入,结合多帧噪声和面部区域掩码来生成视频。此外,框架还融合了两种注意机制和时间模块,以确保生成视频中角色身份的一致性和动作的自然流畅。

  多种实验验证

  研究人员引用了一系列实验结果,声称EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,相较于目前的竞品如DreamTalk、Wav2Lip、SadTalker等,EMO表现更加出色,赋予了肖像技术全新的可能性。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT