当前位置：首页 > 人工智能 > 正文

阿里巴巴AI团队发布EMO框架：重塑肖像，重现生动

2024-03-03 11:34:42　　

　　阿里巴巴研究团队近日发布了一款名为EMO（Emote Portrait Alive）的AI框架，引领着肖像技术的新潮流。EMO号称可以进行“对口型”操作，只需提供人物照片和音频，模型即可让照片中的人物生动开口，表现出与音频相关的表情和动作，支持多种语言包括中英韩等。

　　基于Audio2Video扩散模型

　　EMO基于英伟达的Audio2Video扩散模型构建，该模型使用了超过250小时的专业视频进行训练，为EMO框架提供了强大的基础。研究团队分享了由EMO框架生成的DEMO演示片段，并在ArXiv上发布了模型的工作原理，为广大开发者提供了深入了解的机会。

　　工作原理解析

　　该框架的工作过程主要分为两个阶段。首先，利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征；其次，利用预训练的音频编码器处理声音并嵌入，结合多帧噪声和面部区域掩码来生成视频。此外，框架还融合了两种注意机制和时间模块，以确保生成视频中角色身份的一致性和动作的自然流畅。

　　多种实验验证

　　研究人员引用了一系列实验结果，声称EMO不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，相较于目前的竞品如DreamTalk、Wav2Lip、SadTalker等，EMO表现更加出色，赋予了肖像技术全新的可能性。

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

阿里巴巴AI团队发布EMO框架：重塑肖...

阿里巴巴AI团队发布EMO框架：重塑肖像，重现生动

相关阅读RELEVANT

榜单

今日推荐

科技互联