当前位置：首页 > 人工智能 > 正文

谷歌发布VLOGGER AI模型：让肖像“动起来”

2024-03-21 08:30:43　　

　　随着人工智能技术的不断创新，谷歌近日在GitHub页面发布了一篇博文，介绍了他们最新的创新成果——VLOGGER AI模型。这一模型的独特之处在于，用户只需输入一张肖像照片和一段音频内容，就能让这些人物“动起来”，栩栩如生地朗读音频内容。

　　多模态Diffusion模型

　　VLOGGER AI采用了一种称为多模态Diffusion模型的技术，通过使用MENTOR数据库进行训练。MENTOR数据库汇集了超过80万名人物肖像和累计超过2200小时的影片素材，使得VLOGGER能够生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

　　突破性优势

　　研究人员指出，与以往的多模态模型相比，VLOGGER的突破在于不需要为每个人物进行单独的训练，也不依赖于人脸检测和裁剪。它能够生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景，例如可见躯干或不同的主体身份，这对于正确合成人类的交流至关重要。

　　通向通用聊天机器人的一步

　　谷歌将VLOGGER视为迈向“通用聊天机器人”的重要一步。未来，人工智能可以通过语音、手势和眼神等方式，以自然的方式与人类进行互动，为人机交互带来全新的体验。

　　广泛应用场景

　　VLOGGER的应用场景多种多样，包括报告、教育领域和旁白等。此外，它还可以用于剪辑现有的影片，如果对影片中的表情不满意，用户还能够对其进行调整，为影片增添更多生动和趣味。

　　VLOGGER AI的发布标志着人工智能技术在图像合成领域的一次重要突破，为未来的人机交互带来了更加丰富和生动的可能性。随着这一技术的不断演进和应用，我们相信它将会在各个领域展现出巨大的潜力，为人类社会的发展带来更多的惊喜和改变。

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

谷歌发布VLOGGER AI模型：让肖像“动起来”

谷歌发布VLOGGER AI模型：让肖像“动起来”

相关阅读RELEVANT

榜单

今日推荐

科技互联