IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

谷歌发布VLOGGER AI模型:让肖像“动起来”

2024-03-21 08:30:43     

  随着人工智能技术的不断创新,谷歌近日在GitHub页面发布了一篇博文,介绍了他们最新的创新成果——VLOGGER AI模型。这一模型的独特之处在于,用户只需输入一张肖像照片和一段音频内容,就能让这些人物“动起来”,栩栩如生地朗读音频内容。

  多模态Diffusion模型

  VLOGGER AI采用了一种称为多模态Diffusion模型的技术,通过使用MENTOR数据库进行训练。MENTOR数据库汇集了超过80万名人物肖像和累计超过2200小时的影片素材,使得VLOGGER能够生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

  突破性优势

  研究人员指出,与以往的多模态模型相比,VLOGGER的突破在于不需要为每个人物进行单独的训练,也不依赖于人脸检测和裁剪。它能够生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景,例如可见躯干或不同的主体身份,这对于正确合成人类的交流至关重要。

  通向通用聊天机器人的一步

  谷歌将VLOGGER视为迈向“通用聊天机器人”的重要一步。未来,人工智能可以通过语音、手势和眼神等方式,以自然的方式与人类进行互动,为人机交互带来全新的体验。

  广泛应用场景

  VLOGGER的应用场景多种多样,包括报告、教育领域和旁白等。此外,它还可以用于剪辑现有的影片,如果对影片中的表情不满意,用户还能够对其进行调整,为影片增添更多生动和趣味。

  VLOGGER AI的发布标志着人工智能技术在图像合成领域的一次重要突破,为未来的人机交互带来了更加丰富和生动的可能性。随着这一技术的不断演进和应用,我们相信它将会在各个领域展现出巨大的潜力,为人类社会的发展带来更多的惊喜和改变。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT