IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

革命性的LangSplat:清华大学与哈佛大学联手打造的3D语言场AI系统

2024-01-02 20:11:49     

  清华大学与哈佛大学携手合作,共同研发的全新AI系统LangSplat近日引起了科技界的瞩目。这个名为LangSplat的系统在三维空间内能够高效、准确地搜索开放式词汇,标志着对3D语言场的一次重大突破。

  LangSplat的背后

  3DGS的革新

  LangSplat是首个基于3D语言场方法的系统,采用了3D Gaussians(3D高斯函数)的革新技术。更特别的是,它引入了SAM和CLIP这两个先进的模型,使其在开放式词汇的3D对象定位和语义分割任务上超越了目前最先进的方法。与此同时,LangSplat在速度上更是超越了LERF,快了整整199倍。

  LERF的瓶颈

  早在2023年3月,加州大学伯克利分校的研究人员展示了语言嵌入式辐射场(LERF),这是一种将语言嵌入到NeRF(神经辐射场)中的技术。LERF的优势在于无需专门培训即可在三维环境中准确识别物体,但它存在实时搜索的不足,搜索结果准确率也较低。

  LangSplat的创新之处

  3D语言场的构建

  为了解决LERF的瓶颈,LangSplat采用了3D高斯函数构建3D语言场,避免了NeRF所需的繁琐渲染过程。在分辨率为1440 x 1080像素的情况下,LangSplat的速度比LERF快了整整199倍。

  丰富的应用场景

  研究团队通过展示多个案例,生动展示了LangSplat的强大之处。在一个茶杯里泡茶叶的场景中,相比LERF标记两个杯子,LangSplat标记的是杯子中的液体。而在另一个例子中,它可以准确标记一碗拉面汤中的单个配料。

  3D语言场的形成过程

  LangSplat采用了Meta的“分段任意模型”(Segment Anything Model)来学习分层语义。这一过程中,图像被分解成边界清晰的不同物体掩码,而物体则被进一步分解成整体、部分和子部分。随后,CLIP对学习到的遮罩进行处理,嵌入模型会训练一个自动编码器,最终用于训练LangSplat的3D高斯函数。

  LangSplat的性能测试

  研究人员使用LERF和3D OVS两个数据集对LangSplat进行了测试,结果显示,LangSplat在总体准确率上表现出色,分别达到了84.3%和93.4%,而LERF则分别为73.6%和86.8%。

  LangSplat的诞生标志着在3D语言场领域的一次重大突破,为未来的AI系统发展指明了方向。其高效、准确的搜索能力和广泛的应用场景让人对人工智能的未来充满期待。在科技不断演进的时代,LangSplat的出现将无疑推动AI技术在三维环境中的发展,为人类创造更加智能、便捷的未来。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT