IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

Facebook AI发力 预测和定位图像中的物体

2019-10-30 15:03:26  来源:猎云网    

  最先进的机器学习算法可以从照片中提取二维物体,并在三维中忠实地呈现它们。这种技术可以适用于增强现实的应用程序、机器人以及导航,因此它成为Facebook的一个重要研究领域。

  在近日于首尔举办的国际计算机视觉会议(ICCV)之前,Facebook在一篇博客文章中强调了其在智能内容理解方面的最新进展。据透露,它的系统甚至可以用来检测复杂的前景和背景对象,如椅子腿或重叠的家具。

  “我们研究的最新进展是建立在利用深度学习来预测和定位图像中的物体,以及用新的工具和架构来理解三维形状,如体素、点云和网格,”Facebook的研究人员Georgia Gkioxari、Shubham Tulsiani和David Novotny在一篇博客中写道。“三维理解将在提高人工智能系统,更贴近地理解、解释和操作现实世界的能力方面发挥核心作用。”

  其中一个亮点是Mesh R-CNN,这是一种能够从杂乱和遮挡物体的图像中预测三维形状的方法。

  Facebook的研究人员表示,他们在开源的Mask R-CNN的二维目标分割系统上增加了一个网格预测分支,并使用一个包含高度优化的三维操作符的库(Torch3d),来进一步支持该系统。Mesh R-CNN有效地利用了Mask R-CNN对图像中不同的物体进行检测和分类,然后利用上述的预测器对三维形状进行推断。

  Facebook表示,在公共可用的Pix3D语料库上进行评估后,Mesh R-CNN成功地检测到所有类别的物体,并在家具场景中估计它们的完整三维形状。在一个单独的数据集上(ShapeNet),Mesh R-CNN比之前的研究有7%的相对优势。

  Facebook开发的另一个系统是Canonical 3D Pose Networks,简称为C3DPO,解决了网格和相应图像无法用于训练的情况。建立三维关键点模型重建,利用二维关键点监控实现最先进的重建结果。(这里的关键点指的是被跟踪的物体部分,它们提供了一组关于几何图形及其视角变化的线索。)

  C3DPO利用重建模型预测相应摄像机视点参数和三维关键点位置。辅助组件与模型一起学习,以解决在分解三维视点和形状时引入的模糊性。

  Facebook指出,这种重建在以前是可以实现的,部分原因是内存限制。C3DPO体系结构可以在硬件无法捕获的情况下进行三维重建,比如对大型的对象。

  “(三维)计算机视觉有许多开放的研究问题,我们正在试验多种问题陈述、技术和监督方法,以探索推动该领域向前发展的最佳方式,就像我们在二维理解领域所做的那样,”Gkioxari、Tulsiani和Novotny表示。“随着数字世界适应并转向使用3D照片、沉浸式AR和VR体验等产品,我们需要不断推动复杂的系统更准确地理解视觉场景中的对象并与之互动。”

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT