IT商业网-解读信息时代的商业变革
当前位置: 首页 > 人工智能 > 正文

清华KEG实验室携手智谱AI发布领先图像理解大模型:CogAgent

2023-12-28 19:55:15     

  随着科技的不断发展,清华大学知识工程组(KEG)实验室与智谱AI携手合作,共同推出了一款新一代图像理解大模型——CogAgent。这一模型在图像理解领域迈出了重要一步,基于之前的CogVLM,通过视觉GUI Agent实现了对GUI界面更为全面直接的感知,为规划和决策提供了更为精准的数据支持。

  CogAgent的独特之处

  CogAgent不同寻常,它能够接受1120×1120的高分辨率图像输入,拥有视觉问答、视觉定位(Grounding)、GUI Agent等多项强大能力。在9个经典的图像理解榜单上,包括VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPE等,CogAgent凭借其卓越的通用能力荣登榜首。

  例如,当用户输入一张关于CogVLM项目的GitHub截图,并询问如何给这个项目点“Star”时,CogAgent将迅速给出精准而高效的回答。

  同样,当用户输入一张原神游戏的截图,并提出问题“当前任务中的队友是谁?”,CogAgent也能够以令人惊叹的准确度给出相关答案。

  视觉GUI Agent的突破

  CogAgent的视觉GUI Agent是该模型的一大创新亮点。通过采用视觉模态而非传统的文本方式,对GUI界面进行感知,大幅提升了对界面的理解能力。这使得CogAgent在处理图像相关任务时表现出色,为用户提供更加直观、全面的体验。

  未来展望

  随着清华KEG实验室和智谱AI的合作不断深入,CogAgent标志着图像理解领域的一项重大突破。其通用能力的卓越表现让人期待,在未来的发展中,CogAgent将为图像理解技术的创新发挥更加重要的作用,为各行各业带来更多可能性。

免责声明: IT商业新闻网遵守行业规则,本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章,请转载时务必注明文章作者和来源“IT商业新闻网”, 不尊重本站原创的行为将受到IT商业新闻网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:post@itxinwen.com
微信公众号:您想你获取IT商业新闻网最新原创内容, 请在微信公众号中搜索“IT商业网”或者搜索微信号:itxinwen,或用扫描左侧微信二维码。 即可添加关注。
标签:

品牌、内容合作请点这里: 寻求合作 ››

相关阅读RELEVANT