当前位置：首页 > 人工智能 > 正文

清华KEG实验室携手智谱AI发布领先图像理解大模型：CogAgent

2023-12-28 19:55:15　　

　　随着科技的不断发展，清华大学知识工程组（KEG）实验室与智谱AI携手合作，共同推出了一款新一代图像理解大模型——CogAgent。这一模型在图像理解领域迈出了重要一步，基于之前的CogVLM，通过视觉GUI Agent实现了对GUI界面更为全面直接的感知，为规划和决策提供了更为精准的数据支持。

　　CogAgent的独特之处

　　CogAgent不同寻常，它能够接受1120×1120的高分辨率图像输入，拥有视觉问答、视觉定位（Grounding）、GUI Agent等多项强大能力。在9个经典的图像理解榜单上，包括VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPE等，CogAgent凭借其卓越的通用能力荣登榜首。

　　例如，当用户输入一张关于CogVLM项目的GitHub截图，并询问如何给这个项目点“Star”时，CogAgent将迅速给出精准而高效的回答。

　　同样，当用户输入一张原神游戏的截图，并提出问题“当前任务中的队友是谁？”，CogAgent也能够以令人惊叹的准确度给出相关答案。

　　视觉GUI Agent的突破

　　CogAgent的视觉GUI Agent是该模型的一大创新亮点。通过采用视觉模态而非传统的文本方式，对GUI界面进行感知，大幅提升了对界面的理解能力。这使得CogAgent在处理图像相关任务时表现出色，为用户提供更加直观、全面的体验。

　　未来展望

　　随着清华KEG实验室和智谱AI的合作不断深入，CogAgent标志着图像理解领域的一项重大突破。其通用能力的卓越表现让人期待，在未来的发展中，CogAgent将为图像理解技术的创新发挥更加重要的作用，为各行各业带来更多可能性。

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

清华KEG实验室携手智谱AI发布领先图...

清华KEG实验室携手智谱AI发布领先图像理解大模型：CogAgent

相关阅读RELEVANT

榜单

今日推荐

科技互联