大模型之家讯 今日,智谱 AI 公开了 CogAgent,这是一个拥有 180 亿参数规模的视觉语言模型。该模型在 GUI(图形用户界面)理解和导航方面表现卓越,已在多个基准测试中取得了通用性能的 SOTA(State of the Art)水平。CognAgent 还支持高分辨率的视觉输入和对话问答,并能够对任意 GUI 截图进行问答。
这一开源举措为研究人员和开发者提供了一个强大的工具,可用于探索和应用于视觉语言理解领域。CogAgent 的性能和功能使其在图形用户界面理解和交互方面具有广泛的应用潜力。