清华大模型报告发布：文心一言最懂“人话”

王昊达 • 2024年4月22日下午5:36 • 人工智能

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型，结果显示：文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小，名副其实为国内头部模型。

清华大模型报告发布：文心一言最懂“人话”

清华大模型报告发布：文心一言最懂“人话”

例如在人类对齐能力评测中，文心一言4.0表现优异，位居国内第一，其中在中文推理、中文语言等评测上，文心一言遥遥领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一； GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

而在企业选择大模型最看重的安全性评测上，国内模型文心一言4.0表现亮眼，力压国际一流模型GPT-4系列模型和Claude-3拿下最高分（89.1分），Claude-3仅列第四。

清华大模型报告发布：文心一言最懂“人话”

值得注意的是，文心一言不仅在技术能力上过硬，在应用落地上也是一路领先。自去年3月16日文心一言首发至今，用户数已突破2亿，每天API调用量也突破了2亿。

2023年「百模大战」，国产大模型厮杀猛烈，谁是真正的领头羊？尽管国内外存在多个模型能力评测榜单，但它们的质量参差不齐，排名差异显著。我们在看榜单参考的时候一定要多看权威机构、权威高校的评测，为选择大模型提供科学研判。

原创文章，作者：王昊达，如若转载，请注明出处：http://www.damoai.com.cn/archives/4897

赞 (0)

0 0

大模型之家对话虚拟动点刘耀东：以空间计算实现解决物理世界交互

上一篇 2024年4月22日下午5:02

微软纳德拉：“如果没有我们的早期支持，OpenAI 就不会存在”

下一篇 2024年4月23日

人工智能

秦皇祖邑苹果香阿里云AI新农具助力甘肃礼县果农转型

大模型之家讯春风拂过西汉水畔，甘肃省陇南市礼县的万亩苹果园正值花期，漫山遍野的苹果花如雪绽放。在这片“秦文化摇篮”的古老土地上，一场传统农业与人工智能交织的变革正在悄然发生。 4…

志斌
2026年4月28日
人工智能

OpenAI内测SearchGPT遇挫，官方演示曝出低级错误

大模型之家讯近日，OpenAI宣布旗下全新AI搜索引擎SearchGPT开放内测。然而，在内测过程中，SearchGPT的官方演示却意外曝出低级错误，令人大跌眼镜。据相关媒体报…

志斌
2024年7月29日
人工智能

WPS AI正式面向社会开放可在最新版客户端等平台体验

大模型之家讯，9月5日，金山办公官方宣布，WPS AI正式面向社会开放，AI能力率先应用在WPS智能文档，更多WPS AI能力将在其他组件开放。用户可在最新版WPS客户端/APP、…

欧玉娇
2023年9月5日
亚马逊云科技与英伟达扩展合作持续推进生成式AI创新

大模型之家讯 3月20日，亚马逊云科技和英伟达宣布，英伟达在2024年GTC大会上推出的新一代NVIDIA Blackwell GPU平台即将登陆亚马逊云科技。亚马逊云科技将提供N…

志斌
人工智能 2024年3月20日
百度智能云推出OpenClaw限时免费一键部署服务，开发者零成本体验AI数字员工

大模型之家讯 2月2日消息，百度智能云宣布上线OpenClaw一键部署服务，并开启限时免费体验活动。开发者可以通过百度智能云轻量应用服务器，快速部署这款近期在AI开发圈热度颇高的智…

志斌
人工智能 2026年2月2日
人工智能

中关村科金发布“3+2+2”全栈产品矩阵定义企业级智能体落地新标准

大模型之家讯 2025年12月9日，中关村科金在“超级连接・智见未来”EVOLVE 2025峰会上，首次公开企业级智能体落地路线图，并重磅发布“3+2+2”全栈智能体产品矩阵。该矩…

志斌
2025年12月9日
人工智能

百度AICA第八期班开课近六成来自央国企及行业龙头企业技术高管

大模型之家讯 7月19日，由深度学习技术及应用国家工程研究中心与百度联合发起创办的AICA首席AI架构师培养计划（以下简称“AICA”），举办第八期开学典礼。经过严格技术评审、面评…

志斌
2024年7月20日
人工智能

商汤医疗获得肝脏CT辅助诊断产品首张NMPA三类证，赋能肝脏诊疗一体化

大模型之家讯 8月7日，商汤医疗宣布其研发的肝脏局灶性病变CT图像辅助检测软件正式获得国家药品监督管理局（NMPA）的三类医疗器械注册证。这一突破性的进展标志着商汤医疗在肝脏诊疗领…

志斌
2024年8月12日
人工智能

李开复亲自下场，零一万物的首份To C答卷还是差点儿火候

在经历了创业热潮的洗礼后，今年伊始，大模型开始进入了“落地为王”的新阶段…… 两天前，零一万物官宣了一站式AI工作平台——万知。图源：万知根据官方介绍，万知是一个专门为中国用户…

欧玉娇
2024年5月10日
人工智能

只需4步！教你把免费AI调教成高考志愿填报专家

2026年的高考正式收官。走出考场后，千万考生和家庭随即迎来的，是一场没有标准答案的“加试”——高考志愿填报。在过去，这是一个典型的由“信息差”驱动的高客单价市场。普通家庭为了给…

志斌
2026年6月16日

发表回复

登录后才能评论