最新中文大模型测评：百川、智谱、通义领跑国内

首页 > 科技 > 正文

2024-05-02 09:04:02 来源：关灯

　　4月30日，国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》，报告选取国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。报告显示，Baichuan 3在国内大模型中排名第一，智谱GLM-4、通义千问2.1、文心一言4.0、Moonshot(Kimi)等大模型位列其后。从全球范围来看，国外同行的GPT-4、Claude3得分更胜一筹。

　　SuperCLUE是国内权威的通用大模型综合性测评基准，其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。不同于传统测评通过选择题形式的测评，SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式，模拟大模型应用场景，真实有效的考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果，对大模型的上下文、记忆、对话能力全方位评测。

　　为更真实反映大模型通用能力，SuperCLUE本次测评由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等，题目为多轮开放式简答题。评测集共2194题。

　　测试结果显示，Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo，在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus，力压一众国内大模型拔得头筹。此外，在计算、代码、工具使用能力上Baichuan 3表现同样不俗，均排名国内前三。

　　在评测国内外模型通用能力和专项能力的基础上，SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为，Baichuan 3可应用的场景相对广泛，尤其在专业技能类的任务上表现优异，重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外，其还可以在相对复杂的行业场景中落地，可应用于教育、医疗、金融等垂直行业。

大视野融媒网（原大视野新闻网）是最富价值的互联网推广平台，致力于打造国内最有影响力的融媒体发布平台。

编辑：

关注大视野融媒网客户端，免费浏览更多精彩新闻资讯

大视野融媒网版权与免责声明：

一、凡本站中注明“来源：大视野融媒网”的所有文字、图片和音视频，版权均属大视野融媒网所有，转载时必须注明“来源：大视野融媒网”，并附上原文链接。

二、凡来源非大视野融媒网的新闻（作品）只代表本网传播该消息，并不代表赞同其观点。

如因作品内容、版权和其它问题需要同本网联系的，请在见网后30日内进行，联系邮箱：dsynews@126.com。

为你推荐

携手央美、川美两大顶尖美院打造入画之旅，《英雄联盟：云顶之弈》弘扬国风文化魅力

热点排榜

海信加快绿色创新培育新质生产力获评优秀案例　　4月29日，2024碳达峰碳中和绿色发展论 ......