2月2日,国内大模型评测机构SuperCLUE发布了Baichuan 3大模型的评测结果。在SuperCLUE通用综合测评基准上,Baichuan 3以总分77.47分的成绩排名国内第二,跻身国内大模型第一梯队。
Baichuan 3是百川智能1月29日发布的超千亿参数大语言模型,在多个英文评测上表现出色,达到接近GPT-4的水平。此外,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力。
SuperCLUE是国内权威的中文通用大模型综合性评测基准之一,主要考察模型在中文能力上的表现,包括语言与知识、专业与技能、AI智能体和安全四大能力维度的上百个任务。
在本次评测中,Baichuan 3的综合表现优于GPT-3.5,与GPT-4差距已缩小至2.37分,与GPT4 Turbo相差13.16分,还有一定提升空间。
SuperCLUE认为,在本次测评中,Baichuan3在各项能力上表现均衡,尤其在计算、逻辑推理、角色扮演、语言理解能力上处于国内领先位置,适用于复杂逻辑应用及个性化拟人场景。代码能力还有一定提升空间。
作为超千亿参数的模型,与上一代开源模型Baichuan2-13B-Chat相比,Baichuan3各维度的能力均大幅升级。其中,计算能力提升幅度最大高达41.15%,逻辑推理能力提升18.03%、代码能力提升29.61%、知识百科能力提升14.38%、语言理解能力提升19.30%、角色扮演能力提升17.92%、工具使用能力提升20.09%、生成创作能力提升4.49%、上下文对话能力提升5.47%、传统安全能力提升3.10%。
评测结果显示,Baichuan 3的综合能力表现不俗,计算、逻辑推理、语言理解、角色扮演、上下文对话等基础能力上较为领先。
大视野融媒网(原大视野新闻网)是最富价值的互联网推广平台,致力于打造国内最有影响力的融媒体发布平台。
大视野融媒网版权与免责声明:
一、凡本站中注明“来源:大视野融媒网”的所有文字、图片和音视频,版权均属大视野融媒网所有,转载时必须注明“来源:大视野融媒网”,并附上原文链接。
二、凡来源非大视野融媒网的新闻(作品)只代表本网传播该消息,并不代表赞同其观点。
如因作品内容、版权和其它问题需要同本网联系的,请在见网后30日内进行,联系邮箱:dsynews@126.com。
版权声明:大视野新闻网版权所有,未经书面授权,不得转载或建立镜像,违者依法必究。 本站违法和不良信息举报电话:010-67332088晋ICP备20007253号
Copyright © 2016- 大视野新闻网 All Rights Reserved互联网新闻信息服务许可证:ISSN 2224-3933 京公网安备:15010502001245