十大杠杆炒股平台_杠杆炒股app_正规杠杆配资平台

融金汇银 超越GPT

发布日期:2024-08-04 12:52    点击次数:179

5月21日,国内权威大模型测评机构SuperCLUE正式发布商汤“日日新5.0”(SenseChat V5)中文基准测评结果,其以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125。

值得注意的是,这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。

SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。

在本次测评中,商汤在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置。

在文科任务上商汤表现十分出色,以82.20分取得国内外最高分;理科任务上以76.78分取得国内最好成绩。

在与国外代表大模型对比时SuperCLUE的工作组发现,商汤在文科类中文任务上好于国外大模型,尤其在长文本、生成创作能力较为领先。

4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。

在数据方面,该大模型采用了新一代数据生产管线,生产了10T tokens的高质量训练数据。通过多个模型进行数据的过滤和提炼,显著提升了预料质量和信息密度;基于精细聚类的均衡采样确保对世界知识覆盖的完整性。同时,还大规模采用了思维型的合成数据(数千亿tokens量级),这对于模型在逻辑推理、数学和编程等方面的能力提升起到了关键作用。

南方+记者 郜小平