智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

　　未来网北京6月18日电(记者凌萌)6月中旬,智源研究院旗下的 FlagEval大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过GPT-4o和GPT-4。

图:豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)

　　FlagEval大模型评测平台由智源研究院与多个高校团队共建,以人类认知能力的发展阶梯为基准,对齐大模型所能达到的认知水平。FlagEval构建了大量原创的非公开评测集,确保评测质量和公正性。自2023年6月上线以来,FlagEval已完成了1000多次覆盖全球大模型的评测。

　　Doubao-Pro是由字节跳动自主研发的大语言模型,于5月15日正式发布。本期FlagEval大模型排行榜,是豆包大模型在公开评测中的首次亮相。

　　测试成绩显示,豆包大模型的数学能力、知识运用、任务解决等多项能力在客观评测和主观评测中都有着出色表现。其中,知识运用和数学能力得分排名客观评测第一、主观评测前三,任务解决测试得分在主客观评测中均排名前三。

　　数学能力是评估大模型是否“聪明”的一个重要维度。此前,复旦大学自然语言处理实验室就2024年高考数学题对13家主流大模型产品进行评测,豆包的数学高考新课标 II 卷答题获得最高分,客观题正确率达到74.66%,成绩优于GPT-4o及国内多款大模型产品。

图片来源:复旦NLP实验室公众号

　　据悉,豆包大模型是国内使用量最大、应用场景最丰富的大模型之一,日均处理token达到千亿级。其同名AI对话助手“豆包”,在苹果APP Store和各大安卓应用市场的AIGC类应用中下载量排名第一。目前,豆包大模型正在通过字节跳动旗下的火山引擎向企业市场开放服务,已经与OPPO、荣耀、小米、三星、华硕等智能终端厂商建立合作。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

友情提示

官方证实！OPPO杭州全球总部，停工了！总用地规模近5万平方米

《白夜破晓》火爆出圈，OPPO携手潘粤明拍了支番外广告

OPPO两大旗舰系列手机电池参数遭曝光最高6200mAh

手机卫星通信或将普及，华为、小米等主流厂商已经跟进

OPPO终于妥协，骁龙8Gen3旗舰跌至新低，24GB+1TB+6100mAh

中国电信开展消费级天通卫星终端性能关键技术试验

原配抓小三，男子从妻子手中解救小三头也不回的就走啦！！

女儿着急去排练，一听是奢香夫人，玲花：这个我熟｜综艺

遇到这样的大爷应该怎么做？

正式逮捕！迄今为止中国体坛最大官职，刘国梁蔡振华深受其害

文在寅卸任后待遇：每月1400万韩元退休金，配备65名警卫全身而退

过了60到70岁的老人一定要注意，听听她怎么说？

我个人建议取消中考，中小学学制从12年缩短至10年

统治“散装”的叙利亚有多难

柳岩谈做子宫肌瘤手术

叙新领导人宣布将收缴全国武器

马航370搜寻为何还由海洋无限执行

冲绳民众要求彻底修改日美地位协定

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

友情提示

官方证实！OPPO杭州全球总部，停工了！总用地规模近5万平方米

《白夜破晓》火爆出圈，OPPO携手潘粤明拍了支番外广告

OPPO两大旗舰系列手机电池参数遭曝光 最高6200mAh

手机卫星通信或将普及，华为、小米等主流厂商已经跟进

OPPO终于妥协，骁龙8Gen3旗舰跌至新低，24GB+1TB+6100mAh

中国电信开展消费级天通卫星终端性能关键技术试验

原配抓小三，男子从妻子手中解救小三头也不回的就走啦！！

女儿着急去排练，一听是奢香夫人，玲花：这个我熟｜综艺

遇到这样的大爷应该怎么做？

正式逮捕！迄今为止中国体坛最大官职，刘国梁蔡振华深受其害

文在寅卸任后待遇：每月1400万韩元退休金，配备65名警卫全身而退

过了60到70岁的老人一定要注意，听听她怎么说？

我个人建议取消中考，中小学学制从12年缩短至10年

统治“散装”的叙利亚有多难

柳岩谈做子宫肌瘤手术

叙新领导人宣布将收缴全国武器

马航370搜寻为何还由海洋无限执行

冲绳民众要求彻底修改日美地位协定

OPPO两大旗舰系列手机电池参数遭曝光最高6200mAh