LEVEL 7(优秀层次)
发帖资深用户
 
- 帖子
- 7589
- 精华
- 0
- 积分
- 156
- 金币
- 7810 枚
- 原创
- 0 贴
- 威望
- 0 点
- 支持
- 14771 度
- 感谢
- 28369 度
- 贡献
- 0 值
- 赞助
- 0 次
- 推广
- 0 人
- 阅读权限
- 50
- 注册时间
- 2010-9-1
|
1楼
大 中
小 发表于 2023-8-18 07:56 只看该作者
  本贴共获得感谢 X 4
MIT科技评出中国“最聪明”的大模型
中国青年报客户端合肥8月17日电(中青报·中青网记者 王海涵)国内“千模大战”下,谁是“最聪明”的大模型?《麻省理工科技评论》发布中国最新发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中表现突出,以 81.5 分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。
 大模型评测综合得分率。受访单位供图 《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出“最聪明”的国产大模型。选取了国内四个大模型作为中文大模型平台的代表,展开系统科学评测。
本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化。
作为比较难的评测维度,综合知识对大模型的“聪明”程度要求也很高,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13 个二级分类,题型以多选为主。最终,讯飞星火 80.61% 的得分率排名第一,初步显示出在百科问答和历史人文上的“过人之处”。
8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位。
|