内地首个AI高考评测 数学全不及格

  发布时间:2024-06-29 18:36:10   作者:玩站小弟   我要评论
苏州海选工作室-苏州茶楼信息-苏州新茶工作室。

  图:AI得分情况。内

  【大公报讯】据第一财经报道:高考这一高难度综合性测试,地首目前普遍被研究者用于考察大模型的个AI高格智能水平。在前不久高考结束后,考评上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试,测数并于19日发布了首个大模型高考全卷评测结果。学全

  语数外三科加起来的不及满分为420分,此次高考测试结果显示,内阿里通义千问2-72B得303分排名第一,地首OpenAI的个AI高格GPT-4o得296分排名第二,上海人工智能实验室的考评书生.浦语2.0排名第三,三个大模型的测数得分率均超过70%,但大模型的学全数学都不及格,最高分也只有75分。不及在数学试卷上,内阅卷老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。可以看出,在数学方面大模型还有很大的提升空间。

  数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华表示,“现在很多大模型的应用场景是客服、聊天等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”

  • Tag:

相关文章

  • 大开眼界/跟大师学製茶 感受“非遗”魅力

      6月21日下午,2024范长江行动中原行的豫港学子们来到信阳市溮河港镇郝家冲村的文新茶村参观,感受信阳毛尖的独特魅力。跟随讲解员,学子们了解了杀青、晾青、筛青、捂青、揉条、撸条、烘干等一系列製茶工
    2024-06-29
  • 物流行业继续保持乐观预期 助力我国经济持续向好

      10月28日,重庆首次开行市场采购贸易专列——渝新欧“中国重庆—白俄罗斯明斯克”,从中欧班列渝新欧)始发站重庆市沙坪坝团结村铁路中心场站出发,搭载着55个集装箱、约600万美元的汽车零配件、五金餐
    2024-06-29
  • 快递业迎年度大考:服务持续升级 包裹跑出加速度

      10月23日早上7时39分,随着一件网购羽绒服从京东亚洲一号青岛物流园发出,国家邮政局快递大数据平台实时监测数据显示,今年我国第1000亿件快件产生,比去年达到千亿件提前了39天。国家邮政局相关负
    2024-06-29
  • 向海图强看广东

      央视网消息在汕头,从浅海到深海,从“看天吃饭”到“高效养殖”,海洋牧场快速发展;在江门,种苗培育、深海养殖、精深加工、装备制造、融租服务、海上风电“六位一体”现代化海洋牧场全产业链加速布局;在湛江
    2024-06-29
  • 剧情拉满!美国1

    直播吧6月28日讯 北京时间06:00,美洲杯小组赛C组第2轮,巴拿马vs美国。上半场,麦肯尼进球被吹;小维阿拳击对手染红!巴洛贡爆杆世界波破门;布莱克曼贴地斩扳平;巴洛贡半场补时中框。下半场,法贾尔
    2024-06-29
  • 住进养老院的年轻人:“每月房租300元,太便宜了!”

      上午九点半,苏州吴江江陵康养中心三楼的活动室里,一堂老年心理课准时开课。讲课的老师张文雯20岁出头,穿着红马甲,扎着马尾辫,青春洋溢。她从焦虑情绪切入,讲到老年焦虑症和离退休综合征,听得台下的老人
    2024-06-29

最新评论