当前位置: 主页 > 内容栏目 > 环科

月之暗面回应9.11和9.9比较错误

导读:9.11和9.9哪个更大?近日不少媒体就此问题,测试了多个大模型,但是多家大模型如字节豆包、GPT4o、月之暗面Kimi、阶跃星辰跃问、百川智能百小应等,都回答错误。除此之外,之前有用户向大模型提问草莓(strawberry)这个单词有几个r时,多家也出现错误说是两个。针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常

9.11和9.9哪个更大?近日不少媒体就此问题,测试了多个大模型,但是多家大模型如字节豆包、GPT4o、月之暗面Kimi、阶跃星辰跃问、百川智能百小应等,都回答错误。

除此之外,之前有用户向大模型提问草莓(strawberry)这个单词有几个r时,多家也出现错误说是两个。

针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。

“我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的“9.9和9.11哪个大、13.8和13.11哪个大”,还是之前的’strawberry‘有几个’r‘,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。但要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

65


推荐阅读
  • 美国决定将吊销中国学生签证 外交部:歧视性做法戳穿所谓“自由开放”谎言
    美国决定将吊销中国学生签证 外交部:歧视性做法戳穿所谓“自由开放”谎言
    2025-05-29 16:08:07
        5月29日,外交部发言人毛宁主持例行记者会。有记者提问,近日,美国决定将开始吊销中国学生的签证,包括“与中国政府有联系或在关键领域学习”的学生。请问外交部对美方的这一决定有何评论?  毛宁回应...
  • 68%新能源渗透率背后的“4+N”产业密码 上海加速打造智能汽车城市
    68%新能源渗透率背后的“4+N”产业密码 上海加速打造智能汽车城市
    2025-05-08 10:38:10
    “我们首次尝试以城市、地域为切入点去分析一个产业,但在这个过程中,肯定存在一些不足和信息不完整的地方。我们希望以这份报告为起点,可以将这项工作做得越来越好。”日前,普华永道联合上海现代服务业联合会发布...
  • “掘金”巴黎奥运,这些消费品牌出奇招!
    “掘金”巴黎奥运,这些消费品牌出奇招!
    2025-04-01 00:25:17
    2024年巴黎奥运正在火热进行中,“奥运经济”也在如火如荼地进行着。奥运会,不仅是运动员比拼的赛场,也是各大企业亮相的“舞台”。看看这届巴黎奥运会,有哪些我们熟悉的品牌参与其中?奢侈品牌不断“刷屏”巴...
  • “公地的悲剧”陷阱与共享单车的“末日黄昏”
    “公地的悲剧”陷阱与共享单车的“末日黄昏”
    2025-04-01 00:24:16
    2013年1月,畅销书《灰犀牛:如何应对大概率危机》作者米歇尔•渥克于达沃斯全球论坛上首次公开提出“灰犀牛”这一概念,喻指大概率且影响巨大的潜在危机——如生长在非洲草原上的灰犀牛,体型庞大、视力较弱、...
  • 从刷墙到刷手机屏幕,互联网消费下沉
    从刷墙到刷手机屏幕,互联网消费下沉
    2025-04-01 00:24:13
    从刷墙到刷手机屏幕,中国科技公司攻占乡镇市场只用了四年时间。2014年前后城市互联网人口红利逐渐消失,广袤的乡镇市场成为了互联网巨头们角逐的新战场。但受困于触达渠道匮乏以及低端智能手机功能较低(此时的...
  • 昔日同样辉煌的A站和B站,今日为何一个河东一个
    昔日同样辉煌的A站和B站,今日为何一个河东一个
    2025-04-01 00:24:01
    B站自3月上市后便走上了激进的开疆扩土之路。继全资收购音频平台猫耳FM之后,B站最近又“盯上”了网易漫画,据了解,双方已于12月12日签订了收购协议。不仅如此。相关信息显示,B...