关注我们
QRcode 邮件联系 新浪微博
首页 > 科技 » 正文

将军?事实证明,人工智能的棋子实力部分令人遗憾,部分令人希望

 Matthew Connatser

GitHub项目被其创建者、软件工程师弗拉基米尔·普雷洛瓦克简称为LLM国际象棋谜题,该项目测试LLM,让他们完成1000个国际象棋谜题.

与正常的国际象棋游戏不同,拼图本质上是一个逻辑问题,棋盘的状态是以特定的方式设置的.

国际象棋拼图的目标是下最好的一步或一串棋,以达到最快、最不可阻挡的目标.

一项针对大型语言模型(LLM)的新基准表明,即使是最新的模型也不是最好的棋手.

一盘国际象棋测试的是对另一位棋手的决策能力的测试,而国际象棋谜题则是对国际象棋机制的逻辑推理和理解的测试,这将形成一个更具挑战性的人工智能基准.

普雷洛瓦克告诉The Register,尽管大型语言模型的提供商分享了他们自己的性能基准,但由于过度匹配,这些结果可能会产生误导.

该基准的GitHub展示了OpenAI(包括GPT-40)、Anthropic和Mistral提供的许多最受欢迎的LLM的性能数据.

大多数模特的ELO评分都很低,这是一个代表技术水平的数字.

大多数LLM落在100到500的范围内,这是几乎没有国际象棋经验的棋手的领域.

其中包括克劳德3变种、GPT-3.

5涡轮增压和米斯特拉尔型号.双子座1.5 Pro完全失败了,因为无论提示如何措辞,它都不能格式化地说出这一步.

然而,有一个人工智能家族脱颖而出.

GPT-4和GPT-4涡轮预览车型分别获得1047分和1144分,高于平均水平.

尤其精通的是GPT-4O,其ELO为1,790,这是一个令人尊敬的业余水平,但仍低于专家水平,从2,000开始.

计算ELO对Prelovac来说并不是很直接,他告诉注册表,这些LLM容易做出非法或不允许的动作,比如沿对角线移动车或捕获自己的棋子.

即使是GPT-4o也有12.

7%的几率是违法的,而且其他大多数LLM的违法行为比合法的多.

在1000个谜题中的501个中,GPT-4o能够找到最佳走法.

例如,在这个拼图中,白色最好的一步是车到C8,就在黑色的女王旁边.

然而,女王不能只是免费使用这辆车,因为这辆车在怀特的光明广场主教的视线内.

但黑色不能把女王赶走,因为那时它的国王会被将死,所以黑色必须承认失去了它的女王.

另一方面,GPT-40也可以尝试一些真正疯狂的举动,比如在这个拼图中.

在这里,布莱克保证在两步内将死,第一步是将黑暗正方形的主教移到H2,让国王受制于人.

但GPT-40没有这样做,而是说它想在E1到E3上打它的车,除了在E1上根本没有车.

本文标签:
打造群众身边的高品质社区食堂,满足多元消费需求。
微软被指控使用教育软件跟踪孩子