将军？事实证明，人工智能的棋子实力部分令人遗憾，部分令人希望--商业世界

首页 > 科技 » 正文

将军？事实证明，人工智能的棋子实力部分令人遗憾，部分令人希望

Matthew Connatser 2024-06-05

GitHub项目被其创建者、软件工程师弗拉基米尔·普雷洛瓦克简称为LLM国际象棋谜题，该项目测试LLM，让他们完成1000个国际象棋谜题.

与正常的国际象棋游戏不同，拼图本质上是一个逻辑问题，棋盘的状态是以特定的方式设置的.

国际象棋拼图的目标是下最好的一步或一串棋，以达到最快、最不可阻挡的目标.

一项针对大型语言模型(LLM)的新基准表明，即使是最新的模型也不是最好的棋手.

一盘国际象棋测试的是对另一位棋手的决策能力的测试，而国际象棋谜题则是对国际象棋机制的逻辑推理和理解的测试，这将形成一个更具挑战性的人工智能基准.

普雷洛瓦克告诉The Register，尽管大型语言模型的提供商分享了他们自己的性能基准，但由于过度匹配，这些结果可能会产生误导.

该基准的GitHub展示了OpenAI(包括GPT-40)、Anthropic和Mistral提供的许多最受欢迎的LLM的性能数据.

大多数模特的ELO评分都很低，这是一个代表技术水平的数字.

大多数LLM落在100到500的范围内，这是几乎没有国际象棋经验的棋手的领域.

其中包括克劳德3变种、GPT-3.

5涡轮增压和米斯特拉尔型号.双子座1.5 Pro完全失败了，因为无论提示如何措辞，它都不能格式化地说出这一步.

然而，有一个人工智能家族脱颖而出.

GPT-4和GPT-4涡轮预览车型分别获得1047分和1144分，高于平均水平.

尤其精通的是GPT-4O，其ELO为1,790，这是一个令人尊敬的业余水平，但仍低于专家水平，从2,000开始.

计算ELO对Prelovac来说并不是很直接，他告诉注册表，这些LLM容易做出非法或不允许的动作，比如沿对角线移动车或捕获自己的棋子.

即使是GPT-4o也有12.

7%的几率是违法的，而且其他大多数LLM的违法行为比合法的多.

在1000个谜题中的501个中，GPT-4o能够找到最佳走法.

例如，在这个拼图中，白色最好的一步是车到C8，就在黑色的女王旁边.

然而，女王不能只是免费使用这辆车，因为这辆车在怀特的光明广场主教的视线内.

但黑色不能把女王赶走，因为那时它的国王会被将死，所以黑色必须承认失去了它的女王.

另一方面，GPT-40也可以尝试一些真正疯狂的举动，比如在这个拼图中.

在这里，布莱克保证在两步内将死，第一步是将黑暗正方形的主教移到H2，让国王受制于人.

但GPT-40没有这样做，而是说它想在E1到E3上打它的车，除了在E1上根本没有车.

本文标签：