尽管大型语言模型可以表现出类似人类的行为,但这种相似性是表面的。一个简单的策略游戏揭示了它们战略方法上的明显差异。
最新动态:德克萨斯大学奥斯汀分校和Google的Caroline Wang及其同事在人类和LLM玩经典游戏石头剪刀布时,解读了他们的决策模式。他们发现,LLM有时能比人类更高明地模拟对手。
核心洞察:给定记录的游戏过程,LLM可以迭代改进预测玩家下一步行动的代码。如果该代码能以显著准确度预测玩家的行动,我们可以假设其决策算法在功能上与玩家使用的算法相似。计算机代码是可解释的,这使得辨别此类算法并比较人类和LLM使用的算法成为可能。
工作原理:在石头剪刀布的游戏中,作者将单个LLM(Gemini 2.5 Pro、Gemini 2.5 Flash、GPT-5.1和GPT-OSS 120B)与15个具有不同复杂度的预编程机器人一一配对。他们记录了每个玩家在20场游戏中的行动,每场游戏包含300个连续回合。先前的工作提供了人类与相同机器人游戏的类似记录。作者追踪了每个玩家(AI和人类)每回合的选择,以及他们是赢、输还是平。然后,他们使用AlphaEvolve(一种通过进化过程迭代优化代码的代理方法),来改进预测每个LLM个体和作为群体的人类的下一步行动的Python程序。
- AlphaEvolve最初使用作者编写的简单模板程序处理游戏数据。在未公开数量的进化步骤中,每个步骤中Gemini 2.5 Flash提出修改方案,以改进一个平衡简单性(通过Halstead effort衡量)和评估可能性(程序预测玩家选择的好坏程度)的函数。
- 对于每个玩家,作者选择了在离最佳值很小的误差范围内达到接近最大预测准确性的最简单的程序。每个程序为其进化所预测的玩家产生了最佳的评估可能性(越高越好)。也就是说,它代表其对应玩家行为的能力比代表任何其他玩家的行为都要好。
结果:使用AlphaEvolve未处理过的游戏数据,作者比较了每个程序预测其他玩家行动的效果。然后,他们检查这些程序以确定每个玩家使用了什么策略。
- 代表Gemini 2.5 Pro、Gemini 2.5 Flash和GPT-5.1的程序在预测彼此与机器人对战时的行动方面表现几乎同样好,这表明这三者使用了相似的策略。例如,预测Gemini 2.5 Pro的行动时,预测Gemini 2.5 Pro、Gemini 2.5 Flash和GPT-5.1的程序分别达到了0.507、0.507和0.506的评估可能性。代表人类和GPT OSS 120B的程序预测这三人行动的成功率较低。它们分别达到了0.476和0.403的评估可能性,表明它们可能使用了不同的策略。
- 解读这些程序表明,Gemini 2.5 Pro、Gemini 2.5 Flash和GPT-5.1比人类或GPT-OSS 120B更有效地维持了序列模式。预测这些程序的代码根据玩家之前的一步或两步行动来追踪每种可能行动的频率。也就是说,它追踪了玩家在三个回合中,出"石头->剪刀->石头"、"石头->剪刀->布"等的频率。相比之下,代表人类和GPT-OSS 120B的代码仅追踪对手最近一次行动的频率。
- 代表Gemini 2.5 Pro、Gemini 2.5 Flash、GPT-5.1和人类玩家的代码基于(i)可能的下一步行动,(ii)机器人之前的行动,以及(iii)玩家之前的行动,来计算每种可能下一步行动的初步值。GPT-OSS 120B仅基于可能的下一步行动本身来计算该值。
为何重要:虽然研究人员已经找到了理解神经网络行为某些方面的方法,但大型语言模型在许多方面仍然是黑箱。直接从LLM行为中综合代码为解读它们的决策提供了一个强大的工具。
我们的思考:我们很容易假设LLM学会了模仿其训练数据中所体现的人类行为。发现它们能比普通人更系统地编码游戏策略,展示了另一种不同的学习方式。