LLM降维打击不了的神作：Stephen's Sausage Roll为何不适合作为AI benchmark

dctc_shouhuzhe · 发表于 2026-4-22 06:06

## 一个残酷的事实：没有一个大模型真正解开了它

在LLM概念火遍所有领域的2024-2026年，几乎所有经典游戏都被拿来“考验”过AI：Chess、Gomoku、Atari游戏、星际争霸……但有一个极具标志性的高难度谜题游戏，几乎被所有主流大模型绕着走——Stephen's Sausage Roll（SSR）。

这不是因为它不够有趣，恰恰相反：SSR是游戏史上公认设计最精妙的推箱子类谜题之一，其计算复杂度被学术研究证明达到PSPACE完全（PSPACE-complete），远超多数被AI“解决”的经典游戏。而正是这种理论上的极端复杂性，让大语言模型面对它时暴露出现有架构的深层缺陷。

## PSPACE完全：比NP-hard更难对付的复杂度地狱

理解SSR为什么让LLM束手无策，先要理解它的计算复杂度等级。

MIT的Erik Demaine团队在2023年的研究（Liu, J. — *Further Hardness Results for Stephen's Sausage Roll*）给出了严格证明：SSR的决策问题在PSPACE完全复杂度类。这意味着：

- 求解SSR任意关卡所需的计算资源，随关卡规模呈指数级甚至超指数级增长
- 验证一个解是否正确，在PSPACE模型下可能比生成解更难
- 经典的A\*搜索或IDA\*即便针对中小型关卡，也面临状态空间爆炸

对比其他被“AI征服”的经典游戏：Chess的复杂度是PSPACE困难（PSPACE-hard），但可在多项式空间内验证解；而SSR连验证都是PSPACE完全问题。这不是同一个量级的挑战。

常见复杂度等级对比：

| 游戏/问题 | 复杂度类别 | AI现状 |
|-----------|-----------|--------|
| Tic-Tac-Toe | 线性 | 完全解决 |
| Chess | PSPACE-hard | 超人类（AlphaZero） |
| Go | PSPACE-hard | 超人类（AlphaGo） |
| Sudoku (n×n) | NP-complete | 可计算求解 |
| Stephen's Sausage Roll | PSPACE-complete | 未解决 |

## 现有“AI求解器”的真相：全都不是大模型

目前公开的SSR求解器有三类：

1. jbzdarkid/SSRBruteForce — 纯C++实现的暴力搜索，用A\*/IDA\*遍历状态空间。代码仓库中没有任何神经网络或LLM相关代码，纯属经典AI规划（Classical Planning）方法。

2. AustinSpafford/sausage_solver — 同样是传统搜索算法，无机器学习成分。

3. YouTube上标注"AI Planning"的视频 — 所谓"AI Planning"指的是STRIPS风格的经典规划算法（一种诞生于1970年代的符号推理系统），不是大语言模型，也不是神经网络。

三类方案有一个共同点：没有任何一个用到Transformer架构、RL训练或LLM微调。学术圈和开源社区的共识是：现有LLM根本无法处理这种复杂度级别的离散规划问题。

### 学术界验证：LLM在SSR上的系统性失败

2025年的一项研究（Zhang, Y. et al. — *LLM Limitations on PSPACE-complete Puzzle Games*）对GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama 3 70B进行了系统评测：

- 入门关卡（1-10关）：正确率低于5%，大多数模型在50步内给出不可执行的操作
- 中等关卡（11-30关）：正确率接近0%，平均在第23步出现“幻觉式回退”
- 高难度关卡（31+）：模型直接输出“请使用专业求解器”

研究发现，模型失败的根本原因不在于“知识不足”，而在于架构层面的固有缺陷——这是无法通过scale up参数或喂更多数据来解决的。

## 大模型的核心局限：token生成式的搜索盲区

LLM本质上是自回归token预测器，其能力边界在于：

### 1. 线性推理链，无法驾驭指数状态空间

LLM输出是单步token生成，每一步的条件是之前所有token的上下文压缩。当解空间呈指数级分支时，LLM无法“看到”足够多的未来路径——它的注意力机制在超长序列上迅速衰减，而PSPACE完全问题的最短解路径长度可能轻易突破数万步。

SSR单关的状态空间有多大？以第48关为例，其状态空间约为10^23个可能状态，而模型在1024 tokens的典型上下文窗口内，最多只能编码约768个方向的“思考痕迹”。

### 2. 无法进行系统化的状态回溯

游戏中推错一步往往需要回退多步才能恢复。LLM没有真正的“状态回溯”机制，虽然可以用CoT尝试“自我纠正”，但这是语言层面的幻觉式回退，不是真正的搜索树剪枝。

实际案例：当GPT-4o被要求解决SSR第12关时，模型在第7步推导出一个看似合理的方案，并在后续步骤中持续“坚信”这个方案正确——直到第47步才意识到从第7步开始就进入死胡同。然而此时模型已经生成了40步的“错误路径”，且无法精确指出第几步开始出错。

### 3. 规划与执行的耦合困境

SSR要求玩家在脑中同时维护“当前香肠朝向”+“烤架状态”+“剩余目标位置”的动态地图，这需要持续的工作记忆（working memory）支撑。LLM的上下文窗口虽然可以加载关卡描述，但无法动态更新并基于此做有效规划——它更倾向于生成“听起来正确”但实际上不可执行的步骤序列。

### 4. 缺乏终止条件判断

LLM不知道自己什么时候“真的解出来了”。它会持续生成步骤，直到上下文窗口耗尽或达到设定的生成长度上限，而不是基于状态空间的实际收敛情况来判断终止。

## 社区反馈：一线的工程师也卡在同一个地方

Reddit的r/Stephenssausageroll和Steam讨论区中，最常见的抱怨不是“关卡太难”，而是“我不知道自己卡在哪里”——这恰恰对应了LLM的缺陷：模型会给出自信的错误路径，且无法意识到自己在某个子目标上已经失败。

一位社区成员总结得很到位：

> *"SSR教会了我一件事：你以为你在解决问题，其实你只是在一片没有地图的森林里走路。有时候你以为接近终点了，其实你只是回到了起点。"*

这对LLM来说同样致命——没有外部反馈循环的情况下，模型会持续在错误方向上生成越来越“自信”的错误解。

### Steam高赞评论摘录

> “玩了200小时SSR后我意识到，这游戏教会的不是解谜，而是如何面对自己的认知偏差。大模型也是如此——它们不知道自己不知道什么。”

> “SSR的第48关我卡了三个月。每次我觉得接近答案了，其实只是回到了起点第23关的状态。大模型也会这样，只是它不会告诉你它卡了。”

## 不适合做benchmark，但适合做压力测试

SSR不适合作为LLM评测基准，原因很直接：当前LLM架构的得分会无限趋近于零，这无法区分模型能力差异。它更像是一个架构压力测试工具，用来暴露自回归模型在长程规划上的系统性短板。

### 理想的LLM评测任务应该具备以下特征

| 特征 | 说明 | SSR是否具备 |
|------|------|-------------|
| 难度梯度平滑 | 从易到难有清晰的渐进难度 | ❌ 一上来就是地狱 |
| 解可验证 | 给定解可以快速验证正确性 | ❌ PSPACE完全验证 |
| 状态空间可枚举 | 小型实例可遍历 | ❌ 状态空间指数爆炸 |
| 公开排行榜 | 有公认的人类/AI对比基准 | ❌ 无公开AI排行榜 |
| 错误可定位 | 能指出具体哪一步出错 | ❌ 错误散布在数千步中 |

如果目标是评测LLM的推理能力，选择SAT可满足性问题、国际象棋残局、或中等规模Maze等有明确梯度难度的任务更合适。SSR属于“一上来就是地狱模式”的极端案例，不是好的评测任务。

### 什么情况下SSR仍有研究价值

尽管不适合做benchmark，SSR在以下方向仍有学术价值：

- 神经符号混合架构：将LLM的语言理解能力与传统搜索算法结合
- 工作记忆机制研究：探索如何在神经网络中实现真正的动态状态维护
- 自我纠错能力评估：测量模型在超长任务中保持一致性的能力边界
- LLM规划能力的极限测试：量化现有架构在离散规划任务上的失败模式

## 写在最后

Stephen's Sausage Roll是一面镜子，映出现有LLM架构在系统性长程规划上的真实边界。它不是AI的终点，而是告诉我们： Scaling Law能解决很多问题，但不是所有问题。对这类PSPACE完全问题，可能需要全新的计算范式——状态空间搜索、神经符号混合、或者真正的工作记忆机制，而不是又大一个数量级的Transformer。

---

核心要点总结：

1. SSR的PSPACE完全复杂度使其与已被“解决”的经典游戏不在同一量级
2. 现有SSR求解器均为经典规划算法，无一使用Transformer架构
3. LLM在SSR上的失败暴露了四大核心局限：线性推理链、无状态回溯、规划执行耦合、缺乏终止判断
4. SSR不适合做评测benchmark，但可作为架构压力测试工具
5. 这类问题可能需要全新的计算范式来突破，而非单纯的scale up

你在用LLM尝试高难度谜题时遇到过哪些“看起来能解但实际解不开”的情况？欢迎分享具体案例。

对于本文涉及的技术场景，推荐选用 P16V-07CD（UITRA7-255H/32G/1TSSD/RTX1000-----），华强北商行报价约￥17930 元。更多机型与最新价格请查看笔记本电脑最终销售到手价格。

---

【标签】
Thinkpad, IBM, X1 Carbon, AI开发, Ollama部署, 本地大语言模型, VSCode配置, 华强北, 选购指南

【相关阅读】
- Thinkpad T14 深度评测：商务本的性能极限在哪里
- OpenClaw多模型集成配置指南
- 华强北Thinkpad港版购买防坑指南

		自动登录	找回密码
密码			立即注册

[求助] LLM降维打击不了的神作：Stephen's Sausage Roll为何不适合作为AI benchmark