苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”
近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。
研究背景与核心发现
实验设计:复杂性可控的逻辑谜题
研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。
- 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。
- 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。
- 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。
模型推理能力的“崩溃”与“偷懒”
- 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。
- 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。
研究实验示意表
复杂度等级 | 模型类型 | 表现趋势 | 备注 |
---|---|---|---|
低 | 普通大语言模型 | 准确率较好 | 推理模型表现一般 |
中 | 推理模型(含链式思考) | 准确率提升 | 链式思考开始有效 |
高 | 所有模型 | 准确率急剧下降至0 | 模型推理“崩溃”并“放弃” |
专家观点与行业影响
- Gary Marcus:该研究“毁灭性”,打破了大语言模型快速通向通用人工智能的幻想。
- Andrew Rogoyski:当前推理模型已遇瓶颈,现有方法或进入“死胡同”。
苹果的AI发展战略解读
- 此次研究发布正值 WWDC 2025 前夕,体现苹果强调“设备端效率”和“实际应用价值”,反对盲目追求模型规模和复杂度。
- 苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术,但表现平平,此次研究进一步证明稳扎稳打才是长远之计。
未来方向与思考
- 建立无数据泄露风险的逻辑谜题评测基准,避免传统 benchmark 偏差。评估基准的重塑:苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI,以避免传统 benchmark 的偏差。
- 引入符号逻辑和神经符号混合技术,突破纯统计学习的限制。融合思维范式:当前 LLM 的“链式思考”是统计学习,并不是真正的推理。未来可能引入 符号逻辑、神经符号混合 等技术路径。
- 结合专用推理子系统,提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络:苹果研究者曾指出,搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。
总结
- 链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
- 未来AI发展需要超越纯数据驱动的模式匹配,向可解释、可操作的逻辑机制进化。
- 苹果此次研究为业界敲响警钟,也明确了其在AI道路上的稳健路线。
相关引用示例代码(伪代码展示算法示意)
以下是汉诺依塔(Hanoi)的递归算法:
function solveTowerOfHanoi(n, from, to, via) { if (n == 0) return; solveTowerOfHanoi(n-1, from, via, to); moveDisk(from, to); solveTowerOfHanoi(n-1, via, to, from); }
评论
缺乏物理世界的规律认知。
Meta的那个scientist一直说现在的LLM不能理解物理世界,所欲AGI肯定不是llm。
其实你想想ai的底层逻辑是建立在token上的就很反直觉。莫拉维克悖论。
when it scales.. 会出现 智能”涌现”的现像,就是一个黑箱。
脑科学,涌现。其实想想人脑真挺厉害的,而且人脑是那么一丁点大的基因表达出来的一个器官。每个正常成年人都可以精确控制自己的肢体动作,例如抓取杯子喝水啥的。但是机器人确需要精准的算法设计和大量训练,也许正确的道路是战锤里面的湿件,血肉苦弱,机械飞升。
lecun说的没问题 目前的llm就还是统计模型 物理世界数据太少了所以无法理解。
也有人质疑这个论文,说不是推理不出来,是token限制。数据太少了无法大量训练。它论文里有一块,说模型在不同puzzle中的表现不一致,可能跟训练数据中puzzle在网络上的曝光度有关。但实际上论文里没提供训练数据分析或者数据增强实验这种证据,只是单纯的假设了一下。我感觉有点不严谨。
脑科学和ai有很多内联。脑科学没有完全研究明白之前也可以从自上而下的角度来逼近。就像海马体的空间导航功能来启发类脑slam。虽然内部神经元的连接细节还不明确。人脑用很小的物理世界数据就能训练完成。
人脑带宽就10bit,但这是真推理,人脑做决策,计算量很小,但是每秒能处理很多大量的工作。我的脑子这么屌,为什么一个月才值 3000。
但是人脑有预训练权重啊。刚生下来的小孩就已经有很多牛逼的功能了。也对。是不是说明,训练需要几百万年,做推理的时候计算量很小,利好边缘AI部署。这个就是脉冲神经网络的一个应用方向。
人类有集体潜意识 是训练几百万年 通过遗传留下来的weight。
脉冲很稀疏,虽然也还只是特别粗糙的模拟,但是也有一些应用价值。
计算机就是靠易经发明的 所以得回到道教里面去找灵感怎么搞AI。
参考文献
- 苹果发表的文章:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
- ‘The illusion of thinking’: Apple research finds AI models collapse and give up with hard puzzles
新闻/实事/经济
- 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”
- 中美贸易战告一段落, 牛市来了?
- 特朗普怂了? 美股币圈反弹
- 特朗普加关税的公式竟然是EXCEL里弄的?
- 经济危机? 美股币圈房产全面下跌
- 美国大选, 特朗普二次当选, 比特币大涨
- 有一点FEMO: 并没赶上TRUMP特朗普币, 错过几个亿!
- 特朗普2.0: 乌克兰的命运由美俄决定, 欧洲被卖了
- 比特币最近波动有点大: 一天牛市一天熊
- DOGE: 政府效率部 - 狗狗币起飞了! 再一次FEMO! (狗币简介)
- 牛市2025! 比特币 All Time High 上了10万美金

相关文章:
- 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
- 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
- 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. 1 2...
- 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...
- 花钱让人换汽车钥匙的电池真是个智商税 今天想不到我这么聪明的人也被人狠狠的收了一把智商税. 今天被收智商税了, 去 Tesco 换车钥匙的电池. . 才发现如此的简单, 那人直接2分钟搞定2个, 然后收了我25英镑. . 服了. . 我还以为很复杂…… 网友说 “1....
- 公司给配了台高配DELL笔记本 早上例会结束的时候我顺便说了一句 我的笔记本有点慢, 当时我并不知道我的经理远程用电话也参加会议了(他全程在听), senior staff SE 对着电话说, “peter, you hear that? btw, my disks are...
- 老婆的配偶签证被拒 郁闷死了, 601镑签证费打水漂,一去不回!费钱费力. 去年12月份我请了律师拿到了永居.老婆是T1G签证的陪工签 (DEPENDENT VISA) 2016年4月份到期. 然后我就想说得趁早把她的签证转成配偶签(SPOUSE)这样她就可以尽快走五年永居的路线. 今天收到拒签信,原因是我没有提供 有工资进帐的那份银行帐单,我提供了我和我老婆的联名帐户, 但是工资并不是直接打到这个帐单上的.所以就这一点被拒了.完全不给解释,不给补材料的机会.601镑就这样再见了. 英国的签证寄出之后是先由另一个部门先收费, 收完费才正式审理,而且不管结果如何是不退钱的.后悔没让律师弄,也不至于到现在浪费这么多时间和金钱,签证还没过.由于原签证还没到期,所以还不能上述.估计只能等搬完家后年底请律师搞定这事. 真是郁闷, 600镑, 我可以再买一个IPHONE6,或者给我的新买的车换四个轮胎....
- ACM题解系列之 – 最小堆栈 (Min Stack) 没事刷刷题能防止老年痴呆, 而且也能让你随时处于最佳状态, 随时都可以炒老板鱿鱼另谋高就. 题目: 设计一个堆栈(Stack)使 push, pop, 和取最小 min 操作时间复杂度都是 O(1). 这题的难点就是在于怎么样用O(1)常数时间复杂度来取得堆栈里的最小值. class MinStack {...