news 2026/6/30 3:14:16

思维链推理是一种脆弱的‘海市蜃楼’,一旦超出训练分布,它便会消失。| 直播预约

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
思维链推理是一种脆弱的‘海市蜃楼’,一旦超出训练分布,它便会消失。| 直播预约

主题

思维链只是幻象?从数据分布揭开 LLM 推理的真相

时间

2025.12.14 周日 10:00 北京时间
2025.12.13 周六 21:00 美东时间

🎙本次分享为全英文讲座!🌍

bilibili直播

内容

思维链(Chain-of-Thought, CoT)提示已被证明能够提升大型语言模型(LLM)在多种任务上的表现。在这种方法中,LLM 会在给出答案前生成类似人类的推理步骤(即 思维链推理),这常常让人感觉模型在进行深思熟虑的推理过程。然而,一些初步研究表明,思维链推理可能比表面看起来更加浅层,从而促使我们进一步探索。

在此工作中,我们从数据分布的角度研究思维链推理,并探讨思维链推理是否反映了一种从训练分布中学习到的结构化归纳偏置,使得模型能够在条件生成中复现训练中出现过的推理路径。因此,其有效性从根本上受到训练数据与测试查询之间分布差异程度的限制。带着这一视角,我们从三个维度剖析思维链推理:任务、长度与格式。为了研究每个维度,我们设计了 DataAlchemy,一个隔完全可控的训练环境,用于从零训练大型语言模型并在不同分布条件下系统性地测试它们。

研究结果表明,思维链推理是一种脆弱的“海市蜃楼”,一旦超出训练分布,它便会消失。这项工作为理解思维链推理为何以及何时成功或失败提供了更深入的认识,并强调了实现真正通用推理能力所面临的持续挑战。

  • 论文:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

  • 链接:https://arxiv.org/pdf/2508.01191

嘉宾

赵成帅,亚利桑那州立大学(ASU)二年级博士生,导师为刘欢教授。他曾在西湖大学交换学习,与夏俊教授和李子青教授合作。他的研究方向包括数据挖掘,科学智能(AI4Science),大语言模型推理和安全隐私。他的工作曾获得IEEE CogMI Best Student Paper Award,CIKM Best Demo Paper Award,他在多个会议担任评审并发表工作,包括 ICLR,ACL,EMNLP,IJCAI等。个人主页:https://chengshuaizhao0.github.io/

主持人

吴昊伦,Mila & McGill 的四年级博士生,在 Stanford 从事访问学者研究。其主要研究方向包括可信 AI / 大模型、信息检索、个性化、AI 对齐以及 AI+教育等。他曾在 Microsoft Research、Google、DeepMind 多次实习,其研究成果被应用于 MSR Alexandria 知识库构建和 Google Shopping 推荐系统。他在多个领域的顶级会议和期刊(如 NeurIPS, ICML, ICLR, EMNLP, SIGIR, WWW, CHI, CSCW, TMLR, TKDE 等)发表工作并担任评审。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。

NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/29 3:40:33

如何快速掌握Solaar:5个高效管理罗技设备的实用技巧

如何快速掌握Solaar:5个高效管理罗技设备的实用技巧 【免费下载链接】Solaar Linux device manager for Logitech devices 项目地址: https://gitcode.com/gh_mirrors/so/Solaar 还在为Linux系统下罗技设备的连接问题而烦恼吗?Solaar作为专为Linu…

作者头像 李华
网站建设 2026/6/29 14:48:49

12、线程特定数据存储与线程取消机制详解

线程特定数据存储与线程取消机制详解 在多线程编程中,线程特定数据存储(TSD)和线程取消机制是两个重要的概念。下面将详细介绍这两个概念及其相关实现细节。 线程特定数据存储(TSD) 线程特定数据存储(TSD)是一种为每个线程提供独立数据副本的机制。它允许每个线程拥有…

作者头像 李华
网站建设 2026/6/30 0:13:34

终极少样本学习指南:用Ludwig快速实现小数据大模型

终极少样本学习指南:用Ludwig快速实现小数据大模型 【免费下载链接】ludwig 项目地址: https://gitcode.com/gh_mirrors/ludwi/ludwig 在当今AI应用中,数据稀缺是普遍挑战,而少样本学习正是解决这一难题的关键技术。Ludwig框架让普通…

作者头像 李华
网站建设 2026/6/30 0:13:54

24、线程编程示例与性能优化

线程编程示例与性能优化 在多线程编程中,有许多关键的概念和实际应用场景需要我们深入了解。以下将详细介绍线程编程中的一些重要概念、示例代码以及性能优化方法。 1. 伪共享(False Sharing) 伪共享是多线程编程中一个容易被忽视但却可能严重影响性能的问题。当多个线程…

作者头像 李华
网站建设 2026/6/29 12:13:39

SVG动画加载架构深度解析:Glide与Lottie集成实战手册

SVG动画加载架构深度解析:Glide与Lottie集成实战手册 【免费下载链接】glide An image loading and caching library for Android focused on smooth scrolling 项目地址: https://gitcode.com/gh_mirrors/gl/glide 在现代Android应用开发中,SVG动…

作者头像 李华