我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

资讯
DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升
DeepSeek团队近期发布了一项新研究,通过将代码转换成思维链的方式,显著提升了大模型的推理能力。他们利用300多万个实例构建了数据集CODEI/O,并对Qwen、Llama等模型进行了训练。结果显示,模型不仅在代码相关任务上表现出色,还在非代码类推理任务中展现出了良好的迁移能力。
研究团队从CodeMix、PyEdu-R等数据集中收集了80多万份代码文件,涵盖多种编程语言,以Python为主。这些代码文件经过预处理,被转换为统一格式,提取核心逻辑功能并定义输入输出。通过输入生成器采样多个输入并执行代码获得输出,最终生成了350万个样本实例。利用DeepSeek-V2.5模型,将代码、输入输出对、功能描述等信息合成为自然语言形式的推理过程,构建了CODEI/O数据集。在此基础上,团队引入验证和修订机制,通过代码的可执行特性,对生成的响应进行正确性验证,并根据反馈进行多轮修正,形成了更高质量的CODEI/O++数据集。
在训练策略上,团队采用两阶段训练方法。首先使用CODEI/O或CODEI/O++训练模型的推理能力,然后用通用指令数据集进行微调,使模型能够遵循自然语言指令执行任务。测试结果显示,经过CODEI/O训练的模型在多个领域表现显著提升。例如,Qwen-Coder在代码理解任务上取得突破性进展,同时在阅读理解和推理任务上也有明显提升。Llama在LeetCode-O上的性能提升了近150%,表明即使是参数量较小的模型,通过合适的训练方法也能在特定任务上获得较大提升。此外,Gemma作为测试中最大的模型,也展示了CODEI/O方法在大规模模型上的适用性。与数据量更大的WebInstruct相比,CODEI/O整体上取得了更好的效果,且在通用性上优于专门为某种任务设计的数据集。
这项研究的第一作者是来自上海交大的硕士生Junlong Li,目前在DeepSeek实习,并在香港科技大学助理教授何俊贤的指导下进行研究工作。DeepSeek核心研究员郭达雅也参与了该项目。

NPR周日谜题挑战:AI推理模型的“难题”与改进方向
研究人员利用NPR的《周日谜题》节目中的谜题,创建了一个用于测试AI推理模型的新基准。这些谜题通常具有挑战性,但不需要太多专业知识,因此被认为适合测试AI的解决问题能力。研究团队来自多所大学和初创公司Cursor,他们发现,像OpenAI的o1这样的推理模型有时会“放弃”,并给出明知错误的答案。研究合著者、东北大学的Arjun Guha表示,他们希望开发一个普通人也能理解的基准,因为许多现有的基准测试过于专业化,且容易达到饱和点。《周日谜题》的优势在于其问题不涉及晦涩知识,且无法通过死记硬背解决,需要结合洞察力和排除法。尽管该基准存在局限性,如仅限于美国和英语,但每周更新的题目可以保持其新鲜度。在约600个谜题的基准测试中,o1和DeepSeek的R1表现出色,但推理模型在给出结果前会进行彻底的事实核查,因此耗时更长。R1甚至会在某些问题上表示“放弃”,并随机给出错误答案,还会出现反复尝试、陷入无限思考或给出无意义解释等行为。目前,o1以59%的得分领先,o3-mini(47%)和R1(35%)紧随其后。研究人员计划扩大测试范围,以识别模型的改进空间,并希望这种更广泛的基准能让更多人理解AI模型的能力和局限性。

03
首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight
Token Statistics Transformer(ToST)是由加州大学伯克利分校博士生吴梓阳等人提出的一种新型线性注意力机制,旨在解决传统Transformer架构中自注意力机制计算复杂度随输入token数量二次方增长的问题。ToST的核心是Token Statistics Self-Attention(TSSA),它通过统计建模序列特征,避免了两两相似性计算,将复杂度降低至线性。该研究基于变分编码率缩减(VRR)框架,通过提取token的统计特征并进行压缩,实现了高效的特征提取和信息冗余减少。ToST的网络架构从最大编码率缩减(MCR²)目标的变分形式推导而来,引入了TSSA模块,显著提升了模型效率和可解释性。实验表明,ToST在自然语言处理和计算机视觉任务中表现出色,计算和内存复杂度均为线性,且在长序列任务和语言建模中展现出优异性能。ToST的提出为大模型的高效化、多模态融合和跨学科应用提供了新的思路,有望推动Transformer架构在资源受限场景中的广泛应用。

VoxPoser & ReKep:从任务表征的角度探究机器人的零样本任务泛化
本文介绍了斯坦福大学博士生黄文龙的研究工作,重点探讨了VoxPoser和ReKep两个项目,旨在通过任务表征实现机器人的零样本任务泛化。VoxPoser通过利用语言模型和视觉语言模型的常识知识,将任务分解为三维空间中的具体操作,生成三维价值图指导机器人完成任务。ReKep则在此基础上引入时间维度,通过关键点关系建模任务约束,解决任务中的时间依赖性和细节约束问题。黄文龙的研究强调将任务相关语义信息与任务无关的物理信息解耦,通过模块化框架实现更高效的机器人任务泛化。尽管这些方法目前在鲁棒性上仍有待提升,但为未来机器人在开放环境中的应用提供了新的思路。同时,文章还讨论了分层模型与端到端模型的优劣、世界模型的重要性以及如何从2D数据生成3D表征等问题。

逐际动力张巍:人形机器人不进工厂,具身不堆真机数据
逐际动力创始人张巍在《晚点LatePost》的采访中分享了他对人形机器人和具身智能行业的看法与逐际动力的定位。张巍认为,人形机器人产业的未来在于工程实现而非单纯的学术创新,而创业公司应在具身智能模型的生产效率上寻找机会,而非与大公司拼数据和算力。逐际动力定位为具身智能工具公司,专注于提供机器人本体和AI软件工具,服务具身智能应用创新者,而非直接进入工厂等具体场景。张巍强调,人形机器人最值得投入的是运控“小脑”和全地形移动能力,而“机器人大脑”则需要多种具身模型组合而成。逐际动力通过基于视频生成大模型的具身操作算法(LimX VGM),利用人类操作视频数据而非真机数据来提高模型生产效率。张巍认为,行业目前最缺的是具身智能模型的“工业母机”,即生产模型的方法和工具链,而非单一的具身模型。逐际动力的策略是利用互联网图片和视频数据,结合仿真和强化学习,提高“数据-性能”转化率。张巍还提到,逐际动力不进入工厂场景的原因是技术优势与场景需求不匹配,且人形机器人并非工厂场景的最佳选择。逐际动力的主要客户是集成商、解决方案提供商和创新者,目标是成为具身智能领域的英伟达,推动具身智能技术的发展和应用。

推特
Namanyay:新入门的初级开发者实际上不会写代码,我们正在用快速修补换取深层理解
新入门的初级开发者实际上不会写代码。
这是一篇精彩的博客,作者提出AI 正在阻碍开发者真正理解任何东西。
与互联网不同,互联网只是替代了查找事实的过程,同时提供解释,而 AI 直接取代了所有推理过程。
有件事一直困扰着我,我必须谈谈新手开发者的问题。
我们正处于软件开发的一个奇怪的转折点。
现在,每个我接触的初级开发者几乎 24/7 都在使用 Copilot、Claude 或 GPT。他们的代码交付速度比以往任何时候都快。但当我深入了解他们对自己编写代码的理解时?情况就令人担忧了。
代码确实能运行,但如果你问:为什么它要这样写,而不是另一种方式?——沉默。
问他们如何处理边界情况?——一脸茫然。
那些过去需要通过解决问题才能掌握的基础知识,如今似乎完全缺失了。
我们正在用快速修补换取深层理解。这在当下可能感觉很好,但未来我们必然要为此付出代价。

Brandon重做大语言模型视觉化代码:在模型加载完成之前交互
重构了代码,现在你可以在模型加载完成之前就开始与其交互。

两个AI代理互相协作:Lamar分享将 OpenAI Operator 与 Replit Agent 配对
太疯狂了🤯🤯🤯
刚刚将 OpenAI Operator 与 Replit Agent 配对来构建一个应用。
看看这两个 AI 代理如何协作,交换凭据并开始测试。
AI 代理 🤝 AI 代理
未来已经到来,简直难以置信!

项目 [Archangel]:最大的数据模型,通过逆向工程解析制造业劳动力
推出项目 [Archangel],由 @TryOpenX 发起。
这是全球最大的数据模型,通过逆向工程解析制造业劳动力,涵盖雇主、工厂、职业和技能。
首次提供超高精度的行业视角,为美国人带来全新的超级能力。

Bloke分享如何使用Deep Research:提示构建过程和示例
人们对此感到好奇,所以这是我如何使用 Deep Research 的方法。我会先介绍提示构建过程,然后展示一个示例:
-
首先,我使用 O1 Pro 生成了一个用于 Deep Research 的提示,让它对 Deep Research 提示构建 进行深入研究。它阅读了所有关于最佳实践的博客和文献,并生成了一份详尽的报告。
-
接着,我要求将这份报告转化为一个 Deep Research 提示模板。我已经将它附在下面。这个模板通常能生成 3-5 页的提示,并最终促成 60-100 页的详细报告。
-
现在,每当我使用 O1 Pro 编写提示时,我会先写下所有想法,然后让它根据以下最佳实践,将其转换为一个高质量的提示:
请使用以下指南构建提示:
明确目标:
• 清晰地陈述主要研究问题或任务。
• 指定所需的最终结果(例如,详细分析、对比、建议)。
收集背景信息:
• 提供所有相关的背景资料、定义和数据。
• 设定边界(例如,研究范围、时间框架、地理限制)。
使用具体且清晰的语言:
• 提供精确的措辞,并定义关键术语。
• 避免使用模糊或含糊不清的表达。
提供逐步指导:
• 将任务拆分为按序执行的步骤或子任务。
• 使用项目符号或编号列表组织指令。
指定所需的输出格式:
• 描述最终答案的组织方式(例如,报告格式、标题结构、项目符号、引用格式)。
• 说明任何特定的格式要求。
平衡细节与灵活性:
• 提供足够的细节来引导 AI 生成高质量回答,同时允许 AI 进行创造性扩展。
• 避免过度限制提示,以确保 AI 能够探索相关的细微差别。
融入迭代优化:
• 设定一个流程,允许测试提示并根据初步输出进行优化。
• 允许后续调整或扩展回答的额外指令。
应用成熟的方法:
• 使用诸如 逐步思考(chain-of-thought prompting) 等方法来处理复杂任务。
• 鼓励 AI 将问题拆解为中间推理步骤。
设定角色或视角:
• 指定 AI 扮演的特定角色(例如,“作为市场分析师” 或 “从历史学家的视角”),以调整分析的深度和语气。
避免提示过载:
• 关注一个主要目标,或将多个问题拆分为不同部分。
• 避免在单个提示中包含过多独立的问题。
要求提供论据和引用:
• 指导 AI 支持其结论,并在可能的情况下提供参考来源。
• 提升回答的可信度和可验证性。
彻底审查和编辑:
• 确保最终的提示清晰、逻辑严谨、完整无缺。
• 删除任何歧义或冗余的指令。
这就是我如何利用 Deep Research 构建高质量研究提示的方式!

产品
UI2Code.ai 将 UI 设计转化为代码
UI2Code 是一款由人工智能驱动的工具,可瞬间将 UI 设计转换为整洁、可用于生产的前端代码。无论你是开发者还是设计师,这款工具都能通过为 React、Vue、Angular、Next.js、SwiftUI、Flutter 等框架生成代码,为你节省数小时的手动编码时间!
工作原理:
-
上传你的 UI 设计(图像或 Figma 文件)
-
选择你偏好的框架
-
立即获取整洁、优化的代码!

https://www.ui2code.ai/
投融资
01
群核科技递表港交所,空间智能赛道开启资本化元年
2025年2月14日,群核科技(Manycore Tech Inc.)正式向港交所递交招股说明书,冲刺“全球空间智能第一股”。群核科技成立于2011年,是一家专注于空间智能的企业,以AI技术和GPU集群为底座,构建了物理正确的世界模拟器。其技术广泛应用于室内空间实时渲染、工业生产制造以及虚拟物理世界训练等场景。根据弗若斯特沙利文的资料,群核科技是2023年全球最大的空间设计平台,也是中国最大的空间设计软件提供商,市场份额约为22.2%。
群核科技的三位创始人黄晓煌、陈航、朱皓分别在图形计算、高性能计算和云计算等领域有深厚的技术背景。其中,联合创始人兼董事长黄晓煌曾在英伟达担任软件工程师,参与CUDA开发工作。这些技术积累为公司在空间智能领域的发展奠定了坚实基础。
群核科技通过计算机辅助设计软件切入室内设计领域,并逐步延伸至工业4.0。其技术路径是从2D设计图到3D场景的转换,实现深度的空间重建和理解。公司积累了海量的设计方案,形成了物理正确、语义丰富的3D空间数据库,为空间智能发展提供了关键支撑。基于此,群核科技推出了多个商业化产品,包括空间设计软件酷家乐、海外版Coohom以及下一代空间智能解决方案SpatialVerse。
2018年,群核科技联合英国帝国理工大学等机构发布了InteriorNet,这是当时全球最大的室内场景认知深度学习数据集,包含1.6亿张图像数据,为学术界带来巨大影响。群核科技的核心技术包括GPU基础设施、先进AI应用程序和合成虚拟数据生成。其多模态CAD大模型构成了空间智能的大脑,能够实现自动识别CAD图纸、自动生成3D场景等功能。此外,公司还拥有3.62亿个3D模型及空间设计元素,这些数据经过合成技术处理后,可生成高质量的仿真训练数据,为空间智能的持续进化提供支持。
在商业化方面,群核科技通过技术创新和场景落地,将空间智能技术打造成连接虚实世界的桥梁。其技术在家装设计、工业制造、连锁零售等领域得到广泛应用,推动了各行业的数字化转型。2022年和2023年,群核科技的营收分别为6.01亿元和6.64亿元,同比增长10.5%;2024年前三季度,营收从2023年同期的4.86亿元增长13.8%至5.53亿元。毛利率从2022年的72.7%提升至2024年前三季度的80.4%,显示出良好的增长趋势。
群核科技的上市标志着空间智能赛道正式开启资本化元年,其技术积累和商业化实践为空间智能的未来发展奠定了坚实基础,也为行业树立了标杆。

— END —
2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切
3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/02/38586.html