我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!
资讯
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
近日,技术博主Hrishbh Dalal通过实验表明,7B参数的语言模型可以通过强化学习学会解决数独问题,且无需冷启动数据。他使用了DeepSeek开发的GRPO算法,在小型数独数据集上实现了高奖励和成功解答。实验中,数独的难点在于其需要遵循严格规则、保持网格格式、应用逻辑推理以及理解空间关系,而语言模型通常用于文本预测,并非为结构化问题设计。
实验数据来自Kaggle的400万数独数据集,分为四个难度级别。数据准备包括加载、过滤、难度分类和格式转换,最终将数独表示为网格格式,并通过精心设计的提示词引导模型思考和提供答案。实验使用了Qwen 2.5 7B Instruct和3B Instruct两种模型,均采用LoRA微调,训练配置包括批量大小为1、梯度累积步骤为8、学习率为3e-4等。
强化学习的核心是奖励函数,实验设计了多分量奖励系统,包括格式合规性奖励、网格架构奖励、解答准确度奖励和规则合规奖励。实验结果显示,7B模型表现优良,保持稳定性能并学会了解题,而3B模型则出现不稳定性并最终崩溃。这表明对于复杂推理任务,模型大小对学习稳定性和性能有重要影响。
实验的下一步计划包括增加难度、扩大计算规模、探索模型架构、使用冷启动数据集、实施更复杂的奖励机制以及开发更复杂的评估指标。通过强化学习让语言模型学会解决数独问题,不仅是为了解谜,更是为了开发能够完成更多复杂任务的AI系统,如编程、数学问题求解、科学推理和形式验证等。
李飞飞团队「具身智能」最新研究:机器人接手所有家务
李飞飞团队在具身智能领域取得新进展,推出BEHAVIOR Robot Suite(BRS),旨在使机器人能够完成通用的日常家庭移动操作任务。BRS通过两项关键创新解决机器人硬件和学习方面的挑战:JoyLo(一种经济实惠的全身远程操作界面)和WB-VIMA(一种模仿学习算法)。JoyLo实现了复杂动作的流畅衔接,提供了丰富的用户反馈,并降低了系统成本。WB-VIMA通过建模全身动作,确保关节之间的精确协调,同时利用自注意力机制动态聚合多模态观察,学习表现力强的策略。实验表明,BRS能够支持多种家庭任务,如扔垃圾、打扫餐桌等,JoyLo在任务成功率和完成时间上优于VR控制器和Apple Vision Pro,WB-VIMA在任务成功率和子任务表现上全面超越基线方法。
ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越
在 ICLR 2025 上,南洋理工大学 S-Lab、上海 AI Lab、北京大学和香港大学的研究者提出了一种名为 GaussianAnything 的新型 3D 生成框架,该框架基于 Flow Matching 技术,通过交互式的点云结构化潜空间实现了高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。该方法在 Objaverse 数据集上进行了大规模训练,并在文本、图像、点云引导的 3D 生成任务中超越了现有的原生 3D 生成方法。
GaussianAnything 的核心在于其创新的 3D VAE 模型和级联流匹配框架。3D VAE 模型通过编码器将 3D 物体的 RGB-D-N 多视图渲染图压缩到点云结构的 3D 隐空间,使用基于 3D-attention 的 Transformer 处理多视图输入,能够高效地编码颜色与几何信息。此外,该模型通过 Cross Attention 将特征投影到稀疏的 3D 点云上,形成适合 3D diffusion 的点云结构化隐变量。在解码阶段,通过 3D Transformer 和上采样模块将低分辨率点云逐步上采样为高分辨率的高斯点云,支持不同细节层次的 3D 资产输出。
在 3D 生成阶段,GaussianAnything 在训练完成的 3D VAE 空间上进行 Flow Matching 训练,并分为两个阶段分别学习几何和纹理。该方法支持从文本、单目图像或稀疏点云引导的 3D 生成,能够实现几何-纹理解耦的生成与编辑。实验结果表明,GaussianAnything 在图像引导和文本引导的 3D 生成任务中均表现出色,生成的 3D 资产在质量和多样性上优于现有方法。该方法的训练和生成过程高效,支持多卡、自动混合精度训练等加速技巧,项目代码和模型已开源至 GitHub 和 Huggingface。
https://mp.weixin.qq.com/s/wnzBbpQ6lIvOS_AArueUag
推特
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
链式思维(Chain-of-Thought, CoT)推理模型以自然语言进行“思考”,使其推理过程可被人类理解。通过监测这些“思考”过程,我们能够发现模型的不当行为,例如在编码任务中规避测试、欺骗用户,或在问题过于困难时直接放弃。
我们认为,CoT 监测可能是未来监督超人类级别模型为数不多的有效工具之一。
此外,我们发现,直接优化 CoT 以符合特定标准(例如避免思考如何规避奖励机制)可能在短期内提高模型表现,但这并不能完全消除不当行为,反而可能导致模型隐藏其真实意图。我们希望未来的研究能够找到不会带来这一缺陷的优化方法,但在此之前:
我们建议不要对前沿推理模型的CoT施加过强的优化压力,而是应保持 CoT 过程不受限制,以便进行有效监测。
我们理解,保持 CoT 过程不受限制可能会使其不适合直接展示给终端用户,因为其内容可能违反某些滥用政策。然而,如果希望在不对 CoT 施加强监督的前提下向用户展示符合政策要求的 CoT,可以使用单独的模型(如 CoT 总结器或清理器)来实现这一目标。
https://x.com/OpenAI/status/1899143752918409338
Unsloth AI 分享指南:如何正确微调大型语言模型
我们制作了一份指南,教您如何正确微调大型语言模型(LLM)!
学习内容包括:
• 选择合适的参数和训练方法
• 强化学习(RL)、GRPO、DPO 和 CPT
• 数据准备、过拟合与评估
• 使用 Unsloth 进行训练,并部署到 vLLM、Ollama、Open WebUI
🔗指南链接
https://x.com/UnslothAI/status/1899132219064766652
产品
Digits AI Accounting:人工智能时代首个功能齐全的会计平台,世界上首个自主总分类账
-
Digits 为你处理会计事务,不仅仅是分类,而是对你的财务工作流程进行全面自动化,这样你就可以经营业务,而不会被后台事务淹没:
-
人工智能记账:Digits 经过超过 8250 亿美元的交易数据训练,能够即时理解你的账目,并进行准确可靠的分类。它使用的是定制模型,而不是 GPT 的包装应用。
-
人工智能财务分析:自动化的洞察、分析以及拖放式仪表板,让你可以实时了解收入、支出、现金流和趋势,无需使用电子表格。
-
人工智能发票和账单支付:无需再使用零散的工具。发送发票、支付账单,并保持所有信息同步,无需手动对账或繁琐的集成。
-
直观、协作且快速:无需会计或财务学位,支持无限用户,内置评论和共享功能,用户界面响应速度极快。
-
-
AI 财务分析:提供自动化洞察和分析,可通过拖放式仪表板实时查看财务状况。
-
AI 发票和账单支付:实现发票发送、账单支付及信息同步自动化。
-
易用协作:操作直观,支持多人协作,界面响应快速 。
投融资
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
OpenAI投资CoreWeave 119亿美元,进一步深化与微软的竞争
2025年3月10日,OpenAI宣布与GPU云服务提供商CoreWeave签订了一项为期五年的协议,协议金额高达119亿美元。根据知情人士透露,该协议中,OpenAI还将获得CoreWeave价值3.5亿美元的股权。此私募投资与CoreWeave计划中的IPO无关。
CoreWeave上周已提交上市申请,但尚未定价或安排上市时间。此次交易对双方而言都是重要的突破。值得注意的是,在此协议签订之前,CoreWeave的最大客户是微软,2024年,微软贡献了CoreWeave 62%的收入,而CoreWeave的年收入在2024年增长至19亿美元,几乎是2023年2.29亿美元的八倍。
CoreWeave由Nvidia支持,后者持有6%的股份,专注于AI云服务,拥有32个数据中心,截至2024年底,运营着超过25万个Nvidia GPU,并已开始使用Nvidia最新的Blackwell芯片来支持AI推理。微软与OpenAI之间的竞争关系愈发复杂,而OpenAI通过与CoreWeave的合作,不仅获得了相同的云服务资源,还获得了CoreWeave的股权。
CoreWeave的IPO潜在价值曾因过度依赖微软而面临风险,这笔来自OpenAI的多亿美元投资,预计将帮助CoreWeave安抚IPO投资者并减轻这种依赖带来的不确定性。CoreWeave最初是作为加密货币挖矿业务成立,三位创始人已经成功套现了4.88亿美元的股份。
此次协议进一步加剧了OpenAI与微软之间日益紧张的竞争关系。微软不仅是OpenAI的重要投资者,还在开发与OpenAI类似的AI推理模型,并与Mustafa Suleyman一起领导微软AI部门。OpenAI则表示,其对GPU的需求激增,甚至在去年12月公开表示“GPU已经用完”。与此同时,CoreWeave的IPO若顺利进行,可能会为公司带来数十亿美元的资金,并用一部分资金偿还债务。
随着AI技术竞争的加剧,OpenAI与CoreWeave的合作,以及OpenAI在GPU资源上的自主性,标志着其与微软之间的“敌友”关系将进入新的阶段。
https://techcrunch.com/2025/03/10/in-another-chess-move-with-microsoft-openai-is-pouring-12b-into-coreweave/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
DryMerge 全天候为您工作的AI代理
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/03/43848.html