我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

OpenAI更新o3-mini模型的思维过程展示

为了应对来自包括中国AI公司DeepSeek在内的竞争压力，OpenAI宣布将在其最新的AI模型o3-mini中更新“思维链”展示，向用户展示更多的“推理”步骤，以帮助他们理解模型是如何得出答案的。这一更新将对所有ChatGPT的免费和付费用户开放，特别是对于使用“高推理”配置的付费订阅者，也能看到这一改进。

OpenAI表示，通过这次更新，用户能够更清楚地追踪模型的推理过程，从而增强对模型回答的信心和理解。与之前的o1和o1-mini模型相比，o3-mini在推理时会进行更加彻底的自我核查，从而避免一些常见的错误。尽管推理型模型需要更长的时间来得出答案，通常会比常规模型多几秒到几分钟，但这种方式有助于提高模型输出的准确性。

https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

OpenAI联合创始人John Schulman在短短不到半年后再次离开了他在Anthropic的职位，加入了由前OpenAI首席技术官Mira Murati创办的新公司。据《财富》报道，Schulman的最新动向已得到多位知情人士的确认，但Mira的公司和Schulman本人尚未公开回应此事。

Schulman以其在OpenAI的卓越表现为人所知，尤其是在强化学习领域，他的论文PPO（Proximal Policy Optimization）成为ChatGPT核心技术RLHF中的重要算法。离开OpenAI之前，他在公司工作了9年，期间一直领导强化学习团队，并在GPT系列模型的研发过程中担任重要角色，尤其在GPT-3.5、GPT-4和GPT-4o的对齐与后期训练工作中扮演了关键角色。

去年8月，Schulman宣布从OpenAI离职，转投Anthropic，表示希望更专注于AI对齐问题并回归技术工作。当时，他特别感谢Mira和OpenAI的其他领导层，表示他们在困难时刻给予了他支持与机会。然而，Schulman的离职只是短短几个月后又再次跳槽，这次加入的公司正是Mira Murati创办的神秘AI创业公司。

Mira在2023年9月离开OpenAI后，迅速开始筹备自己的新公司，并在不到半年内吸引了超过1亿美元的资金。尽管Mira的新公司目前仍未公开其名称和具体业务，但据悉，公司的目标是研究与AGI（人工通用智能）相关的技术。Mira的新公司已经吸引了大量顶尖人才，包括来自OpenAI、谷歌、Anthropic等公司的研究员和工程师。

尽管Mira的公司保持低调，但招聘进展迅速。包括OpenAI的Jonathan Lachman、超级计算团队成员Christian Gibson及IT经理Mario Saltarelli等人在内的多个重要人才已陆续加入，进一步证明了Mira新公司对业界人才的强大吸引力。

https://mp.weixin.qq‍.com/s/Ob9Pi3VSKtMUPjTJm7d4OA

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

AI 大模型的演化与未来展望

近日，李飞飞教授、Percy Liang等学者推出了 S1，而李飞飞的学生、OpenAI 早期成员和前特斯拉 AI 总监也分享了一段长达3小时的视频，深入探讨了神经网络的起源、GPT-2、ChatGPT 以及 DeepSeek-R1 等大模型的技术进化。视频通俗易懂，即使无技术背景的观众也能理解其中的深刻内容，特别是视频的第2小时，重点介绍了 DeepSeek-R1 论文的技术亮点和强化学习（RL）在大模型中的应用，强调它与 OpenAI 的模型不相上下。

https://mp.weixin.qq.com/s/thTwdVgc4lfYRj6WWpKBwA

研究人员利用NPR周日谜题评估AI推理模型

在NPR的《周日谜题》节目中，主持人Will Shortz每周向听众提出脑筋急转弯问题，挑战观众的思维能力。虽然这些谜题是为一般人群设计的，但即便是经验丰富的参赛者也常常感到困难。因此，部分专家认为这些问题是检验AI推理能力的理想工具。

近期，一组来自美国和欧洲的研究人员利用《周日谜题》中的谜题，开发了一项AI基准测试。研究发现，像OpenAI的o1等推理模型有时会“放弃”并提供错误答案，尽管它们明知道自己的答案不正确。该团队认为，传统的AI评测通常依赖于难度较高的学术问题，不适合普通用户，而《周日谜题》则能有效测试AI的普遍推理能力，因为这些谜题不依赖特殊知识，也不允许模型仅依靠记忆库解答。

尽管这个基准测试并不完美，比如它只适用于英语和美国文化，但每周发布的新谜题能保证模型不会“作弊”。基准测试包含约600个谜题，推理模型如o1和DeepSeek的R1表现出色，前者的得分为59%。这些模型通过充分的自我验证，避免了常见的错误，但代价是需要更多时间来得出答案。

然而，部分模型（如R1）在解答一些谜题时，确实会给出错误的答案，并且会表现出“放弃”或“沮丧”的情绪。R1在解答难题时曾表示“感到沮丧”，这一行为显得相当类似人类的反应。研究人员认为，这种“情绪”是否会影响模型的推理质量，仍有待进一步观察。

当前最优秀的模型o1在测试中的得分为59%，其次是o3-mini（47%），R1得分为35%。研究人员计划扩展更多推理模型的测试，以找出改进的方向。

该研究的最终目标是开发一种不需要高深学识即可理解和分析的推理基准测试，使更多研究人员能够参与评估，并推动AI推理模型的进一步优化。

https://techcrunch.com/2025/02/05/these-researchers-used-npr-sunday-puzzle-questions-to-benchmark-ai-reasoning-models/

推特

元资助

Canvas 共享功能现已在 ChatGPT 上线

Canvas 共享功能现已在 ChatGPT 上线。与他人分享你的 Canvas，他们可以查看、互动或编辑，使其成为自己的作品。

https://x.com/OpenAIDevs/status/1887604146515423390

元资助

自主智能目标检测：提供文本提示和图片，自主智能工作流程深入推理，精准检测指定目标

推出自主智能目标检测（Agentic Object Detection）！

只需提供文本提示（如“未成熟的草莓”或“Kellogg’s 品牌麦片”）和一张图片，我们利用自主智能工作流程进行深入推理，精准检测指定目标，无需标注任何训练数据。观看视频了解更多详情。

https://x.com/AndrewYNg/status/1887533627275419690

元资助

Elevenlabs宣布Studio向所有人开放：为创作者和讲述者打造的长篇文本转音频编辑器

Studio——我们为创作者和讲述者打造的长篇文本转音频编辑器——现已向所有人开放。

强大的工具，专为创作有声书、配音、文章朗读和播客而设计。

听听工程师之一 Jonathan 分享最新更新的幕后故事。

https://x.com/elevenlabsio/status/1887555767315644800

元资助

Sebastian Raschka：理解推理型大模型

我刚刚完成了对推理模型的解析文章：链接。

在这篇文章中，我：

1. 讨论了推理模型的优势和劣势

2. 详细介绍并分析了 DeepSeek R1

3. 介绍了构建和改进推理模型的四种主要方法

https://x.com/rasbt/status/1887134969312559177

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格

Anthropic提升越狱活动奖金：目前还没有人完全破解我们的系统，所以我们要加大挑战力度

目前还没有人完全破解我们的系统，所以我们要加大挑战力度。

我们现在提供 $10,000 奖励给首位通过所有八个关卡的人，

如果能通过通用越狱完成所有八个关卡，奖励提高至 $20,000。

完整详情：链接

https://x.com/AnthropicAI/status/1887227067156386027

产品

Concierge AI 个性化的AI集成助手

Concierge 是为了通过将人工智能与你的个人情境相结合，帮助你充分发挥其全部潜力。大多数流行的人工智能助手在回答一般性问题方面表现出色，但在连接到你的应用程序、查找与你最相关的信息，以及真正帮助你完成任务时，就显得力不从心了。Concierge解决了个性化的问题。

Concierge 的独特之处

无缝的应用程序集成：只需点击几下，即可连接到你喜欢的应用程序（如 Gmail、Slack、Notion、Jira、Linear、Attio、HubSpot 等更多应用）。然后只需提出任何问题。Concierge 可以实时读取和写入你的应用程序。
所有人工智能模型触手可及：只需一次订阅，你就能拥有所有最优秀的模型（GPT、Claude、Grok、DeepSeek 等更多模型）。为什么要在五个不同的地方每月支付 20 美元呢？
自定义技能：启用自定义技能，以你的声音生成交付成果。按照你的格式撰写产品需求文档（PRD），或精心撰写完美的对外销售电子邮件。所有这些都在你熟悉的聊天界面中完成。

我可以向 Concierge 询问哪些问题？

询问有关你的电子邮件和 Slack 的问题：“我上次与 Acme 公司的 Sally 交谈是什么时候？总结一下我们的对话。”
研究新的潜在客户并更新你的客户关系管理系统（CRM）：“查找有关 Acme 公司 John Smith 的一些信息。撰写一些高级笔记并在 Attio 中为他更新记录。”
分析产品反馈并在 Linear 中创建工单：“收集 Slack 中 #product – feedback 的最新讨论，撰写一份简短的产品需求文档，将其分解为 Linear 工单，并推送到我们在 Linear 中的错误修复项目。”
查找文档并撰写技术规格：“你能查找一下如何集成 Stripe 计费，然后撰写一份简短的单页技术规格并推送到 Notion 吗？”

Concierge 适合哪些人？

那些尝试将人工智能助手与他们的软件即服务（SaaS）工具集成但失败的团队。
使用多个产品来访问不同模型（如 ChatGPT 和 Claude）的人。
不喜欢手动执行繁琐任务（如创建 Jira 工单或更新 CRM）的人。
希望鼓励员工在日常工作中更多使用人工智能的公司。
任何曾想过 “我希望人工智能能帮我处理这个” 的人。

投融资

TrueFoundry获得1900万美元融资，加速AI大规模部署

TrueFoundry是一家由前Meta工程师创办的初创公司，致力于帮助企业大规模部署AI系统。公司最近完成了由Intel Capital领投的1900万美元融资，资金将用于扩大团队并加速市场拓展。TrueFoundry提供的AI平台通过“平台即服务”（PaaS）模式，针对全栈数据科学家，简化了端到端的AI部署。该平台支持自动扩展、主动维护、集中访问控制和实时监控等功能，旨在加速AI应用的开发和部署。

TrueFoundry由Nikunj Bajaj、Abhishek Choudhary和Anuraag Gutgutia于2021年创立，最初提供跨云原生软件以加速机器学习部署。随着生成式AI（GenAI）的崛起，公司调整了系统，支持GenAI能力，使得数据科学家可以独立完成复杂系统的构建和大规模测试。TrueFoundry的“自动驾驶”系统利用AI分析日志和指标，优化GPU使用和内存需求，从而帮助客户大规模扩展AI应用。

TrueFoundry的客户包括Nvidia、Med-tech公司ResMed、Siemens Healthineers、Automation Anywhere等企业，这些客户通过TrueFoundry的平台快速搭建和部署AI应用，显著缩短了部署时间并减少了基础设施开支。与传统的AI平台不同，TrueFoundry通过多云兼容性（支持AWS、Google Cloud和Azure）和本地部署选项，提供了灵活的解决方案。

在此轮融资中，Eniac Ventures、Peak XV Partners和Jump Capital等机构投资者参与，此外，还包括Gokul Rajaram、Mohit Aron和Cyan Banister等天使投资人。TrueFoundry计划将这笔资金用于扩展团队，尤其是在美国市场的销售、客户成功和产品营销岗位，并加强与云服务提供商的合作。公司还计划在AWS Marketplace等主要云市场上市，进一步推动业务发展。

目前，TrueFoundry的客户数量已达到30个，且去年客户基础增长了四倍，已为客户部署了超过1000个机器学习集群，年经常性收入（ARR）超过150万美元。公司预计在今年将继续加速增长。