「草莓」OpenAI o1大模型信号看板大汇总!!

贡献人：Angela、naixu、Alex、zechen、常楠、智勇、Ollie

Introduction

导引

2024年9月13日凌晨， OpenAI 震撼发布🍓「草莓」o1大模型 🍓。

历时一周，我们从全网信号源中提炼出了最有价值的精华，你将在本文中和我们一起探究和揭秘 o1 诞生的历程、突破、影响以及前景。

看懂看透OpenAI o1大模型，你只需要这一篇文章，本文将分为四大板块：

OpenAI 技术报告总结
o1亮点深度解读
外部启发性信号大综合
团队核心贡献者

Technical Summary

OpenAI技术报告总结

1.1 推理能力和计算时间的scaling

OpenAI本次训练了一个大规模强化学习算法，去教模型如何在一个非常data-efficient的训练过程中能够有效的基于COT（ChainOfThought）思考。在实际验证过程中，他们观察到了一个非常重要的现象，便是通过增加计算时间，模型的表现可以确实的进步。

推理能力和计算时间的scaling

1.2 Benchmark表现以及细节

AIME（American Invitational Mathematical Examination）是美国的高中数学邀请赛，会邀请AMC12年级考试中排名前5%参加比赛，在3小时内回答15道题，成绩优异者（一般是前250名左右）可以参加美国的数学奥林匹克竞赛（USAMO）。我们可以从这图看到比较清晰的scaling，输出的准确率大概是和计算时间呈指数关系。OpenAI o1模型在本次的AIME中可以实现排名在前500名，相比于GPT4o有很大提升。准确来说，o1具体表现为74% (11.1/15) 基于一个sample, 83% (12.5/15)基于64个sample, and 93% (13.9/15)基于1000个样本。排名前500是指最好表现。

针对于算法竞赛，基于o1模型他们进一步去训练出了o1-IOI模型，进一步在提升了表现。在IOI计算机竞赛问题中，他们允许模型使用10小时的时间去解决6道算法问题，每道题允许50次的提交。其策略是先对每道题生成大量的备选方案，然后从中选取50个最好的方案。值得一提的是，相比于随机选取50个方案，基于reward model的选取平均可以提高60分（从156提升至220左右）。进一步，如果允许10000次提交，模型表现可以达到竞赛金牌水平，同时这个时候是否基于reward model选取没有太大影响表现。在Codeforces的算法竞赛模拟中，他们根据比赛规则，允许10次提交。

同时也是非常值得一提的是o1在一些专业场景下的表现。需要注意的是这里OpenAI没有限制计算时间，考虑的是最好表现。由于现在大模型在推理方面进步很大，所以其实MATH(2)和GSM8K已经不太能提供有效区分。OpenAI选择的更为困难的GPQA Diamond数据集，为了和真人对比，他们雇佣了许多有PhD学位的专家去回答数据集的问题来进行对比。

当然，专注于推理上的提升可能会导致其他方面表现降低。在根据真人反馈的调查中，OpenAI发现o1在写作，文字编辑等方面表现不如GPT4o令人满意。

1.3 推理、安全和可解释性的大幅提升

总的来说，可以看到OpenAI本次针对于推理做出了很大的提升。技术核心在于他们通过强化学习，让模型去打磨自己的COT策略，让模型去学习如何察觉并修正错误，将困难的步骤分解成简单步骤，在现有策略不行的情况下如何去换一个新的策略。在官网给出的案例中，我们可以看到o1模型在思考中会特别细致的把思考步骤写下，这也使得其输出的长度可能是4o的几倍甚至十几倍。同时由于如此细致的写出了思考过程，其安全和可解释性也得到了提升。

Highlight Interpretation

o1亮点解读

OpenAI这次产品的思路比较符合我们此前的分析框架以及结论：

在预训练受挫的情况下（种种迹象表明Scaling Law在GPT-4level之后遭遇了拐点，不再是此前那般的曲线），OpenAI选择了通过合成数据和后训练的方式进行了补强，其代价是使用更多的计算资源。为了实现成本的平衡以及与其他公司的竞争，他们采用了较小的模型。同时2024年9月份这个时间点也大致符合了我们此前对于OpenAI新模型发布的预测（此前预测为2024年7，8月，从维持AI热度生态角度分析得出）。但也需要注意，本次的提升思路上并不新奇，从技术和算力储备而言，其他大模型公司们应也会在近期几个月内纷纷推出新的模型。谷歌作为拥有最多算力和最强强化学习技术以及人才储备的公司而言，它在这方向的未来表现会最值得期待。

由于每个问题的难易程度不同，无论是对于我们人类，还是对于计算机所运行的算法，所需要的时间都会有相应的变化。但是对于AI模型而言，目前还不能从架构上让它们对于不同的输入使用不同的计算量来给出输出的预测，也就是还不能实现adaptive computation。

COT其实某种意义上就是在去实现这个事情，通过让模型基于之前的输出再进行输出的循环，可以有效的提升模型的推理能力。但是此前的COT一般是事先决定出具体的计算时间，本次OpenAI通过与强化学习结合，使得模型有了自己判断的能力。

2.1 COT推理路径

为了让大模型能够实现基于COT动态的决定计算量，需要训练出一个模型来进行判断。OpenAI使用了深度学习的方法，对此训练了一个reward model。具体COT的推理路径的数据来源于位于北美的PhD等人群，OpenAI对此类人群直接发了消息并付费雇佣他们进行数据标注。

可以说这个模型是本次技术最核心的部分，相当于大模型思考的思路部分，从system1&2的角度来说，通过外挂这么一个强化模型，去使得大模型能够像system2一般思考。这个思路我认为很具有可行性，但同时也需要注意，这并不意味着模型的本身的基础能力得到了提高，而更像是用资源兑换了效果。所以这也使得OpenAI从成本考虑会采用较小的基础模型，从而导致在很复杂的问题场景下，表现可能不如Claude3.5。

这次最重要的结果可能是上图，反映了推理能力和计算时间的相关性。这样的scaling其实并不是很理想，因为这意味着为了提高正确率需要大量的计算资源（指数的相关性）。但是从计算原理的角度来看，这样的指数关系或许不能很好的改进。此后的技术发展路线大致会有两条：

其一为持续做预训练的scaling；
其二为在后训练部分进行更加复杂的处理（可以理解为预训练是小孩子长大，后训练是对小孩子的教育）。

从实际表现上的提升以及近期商业化的角度分析来看，我们认为未来一年内或许头部厂商都会围绕第二个方案产开竞争，同时Agent产业可能会迎来正式商业化的契机，不过同时也要警惕大模型提供商直接抢占Agent市场的可能性。这或许会迫使大模型厂商纷纷转向商业化而并非技术发展，因为此路线或许会迫使厂商们将手中算力资源转移到推理上。我们认为第一个路线从长远考虑更为重要（因为计算量换表现大概是个指数关系），如果头部公司们做不好两个路线同步进行的话，或许需要调整对于未来AI的天花板的预期。

2.2 价格与token

API价格，来源于OpenRouter

o1模型输入价格是GPT-4o的三倍（$15/百万t），输出价格是GPT4-o的四倍（$60/百万t）。

上下文窗口不变还是128kt，输出字数翻倍是32kt。o1-mini相对性价比较好，模型输入价格是GPT-4o的60%（$3/百万t），输出价格是GPT4-o的80%（$12/百万t）上下文窗口不变还是128kt，输出字数是GPT-4o的四倍（64kt）。

本次的提升总体来说思路是来自于大模型工程，通过类似内嵌Agent的角度去实现了推理上的提升。这可以说是low hang fruit，很快我们就会看到其他大模型公司类似的产品出现，其中谷歌的产品应当最值得期待，因为他们掌握了世界上最强的强化学习技术以及众多的博士研究员。同时国内大模型公司的进展也值得期待。

2.3 模型大小推测

大小推测的根据主要根据API价格来考虑。考虑到正式版本的API价格是GPT4o的3倍，同时我们注意到似乎COT的过程中产生的token量也算到output token的费用里了，所以使用的基础模型可能就是GPT4o或者比它更小一些的版本。有消息称GPT4o是个几十B的中小模型。o1 mini版本api价格是4o的60%，会是一个更小一些的模型。

2.4 技术路径猜测（参考Paper）

OAI的技术路径没有披露，我们猜测在思路上借鉴/采用，或者与以下几种技术路径相似：

2.4.1 o1重要的五件事

根据和OAI的沟通信号和scale.ai（给OAI标数据的公司）信号，我们猜测主要是做了5 件重要的事：

1. 采用了Self play 或 RL 办法

2. 他们做的是合成数据

3. Reward model 很重要，要有一个比较好的打分

4. 用 Reward model 来对推理的合成数据去做rejection sampling.

5、再做Agent Fine-Tuning，未来想要让它想的时间更长

Post-training 策略创新：Agent FT

整个过程会和传统的 post training 很相似，只不过像 LLAMA 的 post training，它的 reward model 是用 preference data set 构造的， SFT 之后会紧接着会用DPO，但 open AI o1 在用合成数据去 SFT 的时候（下图的“SFT Data”），采用了Agent fine tuning，同时引入了一个 Reward model 来打分去做rejection sampling.

Self play 或 RL 办法与合成数据

RL 的思路本质是用 inference time 换 training time，来解决模型 scale up 暂时边际收益递减的现状。

self-play + MCTS

Self-play 是 AlphaZero 等强化学习算法的合成数据方法，最早可以追溯到 1992 年的 TD-Gammon 算法。这个方法的本质是利用 AI 无限的计算能力来补足它数据利用效率不够的短板，更符合当下 AI 的优势。

Reward Model的泛化性和连续性

由于数据侧重的是 STEM 领域（代码数学），优势在于 reward model 是非常接近真实值的，会有一些客观指标去打分,最后筛选出来数据质量会比较高。

在reward model 非常接近真实世界的这个时候（比如说代码或者是数学，跑一跑就知道对不对）那么你这个数据就能把错误数据筛选掉，这个数据放得越来越多，到百万再往上走，模型的推理能力还是会增强。OpenAI 发现就这个地方会存在一个 scaling law，如一开始技术报告提到的“推理能力和计算时间的scaling”。

Math：客观指标——形式化逻辑的典范，拥有一套可验证、精准的符号系统

把 code script 放进 Python Interpreter/ compiler，把 math proof 放进 Lean

Lean 是一种编程语言，通过计算机验证数据定理，广泛用在 AI 形式化数学证明中帮助 AI 理解数学题

1. Fine-tune Gemini 用于对数学问题形式化，生成了约100M 用于训练的数据。这个数据量远比人类解数学题需要的量大。

2. 用 AlphaProof 和 Lean Compiler 作为外部监督信号告诉 solver network 其答案是否正确（今年 IMO 的题目是可以验证答案是否错误的），再利用 MCTS 搜索更好的答案并训练。

3. 由于问题很难，Alphaproof 在推理过程中也会训练网络（这可能是为什么他耗时那么久的原因），即针对特定问题 MCTS 采样后，会把采样中较好的 reasoning path 再投入训练，这种做法相当于对特定任务 finetune。

4. AlphaProof & Alphageometry 2 拆成了两个策略网络来达到最好的效果。因为不同特定任务可能需要分别设置 prior，比如 AlphaGeometry 需要增加辅助线。

Code：海量高质量数据，明确的分工方式

AI 能通过 compiler/interpreter 自行验证可用性

CriticGPT 用于 post-training，是一个 AI code verifier：CriticGPT 能够对 ChatGPT 生成的代码进行评估，识别出错误并提修改建议。其训练方式也比较直接：通过在代码中故意设置 bug 并进行详细标注，训练出能够 debug 的模型。尽管没有说明，我们相信其目标一定是给 Q-star 训练 reward model。

问题：

这一发现带来的思考是，主观任务也需要接近真实的reward，但比较难实现。物理、医药有明确的标准答案，但需要很长的实验验证周期，法律、金融的问题往往没有通用解法，很难用通用的 reward model 实现，文字创意领域的 reward 很多时候不符合马尔可夫模型，也就是其 reward 常常会有跳变。

因此这一路径在主观任务上不一定走得通。

使用 LLM 作为 PRM（process reward model）+ curriculum learning

PRM （Process reward model）是奖励好的推理步骤，而不仅仅是正确的结果。这更接近人类的学习和推理方式，实现方式常常是用 chain-of-thought 来表示推理过程，对每一步进行打分。这是因为 LLM 的语义理解能力才成为可能的。

Process learning 保证了推理思考过程得到评估，而 Curriculum learning 是为了让思考过程得到由浅入深、循序渐进的引导，其核心理念是将复杂任务分解为多个难度递增的子任务，让智能体逐步学习。这样由简单到难的设计过程是很有必要的，这样一方面避免了 reward model 在早期过于稀疏的问题，一方面可以通过数据的多样性来使 LLM 学习最适合其能力的课程，防止出现下棋时能赢李世石、但不能赢公园老大爷的过拟合情况。

Let’s Verify Step by Step —— By OAI,https://arxiv.org/pdf/2305.20050

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他们训练的 PRM 在解决 MATH 数据集测试集中 78.2%的问题时表现优于 ORM（outcome reward model）。(作者重合)

论文探讨了如何通过过程监督（process supervision）来训练更可靠的大型语言模型（LLMs），以便它们能够执行复杂的多步推理。作者们比较了过程监督和结果监督（outcome supervision）两种方法，发现过程监督在训练模型解决具有挑战性的 MATH 数据集中的问题时，显著优于结果监督。过程监督为模型的每个中间推理步骤提供反馈，而结果监督仅对最终结果提供反馈。

Google DeepMind 最新发布的 Generative Verifier 中，他们微调的 verifier 可以把问题每一步都用数值和文字评估，给模型作为 reward。

Agent 设计或许all in FIREACT?

FIREACT: TOWARD LANGUAGE AGENT FINE-TUNING；https://arxiv.org/pdf/2310.05915

有消息称OAI的agent设计思路借鉴了FIREACT, 未来有大概率参考意义，同时该文章的作者之一Yao Shunyu 也加入了AOI。文章提出了名为FireAct的新方法,通过结合多种提示方法(ReAct、CoT和Reflexion)生成训练数据,来微调较小的语言模型。

FireAct方法实现了多种提示方法的集成，技术路径主要为：

混合生成轨迹：利用强大的语言模型生成多种任务解决轨迹，结合了不同的提示方法（如ReAct、Chain of Thought (CoT) 和 Reflexion）。
统一格式与数据混合：生成的轨迹被统一转换为ReAct格式，这样可以在微调过程中使用相同的输入输出结构，便于模型理解和学习。在微调过程中，FireAct将来自不同提示方法的轨迹混合使用，这样可以增加训练数据的多样性，提升模型的泛化能力和鲁棒性。
自适应：在推理阶段，FireAct能够根据任务的复杂性自动选择最适合的提示方法，这种灵活性使得模型在不同情境下表现更佳。

2.4.2 COT推理路径：STaR、Q-STaR、Quiet-STaR

STaR

尽管OpenAI从未正式公开过草莓模型的技术细节，但普遍认为该模型的开发主要依赖于斯坦福大学提出的一种自学推理方法（Self-Taught Reasoner，简称STaR）

STaR: Bootstrapping Reasoning With Reasoning, https://arxiv.org/abs/2203.14465

STaR 方法的核心是一个简单的循环：生成推理来回答问题，使用少量推理示例作为提示；如果生成的答案是错误的，尝试在给定正确答案的情况下再次生成推理；在所有最终产生正确答案的推理上进行微调；然后重复这个过程。研究表明，STaR 在多个数据集上的性能显著优于直接预测最终答案的模型，并且在 CommonsenseQA 上的表现与比它大 30 倍的最新语言模型相当。

Q-star

Q-star

Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning

https://arxiv.org/pdf/2406.14283

Q-star是Q-learning（一种强化学习算法）和A-star（一种搜索算法）的综合体，可以在（不属于其训练数据的）数学测试中取得近乎完美的表现，并且无需依赖外界帮助。

在当下的时间节点回头看当年关于Q-star的猜测，大部分的猜测还是比较合理的

A*: 这部分的路径搜索对应LLM中的chain-of-thought

Q-learning：这部分对应模型训练过程中对强化学习的极致应用。

这个项目所做的一件重要的事就是放大思考路径数据。如果我们能获取的路径数据越多，搜索的范围越广，就越可能找到更好的解决任务的途径。当下大多数人关注的合成数据，其主要的目的之一就是合成思考路径数据，而任务路径数据可以通过观察来采集。

A*搜索算法是计算机科学中用于搜索两点之间最有效路径的算法。A*的原理是探索各种可能路径，根据距离、障碍物等因素计算每条路径的成本，然后使用这些信息来预测到达目标的最有效路线。
Q-learning是机器学习（强化学习）中的一种方法，其中，Agent学习做出可以获得最大reward的action。
“Q”=Quality”，指在特定状态下采取某种action获得的value/benefit。Agent会因为好的行为而受到奖励，因不好行为而受到惩罚。通过反复试验并从这些奖励和惩罚中学习，Agent逐渐了解实现其目标的最佳一系列action。

这个过程类似于人类如何从经验中学习，随着时间推移逐渐改变决策。简单来说，Q学习可以通过探索所有可能的路径，学习到通往预期奖励的最短路径，通过试错找到更优化的路径，并随着时间的推移达到优化状态，每次都做出更好的决策。这一思路和COT思路相似，我们猜测o1借鉴了这一思路。特别是 o1 具有惊人的反馈思考和分析能力。在得出正确的解决方案之前，它通常会回溯并考虑不同的选择，并且不太可能产生幻觉或自信地错误。

Quiet-STaR

《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》https://arxiv.org/abs/2403.09629。

斯坦福团队在STaR的基础上又提出了一种新的推理方式，名为Quiet-STaR（安静的自学推理者）-这个名称准确地反映了这项技术的核心思想：使AI能够在不显式表达的情况下进行自主推理，该方法与 OpenAI 在 o1 中的做法有很多相似之处。

STaR技术的核心在于让模型在每个输入token之后插入一个思考步骤，促使模型生成内部推理。这个项目所做的一件重要的事就是放大思考路径数据。如果我们能获取的路径数据越多，搜索的范围越广，就越可能找到更好的解决任务的途径。这个过程不仅使模型能够在面对复杂问题时做出合理的推理和判断，还大大提高了模型的自主学习能力。

延伸参考：MPR | Notes of Q-star (Q*)

https://miracleplus.feishu.cn/docx/Huf3dasMjoBgm3xE0vxcJ6ggnNb?from=from_copylink

2.5 应用思考：Vertical reward model 会成为应用层的新主题

2.5.1 AI for developers——Cursor MPR | Cursor& Wordware

https://miracleplus.feishu.cn/docx/YYPhdNA4Tob32MxKP63ceXGsn3b?from=from_copylink

类似 notion 的方式做交互，把 IDE 的门槛降低，普通用户能像用 notion 文档一样构建一个好玩的 app。Wordware 团队擅长用自己的产品去推出病毒式传播的内容：twitter.wordware.ai。Wordware 的增长负责人 Kamil Ruczynski 提出了这个 idea：可以阅读你所有推文，对你的个性进行吐槽和分析的 AI Agent。

2.5.2 Two kinds of Vertical reward models

垂直行业 reward model，比如金融/法律，以 Harvey 为代表。

Agent 使用场景 reward model，比如操作浏览器，以 Induced AI 为代表。

Induced 是一个 AI-native 的浏览器自动化 RPA 平台。其收集用户使用数据的过程可以认为是在做 browser 领域的 reward model。

使企业能够用简单的自然语言输入 workflow，或给 AI 观看操作录屏视频，就能将指令实时转换为伪代码，模拟人类的网络浏览行为，自动浏览网页，收集并有效地处理和分析关键信息，来处理通常由后台管理的许多重复性任务，如销售、合规、内部运营等方面。

它应用了一种双向交互系统，允许人类根据需要在某些步骤中进行干预，而其余步骤则由 AI 自主管理。

2.6 问题测试效果

科学课题：OpenAI 特别强调了处理科学、编程、数学和类似领域的复杂问题将特别有用，比方说医疗保健研究人员可以使用它来注释细胞测序数据，物理学家可以使用它来生成量子光学所需的复杂数学公式等。

实验：对于一些复杂的科学课题的初期讨论，其表现已经可以超过一些Junior的博士生，其主要不同在于AI的literature review能力比较好。但是对于一些具体技术的细节讨论，AI给出的想法就较为平庸。

猜词游戏：o1-preview在没有任何提示的情况下解开了今天的“Wordle”谜题。

Michaël Villar：“顺利解答今天发布的猜词游戏，使用GPT-4从未成功做到这一点。”

难问题：模型存在对难问题的“推理懒惰”，如拒绝解决黎曼猜想，Andrej Karpathy：“o1-mini 一直拒绝尝试解决黎曼猜想。模型懒惰仍然是一个令人沮丧的主要问题。”

改进规划类：Ethan Mollick：o1是目前广泛可用的首款专业前沿模型。它并不是在所有方面都比GPT-4o表现得更好，但在某些特定类型的任务上表现得更好。除非你正在处理那些从规划解决方案中受益的问题(problems that benefit from planning a solution)，否则可能无法看到改进。

https://x.com/emollick/status/1834369196727152911

有陷阱的数学题：“博士级”模型GPT-o1折戟中学数学“陷阱”问题，准确率仅为24.3%，在我们最新的中学陷阱问题测试集MathTrap_Public上，调用GPT-o1-preview官方API后生成的回答准确率仅为24.3% 。

在 GSM8K 和 MATH 数据集问题的基础上，加入了一些“陷阱”，构造了 MathTrap 数据集。这些改编后的题目很多时候没有定义明确的答案或者无解，只有能够同时理解原题和“陷阱”所涉及知识的模型，才能找出其中的矛盾点，发现“陷阱”所在。

Heuristic Signals

外部启发性信号（参考观点）

🖇信号总结：未来大量的计算被转移到用于推理，而不是预训练和后训练；小模型的计算效率更高，将很有可能在实际运用中发挥更大作用。

推理 Scaling Law——本质上是智能程度的不断地提升，新增 inference time compute。
小模型效率——更高效地分配计算资源。
开源社区压力——需要真正改变方法，不依赖GPT。
内置CoT——提高了可观察性和可解释性。
代码生成——算法推理+代码修复的优化（Github Copilot 结合 o1 ）
多功能组合（Agents/RAG）——减少 Multi-Agents 需求，处理复杂规划任务

3.1 推理能力和计算资源

Jim Fan: https://x.com/DrJimFan/status/1834279865933332752

1、推理任务不太依靠超大参数模型了，轻量化模型就可以实现，预训练计算量降低。许多参数专门用于记忆事实，以便在如对细节的问答等测试中表现良好。可以将推理与知识分开，即一个了解如何调用浏览器和代码验证器等工具的小型“推理核心”。

2、未来大量的计算被转移到用于推理，而不是预训练和后训练。LLM是基于文本的模拟过程，通过在模拟器中研究许多可能的策略和场景，推理出解决方案，这个过程就像AlphaGO的蒙特卡罗搜索。

3、Openai 一定很早就想明白了推理能力的scaling的方法，而最近学术界上个月在Arxiv上相隔一周才发布了两篇相关论文：

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling. 在 SWE-Bench 上，DeepSeek-Coder 从一个样本的 15.9% 增加到 250 个样本的 56%，击败了 Sonnet-3.5。

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. PaLM 2-S 在 MATH 上击败了一个体积大 14 倍的模型。

3.2 计算效率、对齐与开源

Ross Taylor reasoning lead @metaai, LLaMA 2/3

1. 小模型的计算效率更高：对 o1-mini 的结果印象深刻，推测较大的模型在处理简单 token 时效率低下，因此更小的模型能更高效地分配计算资源到更多的 token 上。蒸馏和专家迭代也能进一步提升效果。

2. AI 对齐问题是关键研究方向：认为 AI 与人类意图的对齐是最重要的研究问题。虽然 CoT有助于检查对齐情况，但这方面还有大量工作要做，时间紧迫。

3. 开源社区的赶超压力：这次开源社区需要真正努力赶上，而不是通过非法使用 GPT 输出来训练模型。这将成为推动更多 RL 研究公开化的催化剂。

3.3 CoT观察

内置CoT与可观察性和可解释性

https://x.com/Vibhormani/status/1834349862638272936

内置的CoT确实提高了可观察性和可解释性。

拥有一个可以捕获用户聊天中思想谱系的模型，可以为更细致的交互和更好的用户反馈循环开辟了巨大的潜力。

RL 训练模型来生成和完善CoT

https://x.com/polynoamial?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

o1通过强化学习（RL）训练，在回应之前通过私有的思维链进行”思考”。它思考的时间越长，在推理任务上的表现就越好。这开辟了一个新的扩展维度。我们不再受预训练的瓶颈限制。现在我们也可以扩展推理计算能力。

o1模型思考时间以秒计，但我们的目标是让未来版本能够思考数小时、数天，甚至数周。推理成本会更高，但为了一种新的癌症药物你愿意付出多少代价？为了突破性的电池技术呢？为了证明黎曼猜想呢？人工智能可以不仅仅是聊天机器人

3.4 Github Copilot 结合 o1 的潜力

Github Copilot 结合 o1 看到了两个方面的 improvement：

优化复杂的算法与先进的推理：Copilot 团队真实的问题。
优化应用程序代码以修复性能错误: 真是问题，o1 花费 minutes，engineer 花费 hours。

期待更多关于 code gen 方向的进展。

AI 能通过 compiler/interpreter 自行验证可用性：

https://github.blog/news-insights/product-news/openai-o1-in-github-copilot/

代码生成和 STEM 问题本质是类似的，所以编程的 reasoning 能力一定得到了强化。但是以上的问题还是基于功能性代码，对于更大规模的代码库，还是值得继续期待（本身没准也是 IDE 可以辅助解决的）。

3.5 多工具整合&文档规划与输出生成的潜力

Jerry Liu：对于o1，一些感兴趣应用场景：

多工具整合：对一个agent能够同时处理20多个工具。如果每个agent可以一次性使用更多的工具，是否可以减少对multi-agents的需求？

复杂、结构化的文档规划与输出生成：目前的代理型 RAG 能够执行稍微复杂的任务，如比较、对比和摘要。但如何一步一步地生成一整份研究报告，即在文档生成中进行复杂的、结构化的规划？

Team and Contributors

团队与核心贡献者（部分）

https://openai.com/openai-o1-contributions/

而在此次新模型的发布过程中，OpenAI 特意做了一个网站页面，将对此次模型有贡献的人员都列出来了，这些贡献者包括了两部分，一部分是推理研究，另一部分是推理技术安全。

1. 大部分成员都是在去年加入的，今年加入的也有好几位；

2. 毕业院校：斯坦福有 6 位，是最多的一个学校；国内大学，北大是最多的，也有 6 位，其次清华 2 位；

3. 工作经历：在 Google 工作过的最多有 8 位，在 Meta（Facebook）工作过的有 5 位，英伟达 4 位。

下面是简单统计的一个人员名单：参考：https://mp.weixin.qq.com/s/JaZ28OHr-pQANrnr6rpVrA

Hongyu Ren

http://hyren.me/

任泓宇本科毕业于北京大学，博士毕业于斯坦福大学。在加入OpenAI之前，曾在Apple、Google、NVIDIA和Microsoft实习。任泓宇去年加入OpenAI担任研究科学家，主要负责语言模型的训练工作。

GPT-4o 的核心贡献者，GPT-4o mini 的领导者。

Shengjia Zhao

本科毕业于清华大学，博士毕业于斯坦福大学。2022 年 6 月份加入 OpenAI，OpenAI的研究科学家，专注于ChatGPT的训练和对齐工作。

Kevin Lu

https://kevinlu.ai/

2021年毕业于加州大学伯克利分校，在校期间受伯克利人工智能研究所（BAIR）联合主任Pieter Abbeel和谷歌DeepMind研究科学家Igor Mordatch的指导，研究方向为强化学习和序列建模。

Wenda Zhou

本科在剑桥大学学的数学，之后博士在哥伦比亚大学学的统计学；之前在哥伦比亚大学教过统计学入门课程和高级机器学习课程。

Jiahui Yu

本科中科大，博士伊利诺伊大学厄巴纳-香槟分校。2023 年 10 月份加入OpenAI，之前在百度、Google 和英伟达工作。

Hope

小编寄语

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，关于AI战略方向的框架性认知，处于小范围分享状态如果你感兴趣，可以将以下链接复制到浏览器，加入飞书群聊(需要下载飞书)。

https://applink.feishu.cn/client/chat/chatter/add_by_link?link_token=346gcbcf-3753-4464-830d-90f892567e78

大模型空间站再次感谢各位朋友的支持！

— END —

原创文章，作者：LLM Space，如若转载，请注明出处：https://www.agent-universe.cn/2024/09/21073.html