寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索

Guest Information

分享嘉宾

Peter Tong 童晟邦

纽约大学博士
师从 Yann LeCun 教授和 Saining Xie 教授
伯克利人工智能实验室（BAIR）的研究员
近期获得 OpenAI 超对齐奖学金

寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索

Sharing

主题：视觉在多模态大模型中扮演角色

我们的研究为以视觉为中心的MLLMs。虽然大模型如GPT和Claude在智力任务上表现出色，但它们在视觉密集型任务中的表现仍有待提高。我们关注这些模型在游戏、日常生活和自动驾驶等视觉要求较高的场景中的应用。去年，我们开始探索开源社区的多模态模型何时能与ChatGPT相媲美。现在，一年过去了，许多公司在这方面取得了显著进展，这正是我们研究的方向。

在讲解技术前，先介绍我们的工作“Cambrian-1”。“Cambrian”指寒武纪生物大爆炸的时期。

你可能好奇，动物何时开始长出眼睛？GPT告诉我，约5.41亿年前的寒武纪时期，动物才开始长出眼睛。在这个生物大爆炸阶段，生命从简单形态演变为多样化的生态系统。

寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索

来源：寒武纪图片

我们的研究动机来源于此。

我们认为AI的发展与寒武纪生命大爆炸相似。就像当时生物从单一视觉或语言概念进化到多模态，AI也在融合多种模态。我们希望AI能够像动物长出眼睛那样，标志着一个重要进化阶段，并加速这一过程。

所以我们主要关注排除 LLM 外标红的5个方面，也就是到底该采用何种视觉表征和视觉主干网络（Vision Backbone），如何实现视觉与语言的有效连接，使用何种数据进行连接，以及如何对模型进行评估。

如今，许多杰出的研究和研究人员已经完成大量评估工作，我们希望帮助了解模型的性能优劣。

寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索

为何研究视觉？

如果我们观察一些经典的 Benchmark，如 MMLU、MASH 和 GPQA，发现模型的改进已经日益增多，尤其在知识方面表现出色，但是同时它们可能会犯一些非常简单的错误。

寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索

比如在最新的 GPT-4o 模型中，问它狗狗是面向左还是右，它会回答错误；问它图中有几个轮子，它会答错。这不仅是 GPT，其他模型如 Gemini 和 Claude 3.5 Sonnet 也存在类似问题。

虽然这些问题看似简单，但是模型却持续出错。

如果你询问Claude有几个轮子，它会回答两个轮子；如果询问Gemini，答案更加离谱，有16个轮子。

我们想了解在模型能解答许多复杂问题的同时为何还会犯这些小错误？这些小错误是否会影响我们后续真正使用这些模型？因为我们使用这些模型的目的并不一定是解决复杂问题，可能只是想让它完成一些基础简单的任务，做出非常基本的判断。

正文

我将从以下五个方面讲述 MLLMs 的发展：

Visual Representations
Evaluation Protocol
Instruction Tuning Recipe
Connector Design
Instruction Tuning Data

Visual Representations

在探讨计算机视觉领域模型时，我们首先从模型的表征入手。自2014-2015年以来，研究者们提出了许多特征提取模型，如基于ImageNet训练的经典模型、CLIP模型，以及自监督学习（SSL）模型。2020年至2023年间，诸如MAE、DINOv2、MiDas、SAM等创新模型也被用于特征提取。此外，还有 diffusion、depth、segmentation 和 SAM1、SAM2 等最新模型。

为了评估这些模型，我们测试了市场上表现最佳的23个公开视觉模型，以比较它们的适用性和性能。

Evaluation Protocol

在深入讨论这些模型之前，必须解决一个先决问题：如何进行有效评估。

由于缺乏准确评估，我们无法判断哪些模型更为优越，因此我们需要从评估方法入手。

当前存在多种评估方法，如MMMU 评估大学生考试难度，MM-Bench测试一般性BQA，DocVQA专注于OCR能力，RealWorldQA 检验现实环境中的表现等。然而，系统性评估是一个挑战，我们希望看到一些简洁明了的指标。

为此，我们设计了以下两项实验来探讨这一问题。

Benchmark Analysis

Access the “Multimodality” of the Benchmarks
Group Benchmarks into Clusters

首先，我们评估有哪些多模态的Benchmark，需要利用多模态去训练理解 Motion Model。
其次，我们的目标是将不同的Benchmark进行分组，以便不仅观察到Benchmark的数量，还能评估每组模型的性能表现。

首先我们提出一个问题：是语言模型(LLM)在还是多模态大模型(MLLM）在回答问题？

为此我们训练了23个模型，包括启用视觉（vision enable）和禁用视觉（vision disable）两种模式。启用视觉模型（vision enable）就是正常执行视觉问答任务，而禁用视觉模型（vision disable）则在回答问题时去除图像，仅依据问题本身进行回答。

我们发现某些Benchmark对视觉依赖不强，或者在测试模型中不显著。同时有些模型在视觉标签绿色点与禁用视觉红色点之间离得较远，这表明某些模型更加依赖于视觉能力。

其次，我们希望对模型进行分类。鉴于我们拥有大量数据，因此进行了相关性分析，并绘制图表以观察不同Benchmark之间的相关性。如上图所示，如果两个Benchmark之间的相关性较高，那么它们本质上更为相似。图表的左上角和中心区域自然地聚集了许多高相关性的Benchmark，表明它们之间存在显著关联性。

我们将这种相关性进行了可视化处理，以便更清晰地展示。可以观察到Benchmark已经根据其特性被聚类为不同类别。

第一类是通用类别，例如MME Perception和GQA，这些主要评估模型的基础能力。

第二类是知识类别，如MMMU、MathVista、SQA等。它们更多地测试模型的知识水平，对视觉的依赖可能并不强烈。

第三类是OCM&Chart，主要测试模型对文本的理解能力。我们发现模型的OCR能力与模型本身能力不同，OCR是一种特殊技能，需要单独训练。

第四类侧重于Vision-Centric，这些Benchmark更需要视觉本身的能力。

究竟是LLM在回答问题还是MLLM在回答问题？我们发现知识类别位于左侧，对模型的视觉能力要求不高。OCR&Chart、General、Vision Centric将更加依赖模型的视觉处理能力。

我们发现General中bubble非常大，Vision-Centric的bubble非常小。实际上这种情况不太理想，这可能会导致模型在某些方面出现偏差。为解决这一问题，我们计划提出更多Vision-Centric Benchmark专门测量模型的视觉能力。

为评估模型的视觉能力，我们建议重新利用现有的视觉数据集，并借鉴语言模型发展之前的成果。具体方法是结合视觉相关的专业知识，创建新的Benchmark。MS COCO是一个提供分割、检测及3D模型理解的经典数据集。我们将这些数据集转化为 VQA Benchmark，以考察模型对2D空间关系和3D深度及相对距离的理解。

我们将充分利用已有的优秀Benchmark，如ADE20K、COCO、Omini3D等，通过程序生成的方式将其归类为四类，为确保Benchmark的有效性，我们将通过人工审核接受、修改或拒绝题目。最终我们得到了约2,700个题目，旨在通过新的Benchmark更准确地评估模型的视觉处理能力。

从Bubble Chart中可以看出，新的CV-Bench确实也归在 Vision-Centric里面，其数据量比以前的总和增加约3.5倍。因此我们的目标是为Vision-Centric提供一个更加精确的Benchmark以评估模型的视觉能力。

Instruction Tuning Recipe

一旦我们对模型的视觉能力有了深入了解，接下来就是探索如何调整和优化模型。通过阅读相关文献，我们会发现不同研究推荐的调优方法各不相同。

在这个过程中，有两个关键点需要明确。首先，我们需要确定采用单一阶段还是两个阶段训练模型。其次，我们是否应该在训练过程中冻结vision backbone。

Instruction Tuning Recipe中，我们的实验涵盖了4种不同的设置：0M、0.5M、1.2M 和 1.2M on frozen (图示带小火花)。我们在实验中考察了三列不同的模型，如上图左边是clip，然后中间是SL，右边是其他模型，每列代表一个类别。图示有四行，每一行是一个种类，分别是General、Knowledge、OCR&Chart、Vision-Centric。

我们发现：

第一个特征是更多的对齐数据有助于训练 connector（即 vision 和 language 之间的联系）。显然，数据量越大，效果越好。

第二，即使在拥有大量数据的情况下，我们仍然需要 unfreeze vision backbone。视觉模型的发展并非一蹴而就，不能仅依赖于预训练，而是需要逐步谨慎地进行微调和优化，以实现更好的模态融合。

在确定评估和训练方法之后，我们可以进一步探讨应该使用哪种Visual Representation。我们将这些发现总结为23个模型，本研究涉及4个主要类别：General、Knowlege、OCR&Chart以及 Vision-Centric。在此研究中，我们通过研究三类曲线的走势。

首个发现指出语言监督模型普遍表现优异，其中CLIP模型的性能超越其他模型。因此推荐在当前阶段采用CLIP模型或者 CLIP Alignment 模型会更好。
第二个观察结果是在OCR&Chart 方面，模型之间的性能差异最为显著，而在 General、Knowledge 和 Vision-Centric则不明显。这种差异可归因于模型预训练数据的不同，例如SigLIP模型在100亿数据上进行预训练，而CLIP在4亿数据上进行预训练。目前其他最大的模型仅在约1亿数据上预训练，这种数据量的差异导致模型在处理OCR&Chart存在难度差异。
第三个发现是ConvNets在OCR中表现出色。我们提供了排名的结果，以便更清晰地展示这一点。在当前研究中，大多数研究者都在探索基于Transformer，VIT。我们发现ConvNets不仅效率高，而且在处理高分辨率图像时比VIT模型更为高效和有效。
第四个重要发现是在Vision-Centric的任务中，未经过语言训练的最佳SSL模型（Vision-Only SSL Model），也能取得很好的效果。

正如先前所述，不同模型之间的数据差异显著。我们通过从0.7 million到5 million增加数据量来弥补这一差距。在某些类别中，如General、Vision Centric模型间的数据差距可以逐渐缩小甚至被反超。这表明尽管现有模型的训练已经相当成功，但仍有改进的空间。SSL模型并非在所有方面都逊色于CLIP模型，而是有可能逐步弥补差距，Knowledge和OCR&Chart方面的差距正在扩大。

正如之前提到的，目前还没有完美的视觉模型。我们想探讨一个问题：是否可以通过组合不同模型来获得最佳结果。在当前的研究中，我们尝试构建了一套综合视觉模型系统。观察发现，随着组合更多视觉模型，系统性能显著提升。当模型数量增至3~4个时，性能增益达到饱和点。

然而，这种多模型集成策略存在两个主要问题：

首先，不同模型设计用于处理不同规模的数据，所以假定所有模型处理相同分辨率的输入不合理；
其次，均等关注所有视觉模型并不高效，有时需要依据特定任务调整对模型的关注程度。

Connector Design

为了解决多模型集成的效率问题，我们探索了Connector Design，提出了一个包括Flamingo、Resampler、LLAMA 和 GPT 模型的复杂方案。通过引入可学习的tokens，使用交叉注意力机制访问编码器的不同区域，保留自然分辨率特性，并多次重复使用此模块，提升了OCR&Chart和Vision-Centric的性能。

这一发现说明我们为何需要对Benchmark进行分类，以便更准确地评估各类模型的性能。我们发现，在大型语言模型（LLM）中，多次聚合的方法能带来显著的性能提升。

Instruction Tuning Data

我们讨论了多模态大模型的数据问题。与语言模型不同，训练多模态模型时高质量的图片问答数据较难获取。为此，我们首先收集了约八九十个开源数据集用于训练，但科学等领域的数据尤其匮乏。

为了生成更多数据，我们设计了一个数据引擎，自动从网上搜集信息并生成问答内容。这个引擎基于特定领域，如物理学，将其分解为小词汇，再用语言模型生成视觉问答数据。这一方法使我们生成了16万条数据，比以往多4倍。

我们采用三种手段进行数据清洗：数据平衡、数据比率优化、数据预处理。

数据平衡用于过滤。在图表中，横坐标x轴代表各个数据源，而纵坐标y轴显示截至每个数据源的累积数据量。分析发现，若未对数据执行清洗操作，当数据源增至第70至75个时，数据量将呈指数级增长。这种现象主要是由于某些数据源的数据量极大，可达300万条，而整个数据库仅含1,000万条数据。若单一数据源即占300万条，则可能在训练过程中导致数据源偏差。因此，我们采取过滤措施以设定数据阈值。与先前研究一致，存在一个最佳的中间结构：若每个数据集分配25-30万条数据，模型的训练效果最佳。数据筛选过多或过少均不利于模型训练。

在进一步研究中，我们关注了不同类别数据的配比问题。由于数据涵盖语言、基础问答、OCR及数字等多个领域，我们旨在寻找平衡点以优化各类数据的配比。经过多次实验，最终确定了5个表现最优的类别配比：约20%的语言类数据、35%的通用类数据、27%的OCR类数据、8%的数字类数据以及约7%的科学类内容。在此配比下，模型的性能达到最优。

应用这些研究成果进行模型训练，与以往如LLaVA等工作相比，当数据量扩展至1,000万时，模型性能显著提升。随后，我们将数据量减至700万并加强数据清洗，虽然数据总量减少，但模型性能进一步提升，凸显了数据清洗的重要性。完成训练后进行测试，模型表现出色。然而，在实际应用中发现，该模型虽能高效回答问题，却在执行其他任务上显得不足。

例如，在被询问描述图像或宠物猫时，模型的回答虽正确但缺乏详细描述，显示出其局限性。同样，在提供旅游建议时，模型仅简单回答“纽约市”，未能提供更丰富的信息，这反映出模型在处理非问答类任务时的不足。

为了解决此问题，我们研究了数据清洗技术，旨在提升数据的显著性，并强调系统提示的重要性。在训练阶段，我们需要为模型提供明确的指示，指明训练数据的应用目的及所需完成的任务。通过这种方法，我们发现模型性能得到改善，在Benchmark不降低的情况下，输出的领域相关性明显增强。例如，在描述猫时，模型不仅简单地指出“这是一只猫”，而是能够提供详细且有意义的描述，如“这只猫在浴缸中”。作为用户，我更倾向于看到这种生动且有温度的回答，而非单调冷漠的描述。

结合所有经验，我们最终开发了一个名为“Cambrian-1”的模型。可以看到，我们将最先进水平Sota灰化了。尽管我们的模型在Benchmark中表现优异，但与GPT、Claude和Gemini等其他模型相比，它展现出了竞争力。然而，我们认为这个模型不会真正达到GPT的水平。

模型性能与挑战

尽管模型在问答任务中表现良好，但在描述图像或提供详细信息时表现不佳。这表明当前的数据清洗和训练方法仍有改进空间。为解决这一问题，我们加强了系统提示（system prompt）的使用，明确模型的训练目标。结果，模型在任务相关性和输出细节上有所改善。

模型与Benchmark

我们开发了“Cambrian-1”模型，尽管在Benchmark中表现良好，但与GPT等闭源模型相比仍有差距。这主要是因为当前的Benchmark未能全面捕捉模型的对话能力、创造力等方面。因此，我们希望开发更好的Benchmark，准确展示这些差距，推动开源模型的发展。

视觉标记与数据处理

在视觉标记数量和解决方案之间存在权衡。我们认为ConvNet或SVA模块是有效的解决方案。此外，数据处理的质量直接影响模型的能力，数据包括收集、清洗、预处理和后处理。

训练与强化学习

最后，我们讨论了训练和训练后处理。尽管SFT对多模态模型有帮助，但强化学习可以带来更好的决策能力。例如，在21点游戏中，仅靠SFT无法达到最佳水平，而强化学习则能弥补这一不足。

以上内容均为开源，大家可以查看相关数据和模型。感谢大家的聆听。

Interview

访谈

Q：你投入了多少GPU资源？

我们拥有许多资源，当时由Google赞助，Google的TRC提供了1,000张TPU V4，我们使用了3~4个月。

Q：关于你之前提到想要解决的问题，这些是否也是OpenAI和DeepMind正在努力解决的问题？或者说，在多模态领域，特别是在backbone领域，是否有头部机构试图解决SOTA的问题？你认为他们是否已经完全理解了vision backbone的概念？

我认为情况并非如此。例如，当有人拍摄一辆带轮子的车并询问顶尖的大型语言模型有多少个轮子时，尽管实际上只有一个轮子，这些模型却常常回答2个或4个轮子。这表明仍有未解决的问题，尽管可能正在积极研究中。尤其是头部企业，他们需要关注原生多模态模型的发展。过去的许多模型，如GPT-4，是在语言模型的基础上微调而成，但现在人们更希望拥有从设计之初就具备多模态处理能力的原生模型，这要求vision backbone既能生成又能理解内容，这无疑是更大的挑战。

Q：如果你在一个月前测试这个模型，我们没有涉及到GPT-5，那么你认为GPT-5是从头开始训练的多模态模型吗？这个问题是否已经被GPT-5解决？

从大家的观点来看，GPT-5可能正在尝试实现原生的多模态功能。

关于我的研究，我认为它未必能立即解决问题。原生多模态模型的推进本身非常困难。语言处理时，token化几乎不会导致信息损失，token能还原原始语句。但图像或视频在编码过程中，必然会有信息损失，如何弥补这种损失是个极难的问题。如果采用原生方法，很可能导致模型被语言主导，因为语言更易训练，这反而使得获取良好的视觉能力变得更难。

Q：沿着你现在的研究路径，关于以视觉为中心的方法，你打算未来如何继续探索？

作为一名学生，目前正在实习并计划返回学校继续学习。我渴望深入研究当今的模型在视觉领域究竟能够实现哪些功能？具体来说，在这个时代，视觉在大规模模型中扮演了怎样的角色？例如，我们目前所观察到的视觉处理能力，是否可能仅仅类似于眼睛的功能，它不包含任何推理或思考过程，仅仅是向语言模型（LM）提供输入，而LM则处理所有后续任务并执行相应的操作。此外，我也想研究是否存在一种“视觉智能”，即视觉系统本身是否能够展现出智能行为。

Q: 关于数据与多模态能力的关系，最近有观点认为数据量可以提升模型的性能上限。当前架构设计似乎主要关注训练效率。如果在多模态领域拥有充足的数据，我们是否还需要过分关注架构设计？如果定义了明确的input和output并且数据足够丰富，是否可以自动解决不同模态间的融合问题？

我同意你的观点，当前大多数模型的性能主要由数据决定，这一点在确立有效训练范式后尤为明显。但在多模态研究中，确定适当的input和output是一个挑战，这不仅仅是数据的问题，而是需要先确定一个可扩展的训练框架。

关于如何定义良好的input和output数据格式，在你的工作中，有一环节涉及将问答数据修改为对某件事的背景和意义进行描述，随后再提出问题。在整个数据训练流程中，保持一定的控制是必要的。对于不同模态的input和output，网络上存在大量的原始数据，例如YouTube。你认为目前所定义的数据input和output达到了什么水平？接下来，是否有可能采取更为激进的方法来定义数据？

众所周知，训练大型模型通常包括预训练、监督微调（SFT）和强化学习（RL）三个阶段。在当前数据定义中，SFT阶段是重点，我们希望SFT数据的分布与预训练数据分布差异不大。为了充分利用如YouTube等高质量数据源，考虑将其纳入预训练阶段是必要的。这涉及到input和output的问题，如许多视频缺乏文本描述或音频，仅有图像或帧数信息。如何有效利用这些数据仍然是个待解决的问题。如果找到解决方案，可能需要将这些数据纳入预训练过程中。‍

在执行SFT之前，预训练模型已具备多模态理解能力，因此后续不必像当前那样依赖大量数据来增强多模态性能。正如春婷所说，SFT的作用是触发预训练能力。如果预训练已具备这种能力，SFT阶段可能不需要过多调整以保留已有成果。

Q: 关于当前预训练流程中的数据量，还有多大的扩展空间？

我认为仍具有很大的增长潜力，尤其是将纯视频数据整合进预训练流程中。考虑到YouTube及其他视频平台如TikTok或者快手，每天产生的大量新数据，这些数据目前尚未被充分利用，显示出巨大的开发潜力。

最近有人提到我们已经利用了全网的数据资源，你指的是在YouTube或者视频数据中有大量未被充分利用的部分。能否提供一个具体例子并解释这种方式可能释放多少倍的数据？

例如在制作烹饪视频时，当前的训练方法首先将其转化为文本描述，如对话或者视频内容摘要。实际上，烹饪视频本身的图像信息含有大量未被挖掘的潜力。

例如观看足够多的烹饪视频后，模型可能会更好地向机器人展示或者在真实环境中提供空间感知和认知，比如灶台与摄影者的距离等信息，在当前文本为主的预训练流程中很难获得。

Q: 如何进一步挖掘YouTube或者视频数据中的有用信息？一段40秒的烹饪视频可能只有两三句话来描述视频内容。有哪些方法可能已经被采用，或者有很大的潜力在未来被采用，以便更深入地提取视频数据中语言与视频内容之间的关联信息？

首先，可以利用现有的多模态模型，例如通过密集图像标注和语言模型生成摘要，从而将纯视觉内容转化为丰富的文本描述。其次，可以通过迭代的方式，即利用已有模型处理数据并训练新模型。这种方法已被证明可以有效提升模型性能，而不至于导致过拟合。

另一种基础研究途径是探索如何在模型训练中同时利用视觉和语言数据，以达到两者相辅相成的效果。这种跨模态学习方式在训练过程中能相互促进，即使在原始数据质量不佳的情况下，也能提高模型的整体性能。

Q: 刚才提到的后者概念确实引人入胜。在整个预训练过程中，即使原始数据并不如理想中的那样优质，这两种能力，即视觉和语言数据，仍然可以在训练过程中相互促进并逐渐显现出来吗？

目前越来越多的研究工作开始关注原生的多模态学习，希望建立能够同时处理复杂语言和视觉信息的模型，实现超越单一模态的处理能力。这种跨模态整合的方法被认为有潜力达到1+1>2的效果，即模型不仅能理解复杂的语言信息，还能把握时间序列和视觉关系。关于大量缺乏语言标注的视频和图像数据利用问题，这确实是引人注目的研究方向。许多领先科技公司都在积极探索这一领域。如果有机会，展示我们在这一领域的研究成果，将会非常有益。

Q: 最后，我们回到模型架构和语言模型的基本问题,当前许多研究者正在讨论范式转变(paradigm shift)。在潜空间AI Unconference活动中，有一个专题讨论正是关于这一主题，引起了广泛关注和讨论。在AI领域，我们期待模型发展进入一个新时代，例如从CNN到ResNet或从RNN到Transformer的变革。当前语言模型正探索新的可能性。多模态学习是否也将迎来类似的范式转变？对于预训练中的多模态架构，你有何见解？您认为其中哪些组件，如自回归、DIT等可能会被淘汰或替换？

我认为这是一个活跃的研究领域，例如自回归和DIT等方法，可能会有新的研究成果出现。

关于其他扩散方法，本质上它们可以互换使用。尽管今天我们有扩散和自回归两种有效训练方式，但是它们尚未融合或统一。或许正是这种研究在等待范式转变，以便更好地整合在一起。

Q：你认为在今年年底或者明年年中，哪些新的通用人工智能能力可能被大模型多模态学习所掌握？例如，如果将1万小时烹饪视频放在一个上下文透镜（context lens）下，会产生什么效果？或者哪些是更通用的以视觉为中心的能力？虽然当前还未被探索出来，但有可能在今年年底或者明年年中看到。

我认为这是一个非常好的问题。今天的模型在很多时候已经做得非常好，但我们也会发现一些问题。例如，今天的模型能力可能达到80分，然后达到90分，就可以做很多非常棒的事情，只差这10分，进展非常缓慢。

在某些方面，我们可以非常精确地处理图表，例如Excel，实际上最好的模型无论是开源还是闭源，距离完成目标只差一点。我经常使用，发现Claude方面稍有差距。因此，我认为在这些接近完美、更进一步的地方可能会有更多的提升，毕竟增加参数、数据或者合成数据可以带来较好的改进。

另一个更加理想化的事物是具身认知。Embodiment，目前模型缺乏对空间和世界的理解，还有很多benchmark可以证明这一点。即使是最好的模型，如GPT，它对空间内的二维和三维的理解也不太行。在将技术部署到机器人或者实际应用场景时，潜在的缺陷往往会被放大，变得尤为明显。这不仅涉及到与技术的直接交互，还可能关联到后续的改进工作。尽管当前可能没有现成的模型，但是未来可能会有发展。

Q: 如果今天给你5万或者10万张H100加速器，再加上1,000亿美元，您会如何做？

我将毫不犹豫地训练下一代模型。

Q：假设给你1亿美元，再配备2,000张H，您会如何行动？

我可能会选择较大的领域，例如我之前提到的游戏开发。我相信这可以大幅提升项目的成功率，虽然可能需要一些基础的预训练。这些资金将用于开发一个高效的游戏制作流程，例如根据您的需求定制一个NPC，该NPC能够扩展并具备智能。如果您能投资1亿美元获取H100资源，我将致力于此项目。

🔊潜空间系列活动第三季第四期开启报名！

本期活动将在 9 月 6 日 14：00 开始，嘉宾是闫俊杰，MiniMax 创始人兼 CEO，是中国第一梯队的大模型创业者，目前 MiniMax 估值超 25 亿美元。他将和大家探讨Intelligence with everyone ：对 AGI 0-1 的探索与实践。

报名通道已开启，欢迎扫描下方二维码报名。

寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索