在讲解技术前,先介绍我们的工作“Cambrian-1”。“Cambrian”指寒武纪生物大爆炸的时期。
你可能好奇,动物何时开始长出眼睛?GPT告诉我,约5.41亿年前的寒武纪时期,动物才开始长出眼睛。在这个生物大爆炸阶段,生命从简单形态演变为多样化的生态系统。
来源:寒武纪图片
我们的研究动机来源于此。
我们认为AI的发展与寒武纪生命大爆炸相似。就像当时生物从单一视觉或语言概念进化到多模态,AI也在融合多种模态。我们希望AI能够像动物长出眼睛那样,标志着一个重要进化阶段,并加速这一过程。
所以我们主要关注排除 LLM 外标红的5个方面,也就是到底该采用何种视觉表征和视觉主干网络(Vision Backbone),如何实现视觉与语言的有效连接,使用何种数据进行连接,以及如何对模型进行评估。
如今,许多杰出的研究和研究人员已经完成大量评估工作,我们希望帮助了解模型的性能优劣。
为何研究视觉?
如果我们观察一些经典的 Benchmark,如 MMLU、MASH 和 GPQA,发现模型的改进已经日益增多,尤其在知识方面表现出色,但是同时它们可能会犯一些非常简单的错误。
比如在最新的 GPT-4o 模型中,问它狗狗是面向左还是右,它会回答错误;问它图中有几个轮子,它会答错。这不仅是 GPT,其他模型如 Gemini 和 Claude 3.5 Sonnet 也存在类似问题。
虽然这些问题看似简单,但是模型却持续出错。
如果你询问Claude有几个轮子,它会回答两个轮子;如果询问Gemini,答案更加离谱,有16个轮子。
我们想了解在模型能解答许多复杂问题的同时为何还会犯这些小错误?这些小错误是否会影响我们后续真正使用这些模型?因为我们使用这些模型的目的并不一定是解决复杂问题,可能只是想让它完成一些基础简单的任务,做出非常基本的判断。
正文
我将从以下五个方面讲述 MLLMs 的发展:
-
Visual Representations
-
Evaluation Protocol
-
Instruction Tuning Recipe
-
Connector Design
-
Instruction Tuning Data
-
Visual Representations


-
Evaluation Protocol

Benchmark Analysis
-
Access the “Multimodality” of the Benchmarks
-
Group Benchmarks into Clusters
-
首先,我们评估有哪些多模态的Benchmark,需要利用多模态去训练理解 Motion Model。 -
其次,我们的目标是将不同的Benchmark进行分组,以便不仅观察到Benchmark的数量,还能评估每组模型的性能表现。








-
Instruction Tuning Recipe


-
首个发现指出语言监督模型普遍表现优异,其中CLIP模型的性能超越其他模型。因此推荐在当前阶段采用CLIP模型或者 CLIP Alignment 模型会更好。 -
第二个观察结果是在OCR&Chart 方面,模型之间的性能差异最为显著,而在 General、Knowledge 和 Vision-Centric则不明显。这种差异可归因于模型预训练数据的不同,例如SigLIP模型在100亿数据上进行预训练,而CLIP在4亿数据上进行预训练。目前其他最大的模型仅在约1亿数据上预训练,这种数据量的差异导致模型在处理OCR&Chart存在难度差异。 -
第三个发现是ConvNets在OCR中表现出色。我们提供了排名的结果,以便更清晰地展示这一点。在当前研究中,大多数研究者都在探索基于Transformer,VIT。我们发现ConvNets不仅效率高,而且在处理高分辨率图像时比VIT模型更为高效和有效。 -
第四个重要发现是在Vision-Centric的任务中,未经过语言训练的最佳SSL模型(Vision-Only SSL Model),也能取得很好的效果。


-
首先,不同模型设计用于处理不同规模的数据,所以假定所有模型处理相同分辨率的输入不合理; -
其次,均等关注所有视觉模型并不高效,有时需要依据特定任务调整对模型的关注程度。
-
Connector Design

-
Instruction Tuning Data







Interview
我们拥有许多资源,当时由Google赞助,Google的TRC提供了1,000张TPU V4,我们使用了3~4个月。
我认为情况并非如此。例如,当有人拍摄一辆带轮子的车并询问顶尖的大型语言模型有多少个轮子时,尽管实际上只有一个轮子,这些模型却常常回答2个或4个轮子。这表明仍有未解决的问题,尽管可能正在积极研究中。尤其是头部企业,他们需要关注原生多模态模型的发展。过去的许多模型,如GPT-4,是在语言模型的基础上微调而成,但现在人们更希望拥有从设计之初就具备多模态处理能力的原生模型,这要求vision backbone既能生成又能理解内容,这无疑是更大的挑战。
从大家的观点来看,GPT-5可能正在尝试实现原生的多模态功能。 关于我的研究,我认为它未必能立即解决问题。原生多模态模型的推进本身非常困难。语言处理时,token化几乎不会导致信息损失,token能还原原始语句。但图像或视频在编码过程中,必然会有信息损失,如何弥补这种损失是个极难的问题。如果采用原生方法,很可能导致模型被语言主导,因为语言更易训练,这反而使得获取良好的视觉能力变得更难。
作为一名学生,目前正在实习并计划返回学校继续学习。我渴望深入研究当今的模型在视觉领域究竟能够实现哪些功能?具体来说,在这个时代,视觉在大规模模型中扮演了怎样的角色?例如,我们目前所观察到的视觉处理能力,是否可能仅仅类似于眼睛的功能,它不包含任何推理或思考过程,仅仅是向语言模型(LM)提供输入,而LM则处理所有后续任务并执行相应的操作。此外,我也想研究是否存在一种“视觉智能”,即视觉系统本身是否能够展现出智能行为。
我同意你的观点,当前大多数模型的性能主要由数据决定,这一点在确立有效训练范式后尤为明显。但在多模态研究中,确定适当的input和output是一个挑战,这不仅仅是数据的问题,而是需要先确定一个可扩展的训练框架。
关于如何定义良好的input和output数据格式,在你的工作中,有一环节涉及将问答数据修改为对某件事的背景和意义进行描述,随后再提出问题。在整个数据训练流程中,保持一定的控制是必要的。对于不同模态的input和output,网络上存在大量的原始数据,例如YouTube。你认为目前所定义的数据input和output达到了什么水平?接下来,是否有可能采取更为激进的方法来定义数据?
众所周知,训练大型模型通常包括预训练、监督微调(SFT)和强化学习(RL)三个阶段。在当前数据定义中,SFT阶段是重点,我们希望SFT数据的分布与预训练数据分布差异不大。为了充分利用如YouTube等高质量数据源,考虑将其纳入预训练阶段是必要的。这涉及到input和output的问题,如许多视频缺乏文本描述或音频,仅有图像或帧数信息。如何有效利用这些数据仍然是个待解决的问题。如果找到解决方案,可能需要将这些数据纳入预训练过程中。
在执行SFT之前,预训练模型已具备多模态理解能力,因此后续不必像当前那样依赖大量数据来增强多模态性能。正如春婷所说,SFT的作用是触发预训练能力。如果预训练已具备这种能力,SFT阶段可能不需要过多调整以保留已有成果。
我认为仍具有很大的增长潜力,尤其是将纯视频数据整合进预训练流程中。考虑到YouTube及其他视频平台如TikTok或者快手,每天产生的大量新数据,这些数据目前尚未被充分利用,显示出巨大的开发潜力。
最近有人提到我们已经利用了全网的数据资源,你指的是在YouTube或者视频数据中有大量未被充分利用的部分。能否提供一个具体例子并解释这种方式可能释放多少倍的数据?
例如在制作烹饪视频时,当前的训练方法首先将其转化为文本描述,如对话或者视频内容摘要。实际上,烹饪视频本身的图像信息含有大量未被挖掘的潜力。
例如观看足够多的烹饪视频后,模型可能会更好地向机器人展示或者在真实环境中提供空间感知和认知,比如灶台与摄影者的距离等信息,在当前文本为主的预训练流程中很难获得。
首先,可以利用现有的多模态模型,例如通过密集图像标注和语言模型生成摘要,从而将纯视觉内容转化为丰富的文本描述。其次,可以通过迭代的方式,即利用已有模型处理数据并训练新模型。这种方法已被证明可以有效提升模型性能,而不至于导致过拟合。
另一种基础研究途径是探索如何在模型训练中同时利用视觉和语言数据,以达到两者相辅相成的效果。这种跨模态学习方式在训练过程中能相互促进,即使在原始数据质量不佳的情况下,也能提高模型的整体性能。
目前越来越多的研究工作开始关注原生的多模态学习,希望建立能够同时处理复杂语言和视觉信息的模型,实现超越单一模态的处理能力。这种跨模态整合的方法被认为有潜力达到1+1>2的效果,即模型不仅能理解复杂的语言信息,还能把握时间序列和视觉关系。关于大量缺乏语言标注的视频和图像数据利用问题,这确实是引人注目的研究方向。许多领先科技公司都在积极探索这一领域。如果有机会,展示我们在这一领域的研究成果,将会非常有益。
我认为这是一个活跃的研究领域,例如自回归和DIT等方法,可能会有新的研究成果出现。
关于其他扩散方法,本质上它们可以互换使用。尽管今天我们有扩散和自回归两种有效训练方式,但是它们尚未融合或统一。或许正是这种研究在等待范式转变,以便更好地整合在一起。
我认为这是一个非常好的问题。今天的模型在很多时候已经做得非常好,但我们也会发现一些问题。例如,今天的模型能力可能达到80分,然后达到90分,就可以做很多非常棒的事情,只差这10分,进展非常缓慢。
在某些方面,我们可以非常精确地处理图表,例如Excel,实际上最好的模型无论是开源还是闭源,距离完成目标只差一点。我经常使用,发现Claude方面稍有差距。因此,我认为在这些接近完美、更进一步的地方可能会有更多的提升,毕竟增加参数、数据或者合成数据可以带来较好的改进。
另一个更加理想化的事物是具身认知。Embodiment,目前模型缺乏对空间和世界的理解,还有很多benchmark可以证明这一点。即使是最好的模型,如GPT,它对空间内的二维和三维的理解也不太行。在将技术部署到机器人或者实际应用场景时,潜在的缺陷往往会被放大,变得尤为明显。这不仅涉及到与技术的直接交互,还可能关联到后续的改进工作。尽管当前可能没有现成的模型,但是未来可能会有发展。
我将毫不犹豫地训练下一代模型。
我可能会选择较大的领域,例如我之前提到的游戏开发。我相信这可以大幅提升项目的成功率,虽然可能需要一些基础的预训练。这些资金将用于开发一个高效的游戏制作流程,例如根据您的需求定制一个NPC,该NPC能够扩展并具备智能。如果您能投资1亿美元获取H100资源,我将致力于此项目。
小编寄语
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13161.html