大模型日报(1月6日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月6日 学术篇)

信号

01

FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving

本文介绍了FlashInfer,一种基于代码生成的注意力引擎,旨在加速大语言模型(LLM)的注意力计算。随着LLM在各个领域的快速发展,GPU注意力内核的高效性变得愈发重要,而FlashInfer通过灵活的设计和优化,有效解决了LLM推理中的多个挑战,提升了推理效率和性能。
主要创新与贡献:
  1. 灵活的块稀疏格式: FlashInfer采用块稀疏格式来应对KV缓存存储的异质性问题。这种格式为不同的KV缓存配置提供了统一的数据结构,允许调整块大小以实现精细的稀疏化,如向量级稀疏化。这种方法统一了多种KV缓存模式,并提升了内存访问效率。
  2. 可定制的注意力模板: FlashInfer提供了一个可定制的注意力模板,支持多种注意力变种。用户可以通过自定义编程接口实现其特定的注意力变体,并利用即时编译(JIT)技术将这些变体转化为高度优化的块稀疏实现,从而确保能够快速适应不同的注意力配置。
  3. 动态负载均衡调度框架: FlashInfer设计了一个动态负载均衡的调度框架,有效应对输入动态性。它将编译时的块大小选择与运行时的调度分离,通过轻量级API适应推理过程中KV缓存长度的变化,同时保持与CUDA-Graph在常配置要求下的兼容性,最大化硬件利用率。
  4. 全面的性能评估: 我们对FlashInfer在标准LLM推理环境和创新场景(如前缀共享和推测解码)中的表现进行了广泛评估。通过与主流LLM推理引擎(如vLLM、MLC-Engine和SGLang)集成,FlashInfer在端到端延迟和吞吐量方面表现出了显著的改进,特别是在长上下文推理和并行生成等新型应用中。
大模型日报(1月6日 学术篇)
https://arxiv.org/abs/2501.01005
ResearchFlow链接:https://rflow.ai/flow/30ead552-9149-420a-bd0f-959d387e6fe1
02

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

这篇论文通过利用基础模型在具身未来空间生成方面的进展,解决了机器人领域的两个核心挑战——模态间显式对齐和数据稀缺。提出的方法整合了一个混合框架,结合了卷积、双向注意力和块状单向生成范式,以生成具有逻辑执行的时空序列,这对于在动态环境中处理复杂机器人任务至关重要。
关键创新和贡献:
  1. 块状自回归扩散模型:作者提出了一种新颖的自回归模型,结合了双向机制以实现局部一致性以及单向范式以进行长距离推理。这使得任务执行的推理更加准确,解决了机器人操作任务中冗余内存的挑战.
  2. 稀疏上下文记忆机制:为了防止在长序列中模型崩溃,作者引入了一种稀疏上下文记忆机制,确保生成过程的非冗余性,使系统能够生成无限长度的序列,并具有连贯的序列理解能力.
  3. 自由锚点视图(FAV)概念:FAV系统为机器人相机提供了灵活的任务特定视角,增强了空间感知能力,并缓解了身体安装相机的外部变化等问题。FAV系统通过提供多视角观察,减少了度量模糊性,加深了对环境的理解,从而提高了任务泛化能力和策略学习效果.
  4. 4D高斯喷溅(4DGS)和数据飞轮:为了克服仿真到现实的差距和数据稀缺问题,论文引入了一个数据引擎管道,结合生成模型和4DGS优化。该系统生成了大量合成数据,并不断改进模型性能,显著增强了FAV系统的鲁棒性.
  5. 最先进的(SOTA)性能:作者通过将扩散模型和朴素策略头整合用于未来空间生成,展示了其方法的有效性,在长距离操作任务中取得了SOTA结果.
大模型日报(1月6日 学术篇)
https://arxiv.org/abs/2501.01895
ResearchFlow链接:https://rflow.ai/flow/c2f39c60-093c-4d70-8c82-699b0630b630
03

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

本文介绍了VITA-1.5,一种新型的多模态大语言模型(MLLM),能够无缝整合视觉、语言和语音模态。该模型解决了多模态交互中的关键挑战,特别是在需要视觉和语音集成的系统中,如多模态对话系统。通过采用三阶段训练方法,VITA-1.5克服了视觉和语音之间的模态冲突,显著提升了实时人机交互中的性能。
主要创新与贡献:
  1. 三阶段训练方法:
    1. 第一阶段:视觉-语言训练:在第一阶段,模型通过训练视觉适配器,并使用描述性字幕和视觉问答数据进行微调,从而奠定了模型在图像和视频理解方面的基础能力。
    2. 第二阶段:音频输入训练:第二阶段引入了语音数据,训练了一个音频编码器,使用语音与转录对数据进行训练,并通过语音问答数据进行微调。这个阶段使得模型能够有效理解并响应语音输入,架起了视觉和语音模态之间的桥梁。
    3. 第三阶段:音频解码器训练:最后,模型训练了音频解码器,使其能够进行端到端的语音生成,从而消除了对传统文本转语音(TTS)系统的依赖。这一创新使得VITA-1.5能够生成流畅且自然的语音回复,提升了多模态对话系统的自然性和交互性。
  2. 缓解模态冲突: 视觉和语音数据的整合是复杂的,因为它们在信息表达上存在本质差异。视觉数据传递空间信息,而语音数据则涉及时间序列的动态变化。VITA-1.5通过逐步训练的方法,有效缓解了训练过程中模态之间的冲突,确保了三种模态在多模态任务中的强大表现。
  3. 端到端的多模态对话: 与传统的语音对语音系统依赖单独的自动语音识别(ASR)和文本转语音(TTS)模块不同,VITA-1.5将这些功能集成在一起,减少了延迟,并提升了系统的连贯性,尤其适用于实时应用。模型能够同时处理视觉和语音输入,并生成语音输出,从而实现更加自然、流畅的人机交互。
  4. 性能评估: 在图像、视频和语音理解的多个基准测试中,VITA-1.5展现了与领先的多模态语言模型相当的感知和推理能力,尤其在语音能力方面取得了显著的提升。这表明VITA-1.5在多模态理解方面表现强劲,是高级交互系统的理想选择。
大模型日报(1月6日 学术篇)
响,还对全球科技竞争格局、产业链的上游资源调配产生了重要的启示。
https://arxiv.org/abs/2501.01957
ResearchFlow链接:https://rflow.ai/flow/d0a26130-1ea5-4385-8eb5-3b8e2fbdad58
04

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

本文探讨了多模态慢思维推理系统的实现,旨在提高多模态大语言模型(MLLMs)在复杂推理任务中的表现,尤其是在与文本任务相比,如何在多模态场景中有效地迁移慢思维能力。当前的研究主要集中在基于文本的推理任务,而在多模态推理系统的发展上,仍落后于商业系统(如OpenAI o1、Qwen QwQ等)。
主要创新与贡献:
  1. 基于文本的长思维数据增强MLLM的慢思维能力: 本文提出了一种简单的思路,通过使用文本数据来微调MLLM,从而增强其慢思维推理能力。研究的核心问题是:是否可以通过基于文本的长思维数据来迁移慢思维能力?文本推理指令是否能与多模态推理系统的慢思维能力相媲美?为此,本文设计了一个名为Virgo(视觉推理与长思维)的系统,结合了多种指令数据集对MLLM进行微调,以研究这些问题。
  2. 实验验证与效果: 研究通过在四个具有挑战性的基准任务上(MathVerse、MathVision、OlympiadBench、MMMU)进行广泛实验,验证了基于文本的长思维数据的有效性。结果显示,即便仅使用文本数据,Virgo也能在推理能力上与商业推理系统相媲美,甚至在某些情况下超越它们。这表明,文本推理指令在激发MLLM慢思维能力方面通常比多模态推理数据更为有效。
  3. 慢思维能力的迁移: 通过基于文本的长思维数据进行微调,Virgo成功将慢思维推理能力从文本推理系统迁移到多模态系统,展示了文本指令对多模态推理任务的显著影响。这一发现为进一步提升多模态LLM的推理能力提供了新的视角,并强调了跨模态学习的潜力。
大模型日报(1月6日 学术篇)
https://arxiv.org/abs/2501.01904
ResearchFlow链接:https://rflow.ai/flow/07246eba-1233-41a7-922b-de44a40392e1
05

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

本文提出了一种创新的零-shot方法——LUSIFER,旨在通过适应英语LLM(大语言模型)嵌入模型来提升多语言任务的表现,而不需要显式的多语言监督。随着语言模型和文本嵌入技术的发展,现有的多语言嵌入模型在许多中低资源语言中仍面临性能下降的问题,尤其是在缺乏充分训练数据的情况下。LUSIFER通过将英语优化的LLM嵌入与多语言表示结合,突破了这一瓶颈,提供了一种高效的解决方案。
主要创新点和贡献:
  1. zero-shot多语言嵌入: LUSIFER采用了一种独特的架构,将XLM-R(一种强大的多语言编码器)的多语言表示与英语LLM嵌入模型的高级嵌入能力结合。通过引入可学习的连接机制,LUSIFER能够有效地将XLM-R的多语言理解能力转移到目标LLM,并在不需要显式的多语言训练数据的情况下,实现多语言表示能力的提升。
  2. 跨语言任务的显著提升: LUSIFER在123个多样化数据集上进行了全面的实验,涵盖了14种语言,并聚焦于五个基本的嵌入任务:分类、聚类、重排序、检索和语义文本相似度(STS)。实验结果表明,LUSIFER在所有任务上的平均提升为3.19分,尤其对中低资源语言的提升效果显著(最高可达22.15的提高)。此外,在跨语言任务中,LUSIFER比现有的英语中心嵌入模型平均提高了5.75分。
  3. 语言无关的通用空间: LUSIFER的理论基础在于其通过集成多语言编码器(如XLM-R)创建了一个语言无关的通用空间。这一空间使得模型能够独立于输入语言处理语义信息,从而增强了目标LLM对各种语言的嵌入质量,尤其是对于在预训练中少见的语言。通过将这些语言中立的表示映射到目标LLM的输入空间,LUSIFER显著提高了不同语言间的语义捕捉能力。
  4. 跨语言应用的广泛适应性: 为了验证LUSIFER的广泛适用性,作者还在超过100种语言的四个跨语言数据集上进行了测试。结果显示,LUSIFER在这些跨语言场景中大幅优于现有的英语中心嵌入模型,表现出强大的跨语言能力和对低资源语言的优越适应性。
大模型日报(1月6日 学术篇)
https://arxiv.org/abs/2501.00874
ResearchFlow链接:https://rflow.ai/flow/be8e5b0b-165c-4db5-bd52-74992891aa49




推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32612.html

Like (0)
Previous 2025-01-06 11:26
Next 2025-01-07 19:54

相关推荐