大模型日报（9月26日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

Meta AR眼镜

Meta AR眼镜：

佩戴透明 AR 眼镜比带有摄像头透光功能的最高端 VR 耳机好得多

与周围的人保持共处（尤其是因为其他人可以透过镜片清楚地看到你的眼睛）意味着你最终将能够在几乎任何地方佩戴它们， AR >> VR 。

Meta 在这个原型上的技术本垒打实际上与两个指标有关：98 克的重量和 70 度的视野。

将眼动追踪与 Orion 神经接口腕带（用于手势控制）相结合实际上很神奇。

在 AR 中，显示分辨率很好。

https://www.youtube.com/watch?v=l_QruJ0Kv9U

Molmo 和 PixMo：最先进的多模态模型的开放权重和开放数据

当今最先进的多模态模型仍然是专有的。最强大的开放权重模型严重依赖专有 VLM 的合成数据来实现良好的性能，从而有效地将这些封闭模型提炼为开放模型。因此，社区仍然缺乏关于如何从头开始构建高性能 VLM 的基础知识。我们推出了 Molmo，这是一组新的 VLM，在同类开放模型中处于领先地位。我们的主要创新是一种新颖、高度详细的图像字幕数据集，完全由人工注释者使用基于语音的描述收集而成。为了实现广泛的用户交互，我们还引入了多样化的数据集混合进行微调，其中包括野外问答和创新的 2D 指向数据。我们方法的成功依赖于对模型架构细节的仔细选择、经过良好调整的训练管道，以及最重要的，我们新收集的数据集的质量，所有这些数据集都将发布。 Molmo 系列中一流的 72B 模型不仅在开放权重和数据模型方面优于其他模型，而且在学术基准和人工评估方面也与 GPT-4o、Claude 3.5 和 Gemini 1.5 等专有系统相比毫不逊色。

https://arxiv.org/abs/2409.17146

低位大型语言模型综述：基础、系统和算法

大型语言模型 (LLM) 在自然语言处理方面取得了显著进步，在各种任务中表现出色。然而，昂贵的内存和计算要求给它们的实际部署带来了重大挑战。低位量化已成为缓解这些挑战的一种关键方法，它通过减少模型参数、激活和梯度的位宽，从而降低内存使用量和计算需求。本文全面介绍了针对 LLM 定制的低位量化方法，涵盖了基本原理、系统实现和算法策略。首先概述了低位 LLM 特有的基本概念和新数据格式，然后回顾了促进各种硬件平台上低位 LLM 的框架和系统。然后，我们对高效低位 LLM 训练和推理的技术和工具包进行分类和分析。最后，我们最后讨论了低位 LLM 的未来趋势和潜在进步。我们从基础、系统和算法角度进行的系统概述可以为未来的工作提供宝贵的见解和指导，以通过低位量化提高 LLM 的效率和适用性。

https://arxiv.org/abs/2409.16694

门控时隙注意力机制（GSA）实现高效线性时间序列建模

线性注意 Transformers 及其门控变体因能够实现并行训练和高效的循环推理而备受赞誉，但与传统 Transformers 相比，它们在回忆密集型任务中仍然有所不足，并且需要大量资源从头开始进行训练。本文介绍了门控槽位注意 (GSA)，它通过结合受门控线性注意 (GLA) 启发的门控机制，增强了有界内存控制 (ABC) 的注意力。本质上，GSA 包含一个通过 softmax 链接的两层 GLA，利用上下文感知记忆读取和自适应遗忘来提高记忆容量，同时保持紧凑的循环状态大小。这种设计通过 GLA 的硬件高效训练算法和减小的状态大小大大提高了训练和推理效率。此外，保留 softmax 操作在“将预训练的 Transformers 微调为 RNN”(T2R) 设置中特别有益，减少了从头开始进行大量训练的需要。大量实验证实了 GSA 在需要上下文回忆的场景和 T2R 设置中的卓越性能。

https://arxiv.org/abs/2409.07146

GeniL：通用语言的多语言数据集

生成语言模型正在改变我们的数字生态系统，但它们往往继承了社会偏见，例如将某些属性与特定身份群体联系起来的刻板印象。虽然这些偏见是否以及如何减轻可能取决于具体用例，但能够有效地检测刻板印象延续的情况是至关重要的第一步。当前评估生成语言中刻板印象存在的方法依赖于简单的模板或基于共现的测量，而不考虑它们所表现的各种句子上下文。我们认为，理解句子上下文对于检测泛化情况至关重要。我们区分了两种类型的泛化：（1）仅提到泛化存在的语言（“人们认为法国人非常粗鲁”），以及（2）强化这种泛化的语言（“作为法国人，他们一定很粗鲁”），来自非泛化上下文（“我的法国朋友认为我很粗鲁”）。为了进行有意义的刻板印象评估，我们需要可靠地区分此类泛化实例。我们引入了检测语言泛化的新任务，并构建了 GeniL，这是一个多语言数据集，包含来自 9 种语言（英语、阿拉伯语、孟加拉语、西班牙语、法语、印地语、印尼语、马来语和葡萄牙语）的 50,000 多个句子，并针对泛化实例进行了注释。我们表明，共现成为泛化实例的可能性通常很低，并且因语言、身份群体和属性的不同而不同。我们构建了分类器来检测语言泛化，其总体 PR-AUC 为 58.7，不同语言的性能程度各不相同。我们的研究提供了数据和工具，使人们能够细致入微地了解刻板印象的延续，这是迈向更具包容性和责任感的语言技术的关键一步。

https://arxiv.org/abs/2404.05866

大语言模型长语境扩展与概括的对照研究

广泛的文本理解和上下文学习需要利用完整文档上下文的语言模型。由于直接训练长上下文模型存在实施挑战，因此提出了许多方法来扩展模型以处理长上下文。然而，由于数据和模型类别的差异，比较这些方法具有挑战性，导致不确定如何评估长上下文性能以及它是否与标准评估不同。我们实施了一种受控的扩展方法协议，使用标准化评估，利用一致的基础模型和扩展数据。我们的研究对长上下文行为产生了一些见解。首先，我们重申了困惑度作为通用性能指标的关键作用，即使在较长的上下文任务中也是如此。其次，我们发现当前的近似注意方法在长上下文任务中系统性地表现不佳。最后，我们确认基于精确微调的方法在其扩展范围内通常是有效的，而外推仍然具有挑战性。所有代码库、模型和检查点都将开源，以促进透明度并促进人工智能开发这一关键领域的进一步研究。

https://arxiv.org/abs/2409.12181

HuggingFace&Github

PixWizard

PixWizard是一个多功能的视觉助手，能够根据用户的指令进行图像生成、编辑和转换，采用深度学习技术支持自然语言输入。

https://github.com/AFeng-x/PixWizard

Qwen2-VL series 技术报告解读

Qwen2-VL-72B在多语言OCR任务上表现卓越，支持任意分辨率的图像、视频和文本输入，突破传统固定尺寸限制，提升了对不同尺度信息的捕捉能力。通过去除绝对位置编码并引入多模态旋转位置嵌入（M-RoPE），模型对不同模态的输入有更好的处理能力。在训练方法上，采用了多种并行策略并使用了深度学习框架Deepspeed Zero-1，结合图像与视频训练以保持数据一致性。

模型的训练分为三个阶段，分别聚焦于学习图像与文本关系、增强视觉与文本信息间的理解，以及提升复杂多模态任务的处理能力。尽管表现出色，但Qwen2仍有局限性，如无法识别视频中的语音，以及在多步骤任务和3D空间识别中的不足。

在资源使用方面，当前在8张A100上训练模型，使用Deepspeed Zero-3。尽管模型规模增大，但显存依赖仍需进一步优化。整体来看，Qwen2-VL-72B在文本基础问答中表现优于基于视觉的问答模型，如Pixtral。