大模型日报（8月26日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

扩散模型是如何学习进行因式分解和合成的

扩散模型能够生成照片级别的图像，结合训练集中可能不常见的元素，展示了组合泛化的能力。然而，复合性的精确机制以及通过训练如何获得仍然难以捉摸。受认知神经科学方法启发，我们考虑一个高度简化的设置，以研究扩散模型是否学习了语义上有意义且分解的可组合特征表示，并确定其学习时间。我们在训练生成各种形式的2D高斯数据的条件降噪扩散概率模型（DDPMs）进行了广泛的受控实验。我们发现，模型学习了分解但不完全连续的流形表示形式，用于对数据潜在变化的连续特征进行编码。通过这样的表示，模型展示了更优越的特征组合性，但在涉及未知特征值的插值方面表现出有限能力。我们的实验结果进一步表明，扩散模型可以在少量组合示例的情况下实现组合性，暗示了训练DDPMs的一种更有效的方法。最后，我们将扩散模型中的流形形成与物理学中的渗透理论相联系，为分解表示学习的突然发生提供了洞察力。因此，我们的彻底的玩具实验有助于更深入地理解扩散模型如何捕捉数据中的组合结构。

http://arxiv.org/abs/2408.13256v1

LLM作为智能体在LLM对齐任务中的系统评估：可解释指标和多样化提示模板

摘要：最近，像GPT-4这样的商业大语言模型 (LLMs) 被用来评估和比较不同的LLM对齐方法，这些方法旨在使LLM与人类偏好对齐。然而，LLM评判者的偏见和不一致的决策被认为降低了LLM评判的可信度。我们在这项工作中系统评估了LLM评判者在对齐任务中的性能，并提出了改进理论可解释性的评估指标，以及解决LLM内部不一致性的可靠性指标。我们开发了一个框架，评估、比较和可视化LLM评判者的可靠性和对齐性，以提供有助于选择LLM评判者的信息观察。我们的结果表明，提示模板对LLM评判者表现有显著影响，同时测试的LLM评判者与人类评估者之间的对齐水平中等。

http://arxiv.org/abs/2408.13006v1

多层Transformer的梯度可以在几乎线性时间内进行近似求解

摘要：流行的Transformer结构中自注意机制的二次计算复杂度给训练和推理带来了显著挑战，特别是在效率和内存需求方面。为了解决这些挑战，本文介绍了一种新颖的快速计算方法，用于多层Transformer模型中的梯度计算。我们的方法可以在几乎线性时间$n^{1+o(1)}$内计算整个多层Transformer模型的梯度，其中$n$是输入序列的长度。这一突破显著降低了与传统二次时间复杂度相关的计算瓶颈。我们的理论适用于任何损失函数，并在整个模型中保持有界的近似误差。此外，我们的分析可以适用于包含许多实用子模块的多层Transformer模型，如残差连接、因果掩码和多头注意力。通过提高大语言模型中梯度计算的效率，我们希望我们的工作能根据我们的理论结果促进更有效的长上下文语言模型的训练和部署。

http://arxiv.org/abs/2408.13233v1

LLM是否能成为基于提示工程的良好路径规划器？缓解路径规划的虚幻感

摘要：大语言模型（LLMs）中的空间推理是具有实体智能基础。然而，即使在简单的迷宫环境中，LLMs仍然在长期路径规划中遇到挑战，主要受空间错觉和长期推理中的环境不一致错觉的影响。为了解决这一挑战，本研究提出了一种创新模型，即空间到关系转换和课程Q学习（S2RCQL）。为了解决LLMs的空间错觉，我们提出了空间到关系方法，将空间提示转化为实体关系和代表实体关系链的路径。这种方法充分发挥了LLMs在顺序思考方面的潜力。最终，我们提出了一种基于Q学习的路径规划算法，以减轻LLMs的环境不一致错觉，增强了LLMs的推理能力。通过将状态-动作的Q值作为提示的辅助信息，我们纠正了LLMs的错觉，从而引导LLMs学习最佳路径。最后，我们提出了一种基于LLMs的逆向课程学习技术，以进一步减轻环境不一致的错觉。通过降低任务难度并利用成功经验，LLMs可以迅速积累成功经验，并用于解决更复杂的任务。我们基于百度自主开发的LLM ERNIE-Bot 4.0进行了全面实验。结果显示，与先进的提示工程相比，我们的S2RCQL在成功率和最优率方面实现了23%到40%的改进。

http://arxiv.org/abs/2408.13184v1

多模态对比上下文学习

快速增长的大语言模型（LLMs）的使用突显了无梯度上下文学习（ICL）的重要性。然而，解释它们的内部工作仍然具有挑战性。本文介绍了一种新型的多模态对比上下文学习框架，以增强我们对LLMs中ICL的理解。首先，我们提出了对比学习为基础的ICL在现实世界环境中的解释，将关键值表示的距离作为ICL的差异化因素。其次，我们开发了一个分析框架，以解决多模态输入格式化对现实世界数据集的偏见。我们展示了ICL示例的有效性，即使在未见格式中表示时，基线性能很差。最后，我们提出了一种即时的ICL方法（文本锚定ICL），在检测仇恨表情包等任务中展示了有效性，这是典型ICL由于资源限制而难以处理的任务。对多模态数据集进行的大量实验表明，我们的方法在各种情境下显著提升了ICL的性能，如挑战性任务和资源受限环境。此外，它为LLMs中上下文学习的机制提供了宝贵的见解。我们的发现对于开发更具可解释性、高效性和鲁棒性的多模态人工智能系统具有重要意义，尤其是在挑战性任务和资源受限环境中。