大模型日报(8月29日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月29日 学术篇)

论文

01

高效的大语言模型调度:通过学习排序实现

摘要:在大语言模型(LLM)推断中,通常将LLM请求的输出长度视为先验未知。因此,大多数LLM服务系统采用简单的先来先服务(FCFS)调度策略,导致头阻塞(HOL)和降低吞吐量和服务质量。本文重新审视这一假设–尽管预测每个请求的确切生成长度是不可行的,但可以使用学习排名预测批量请求中输出长度的相对等级。排名信息为调度请求提供了有价值的指导。基于这一洞见,我们开发了一种新颖的LLM推断和服务调度器,可以更好地逼近最短作业优先(SJF)调度比现有方法更好。我们将这个调度器与最先进的LLM服务系统集成,并在几个重要应用中显示出显著的性能提升:聊天机器人服务延迟降低了2.8倍,合成数据生成吞吐量提高了6.5倍。我们的代码可在https://github.com/hao-ai-lab/vllm-ltr.git获取。
大模型日报(8月29日 学术篇)
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15792v1
02

自回归模型在Ising临界点附近的路径依赖

自回归模型是一类生成模型,根据先前的输入概率地预测序列的下一个输出。自回归序列在本质上是一维的,这对于语言任务来说很自然,因此是现代架构(如循环神经网络(RNN)和Transformer)的重要组成部分。然而,当语言模型用于预测不是本质上一维的物理系统的输出时,就会出现哪种自回归序列选择最优的问题。本文研究了在二维(2D)Ising模型中重建关键相关性,使用在热相变附近获取的二进制自旋数据训练的RNN和Transformer。我们比较了对有限大小2D格点强加了多种不同1D自回归序列的训练性能。我们发现,具有长1D段的路径比更好保留2D局部性的填充曲线更有效地训练自回归模型。我们的结果说明,在训练物理任务的现代语言模型时,选择最佳自回归序列顺序可能非常重要。
大模型日报(8月29日 学术篇)
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15715v1
03

避免生成模型作家停滞问题的方法:通过嵌入微调进行涌现

摘要:生成图像模型自问世以来已成为全球现象。从新艺术的可能性到新的滥用向量,许多新的能力已经变得可用。处理生成模型的挑战性问题之一是特别控制生成过程,以预防特定生成类别或实例。有几个原因可能导致人们希望控制生成模型的输出,从隐私和安全问题到应用程序限制或用户偏好。我们提出了一种方法,通过针对潜在扩散图像生成模型,使其能够避开不需要的概念(当检测到模型输出时),同时产生输出。我们重点关注缓解像图像记忆这样的问题,通过定性和定量评估证明了我们方法的有效性。我们的方法成功防止生成已记忆的训练图像,同时保持与未经修改的模型相当的图像质量和相关性。
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15079v1
04

Eagle:探索带有多种编码器的多模态大语言模型设计空间

摘要:在多模式大语言模型(MLLMs)中,准确解释复杂视觉信息的能力至关重要。最近的研究表明,增强视觉感知显著降低幻觉,提高对分辨率敏感任务(如光学字符识别和文档分析)的表现。最近的一些MLLMs使用多种视觉编码器实现了这一目标。尽管它们取得了成功,但在关键方面,如专家选择和多个视觉专家的整合,缺乏系统性比较和详细的消融研究。这项研究广泛探索了使用多种视觉编码器和分辨率的MLLM设计空间。我们的发现揭示了几个潜在的原则,这些原则适用于各种现有策略,导致了一种简化但有效的设计方法。我们发现,简单地从一组互补的视觉编码器中连接视觉token与更复杂的混合架构或策略一样有效。我们还引入了Pre-Alignment来弥合视觉焦点编码器和语言token之间的差距,增强模型的连贯性。最终的MLLM家族Eagle在主要MLLM基准测试中超越了其他领先的开源模型。模型和代码:https://github.com/NVlabs/Eagle
大模型日报(8月29日 学术篇)
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15998v1
05

CoGen: 结合理解和生成学习反馈

具有语言理解和生成能力的系统可以从两者之间的紧密联系中受益。这项工作研究了将理解和生成紧密结合,重点是不断从与用户的互动中学习。我们提出了技术,紧密整合了这两种能力,用于学习和推理。我们将研究定位在双方参考游戏中,并使用各种模型与人类用户进行成千上万次的互动,同时从互动反馈信号中学习。我们展示了随着时间的推移性能的显着提升,理解生成耦合导致绝对性能提升高达26%,准确性比非耦合系统提高高达17%。我们的分析还显示,耦合对系统的语言具有实质性的定性影响,使其显著更具人类化。
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15992v1
06

WILDFEEDBACK:将LLMs与现场用户互动和反馈对齐

随着大语言模型(LLMs)的不断进步,将这些模型与人类偏好对齐已经成为一个关键挑战。传统的对齐方法依赖于人类或LLM注释的数据集,受限于资源密集型、固有主观性和放大模型偏见的风险。为了克服这些限制,我们引入了WildFeedback,这是一个利用实时用户交互创建更准确反映真实人类价值观的偏好数据集的新框架。WildFeedback通过三个步骤运行:反馈信号识别、偏好数据构建和用户引导评估。我们将这一框架应用于大量用户-LLM对话的语料库,产生了一个反映真实用户偏好的丰富偏好数据集。通过识别和分类自然对话中的反馈信号,该数据集捕捉了用户偏好的细微差别,从而实现了更具代表性和上下文敏感性的对齐数据构建。我们广泛的实验表明,通过采用WildFeedback微调的LLMs展现出显著改进的对齐,不仅可以从传统基准和我们提出的用户引导评估中看出。通过整合实际用户的实时反馈,WildFeedback解决了困扰现有方法的可伸缩性、主观性和偏见挑战,这标志着向开发更具响应性的LLMs迈出了重要一步,以满足其用户多样化和不断发展的需求。总之,WildFeedback为将LLMs与真正人类价值观对齐提供了一个强大且可扩展的解决方案,为用户中心的语言模型的开发和评估设立了新的标准。
大模型日报(8月29日 学术篇)
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15549v1
07

ReMamba:为Mamba装备有效的长序列建模

摘要:尽管Mamba架构在短文本自然语言处理任务上表现出优越的推理效率和竞争性能,但实证证据表明,与基于Transformer的模型相比,它在理解长文本方面的能力有限。在本研究中,我们调查了Mamba模型的长文本效率问题,并提出了ReMamba,它增强了Mamba理解长文本的能力。ReMamba在两阶段重新转发过程中结合了选择性压缩和适应技术,产生了极小额外推理成本开销。在LongBench和L-Eval基准测试上的实验结果表明,ReMamba的有效性,分别比基线提高了3.2和1.6点,并且几乎达到了相同大小的Transformer模型性能水平。
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15496v1
08

下一个token预测的隐式几何:从语言稀疏模式到模型表示

下一个令牌预测(NTP)在大文本语料库上已成为训练大语言模型的首选范式。然而,NTP如何影响将语言模式映射到所得模型表示的几何属性仍不清楚。我们将大语言模型的培训框架描述为对稀疏概率标签向量的软标签分类,结合允许无限制生成上下文嵌入的解析近似。这种方法将NTP训练链接到在逻辑域中受秩约束、核范数正则化的优化,提供了一个框架来分析词和上下文嵌入的几何性质。在大型嵌入空间中,我们发现NTP隐性偏好学习具有稀疏加低秩结构的逻辑。虽然稀疏部分捕捉上下文-单词对的共现频率,但在训练进行时逐渐成为主导的正交低秩分量仅取决于共现矩阵的稀疏模式。因此,当投影到适当的子空间时,当跟随相同下一个令牌集的上下文的表示坍缩时,我们将此现象称为子空间坍缩。我们在合成和小规模真实语言数据集上验证了我们的发现。最后,我们概述了旨在加深对NTP对语言模式和规律学习影响的理解的潜在研究方向。
大模型日报(8月29日 学术篇)
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15417v1
09

当代LLM研究中的奇迹、规律和缺陷

我们对当代大语言模型(LLM)研究背后的科学方法论进行了批判性检查。我们根据典型的良好研究标准(如存在统计测试和可重现性)评估了超过2,000项研究工作,并与争议核心相关的论点进行交叉验证(如涌现行为的声明、LLM的使用作为评估器)。我们发现多种趋势,如涌现行为声明减少、伦理放弃声明的存在,以及LLM作为评估器的兴起。本文强调了该领域需更多的审慎和严谨。批判性阅读和熟悉文献对于遵循负责任、道德、可重现、系统性和开放接受批评的科学方法的基本原则至关重要。
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15409v1
10

LOGICGAME:大语言模型基于规则推理能力的基准测试

大语言模型(LLMs)在各种任务中展示出了显著的能力,展现出了复杂的问题解决能力。理解和执行复杂规则,以及多步规划,对于逻辑推理至关重要,对于实际LLM智能体和决策系统也至关重要。然而,将LLMs作为有效的基于规则的执行者和规划者进行评估仍然未被充分探讨。在本文中,我们介绍了LogicGame,这是一个新颖的基准,旨在评估LLMs的全面规则理解、执行和规划能力。与传统基准不同,LogicGame提供了包含一系列规则的各种游戏,这些游戏具有初始状态,需要模型理解和应用预定义规定以解决问题。我们创建了模拟场景,模型在其中执行或规划操作以实现特定结果。这些游戏场景专门设计为通过仅依靠预定义规则来区分逻辑推理和纯粹知识。这种分离允许对基于规则的推理能力进行纯粹评估。评估不仅考虑最终结果,还考虑中间步骤,提供了对模型性能的综合评估。此外,这些中间步骤是确定性的,可以自动验证。LogicGame定义了包含从简单规则应用到复杂推理链的不同难度级别的游戏场景,以精确评估模型在规则理解和多步执行上的表现。利用LogicGame,我们测试了各种LLMs,并发现了它们在基于规则的逻辑推理能力方面的显著不足。
大模型日报(8月29日 学术篇)
大模型日报(8月29日 学术篇)http://arxiv.org/abs/2408.15778v1
HuggingFace&Github

01

Hyper-SD

Hyper-SD 是一种新型的扩散模型加速技术,提高图像合成的效率和质量。它基于多个模型的提炼,包括 FLUX.1-dev、SD3-Medium、SDXL Base 1.0 和 Stable-Diffusion v1-5。Hyper-SD 提供了多种 LoRA(Low-Rank Adaptation)检查点,支持不同的推理步数和引导尺度,以便用户根据需求灵活调整模型的性能。
大模型日报(8月29日 学术篇)https://huggingface.co/ByteDance/Hyper-SD
02

GameNGen

GameNGen是一个全新的游戏引擎,完全由神经模型驱动,能够在复杂环境中实现实时交互,支持长时间轨迹的高质量模拟。它可以以每秒超过20帧的速度交互模拟经典游戏《DOOM》,并且其下一帧预测的峰值信噪比(PSNR)为29.4,接近有损JPEG压缩的效果。人类评审者在区分游戏短片和模拟短片时,仅略微优于随机猜测。
大模型日报(8月29日 学术篇)https://github.com/showlab/show-o
03

K-Sort-Arena

高效评估平台,采用 K 级比较,允许 K 个模型参与混战,包括 Midjourney-v6.0,FLUX.1-pro,FLUX.1-dev 等模型。
https://huggingface.co/spaces/ksort/K-Sort-Arena
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13259.html

Like (0)
Previous 2024-08-29 19:23
Next 2024-08-30 15:18

相关推荐

  • 大模型日报(8月26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-26
    209
  • AI分享|这张动图完美展示了机器学习的运行机制!

    机器学习的基本原理,看这一张图就够了!刚在linkedin上看到一张不错的gif图,这里分享给大家。 机器学习模型的内部工作原理如何工作?可以将下列场景代入到这个运行流程中。 代入…

    2023-08-12
    208
  • 大模型日报(5月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-09
    147
  • 大模型日报(7月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-02
    212
  • 写论文必备ChatGPT Prompts拆分神器续-代码文件!

    如文章太长,ChatGPT没法阅读? 拆分太累,写论文效率大打折扣? 接昨天发的一篇文章《赶紧拿下写论文必备ChatGPT Prompts拆分神器!》 再给大家分享一个工具,叫Ch…

    2023-05-09
    202
  • 截止目前最全的ChatGPT调教指南!

    你会问问题吗? ChatGPT 中文调教指南如下 ChatGPT模型是由OpenAI训练的大型语言模型,能够生成类人文本。通过向它提供提示,它可以生成继续对话或扩展给定提示的响应。…

    2023-02-13
    204
  • 大模型日报(7月13~14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-14
    250
  • 大模型日报(7月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-24
    258
  • 大模型日报(8月3~4日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-04
    211
  • TruthGPT即将横空出世,ChatGPT害怕吗?

    近日,伊隆马斯克计划开发一款名为“TruthGPT”的人工智能平台。它的目的是追求最大的真理,并对OpenAI的ChatGPT提出挑战。 那么,ChatGPT该害怕吗? 目前,Tr…

    2023-04-19
    207