大模型日报(7月2日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(7月2日 学术篇)

论文

01

KV缓存压缩,但我们必须做出什么让步?长上下文能力方法的全面基准测试

长上下文能力对于大语言模型(LLMs)来说是至关重要的能力,因为它有助于减轻人类处理长篇文本的困难。这种能力使复杂的任务解决方案成为可能,如书籍摘要、代码辅助以及许多传统上需要大量人力的任务。然而,基于Transformer的LLM面临着处理长上下文输入的挑战,这是由于KV缓存的不断增长以及关注延长输入的内在复杂性。我们通过提供对当前方法的分类和评估超过七类长上下文任务的10多种最新方法来填补这一空白。我们的工作揭示了许多以前未知的现象,并为未来长上下文适应的LLM的开发提供了见解和友好的工作平台。源代码将在https://github.com/henryzhongsc/longctx_bench 上提供。

大模型日报(7月2日 学术篇)http://arxiv.org/abs/2407.01527v1

02

RegMix: 数据混合作为语言模型预训练的回归

大语言模型预训练的数据混合显著影响性能,然而如何确定有效的混合仍不清楚。我们提出RegMix,通过将其制定为回归任务,自动识别高性能数据混合。RegMix涉及训练一组具有不同数据混合的小模型,并拟合一个回归模型以预测它们在各自混合下的性能。通过拟合回归模型,我们模拟出排名靠前的混合,并用它来训练一个具有数量级更多计算资源的大规模模型。实证验证RegMix时,我们训练了512个参数为1M的模型,用不同混合的1B个token来拟合回归模型,并找到最佳混合。使用这个混合,我们训练了一个参数为1B的模型,处理了25B个token(即是原来的1000倍大且耗时25倍),发现在64个候选的参数为1B的模型中表现最好。此外,我们的方法比人工选择表现更好,且在仅使用10%的计算预算的情况下实现了与DoReMi相匹敌或超越的结果。我们的实验还表明:数据混合对性能有显著影响,单一任务性能变化高达14.6%;网络语料库而非被认为高质量的数据如维基百科与下游性能呈最强正相关;领域之间相互作用复杂,并常常违背常识,因此需要像RegMix这样的自动方法;数据混合效应超越扩展定律,我们的方法通过考虑所有领域捕捉了复杂性。我们的代码可在https://github.com/sail-sg/regmix找到。
大模型日报(7月2日 学术篇)http://arxiv.org/abs/2407.01492v1
03

稀疏扩散策略:机器人学习的一种稀疏、可重复使用和灵活策略

随着机器人任务的复杂性增加,需要高效的多任务和持续学习策略。传统模型通常依赖于所有任务的通用策略,面临着学习新任务时高计算成本和灾难性遗忘的挑战。为解决这些问题,我们引入了一种稀疏、可重用和灵活的策略,稀疏扩散策略(SDP)。通过在基于Transformer的扩散策略中采用专家混合(MoE),SDP选择性地激活专家和技能,实现了高效和任务特定的学习,无需重新训练整个模型。SDP不仅减少了活动参数的负担,还促进了专家在各种任务中的无缝整合和重复使用。在仿真和现实世界中进行的大量实验表明,SDP在多任务场景中表现出色,几乎没有增加活动参数,防止持续学习新任务时的遗忘,并实现了高效的任务转移,为先进的机器人应用提供了有前途的解决方案。演示和代码可在 https://forrest-110.github.io/sparse_diffusion_policy/ 找到。
大模型日报(7月2日 学术篇)http://arxiv.org/abs/2407.01531v1
04

无智能体:揭秘基于LLM的软件工程智能体

近年来,大语言模型(LLMs)的快速发展显著推动了软件开发任务的自动化,包括代码合成、程序修复和测试生成。最近,研究人员和工业从业者开发了各种自主的LLM智能体,用于执行端到端的软件开发任务。这些智能体具有使用工具、运行命令、观察环境反馈以及规划未来动作的能力。然而,基于这些智能体的方法的复杂性,以及当前LLMs的能力有限,引发了这样一个问题:我们真的需要使用复杂的自主软件智能体吗?为了尝试回答这个问题,我们构建了Agentless–一种无智能体的方法来自动解决软件开发问题。与基于智能体的复杂设置相比,Agentless采用简单的两阶段过程,即本地化后修复,而不让LLM决定未来动作或使用复杂的工具。我们在流行的SWE-bench Lite基准测试上的结果显示,令人惊讶的是简约的Agentless能够实现较高的性能(27.33%)和最低成本(0.34美元),与所有现有的开源软件智能体相比!此外,我们手动分类了SWE-bench Lite中的问题,并发现存在确切的真实修补程序或不足/误导性问题描述的问题。因此,我们通过排除这些问题性的问题构建SWE-bench Lite-S以进行更严格的评估和比较。我们的工作突显了简单、可解释的技术在自主软件开发中被当前忽视的潜力。我们希望Agentless将有助于重新设定自主软件智能体的基线、起点和未来发展方向,激励沿着这一关键方向展开未来工作。
大模型日报(7月2日 学术篇)http://arxiv.org/abs/2407.01489v1
05

重要的智能体

人工智能智能体是一个令人兴奋的新研究方向,其发展受基准测试驱动。我们对当前智能体基准和评估实践的分析揭示了几个缺点,阻碍了它们在实际应用中的有效性。首先,过于关注准确性而忽视其他指标。我们提出联合优化成本和准确性的新目标。我们设计并实施了一种这样的优化方法,显示其在减少成本的同时保持准确性的潜力。其次,模型和下游开发人员的基准需求被混淆,很难确定哪种智能体适合特定应用。第三,许多智能体基准的保留集不足,有时甚至没有。我们提出了一个避免过拟合的原则性框架。最后,评估实践缺乏标准化,导致普遍缺乏可重现性。我们希望通过解决这些缺点引发智能体的发展,让其在现实世界中有用,而不仅仅是在基准测试上准确。
大模型日报(7月2日 学术篇)http://arxiv.org/abs/2407.01502v1
06

通过权重排列训练的神经网络是通用逼近器

摘要:神经网络成功的基础是其具有的通用逼近性质,传统上通过训练网络来实现,而不对其参数施加任何约束。然而,最近的实验研究提出了一种基于排列的训练方法,展示出理想的分类性能,而不改变确切的权重值。本文通过证明其指导 ReLU 网络逼近一维连续函数的能力,为这种排列训练方法提供了理论保证。我们的数值结果进一步验证了这种方法在具有各种初始化的回归任务中的效率。在权重排列期间观察到的显著现象表明,排列训练可以为描述网络学习行为提供一种创新工具。
大模型日报(7月2日 学术篇)http://arxiv.org/abs/2407.01033v1
HuggingFace&Github

01

MimicMotion——让照片动起来

MimicMotion 是一种新颖的可控视频生成框架,通过创新性的技术解决了视频生成中的诸多挑战。它利用信心感知姿势引导实现时间平滑,提高了模型在大规模数据下的稳健性;采用基于姿势置信度的区域损失放大,有效减轻了视频画面的失真;提出渐进式潜在融合策略,可生成任意长度的高质量平滑视频,同时资源消耗可控。相比之前的方法,MimicMotion 在可控性、视频长度和细节丰富度等多个方面取得了明显突破,为生成式人工智能在视频生成领域的应用和普及带来了新的可能。
大模型日报(7月2日 学术篇)https://tencent.github.io/MimicMotion/
02

HouseCrafter

HouseCrafter 是一种创新的方法,它能够从简单的平面图生成完整的大型室内 3D 场景。它的核心思路是利用一个预训练的 2D 扩散模型,通过自回归式的批量生成和全局平面图信息及注意力机制,生成颜色和深度一致的 RGB-D 图像,从而重建出高质量的 3D 房屋场景。
大模型日报(7月2日 学术篇)https://neu-vi.github.io/houseCrafter/
03

Hunyuan-Captioner

Hunyuan-Captioner 是一个基于大型语言-视觉模型的文本到图像生成工具,它可以生成高质量的图像描述,维持较高的图像-文本一致性。它可以从多个角度描述图像,包括对象、关系、背景和风格等。使用时需要安装依赖、下载数据和模型,支持中英文字幕生成以及根据指定内容生成描述。
https://huggingface.co/Tencent-Hunyuan/HunyuanCaptioner
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/07/14386.html

Like (0)
Previous 2024-07-01 23:48
Next 2024-07-03 11:52

相关推荐

  • 大模型日报(4月27~28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-04-28
    136
  • 大模型日报(4月11日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 数据过滤的扩展定律 &#8212…

    2024-04-11
    178
  • 大模型日报(4月9日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 密集训练,稀疏推断:重新思考混合专家语言模型…

    2024-04-09
    184
  • 大模型日报(8月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-30
    266
  • #资源分享 机器学习

    近期参加了几个Google的会议,顺便分享几个不错的资源: 1. 如何与机器学习做朋友,很适合入门,通俗易懂;对其中拿小金人和数据集做比较,烹饪和类比机器学习的流程,印象深刻。 2…

    2022-12-12
    219
  • Visual ChatGPT图像生成神器,手把手带你玩!

    微软最近推出了一种名为“Visual ChatGPT”的新模型,它结合了不同类型的视觉基础模型 (VFM),包括 Transformers、ControlNet 和 Stable …

    2023-03-13
    120
  • Github推荐 | 深度学习文献算法代码实现,堪称实验神器!

    感慨Github真的是“创新”的源泉~ 当你阅读文献时,有个想法,想立刻尝试一下,但一想从头搭建环境、算法实现、测试调优…退缩之意会不会立马萌生? 这里有个很棒的库,可…

    2023-10-11
    157
  • 【长文巨献】人工智能教父Hinton十大一战成名的经典文献,你知道吗?

    人工智能教父Hinton十大一战成名的经典文献,你知道吗?这篇文章来告诉你~ 接此前关于人工智能教父Hinton提出离职Google,并认为人工智能已经威胁到人类的消息 《AI大热…

    2023-05-05
    263
  • 大模型日报(5月21日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-21
    100
  • 大模型日报(5月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-09
    148