大模型日报(9月11日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月11日 学术篇)

论文

01

大语言模型能触发新科研思路吗?

“智能体的创意无非是旧元素的新组合”(Young, J.W.)。大语言模型(LLMs)的广泛应用和ChatGPT的公开使用标志着人工智能(AI)融入人们日常生活的重要转折点。本研究探讨了LLMs根据研究论文信息生成新颖研究思路的能力。我们在五个领域(如化学、计算机、经济学、医学和物理学)对4个LLMs进行了彻底审查。发现Claude-2和GPT-4生成的未来研究思路比GPT-3.5和Gemini更符合作者观点。我们还发现Claude-2比GPT-4、GPT-3.5和Gemini 1.0生成更多样化的未来研究思路。我们进一步进行了人类对生成的未来研究思路的新颖性、相关性和可行性评估。本研究揭示了LLMs在创意生成中的不断发展角色,突显了其能力和局限性。我们的工作为评估和利用语言模型生成未来研究思路的持续努力做出了贡献。我们已公开提供数据集和代码。
大模型日报(9月11日 学术篇)http://arxiv.org/abs/2409.06185v1
02

在Llama-3 70B上进行后训练实践,并优选额外语言混合比例

大语言模型(LLM)通常需要持续预训练(CPT)以获得陌生语言技能或适应新领域。CPT的巨大训练成本通常要求谨慎选择关键超参数,如额外语言或领域语料库的混合比例。然而,目前没有系统研究能够填补最佳混合比例与实际模型性能之间的差距,以及实验扩展规律与完整模型尺寸下的实际部署之间的差距。本文对Llama-38B和70B进行CPT以增强其中文能力。我们研究了8B尺寸上额外语言混合比例(ALMR)与学习率(LR)之间的最佳相关性,直接指示出最佳实验设置。通过仔细选择超参数,并进行后续微调,模型的能力不仅在与中文相关的基准上得到提升,还包括数学、编程和情绪智力等特定领域。我们将最终的70B版本的LLM部署在一个真实的聊天系统上,取得了令人满意的性能。
大模型日报(9月11日 学术篇)
大模型日报(9月11日 学术篇)http://arxiv.org/abs/2409.06624v1
03

E2LLM:编码器延长大语言模型用于长文本理解和推理

在大型语言模型(LLMs)领域中,处理长文本的能力对于多轮对话、代码生成和文档摘要等任务变得越来越重要。本文探讨了增强长文本性能、减少计算复杂性和利用预训练模型(统称为“不可能三角”)的挑战。我们引入了E2LLM(编码器延长大型语言模型),这是一种有效解决这一困境的新方法。该方法将长文本分割成片段,通过预训练文本编码器将每个片段压缩成嵌入向量,并利用适配器将这些表示与仅有解码器的LLM对齐。我们采用了两个训练目标,分别关注编码器输出的重构和长文本指令微调,以便LLM理解软提示。实验结果表明,E2LLM在长文本情境中取得了优越表现,同时平衡了效率、性能和对预训练模型的兼容性。因此,我们的框架代表了该领域的重大进展,有助于有效地对长文本进行建模。
大模型日报(9月11日 学术篇)http://arxiv.org/abs/2409.06679v1
04

从LLM Token Activations中提取段落

生成式大语言模型(LLM)在自然语言处理任务中表现出色,但除了在token级别预测之外,它们的内部工作仍未得到充分探索。本研究调查了这些模型在段落开始时决定内容的程度,阐明了它们的上下文理解能力。通过检查单个token激活中编码的信息,特别是”textbackslash ntextbackslash n”双换行符token,我们展示了修补这些激活可以传递关于接下来段落上下文的重要信息,进一步揭示了模型规划能力。
大模型日报(9月11日 学术篇)http://arxiv.org/abs/2409.06328v1
05

加速LLM预训练 via LFR教学法:学习,聚焦,复习

大语言模型(LLM)的预训练传统上依赖于从网络规模数据集中随机抽样的自回归语言建模。我们从人类学习技巧中获得启发,像间隔重复,假设LLMs的随机抽样会导致高昂的训练成本和低质量模型,往往会忘记数据。为了有效地将网络规模信息固化到长期记忆中,我们提出了学习、聚焦和复习(LFR)教育理念,这是一种新的动态训练范式,根据模型的学习速度和进度,有系统地重点关注和反复复习复杂的数据块。LFR记录了不同数据块的模型困惑度,并经常重新访问困惑度较高、更容易被遗忘的数据块。我们使用LFR在OpenWebText数据集上从头开始对GPT-2模型(124M-1.5B)进行预训练。我们在语言建模、问答、翻译和问题解决领域的下游任务上进行测试,始终实现低困惑度和高准确性,比基准OpenAI模型快20倍的预训练速度。
大模型日报(9月11日 学术篇)
大模型日报(9月11日 学术篇)http://arxiv.org/abs/2409.06131v1
06

智能体引导的演示课程在多指机器人的模拟到真实应用中的示范

我们提出了DemoStart,一种新颖的自动课程强化学习方法,能够从模拟中仅有的稀疏奖励和少量演示中学习复杂的操纵行为,这些行为是在一个装备有三指机器人手的手臂上实现的。从模拟中学习显著缩短了行为生成的开发周期,借助领域随机化技术实现了成功的零-shot模拟到真实世界的转移。转移的策略直接从多个摄像头和机器人自感知的原始像素中学习。我们的方法在真实机器人上优于从演示中学习的策略,并且只需要100倍更少的在模拟中收集的演示。详细信息和视频请见https://sites.google.com/view/demostart。
大模型日报(9月11日 学术篇)
大模型日报(9月11日 学术篇)http://arxiv.org/abs/2409.06613v1
HuggingFace&Github

01

Open-MAGVIT2

Open-MAGVIT2 是一个开源的自回归式图像生成模型项目,希望推动这一领域的民主化发展。该项目复制了谷歌的 MAGVIT-v2 分词器,并实现了在 ImageNet 256×256 上的最先进重建性能(1.17 rFID)。此外,它还探索了在普通自回归模型中的应用,并验证了可扩展性。为了帮助自回归模型预测超大词汇表,项目采用了不对称词汇分解和”下一个子词预测”等技术,以提高生成质量。该项目发布了所有模型和代码,以促进自回归式视觉生成领域的创新和创造力。
大模型日报(9月11日 学术篇)https://github.com/TencentARC/Open-MAGVIT2
02

Humos

Humos 是一种新的生成运动模型,考虑了人体形状对运动的影响,通过无配对数据训练,结合循环一致性和物理约束,能够生成多样化且动态稳定的人类运动,可以达到更为真实的效果。
Youtube 视频:
https://youtu.be/yLXX7TxBA4o
大模型日报(9月11日 学术篇)https://carstenepic.github.io/humos/
03

DeepSeek-V2.5

DeepSeek-V2.5 是 DeepSeek 系列的升级版本,结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的功能。它整合了通用和编码能力,优化了写作和遵循指令的各个方面,更好地符合人类的偏好。
https://huggingface.co/deepseek-ai/DeepSeek-V2.5
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13009.html

Like (0)
Previous 2024-09-11 17:17
Next 2024-09-11 18:37

相关推荐

  • 大模型日报(9月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-03
    252
  • 大模型日报(5月21日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-21
    100
  • 大模型日报(5月6-7日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-07
    179
  • 大模型日报(8月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-02
    254
  • 大模型日报(9月6日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-06
    273
  • 大模型日报(4月8日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 中文迷你 LLM:预训练一个以中文为中心的大…

    2024-04-08
    119
  • 实战:ChatGPT一键成书,让你秒变作家!

    这是一款基于ChatGPT的名为 BookGPT的一款应用,用它就可以一键生成完整的一本书。没错!就是完整的一本书,让你秒变作家! 在百度的文心一言还在努力追赶OpenAI的Cha…

    2023-03-19
    181
  • 有了ChatGPT4的Copilot,再也不用担心我的Office了!

    世界的变化是如此之快,静观其变,还是捷足而上,那都是选择。 微软今天宣布了一款新的基于人工智能的 Copilot,旨在帮助人们生成文件、电子邮件、演示文稿等内容。这款由 OpenA…

    2023-03-17
    194
  • ChatGPT访问限制难倒你?来试试这九个开源平台,也能体验智能对话!

    让我们一起来探索一下 ChatGPT 的开源平替项目吧! 从最初的发布到现在已经过去了约四个月,ChatGPT 带给我们的震撼表现简直让人不敢相信 AIGC 这个时代已经到来。 然…

    2023-03-19
    208
  • 大模型日报(9月4日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-04
    260