大模型日报(5月9日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月9日 学术篇)

论文

01

只缓存一次:语言模型的解码器-解码器架构

我们引入了一种名为YOCO的解码器-解码器体系结构,适用于大型语言模型,仅对键值对进行一次缓存。它由两个组件组成,即交叉解码器叠加在自解码器上。自解码器通过交叉注意力有效编码全局键值(KV)缓存,交叉解码器通过交叉注意力复用这些缓存。尽管YOCO只缓存一次,但整体模型表现为解码器-只Transformer。这种设计显著减少了GPU内存需求,同时保留了全局注意力能力。此外,计算流程支持预填充以提前退出,而不更改最终输出,从而显着加快了预填充阶段。实验结果表明,与不同规模和训练token数量的Transformer相比,YOCO在各种设置下达到了有利的性能。我们还将YOCO扩展到了100万上下文长度,并实现了接近完美的needle检索准确性。性能分析结果显示,YOCO在各种上下文长度和模型大小上显著提高了推断内存、预填充延迟和吞吐量。代码可在https://aka.ms/YOCO找到。

大模型日报(5月9日 学术篇)http://arxiv.org/abs/2405.05254v1

02

多模态数据高效3D场景理解在自动驾驶中的应用

高效利用数据对于推进自动驾驶中的3D场景理解至关重要,在这种情况下,过于依赖人工标注的LiDAR点云挑战了完全监督的方法。为解决这一问题,我们的研究扩展到了LiDAR语义分割的半监督学习,利用驾驶场景的内在空间先验和多传感器补充来增强未标记数据集的有效性。我们介绍了LaserMix++,一个进化框架,整合了来自不同LiDAR扫描的激光束操作,并结合了LiDAR-相机对应关系,进一步辅助数据有效学习。我们的框架旨在通过整合多模态来增强3D场景一致性正则化。LaserMix++的多功能性使其适用于LiDAR表示的各种应用,将其确立为一种通用适用的解决方案。我们的框架经过理论分析和广泛实验验证。结果表明,LaserMix++显著优于完全监督的替代方案,实现了与五倍较少注释相比可比的准确性,并显著改善了仅监督的基线。这一重大进步突显了半监督方法在减少LiDAR为基础的3D场景理解系统中对大量标记数据依赖的潜力。
大模型日报(5月9日 学术篇)http://arxiv.org/abs/2405.05258v1
03

ACEGEN: 用于药物发现的生成化学智能体的强化学习

近年来,强化学习(RL)已成为药物设计中一种有价值的工具,为提议和优化具有所需性质的分子提供潜力。然而,由于高级RL算法的复杂性和对专门代码的重要依赖,如何在功能、灵活性和可靠性之间取得平衡仍具有挑战性。在这项工作中,我们介绍了ACEGEN,一个专为生成式药物设计量身定制的全面且简化的工具包,使用了TorchRL,一个现代决策库,提供高效且经过充分测试的可重复使用组件。ACEGEN为分子设计提供了一个强大、灵活和高效的平台。我们通过在各种算法上进行基准测试和进行多个药物发现案例研究来验证其有效性。ACEGEN可在https://github.com/acellera/acegen-open 获取。
大模型日报(5月9日 学术篇)http://arxiv.org/abs/2405.04657v1
04

探索训练动态解读“逆转诅咒”理论

自回归的大语言模型(LLMs)在解决许多复杂推理任务时表现出色,但在一些简单逻辑推理任务中则表现不佳,如逆向搜索:在训练”A是B”后,在推理过程中LLM无法直接推断”B是A”,这被称为”逆转魔咒”。本文通过两种自回归模型的(随机)梯度下降训练动态,理论分析了逆转魔咒:(1) 一个可以视为一层Transformer简化的双线性模型;(2) 使用Tian等人(2023a)框架的一层Transformer。我们的分析揭示了逆转魔咒发生的核心原因:两种自回归模型的(有效)权重显示出不对称性,即在训练过程中从标记$A$到标记$B$的权重增加未必会导致从$B$到$A$的权重增加。此外,我们的分析还可以自然地应用于其他逻辑推理任务,如思维链(COT)。我们展示了COT的必要性,即一个训练了”$A to B$”和”$B to C$”的模型无法在没有COT的情况下直接推断”$A to C$”,对于一层Transformer通过训练动态提供了一个新的观点,与之前关注表达性的工作有所不同。最后,我们还进行了实验证实了我们理论在不同设置下多层Transformer的有效性。
大模型日报(5月9日 学术篇)http://arxiv.org/abs/2405.04669v1
05

ChuXin 1.6B技术报告

摘要:在本报告中,我们介绍了ChuXin,一个完全开源的拥有16亿参数的语言模型。与大多数仅开源模型权重和架构的作品不同,我们提供了训练模型所需的一切内容,包括训练数据、训练过程和评估代码。我们的目标是为开放研究社区赋予力量,促进透明度,并在语言建模领域开启一波新的创新浪潮。此外,通过轻量级持续预训练,我们将上下文长度扩展到100万个token,并展示了出色的针对堆中之针的检索性能。这两个模型的权重可在Hugging Face上下载和使用。
大模型日报(5月9日 学术篇)http://arxiv.org/abs/2405.04828v1
HuggingFace&Github

01

Kan-GPT

Kan-GPT 是一种结合了 GPT 模型和 Kolmogorov-Arnold 网络 (KANs) 的语言生成模型,通过使用 KANs 作为基础架构来提高 GPT 的性能。它提供了安装、使用、训练等功能,并且开源了代码供开发者参考和进一步研究。
大模型日报(5月9日 学术篇)https://github.com/AdityaNG/kan-gpt
02

Agents-Flex

Agents-Flex 是一个基于 Java 的 LLM 应用程序框架,提供了丰富的功能,如 LLM 访问、内存管理、资源加载与解析、智能代理和函数调用等,帮助开发者快速构建基于 LLM 的智能应用。它类似于LangChain,简化了 LLM 相关开发工作,为开发者提供了一站式的 LLM 应用开发解决方案。
大模型日报(5月9日 学术篇)https://github.com/agents-flex/agents-flex

大模型日报(5月9日 学术篇)

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15547.html

Like (0)
Previous 2024-05-09 18:29
Next 2024-05-10 10:35

相关推荐

  • #起来读文献啦 新鲜出炉的 “基于深度学习的IoT实时入侵检测系统” (背后是合成数据集的功劳)

        一如既往,今日收到邮件推送,一篇关于基于深度学习的IoT实时入侵检测系统的文章,但我认为其关键IDEA在于合成数据集。 https://www.sciencedirect.…

    2022-11-23
    154
  • 大模型日报(6月14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-14
    135
  • 大模型日报(9月4日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-04
    260
  • 大模型日报(9月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-03
    252
  • Google Colab中的AI Monica真的无敌了,轻松编写和调优程序!

    这两天刚好在调程序中,无意中用到了Google Monica,真的让人惊叹不已! 先给结论:编写、调优程序,解释运行结果基本无障碍! Colab + Monica的流畅和无缝程度,…

    2023-06-21
    195
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    190
  • 一个不错的机器学习bootcamp

    https://github.com/alexeygrigorev/mlbookcamp-code ​ 推荐原因 1. 内容系统,基于一本著名图书; 2. 实战导向,除了基本的机器…

    2022-11-09
    109
  • 大模型日报(6月17日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-17
    145
  • 截止目前最全的ChatGPT调教指南!

    你会问问题吗? ChatGPT 中文调教指南如下 ChatGPT模型是由OpenAI训练的大型语言模型,能够生成类人文本。通过向它提供提示,它可以生成继续对话或扩展给定提示的响应。…

    2023-02-13
    204
  • 大模型日报(5月15日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-15
    182