大模型日报(9月9日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月9日 学术篇)

论文

01

Learning vs Retrieval:LLM在回归中的角色及上下文示例

生成型大语言模型(LLMs)具有在上下文中学习的能力。然而,上下文学习(ICL)的基本机制仍然是一个重要的研究问题,有关模型如何利用ICL的实验研究结果并不总是一致的。在这项工作中,我们提出了一个评估上下文学习机制的框架,我们认为这是检索内部知识并专注于回归任务上的上下文示例学习的组合。首先,我们展示LLMs可以在真实数据集上进行回归,然后设计实验来衡量LLM在检索其内部知识与从上下文示例中学习之间的程度。我们认为这个过程位于这两种极端之间的光谱上。我们深入分析了这些机制在不同因素下的触发程度,如先前关于任务的知识以及上下文示例提供的信息类型和丰富程度。我们使用三种LLMs并利用多个数据集来证实我们发现的稳健性。我们的结果阐明了如何设计提示以利用从上下文示例中的元学习,并根据所解决的问题促进知识的检索。
大模型日报(9月9日 学术篇)
大模型日报(9月9日 学术篇)http://arxiv.org/abs/2409.04318v1
02

LLM能否生成新颖的研究想法?与100多名NLP研究人员进行的大规模人类研究

最近大语言模型(LLMs)的进步引发了对它们加速科学发现潜力的乐观情绪,越来越多的作品提出了研究智能体,自主生成和验证新想法。然而,尚无评估表明LLM系统能够迈出产生新颖、专家级别想法的第一步,更不用说执行整个研究过程了。我们通过建立实验设计来评估研究想法生成,同时控制混杂因素,并进行了第一次NLP专家研究人员和LLM构思智能体之间的直接比较。通过招募100多名NLP研究人员撰写新颖想法,并对LLM和人类想法进行盲审,我们得出了关于当前LLM在研究构思方面的第一个具有统计学意义的结论:我们发现LLM生成的想法被评为更具新颖性(p < 0.05)而在可行性方面略逊人类专家想法。我们仔细研究智能体基线,确定了在构建和评估研究智能体中的一些问题,包括LLM自我评估的失败和它们在生成中缺乏多样性。最后,我们承认人类对新颖性的评判可能很困难,即使是专家,提出了一个端到端的研究设计,招募研究人员把这些想法执行成完整项目,从而研究这些新颖性和可行性评判是否会导致研究结果的有意义差异。
大模型日报(9月9日 学术篇)
大模型日报(9月9日 学术篇)http://arxiv.org/abs/2409.04109v1
03

你的代码LLMs表现如何?用高质量数据赋能代码指令微调

最近,对构建更好的代码指令调整数据的研究越来越受到关注。然而,我们观察到使用这些数据集训练的代码模型在HumanEval上表现出色,但在LiveCodeBench等其他基准测试上表现较差。进一步调查后,我们发现许多数据集存在严重的数据泄漏问题。清理掉大部分泄漏数据后,一些众所周知的高质量数据集表现不佳。这一发现揭示了一个新挑战:确定哪些数据集真正符合高质量代码指令数据的资格。为解决这一挑战,我们提出了一个有效的代码数据修剪策略以选择好样本。我们的方法基于三个维度:指令复杂性、响应质量和指令多样性。基于我们选择的数据,我们提出了XCoder,一系列从LLaMA3微调而来的模型。我们的实验表明XCoder使用更少的训练数据实现了新的最先进性能,验证了我们数据策略的有效性。此外,我们对数据组成进行了全面分析,发现现有代码数据集根据构建方法具有不同特征,为未来的代码LLM提供了新的见解。我们的模型和数据集发布在https://github.com/banksy23/XCoder。
大模型日报(9月9日 学术篇)
大模型日报(9月9日 学术篇)http://arxiv.org/abs/2409.03810v1
04

用多层SAEs进行残余流分析

稀疏自编码器(SAEs)是解释Transformer语言模型内部表示的一种有希望的方法。然而,标准SAEs在每个Transformer层上分别训练,使得难以使用它们来研究信息如何在层间流动。为了解决这个问题,我们引入了多层SAE(MLSAE):一个单一的SAE同时训练每个Transformer层的残差流激活向量。残差流通常被理解为在层间保留信息,因此我们期望,并且确实发现单独的SAE特征在多个层上都是活跃的。这些结果表明MLSAEs是研究Transformer中信息流动的一种有希望的方法。我们发布了用于训练和分析MLSAEs的代码。

大模型日报(9月9日 学术篇)http://arxiv.org/abs/2409.04185v1
05

利用大语言模型生成真实的多智能体知识工作数据集

当前公开可用的知识工作数据集缺乏多样性、广泛的注释以及关于用户和其文档的背景信息。这些问题阻碍了对知识工作辅助系统进行客观且可比较的数据驱动评估和优化。由于在现实环境中收集这些数据需要大量资源,并且需要进行数据审查,因此收集这样一个数据集似乎几乎不可能。基于这个原因,我们提出了一个可配置的、多智能体知识工作数据集生成器。该系统模拟智能体之间的协作知识工作,生成大型语言模型生成的文档和伴随的数据迹象。此外,生成器会以知识图的形式捕捉配置中给出或在模拟过程中创建的所有背景信息。最终,生成的数据集可以在不涉及隐私或保密问题的情况下被利用和共享。这篇论文介绍了我们的设计和愿景,并侧重于使用大型语言模型生成真实的知识工作文档。我们的研究涉及人类评估员,他们认为53%的生成文档和74%的真实文档是现实的,这说明了我们方法的潜力。此外,我们分析了参与者评论中提到的真实标准,并详细阐述了针对已识别的共同问题的潜在改进措施。
大模型日报(9月9日 学术篇)http://arxiv.org/abs/2409.04286v1
06

Sigmoid 自注意力的理论、分析和最佳实践

摘要:注意力是Transformer架构的关键部分。它是将每个序列元素转换为值的加权和的序列到序列映射。权重通常是通过键和查询之间的点积的softmax获得的。最近的研究探索了在Transformer中替代softmax注意力的选择,如ReLU和sigmoid激活。在这项工作中,我们重新审视了sigmoid注意力,并进行了深入的理论和经验分析。在理论上,我们证明了具有sigmoid注意力的Transformer是通用的函数逼近器,并受益于与softmax注意力相比的改进的规则性。通过详细的实证分析,我们发现在训练初期稳定大型初始注意力规范是成功训练具有sigmoid注意力模型的关键因素,超越了先前的尝试。我们还介绍了FLASHSIGMOID,这是一种硬件感知和内存高效的sigmoid注意力实现,在H100 GPU上比FLASHATTENTION2提供了17%的推理内核加速。跨语言、视觉和语音的实验表明,适当归一化的sigmoid注意力在各种领域和规模上能够匹配softmax注意力的强大表现,而以前的sigmoid注意力尝试无法完全实现。我们的工作统一了之前的研究成果,并确立了将sigmoid注意力作为Transformer中softmax的替代品的最佳实践。
大模型日报(9月9日 学术篇)http://arxiv.org/abs/2409.04431v1
HuggingFace&Github

01

Loopy

Loopy 是一种端到端的仅音频生成视频的扩散模型。它的主要特点包括:
  1. 音频到视频生成:Loopy 可以根据音频输入生成生动的运动细节,包括非语言动作(如叹气、情感驱动的眉毛和眼睛运动,以及自然的头部运动),不需要手动指定的空间运动模板。
  2. 时间模块设计:模型设计了一个内外剪辑时间模块和一个音频到潜在空间模块,使其能够利用数据中的长期运动信息,从而学习自然的运动模式,提高音频与图像运动的关联性。
  3. 多样化运动生成:Loopy 可以针对同一参考图像,根据不同的音频输入生成适应性合成结果,适用于快速、舒缓或真实的歌唱表演。
大模型日报(9月9日 学术篇)https://loopyavatar.github.io/
02

Yi-Coder

Yi-Coder 是一系列开源的代码语言模型,参数少于 100 亿,支持 52 种编程语言,具备最长 128K 的上下文理解能力,希望可以提供更好的编码性能。
大模型日报(9月9日 学术篇)https://github.com/01-ai/Yi-Coder
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13051.html

Like (0)
Previous 2024-09-09 19:17
Next 2024-09-09 23:59

相关推荐

  • 用ChatGPT薅羊毛,月入过十万?

    到周末了,让我们暂时抛开技术本身,闲聊一下关于ChatGPT不可回避话题:撸羊毛。 ChatGPT的出现,似乎意味着人类所面临的真正挑战终于到来了。作为新一代的聊天机器人程序,Ch…

    2023-03-26
    131
  • 投稿太贵了怎么办?来,这有可以免费投稿的期刊 (SCI,Scopus Indexed)!

    发文章是科研工作者的永恒不变的主题,应导师要求,我把计划投稿的期刊名称收集了一下,正当怀着满满成就感准备大干一场之时,被导师“人间清醒”了一把。 以下是我简单总结的研究领域里的主要…

    2022-12-29
    131
  • AI学术 | KAHUBI 全面的AI模板,涵盖阅读写作编码直至文章发表!

    这款AI学术工具KAHUBI,全面的AI模版,涵盖了学术工作中阅读、写作、研究方法、代码编写、数据分析、出版发布等核心功能,堪称一绝! 一. 纸上谈兵 通过AI模版,增强研究能力。…

    2023-10-16
    124
  • 大模型日报(8月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-09
    198
  • 使用GPTZero反制AI(ChatGPT)生成的内容?看这一篇就够了!

    你的文章是不是AI生成的,GPTZero一看便知?AI应用的攻防大战,才刚刚开始! 这款应用,我相信,老师或者老板们有多爱它,学生或者搬砖者们就有多恨它~ 在你刚认为自己已经将AI…

    2023-05-03
    198
  • 大模型日报(5月20日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-20
    208
  • 大模型日报(6月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-28
    158
  • 简谈ChatGPT伦理问题之一:偏见

    刚好最近在整理ChatGPT的一些伦理问题,打算梳理一下类似ChatGPT等AI工具或者AI平台的几大伦理问题,计划写一个系列的文章。 这里先从偏见(Bias)开始,文章不长,只是…

    2023-03-14
    113
  • 大模型日报(7月5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-05
    242
  • ChatGPT教你九步高效完成PhD之旅!

    PhD学位是每个研究者追求的终极目标,但是对于许多人来说,完成这个学位需要花费数年甚至更长的时间。 在这样一个漫长而艰难的旅程中,许多人可能会遇到挫折和困难,甚至可能会失去前进的动…

    2023-03-20
    187