大模型日报(10月8日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(10月8日 学术篇)

信号

01

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher’s Guide

文本到图像 (T2I) 扩散模型彻底改变了视觉内容的创建,但将这些功能扩展到文本到视频 (T2V) 生成仍然是一个挑战,特别是在保持时间一致性方面。现有的旨在提高一致性的方法通常会导致诸如降低成像质量和不切实际的计算时间等权衡。为了解决这些问题,本文引入了 VideoGuide,这是一个新颖的框架,它无需额外的训练或微调即可增强预训练 T2V 模型的时间一致性。相反,VideoGuide 利用任何预训练的视频扩散模型 (VDM) 或其本身作为推理早期阶段的指导,通过将指导模型的去噪样本插入采样模型的去噪过程来提高时间质量。所提出的方法显著提高了时间一致性和图像保真度,提供了一种经济高效且实用的解决方案,可以协同各种视频扩散模型的优势。此外,本文展示了先验蒸馏,揭示了基础模型可以通过所提出的方法利用指导模型的优越数据先验来实现增强的文本连贯性。

大模型日报(10月8日 学术篇)

https://arxiv.org/abs/2410.04364
02

Differential Transformer

Transformer 倾向于将注意力过度分配到不相关的上下文中。在本文中,我们引入了 Diff Transformer,它可以在消除噪音的同时放大对相关上下文的注意力。具体而言,差分注意力机制将注意力分数计算为两个单独的 softmax 注意力图之间的差值。减法消除了噪音,促进了稀疏注意力模式的出现。语言建模上的实验结果表明,在扩大模型大小和训练 token 的各种设置下,Diff Transformer 的表现都优于 Transformer。更有趣的是,它在实际应用中具有显着优势,例如长上下文建模、关键信息检索、幻觉缓解、上下文学习和减少激活异常值。通过减少不受不相关上下文的干扰,Diff Transformer 可以减轻问答和文本摘要中的幻觉。对于上下文学习,Diff Transformer 不仅提高了准确性,而且对顺序排列更具鲁棒性,这被认为是一个长期存在的鲁棒性问题。结果表明,Diff Transformer 是一种高效且有前景的架构,可以推动大型语言模型的发展。

大模型日报(10月8日 学术篇)

https://arxiv.org/abs/2410.05258
03

OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

我们提出了 OmniBooth,这是一个图像生成框架,可通过实例级多模态定制实现空间控制。对于所有实例,可以通过文本提示或图像参考来描述多模态指令。给定一组用户定义的掩码和相关的文本或图像指导,我们的目标是生成一幅图像,其中多个对象位于指定的坐标处,并且它们的属性与相应的指导精确对齐。这种方法大大扩展了文本到图像生成的范围,并将其提升到可控性方面更加通用和实用的维度。在本文中,我们的核心贡献在于提出的潜在控制信号,这是一种高维空间特征,可提供统一的表示,以无缝集成空间、文本和图像条件。文本条件扩展了 ControlNet,以提供实例级开放词汇生成。图像条件进一步实现了具有个性化身份的细粒度控制。在实践中,我们的方法为用户提供了可控生成的更大灵活性,因为用户可以根据需要从文本或图像中选择多模态条件。此外,全面的实验证明了我们在不同任务和数据集上图像合成保真度和对齐方面的性能增强

大模型日报(10月8日 学术篇)

https://arxiv.org/abs/2410.04932
04

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

最近的大型语言模型 (LLM) 已在长上下文场景中展现出多种能力。尽管最近已经开发了一些基准来评估 LLM 的长上下文能力,但仍然缺乏评估 LLM 在长上下文中的数学推理能力的基准,而这对于 LLM 在实际场景中的应用至关重要。在本文中,我们介绍了 MathHay,这是一个旨在评估 LLM 长上下文数学推理能力的自动化基准。与之前的基准(如 Needle in a Haystack)不同,MathHay 要求模型既具有信息搜索能力,又具有复杂的数学推理能力。我们在 MathHay 上进行了广泛的实验,以评估八个表现最佳的 LLM 的长上下文数学推理能力。即使是表现最好的模型 Gemini-1.5-Pro-002,在长上下文中的数学推理方面仍然举步维艰,在 128K 个 token 上仅达到 51.26% 的准确率。这凸显了 MathHay 基准测试的巨大改进空间。

大模型日报(10月8日 学术篇)

https://arxiv.org/abs/2410.04698
05

FAN: Fourier Analysis Networks

尽管神经网络,尤其是以 MLP 和 Transformer 为代表的神经网络取得了显著成功,但我们发现它们在周期性的建模和推理方面存在潜在缺陷,即它们倾向于记忆周期性数据,而不是真正理解周期性的基本原理。然而,周期性是各种推理和泛化形式的一个关键特征,通过观察中重复出现的模式支撑着自然和工程系统的可预测性。在本文中,我们提出了一种基于傅里叶分析的新型网络架构 FAN,它能够有效地对周期性现象进行建模和推理。通过引入傅里叶级数,周期性自然地融入到神经网络的结构和计算过程中,从而实现对周期性模式的更精确的表达和预测。作为多层感知器 (MLP) 的有前途的替代品,FAN 可以无缝地在各种模型中取代 MLP,并且具有更少的参数和 FLOP。通过大量实验,我们证明了 FAN 在周期函数建模和推理方面的有效性,以及 FAN 在一系列实际任务中的优越性和通用性,包括符号公式表示、时间序列预测和语言建模。

大模型日报(10月8日 学术篇)

https://arxiv.org/abs/2410.02675
HuggingFace&Github

01

Agents

Agents 是一个框架,用于构建实时多模态 AI 应用程序,支持文本、音频、图像和视频流的处理与生成。它与 LiveKit 会话兼容,允许代理连接用户设备,具备高级功能如自动转换检测和负载均衡。技术栈包括 Python、C++、CMake。

大模型日报(10月8日 学术篇)

https://github.com/livekit/agents
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21453.html

Like (0)
Previous 2024-10-08 16:33
Next 2024-10-09 22:05

相关推荐