我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
信号
Heavy-Tailed Diffusion Models
这篇文章提出了一种新的扩散模型框架,用于估计具有重尾分布的数据生成。传统的扩散和流匹配模型使用标准高斯先验,无法捕捉重尾行为。文章通过使用多变量学生t分布重新构建扩散框架来解决这个问题,并开发了专门的扰动核,以及基于条件学生t分布的去噪后验。受γ-散度在重尾分布中的启发,文章推导出了重尾去噪器的训练目标。这个框架通过单一的标量超参数控制尾部生成,使其易于调整以适应多种现实世界分布。文章还介绍了t-EDM和t-Flow,这是现有扩散和流模型的扩展,采用学生t先验。这种方法与标准的高斯扩散模型兼容,并且只需要最小的代码更改。实证结果表明,t-EDM和t-Flow在高分辨率天气数据集上的重尾估计方面优于标准扩散模型,其中生成罕见和极端事件至关重要。
https://x.com/xuyilun2/status/1848490806321230212
A Comparative Study on Reasoning Patterns of OpenAI’s o1 Model
这篇文章探讨了如何使大型语言模型(LLMs)能够处理更广泛的复杂任务,例如编程和数学问题。文章指出,仅仅增加模型参数数量会导致性能提升递减和计算成本增加。最近,OpenAI的o1模型展示了测试时计算方法(Test-time Compute methods)也能显著提高LLMs的推理能力,但这些方法背后的机制尚未被充分探索。研究者通过在三个领域的一般推理基准测试(数学、编程、常识推理)上比较o1模型与其他测试时计算方法(BoN、Step-wise BoN、Agent Workflow和Self-Refine),使用OpenAI的GPT-4o作为基础模型。实验结果表明:o1模型在大多数数据集上表现最佳;搜索多样化响应的方法(如BoN)受到奖励模型能力和搜索空间的限制;将问题分解为多个子问题的方法(如Agent Workflow)由于领域特定的系统提示而表现更好;此外,文章总结了o1的六种推理模式,并在几个推理基准测试上提供了详细分析。
https://x.com/siweiwu7/status/1848013413060051303
Decomposing The Dark Matter of Sparse Autoencoders
这篇文章研究了稀疏自编码器(SAEs)在分解语言模型激活时的表现,特别是它们未能完全解释模型性能的“暗物质”部分,即未解释的方差。研究发现,SAE的“暗物质”中约一半的错误向量和超过90%的范数可以通过初始激活向量线性预测。此外,研究发现SAE错误范数的缩放行为在每个令牌层面上是可预测的:更大的SAEs主要难以重建与更小的SAEs相同的上下文。文章提出了可能解释这些观察结果的激活模型,包括假设一种新型的“引入错误”,并验证了非线性SAE错误可能与线性可预测部分有根本的不同。最后,文章考察了两种在固定稀疏度下减少非线性SAE错误的方法:推理时梯度追踪和从早期层SAE输出的线性变换。
https://x.com/JoshAEngels/status/1848339201864974674
GRANITE 3.0 LANGUAGE MODELS
Granite 3.0是一系列新型的轻量级、开放的基础模型,参数规模从4亿到80亿不等,支持多语言、编码和函数调用,专为企业级应用设计,包括本地和设备上部署。这些模型在多项任务中展现出与其规模相称的最先进性能。报告详细披露了预训练和后训练的技术细节,旨在促进研究社区开发更多开放基础模型。Granite 3.0的所有模型版本均在Apache 2.0许可下发布,支持研究和商业用途,并已与多种量化、微调和部署工具集成。
https://github.com/ibm-granite/granite-3.0-language-models/blob/main/paper.pdf
Hallo2
Hallo2 是一种先进的潜在扩散生成模型,能够生成长达1小时的 4K 分辨率人像视频动画。它通过引入可调的文本标签增强可控性,并采用新颖的技术解决外观漂移和时间伪影问题,显著提升了生成内容的质量和多样性。
https://fudan-generative-vision.github.io/hallo2/#/
Emu3-Gen
Emu3 是一款新型多模态模型,通过下一个标记预测进行训练, 能够生成高质量的图像和视频,并具备强大的视觉-语言理解能力。它无需依赖 CLIP 或预训练的语言模型,展现出不错的生成与感知性能。
https://huggingface.co/BAAI/Emu3-Gen
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21634.html