大模型日报( 2月7日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报( 2月7日 学术篇)

信号

01

Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

词汇切分是大型语言模型 (LLM) 的基本组成部分,但尚未充分探讨它对模型扩展和性能的影响。在本文中,我们介绍了 Over-Tokenized Transformers,这是一个新颖的框架,它解耦了输入和输出词汇表,以提高语言建模性能。具体来说,我们的方法扩大了输入词汇表以利用多语法标记。通过广泛的实验,我们揭示了输入词汇量和训练损失之间的对数线性关系,表明无论模型大小如何,较大的输入词汇表都能始终提高模型性能。使用大量输入词汇表,我们可以实现与双倍大小的基线相当的性能,而无需额外成本。我们的研究结果强调了分词化在扩展法律中的重要性,并为分词器设计提供了实用的见解,为更高效、更强大的 LLM 铺平了道路。
大模型日报( 2月7日 学术篇)
原文链接:https://arxiv.org/abs/2501.16975

02

Imagine while Reasoning in Space:  Multimodal Visualization-of-Thought

事实证明,思维链 (CoT) 提示对于增强大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 中的复杂推理非常有效。然而,它在复杂的空间推理任务中举步维艰。尽管如此,人类的认知超越了语言本身,使人类能够用文字和图像进行思考。受这种机制的启发,我们提出了一种新的推理范式,即多模态思维可视化 (MVoT)。它通过生成推理轨迹的图像可视化,使 MLLM 中的可视化成为可能。为了确保高质量的可视化,我们在自回归 MLLM 中引入了标记差异损失。这项创新显著提高了视觉连贯性和保真度。我们通过几个动态空间推理任务验证了这种方法。实验结果表明, MVoT 在各个任务中表现出有竞争力的性能。此外,它在 CoT 失败的最具挑战性的情况下表现出稳健可靠的改进。最终,MVoT 为复杂的推理任务建立了新的可能性,其中视觉思维可以有效地补充语言推理。
大模型日报( 2月7日 学术篇)
原文链接:https://arxiv.org/abs/2501.07542
03
元资助

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

随着语言模型 (LM) 广泛用于个性化通信场景(例如,发送电子邮件、撰写社交媒体帖子)并被赋予一定程度的代理权,确保它们按照上下文隐私规范行事变得越来越重要。然而,量化 LM 的隐私规范意识和 LM 介导的通信中新出现的隐私风险具有挑战性,因为 (1) 隐私敏感案例的上下文和长尾性质,以及 (2) 缺乏捕捉真实应用场景的评估方法。为了应对这些挑战,我们提出了 PrivacyLens,这是一个新颖的框架,旨在将隐私敏感种子扩展到富有表现力的小插曲中,并进一步扩展到代理轨迹中,从而能够对 LM 代理行为中的隐私泄漏进行多层次评估。我们使用一系列基于隐私文献和众包种子的隐私规范来实例化 PrivacyLens。使用此数据集,我们揭示了 LM 在回答探测问题时的性能与其在代理设置中执行用户指令时的实际行为之间的差异。最先进的 LM,如 GPT-4 和 Llama-3-70B,在 25.68% 和 38.69% 的情况下泄露敏感信息,即使提示隐私增强说明也是如此。我们还通过将每个种子扩展到多个轨迹来演示 PrivacyLens 的动态性质,以降低红队 LM 隐私泄露风险。
大模型日报( 2月7日 学术篇)
原文链接:https://arxiv.org/abs/2409.00138
04
元资助

Improving Transformer World Models for  Data-Efficient RL

我们提出了一种基于模型的 RL 方法,该方法在具有挑战性的 Craftax-classic 基准测试上实现了新的最先进的性能,这是一款开放世界的 2D 生存游戏,要求代理表现出广泛的通用能力,例如强大的泛化、深入探索和长期推理。通过一系列旨在提高样本效率的精心设计选择,我们的 MBRL 算法仅在 1M 环境步骤后就获得了 67.4% 的奖励,明显优于 DreamerV3 的 53.2%,并首次超过了人类 65.0% 的性能。我们的方法首先使用结合了 CNN 和 RNN 的新型策略架构构建无 SOTA 模型的基线。然后,我们在标准 MBRL 设置中添加了三项改进:(a) “Dyna with warmup”,在真实和虚数数据上训练策略,(b) 图像补丁上的“最近邻分词器”,改进了创建转换器世界模型 (TWM) 输入的方案,以及 (c) “block teacher forcecing”,允许 TWM 联合推理下一个时间步的未来标记。
大模型日报( 2月7日 学术篇)
原文链接:https://arxiv.org/pdf/2502.01591

 HuggingFace&Github

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格

One API :LLM API 管理 & 分发系统

  • One API 是一个提供统一的 API 接口的开源项目,支持主流模型,统一 API 适配,可用于 key 管理与二次分发。单可执行文件,提供 Docker 镜像,一键部署,开箱即用。

用户可以通过标准 OpenAI API 格式轻松访问多个大模型,开箱即用。它支持多种大模型包括OpenAI、Anthropic Claude、Google PaLM2、Mistral、百度文心一言等,并且兼容 Azure、AWS 等云服务。
  • 多模型支持:涵盖 OpenAI、Anthropic、Google、百度等主流大模型。
  • 负载均衡:支持流式传输和多个渠道访问,提高系统稳定性。
  • 令牌与兑换码管理:提供灵活的额度管理、充值及兑换码生成。
  • 自定义功能:用户可自由配置系统名称、logo、首页、关于页面等。
  • 多种用户登录方式:支持邮箱、GitHub、飞书等多种方式,便于用户接入。
  • 云服务支持:支持 Cloudflare AI Gateway 和 Cloudflare Turnstile 校验。
大模型日报( 2月7日 学术篇)
https://github.com/songquanpeng/one-api


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/02/38102.html

Like (0)
Previous 2025-02-07 13:06
Next 2025-02-08 14:49

相关推荐