大模型日报（9月10日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

苹果发布A18与A18 Pro仿生芯片：AI性能成焦点

苹果在新发布的iPhone 16系列中首次引入了以Apple Intelligence（苹果智能）为核心的生成式AI功能，搭载A18系列仿生芯片。这些芯片采用了第二代3nm工艺，具备更高能效和性能。A18和A18 Pro均配备6核CPU（2个性能核心+4个能效核心）和16核神经网络引擎，能高效运行大规模AI模型。

A18 Pro相较A18性能更强，内存带宽提升17%，支持6核GPU，光线追踪性能是上一代的2倍，适合运行高负载的3A游戏。A18 Pro的CPU拥有更大的缓存，能效提升20%，适合运行复杂任务。

A18系列仿生芯片支持更快速的神经网络计算，A18 Pro每秒可进行35万亿次操作（35 TOPS），是目前智能手机中最强的CPU。与A16芯片相比，A18的机器学习速度提升了2倍，游戏性能媲美主机级。其5核GPU在图形处理、AI功能和拍摄性能上表现出色。

除手机芯片外，苹果还发布了S10 SiP手表芯片和H2耳机芯片。S10 SiP搭载4核神经网络引擎，支持多项检测功能；H2芯片增强了音频和通话体验，主动降噪功能相比上一代提升至2倍，提供出色的3D音效。

苹果自研芯片在移动领域持续领跑，A18与A18 Pro的AI与游戏性能尤为突出，为未来2nm工艺的A19仿生芯片铺路。

https://mp.weixin.qq.com/s/4kVO390n-RCFogoP1cLLfg

Llama 3蒸馏到Mamba模型，推理速度提升至1.6倍！

Together AI通过蒸馏技术，将Transformer模型与Mamba架构结合，成功提高推理速度的同时，保持甚至超过原始模型的性能。该项目由FlashAttention的作者Tri Dao参与，展示了将Transformer的复杂计算简化为线性RNN的可能性，并提出了推测解码算法加速推理过程。

Transformer到Mamba的蒸馏过程

初始化：首先，作者发现Transformer的注意力机制与RNN的计算存在相似性，基于此将Transformer的注意力机制线性化，作为蒸馏的初步步骤。
三阶段蒸馏：

伪标签蒸馏：使用预训练的Transformer生成伪标签，Mamba学生模型以这些标签进行训练，结合KL散度和交叉熵损失。
监督微调：在指令数据集上进行训练，如OpenHermes 2.5。
人类反馈优化：基于奖励模型，使用PPO算法优化模型性能。

在8块80G A100 GPU上，整个蒸馏过程仅耗时不到五天，最终生成了Transformer-Mamba混合模型。

推理加速：推测解码算法

推测解码算法通过使用轻量的Draft模型预测多个token，再由Verifier模型验证，大幅提升解码并行性和生成效率。这个方法在2.8B和7B参数规模的Mamba模型上推理速度提升了1.7-2.6倍。尤其在Zephyr和Llama混合模型上，推理速度分别提升1.8倍和1.6倍。

实验结果

性能表现：在单轮和多轮对话任务（如AlpacaEval、MT-Bench）上，混合模型与Llama-3相比表现出色，1:1混合模型效果最佳。
推理加速：Llama 3混合模型的推理速度提升了1.6倍，且在NLP任务上表现优异，在GSM8K和CRUX任务上甚至超过了Instruct模型。

Together AI的这项研究展示了混合Transformer与RNN架构的潜力，为未来大模型的优化与加速提供了新方向。

https://mp.weixin.qq.com/s/2oyeCdlqKaeQATje–U8qg

AMD的颠覆性战略：放弃旗舰游戏显卡，专注AI和生态扩展

短短几天内，AMD连续宣布了两项重要的战略转型：一是放弃旗舰游戏显卡，转而主攻中低端市场；二是统一现有的两种GPU微架构——RDNA和CDNA。这两项策略背后的共同目标是扩大AMD的生态系统，以此挑战英伟达CUDA的主导地位。

技术细节亮点：

统一GPU架构：AMD将RDNA（面向消费市场）和CDNA（面向数据中心）统一为新的UDNA架构，目标是通过统一架构提升优化效率，吸引更多开发者。Jack Huynh承认，RDNA架构的内存层次结构设计存在问题，导致每次改动都需重新优化。UDNA架构的推出将解决这一问题，并提升未来三代产品的持续优化能力。
AI加速能力提升：现有RDNA架构中AI加速能力有限，尤其是在FP16格式计算优化方面依赖WMMA指令，未来UDNA架构预计将为桌面GPU引入完整的张量运算支持，使桌面和数据中心GPU架构一致。这不仅能提升AI任务处理效率，还能推动AMD云到客户端的全方位战略。
开源生态与CUDA对标：AMD希望通过ROCm软件堆栈与英伟达的CUDA抗衡，目标是在未来吸引400万开发者。这一策略依赖于开源社区的支持和AMD在软件优化方面的简化工作，加速整个生态的扩展。然而，为了推动这一生态发展，游戏和其他专业软件的优化被部分牺牲。
放弃旗舰显卡市场：AMD历史上多次未能成功进军高端显卡市场，现决定转向中低端市场，停止与英伟达旗舰显卡的直接竞争。市场预测，英伟达可能会借此自由定价其下一代旗舰产品，这对消费者而言并非利好消息。

总结来看，AMD此次通过技术架构的统一与生态规模的扩展，意图在AI与中低端显卡市场实现突破，重塑与英伟达的竞争格局。

https://mp.weixin.qq.com/s/FNW5sS4qVDbyILW-JSNV_g

自博弈方法在强化学习中的应用综述

本文作者来自清华大学、北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。第一作者为清华大学硕士张瑞泽，通讯作者为汪玉教授、于超博后和第四范式研究员黄世宇博士。文章重点探讨了自博弈（self-play）在强化学习中的应用，提出了统一的算法框架，并对自博弈算法进行了分类和分析。

自博弈的基本概念与背景

自博弈是指智能体通过与自身副本或历史版本进行交互来优化策略的强化学习方法。该方法已在围棋、国际象棋等多个领域取得成功，特别是在与人类专家竞争时展示了出色的性能。尽管自博弈有广泛的应用，但其仍存在收敛到次优策略及计算资源需求高的问题。

文章首先介绍了多智能体强化学习框架以及博弈论的基础概念，包括纳什均衡（Nash equilibrium）和最佳回应（Best Response）。在复杂博弈场景中，元博弈（meta-game）将策略上升到更高层次的抽象，进一步增强策略的复杂性和灵活性。

统一自博弈算法框架与分类

作者提出了一个统一的自博弈算法框架，并将现有的自博弈算法分为四类：

传统自博弈算法：如Vanilla self-play和Fictitious self-play，通过逐步扩展策略池进行策略训练。
PSRO 系列算法：例如α-PSRO，通过更加复杂的元策略求解器（MSS）扩展策略池，适应更复杂的多智能体任务。
基于持续训练的算法：解决PSRO系列的训练成本和效率问题，强调在多个训练周期内反复训练策略池。
后悔最小化算法：侧重于长期累积收益，避免智能体被对手长期利用，适用于重复博弈场景。

自博弈的经典应用

棋类游戏：AlphaGo等自博弈算法在围棋等完全信息博弈中取得了突破性进展。
牌类游戏：包括德州扑克、斗地主和麻将，应用后悔最小化算法和自博弈增强智能体表现。
电子游戏：在《星际争霸》《Dota 2》等实时战略游戏中，自博弈算法同样展现了强大的适应性和战略规划能力。

未来挑战与研究方向

尽管自博弈方法在复杂场景中表现出色，但其理论基础和实际应用之间仍存在差距，尤其是在大规模多智能体场景下的扩展性问题。此外，自博弈在具身现实环境中的应用也面临Sim2Real差距的挑战。

总结而言，自博弈方法在强化学习领域有着巨大的潜力，但未来研究仍需解决计算效率、策略收敛和现实应用等关键问题。

https://mp.weixin.qq.com/s/oMY0O0OIVYJc04zkoMzgcQ

自动提示词工程：LLM 性能优化的关键技术

近日，谷歌研究者 Heiko Hotz 发表了一篇长文，详细介绍了自动提示词工程（APE）的原理与实现方法。APE 的核心在于通过自动生成与优化提示词，提高大型语言模型（LLM）在特定任务上的性能。与传统的人工提示词工程类似，APE 旨在系统化地测试和优化提示词，从而提升 LLM 的表现。该技术的工作原理类似于传统监督式机器学习中的超参数优化（HPO），但其难点在于提示词是文本，而非数值。

在 LLM 的实际应用中，为特定任务找到合适的提示词往往需要大量的人力和时间，且人工提示词工程的效率低下。通过 APE，这一过程得以自动化，避免了人工设计的瓶颈。LLM 在提示词生成上展现出极大的创造力，能够提供出人意料的提示词设计，从而带来显著的性能提升。

APE 的工作流程包括：

输入初始提示词、标注数据集和评估指标。
目标 LLM 根据提示词生成任务响应。
使用评估 LLM 评估响应性能。
优化器 LLM 生成新的提示词，并迭代该过程。
最终选择性能最佳的提示词。

APE 主要采用两种策略：

随机提示词优化：通过随机生成提示词来探索不同的可能性，类似于随机搜索的 HPO 方法。
OPRO（通过提示操作进行优化）：这一策略通过记录和分析提示词的历史表现，有意识地引导 LLM 提升性能。

Hotz 提供了一种使用 Python、Vertex AI 和 Gemini 模型从头实现 OPRO 算法的方式。该方法通过自动生成提示词、评估其性能，并不断优化提示词，最终在特定任务上显著提升了 LLM 的准确度。

APE 代表了一种前沿技术，能够自动化提示词优化过程，极大地释放了 LLM 的潜力，帮助它在复杂任务中取得更好的表现。

https://mp.weixin.qq.com/s/TxzkRUPhsiqtLhCyrIsQrQ

推特

iPhone 16的Apple Intelligence功能

苹果刚刚发布了iPhone 16的Apple Intelligence功能。接入 iPhone 的相机，实现对任何环境的“视觉智能”

https://x.com/dr_cintas/status/1833205331092246844

Jim Fan：操控LLM基准测试极其简单，只相信在LMSys Chatbot Arena上的ELO分数和可信的第三方

操控LLM基准测试*极其*简单。直接在测试集上训练只是新手做法。以下是一些可以在家练习的技巧：

在测试集的改写示例上训练。LMSys 的 “LLM-decontaminator” 论文发现，通过仅仅将测试题目改写成不同的格式、措辞，甚至是外语，你可以用一个13B的模型（！！）在 MMLU、GSK-8K 和 HumanEval（编码）上打败 GPT-4。轻松提高10分。
甚至可以轻松操控LLM-decontaminator。它只检测改写，但你可以使用任何前沿模型生成*新的问题*，这些问题表面上不同，但解决模板/逻辑非常相似。换句话说，你试图针对测试集的相似分布进行过拟合，而不是对具体样本过拟合。比如 HumanEval 就是一堆简单的Python问题（即一个特定的、狭窄的分布），完全不反映真实世界的编码复杂性。
你还可以通过提示工程来对生成器进行极致优化，以骗过LLM-decontaminator或其他检测器。检测器是公开的，但你的数据生成是私有的，充分利用这一点。
增加推理时间的计算预算几乎总是有效的。自我反思技术已被长期使用（参见Reflexion，Shinn等，2023年）。也可以尝试简单的多数投票或Tree of Thought。这些思路路径本质上是测试时的集成方法，越多越好。显然，N个事物的集成>1个事物，如果你不控制推理时的tokens。

令人难以置信的是，到了2024年9月，人们仍然为MMLU或HumanEval的分数感到兴奋。这些基准测试已经严重失效，操控它们可以作为一个本科作业项目。

我不会相信任何关于优越模型的声明，除非看到以下内容：