大模型日报（9月6日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

如何复现 SGLang v0.3.0 和 vLLM v0.6.0 的性能测试

在最近的性能测试中，vLLM v0.6.0 声称在 CPU 调度和吞吐量方面取得了显著提升。然而，SGLang 团队指出了一些事实性错误，并通过复现测试提供了更准确的性能比较。

GPU Utilization 不公平对比：在 vLLM 的复现中，GPU utilization 被单独调整为 0.95，而其他框架如 SGLang、LMDeploy、TensorRT LLM 则使用了默认值，导致性能对比时不公平。SGLang 指出这种调整会影响极限吞吐量。
Multi Step 设置影响：vLLM v0.6.0 引入了 multi step 设置，默认值为 10，这减少了 CPU overhead，提升了吞吐量（TPOT），但增加了 TTFT 和 ITL。用户感知的主要指标是 ITL，而 vLLM 在其博客中展示的却是 TPOT，且 TTFT 图表的 y 轴被放大，误导了读者对不同框架延迟的理解。
复现测试结果：SGLang 通过测试 Llama 3.1 8B 和 Llama 3.1 70B Instruct，结果显示：

Online Benchmark：在 1xA100 和 4xH100 环境下，vLLM 的 Median TTFT 和 Median ITL 都显著高于 SGLang。vLLM 的 Median TTFT 接近 SGLang 的 3 倍，而 ITL 则接近 10 倍，这对在线应用场景影响较大。
Offline Benchmark：在极限吞吐场景中，SGLang 在各个测试场景的 Output Token Throughput 上都优于 vLLM。

复现方法：SGLang 提供了复现细节，通过 RunPod 云平台，使用公开的脚本和配置可以重现这些结果，详细信息可在 SGLang 的 GitHub 项目中找到。

尽管 SGLang 指出了这些问题，他们也肯定了 vLLM 在 offline 场景的吞吐提升，并期待未来更多框架在功能、性能和扩展性上持续改进。

https://zhuanlan.zhihu.com/p/718504437?utm_psn=1815372290709409792

PEARL: 并行投机解码，推理加速最新SOTA（blog/paper/code均开源）

本文讨论了针对大模型推理中投机采样 (Speculative Decoding) 算法的加速问题，并提出了新的解决方案——PEARL框架。LLM推理过程包括前置填充阶段和解码阶段，其中解码阶段计算冗余较多。Speculative Decoding 提出了利用一个草稿模型生成多个token，并通过目标模型并行验证以提升效率。然而，草稿模型与目标模型间的“相互等待问题”导致资源浪费和延迟。

PEARL的创新在于引入了两个关键机制：预验证 (pre-verify) 和后验证 (post-verify)，使得目标模型和草稿模型能够在对方工作时提前处理部分任务，减少等待时间。理论上，PEARL可以通过草稿模型与目标模型的计算速度比确定最优草稿长度，并根据任务难度自适应调整解码长度，极大提高接受token的效率。

实验结果表明，PEARL在多个模型对和基准测试中实现了1.3到1.5倍的加速，比传统自回归解码快3到4倍。此外，PEARL与其他加速方法如EAGLE和DistillSpec可兼容，并采用动态资源分配来缓解GPU资源竞争问题，在性能损失控制在5%以内的同时扩大了应用场景。

https://zhuanlan.zhihu.com/p/716769091?utm_psn=1815410605504462848

大模型混合并行DP/TP/PP，如何划分机器？

在大规模深度学习模型的训练中，常见的并行策略包括数据并行（DP）、张量并行（TP）和流水线并行（PP），每种策略的通信量有所不同，影响训练效率。

数据并行（DP）：每个设备上有一个完整模型副本，各设备独立处理部分数据，之后通过AllReduce操作汇总梯度信息。通信量主要发生在每个epoch结束时，需要同步所有模型参数，因此通信量较大，尤其在大型模型中。
张量并行（TP）：模型的权重矩阵分割到不同设备上计算，通信主要在前向和后向传播过程中发生，每次迭代需要频繁交换张量分块的中间结果。这导致TP的通信量较大，尤其在复杂模型中，需要频繁执行concat操作。
流水线并行（PP）：模型的不同层分配到不同设备，设备间顺序传递激活和梯度。通信仅在相邻设备间进行，通信量较小，但需要解决同步问题以保证正确的计算顺序。

通信量比较：

通常来说，通信量排序为：**TP > DP > PP**。TP需要在每次迭代中交换分割后的张量，而DP则在每个epoch结束时进行一次较大的通信。PP通信量最小，但增加了调度和同步的复杂性。

混合并行策略：

实际应用中，常使用TP、DP、PP的混合策略。例如，在单个节点内部使用TP分割模型，在多个节点间使用DP加速训练，有时也会结合PP进一步优化。例如，对于16块GPU，可以按照如下方式分组：

模型并行（MP）：模型分布在多个GPU上。
张量并行（TP）：每个模型层的参数纵向切割分配给多个GPU。
流水线并行（PP）：每个模型层被分配到不同GPU，按顺序传递数据。

通过这种组合，可以有效减少通信开销，提升训练效率。

https://zhuanlan.zhihu.com/p/718370713?utm_psn=1815292995408359424

投机推理番外四：batch 与 IO

MagicDec 提出了结合推测长度、接受率和 batch size 的理论加速比模型，利用 SD 提高吞吐量和降低延迟，尤其在中等到长序列情况下，通过稀疏 KVCache 的草稿模型优化解码阶段。
BASS 针对批处理提出了优化不规则张量（ragged tensor）的方法，通过定制的 CUDA 内核处理批量维度上的不规则性，使用 BASS-PAD 和 BASS-SPLIT 调度方法，解决了序列长度和拒绝点不同导致的张量形状不一致的问题。
Clover/Clover-2 通过回归连接和知识蒸馏提高并行解码的准确性和效率，使用增强块来优化隐藏状态。Clover-2 引入了更复杂的增强块和独立注意力解码器，提升了模型性能，且知识蒸馏策略有效解决了过拟合问题。
FSPAD 引入特征采样和部分对齐蒸馏，通过在特征和 logits 之间建立联系来提高草稿模型的性能，减少训练过程中的不确定性。
KOALA 采用对抗学习方法训练草稿头，捕捉更复杂的 token 生成细节，以提高推测解码的准确性，展示了蒸馏的潜在优势。
DeFT 针对树形注意力（tree-attention）提出了优化策略，减少内存访问和缓存存储开销，通过树结构的 KVCache 共享提高计算效率，减少无效的计算资源占用。

总结：所有论文均探讨如何在推测解码中优化 IO 访问密度，涉及 memory bound 和 compute bound 问题。这些优化方法虽不够创新，但在当前架构下有实际效果。

https://zhuanlan.zhihu.com/p/716488006?utm_psn=1815071198356312064

最前沿——基础模型和多模态交互（2）：音频生成模型的技术概要

本文介绍了当前音频生成模型的技术发展，探讨了需求、训练与评估方法及其技术局限。

首先，音频作为重要的多媒体组成部分，对其生成模型的需求巨大，尤其是在语音生成方面，开发通用、可控且高质量的模型能显著提升创作效率。目前主流音频生成模型包括Meta的Audiobox、微软的NaturalSpeech、字节跳动的Seed-TTS等。

生成任务形式多样，如基于上下文的零样本语音生成，模型可根据示例音频生成具有相似风格的语音，支持多样化生成与语音编辑。常用任务包括去噪、语音分离、风格转换等。此外，模型还支持基于文本的声音生成、音乐生成等。

技术层面，音频生成模型通常采用大规模预训练和多任务微调训练。预训练时，使用自监督学习处理大规模未标注数据，基于流匹配建模声学特征。微调训练则针对具体任务，如语音合成或音效生成。常用的音频表征方法包括原始波形和梅尔频谱图，后者通过时频域转换更适合人类听觉感知。

模型评估方法如风格相似性、内容正确性和主观质量评估，以及Frechet音频距离等，用于衡量生成质量和准确性。

未来挑战包括生成控制性、语音属性解缠及防止滥用等问题。

https://zhuanlan.zhihu.com/p/718173141?utm_psn=1815091363282305028

智能眼镜有望成为端侧AI落地最佳场景之一|东吴电子

Ray-Ban Meta 智能眼镜销量突破百万，成为AI硬件的重要落地形式，展现出“AI眼镜”作为个人AI代理的潜力。Ray-Ban Meta 具备舒适时尚的设计，硬件上搭载高通AR1芯片、1200万像素摄像头等，并整合Meta的Llama模型，提供实时翻译、问答等多模态AI功能，用户通过“Hey Meta”与其交互。据统计，2024年预计出货量超150万台。

同时，AI+AR眼镜成为行业发展的关键趋势。数据显示，2023年AR设备出货量同比增长63.5%，预计2024年增速达85.6%。巨头如Meta积极布局，计划推出智能AR眼镜。AR眼镜的光学方案和显示器件为降本增效的核心，Micro LED+光波导被认为是未来最优的光显解决方案。

Ray-Ban Meta 的成功证明了智能眼镜在AI端侧落地的可行性，随着技术和成本的进一步优化，智能眼镜有望成为未来AI+AR领域的重要硬件载体。