大模型日报(9月6日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月6日 学术篇)

学习

01

如何复现 SGLang v0.3.0 和 vLLM v0.6.0 的性能测试

在最近的性能测试中,vLLM v0.6.0 声称在 CPU 调度和吞吐量方面取得了显著提升。然而,SGLang 团队指出了一些事实性错误,并通过复现测试提供了更准确的性能比较。
  1. GPU Utilization 不公平对比:在 vLLM 的复现中,GPU utilization 被单独调整为 0.95,而其他框架如 SGLang、LMDeploy、TensorRT LLM 则使用了默认值,导致性能对比时不公平。SGLang 指出这种调整会影响极限吞吐量。
  2. Multi Step 设置影响:vLLM v0.6.0 引入了 multi step 设置,默认值为 10,这减少了 CPU overhead,提升了吞吐量(TPOT),但增加了 TTFT 和 ITL。用户感知的主要指标是 ITL,而 vLLM 在其博客中展示的却是 TPOT,且 TTFT 图表的 y 轴被放大,误导了读者对不同框架延迟的理解。
  3. 复现测试结果:SGLang 通过测试 Llama 3.1 8B 和 Llama 3.1 70B Instruct,结果显示:
    1. Online Benchmark:在 1xA100 和 4xH100 环境下,vLLM 的 Median TTFT 和 Median ITL 都显著高于 SGLang。vLLM 的 Median TTFT 接近 SGLang 的 3 倍,而 ITL 则接近 10 倍,这对在线应用场景影响较大。
    2. Offline Benchmark:在极限吞吐场景中,SGLang 在各个测试场景的 Output Token Throughput 上都优于 vLLM。
  4. 复现方法:SGLang 提供了复现细节,通过 RunPod 云平台,使用公开的脚本和配置可以重现这些结果,详细信息可在 SGLang 的 GitHub 项目中找到。
尽管 SGLang 指出了这些问题,他们也肯定了 vLLM 在 offline 场景的吞吐提升,并期待未来更多框架在功能、性能和扩展性上持续改进。
大模型日报(9月6日 学术篇)https://zhuanlan.zhihu.com/p/718504437?utm_psn=1815372290709409792
02

PEARL: 并行投机解码,推理加速最新SOTA(blog/paper/code均开源)

本文讨论了针对大模型推理中投机采样 (Speculative Decoding) 算法的加速问题,并提出了新的解决方案——PEARL框架。LLM推理过程包括前置填充阶段和解码阶段,其中解码阶段计算冗余较多。Speculative Decoding 提出了利用一个草稿模型生成多个token,并通过目标模型并行验证以提升效率。然而,草稿模型与目标模型间的“相互等待问题”导致资源浪费和延迟。
PEARL的创新在于引入了两个关键机制:预验证 (pre-verify) 和 后验证 (post-verify),使得目标模型和草稿模型能够在对方工作时提前处理部分任务,减少等待时间。理论上,PEARL可以通过草稿模型与目标模型的计算速度比确定最优草稿长度,并根据任务难度自适应调整解码长度,极大提高接受token的效率。
实验结果表明,PEARL在多个模型对和基准测试中实现了1.3到1.5倍的加速,比传统自回归解码快3到4倍。此外,PEARL与其他加速方法如EAGLE和DistillSpec可兼容,并采用动态资源分配来缓解GPU资源竞争问题,在性能损失控制在5%以内的同时扩大了应用场景。
大模型日报(9月6日 学术篇)https://zhuanlan.zhihu.com/p/716769091?utm_psn=1815410605504462848
03

大模型混合并行DP/TP/PP,如何划分机器?

在大规模深度学习模型的训练中,常见的并行策略包括数据并行(DP)、张量并行(TP)和流水线并行(PP),每种策略的通信量有所不同,影响训练效率。
  1. 数据并行(DP):每个设备上有一个完整模型副本,各设备独立处理部分数据,之后通过AllReduce操作汇总梯度信息。通信量主要发生在每个epoch结束时,需要同步所有模型参数,因此通信量较大,尤其在大型模型中。
  2. 张量并行(TP):模型的权重矩阵分割到不同设备上计算,通信主要在前向和后向传播过程中发生,每次迭代需要频繁交换张量分块的中间结果。这导致TP的通信量较大,尤其在复杂模型中,需要频繁执行concat操作。
  3. 流水线并行(PP):模型的不同层分配到不同设备,设备间顺序传递激活和梯度。通信仅在相邻设备间进行,通信量较小,但需要解决同步问题以保证正确的计算顺序。
通信量比较:
通常来说,通信量排序为:**TP > DP > PP**。TP需要在每次迭代中交换分割后的张量,而DP则在每个epoch结束时进行一次较大的通信。PP通信量最小,但增加了调度和同步的复杂性。
混合并行策略:
实际应用中,常使用TP、DP、PP的混合策略。例如,在单个节点内部使用TP分割模型,在多个节点间使用DP加速训练,有时也会结合PP进一步优化。例如,对于16块GPU,可以按照如下方式分组:
  • 模型并行(MP):模型分布在多个GPU上。
  • 张量并行(TP):每个模型层的参数纵向切割分配给多个GPU。
  • 流水线并行(PP):每个模型层被分配到不同GPU,按顺序传递数据。
通过这种组合,可以有效减少通信开销,提升训练效率。
大模型日报(9月6日 学术篇)https://zhuanlan.zhihu.com/p/718370713?utm_psn=1815292995408359424
04

投机推理番外四:batch 与 IO

  1. MagicDec 提出了结合推测长度、接受率和 batch size 的理论加速比模型,利用 SD 提高吞吐量和降低延迟,尤其在中等到长序列情况下,通过稀疏 KVCache 的草稿模型优化解码阶段。

  2. BASS 针对批处理提出了优化不规则张量(ragged tensor)的方法,通过定制的 CUDA 内核处理批量维度上的不规则性,使用 BASS-PAD 和 BASS-SPLIT 调度方法,解决了序列长度和拒绝点不同导致的张量形状不一致的问题。

  3. Clover/Clover-2 通过回归连接和知识蒸馏提高并行解码的准确性和效率,使用增强块来优化隐藏状态。Clover-2 引入了更复杂的增强块和独立注意力解码器,提升了模型性能,且知识蒸馏策略有效解决了过拟合问题。

  4. FSPAD 引入特征采样和部分对齐蒸馏,通过在特征和 logits 之间建立联系来提高草稿模型的性能,减少训练过程中的不确定性。

  5. KOALA 采用对抗学习方法训练草稿头,捕捉更复杂的 token 生成细节,以提高推测解码的准确性,展示了蒸馏的潜在优势。

  6. DeFT 针对树形注意力(tree-attention)提出了优化策略,减少内存访问和缓存存储开销,通过树结构的 KVCache 共享提高计算效率,减少无效的计算资源占用。

总结:所有论文均探讨如何在推测解码中优化 IO 访问密度,涉及 memory bound 和 compute bound 问题。这些优化方法虽不够创新,但在当前架构下有实际效果。

大模型日报(9月6日 学术篇)https://zhuanlan.zhihu.com/p/716488006?utm_psn=1815071198356312064

05

最前沿——基础模型和多模态交互(2):音频生成模型的技术概要

本文介绍了当前音频生成模型的技术发展,探讨了需求、训练与评估方法及其技术局限。
首先,音频作为重要的多媒体组成部分,对其生成模型的需求巨大,尤其是在语音生成方面,开发通用、可控且高质量的模型能显著提升创作效率。目前主流音频生成模型包括Meta的Audiobox、微软的NaturalSpeech、字节跳动的Seed-TTS等。
生成任务形式多样,如基于上下文的零样本语音生成,模型可根据示例音频生成具有相似风格的语音,支持多样化生成与语音编辑。常用任务包括去噪、语音分离、风格转换等。此外,模型还支持基于文本的声音生成、音乐生成等。
技术层面,音频生成模型通常采用大规模预训练和多任务微调训练。预训练时,使用自监督学习处理大规模未标注数据,基于流匹配建模声学特征。微调训练则针对具体任务,如语音合成或音效生成。常用的音频表征方法包括原始波形和梅尔频谱图,后者通过时频域转换更适合人类听觉感知。
模型评估方法如风格相似性、内容正确性和主观质量评估,以及Frechet音频距离等,用于衡量生成质量和准确性。
未来挑战包括生成控制性、语音属性解缠及防止滥用等问题。
大模型日报(9月6日 学术篇)https://zhuanlan.zhihu.com/p/718173141?utm_psn=1815091363282305028
06

智能眼镜有望成为端侧AI落地最佳场景之一|东吴电子

Ray-Ban Meta 智能眼镜销量突破百万,成为AI硬件的重要落地形式,展现出“AI眼镜”作为个人AI代理的潜力。Ray-Ban Meta 具备舒适时尚的设计,硬件上搭载高通AR1芯片、1200万像素摄像头等,并整合Meta的Llama模型,提供实时翻译、问答等多模态AI功能,用户通过“Hey Meta”与其交互。据统计,2024年预计出货量超150万台。
同时,AI+AR眼镜成为行业发展的关键趋势。数据显示,2023年AR设备出货量同比增长63.5%,预计2024年增速达85.6%。巨头如Meta积极布局,计划推出智能AR眼镜。AR眼镜的光学方案和显示器件为降本增效的核心,Micro LED+光波导被认为是未来最优的光显解决方案。
Ray-Ban Meta 的成功证明了智能眼镜在AI端侧落地的可行性,随着技术和成本的进一步优化,智能眼镜有望成为未来AI+AR领域的重要硬件载体。
大模型日报(9月6日 学术篇)https://mp.weixin.qq.com/s/lehImY7q7f8Of3KsqrstbQ
07

GPT5训练失败的思考

近期硅谷VC和AI创始人交流的要点集中在AI模型的scaling law可能已放缓,尤其是在大模型方面:
  1. 大模型发展放缓:AI依然是硅谷的焦点话题,但热度有所下降。原因是大模型的扩展速度减缓,尤其是在训练资源的需求上。谷歌内部在3-4周前训练Gemini下一代模型(预计比前代大10倍,类似于GPT-5)时,两次都失败,导致GPT-5的发布延期。主要挑战包括:
    1. MOE(Mixture of Experts)效果不佳:后训练阶段模型未能很好地收敛。
    2. 数据瓶颈:合成数据质量远不及现有的网络数据。
  2. GPT-5可能继续延期:由于上述技术困难,GPT-5发布时间或将继续延迟。
几点思考:
  • 现有模型的输出能力:GPT-4在有限信息输入下的表现已接近完美,许多未能满意回答的原因更多源于输入信息不足,而非模型能力不足。
  • 推理能力局限:现有模型虽然在长上下文处理上表现优秀,但在复杂推理任务中仍有局限。尤其是多阶推理、路径探索和经验积累,这些应依赖更复杂的Agent架构来实现。
  • 模型计算能力:大模型不应被期望进行精确的数学计算,因为这些涉及逻辑推理和记忆。将复杂计算任务交给专用工具处理是合理的。
  • “压缩即智能”的局限性:虽然压缩体现了智能的一部分,但真正的智能推导,如物理理论,更多依赖推理、假设和实验,而非简单归纳。
https://zhuanlan.zhihu.com/p/718513570?utm_psn=1815370525414924288
HuggingFace&Github

01

LLM101n

这个项目是一个名为”LLM101n: Let’s build a Storyteller”的课程,是一个从头开始构建基于大型语言模型(LLM)的讲故事 AI。该课程将涵盖从基础到构建一个类似 ChatGPT 的功能性 Web 应用程序的全过程,包括机器学习、深度学习、自然语言处理等相关技术。
大模型日报(9月6日 学术篇)https://github.com/karpathy/LLM101n
02

helicone

Helicone 是一个开源的 LLM 开发者平台,提供了全面的 LLM 监控、指标分析、提示管理、沙盒测试等功能。它支持 OpenAI、Anthropic、LangChain 等多种 LLM 提供商和框架,帮助开发者更好地管理和优化他们的 LLM 应用。
大模型日报(9月6日 学术篇)https://github.com/Helicone/helicone
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13101.html

Like (0)
Previous 2024-09-06 10:23
Next 2024-09-06 22:26

相关推荐

  • 让AI助手探索你的研究领域,只需七步!

    让AI助手探索你的研究领域,只需七步! 刚好在咖啡店拿着手机和AI助手侃侃而谈了一把,顺便对某个研究领域从外围往内核理一理思路,起初觉得AI的回答很体系化,有种滴水不漏的感觉,仔细…

    2023-06-27
    188
  • 大模型日报(5月17日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-17
    144
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    163
  • Github Copilot (ChatGPT)来了,程序员可以放心地脱下长衫了!

    微软当年拿下GitHub,数年之后,终于亮剑~ 微软旗下的 GitHub 今天正在彻底改造其 Copilot 系统,以集成 OpenAI 的 GPT-4 模型,并为其 AI 结对程…

    2023-03-24
    101
  • 大模型日报(5月31日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-31
    104
  • 大模型日报(7月15日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-15
    223
  • 大模型日报(5月14日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-14
    181
  • 大模型日报(8月23日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-23
    296
  • VS Code + ChatGPT 科研代码神器,五步信手拈来!

    先看看ChatGPT是怎么评价自己和VS Code结合的: VS Code 和 ChatGPT 的结合可以为开发人员和研究人员提供一个强大的工具,以快速生成和测试自然语言文本。VS…

    2023-03-07
    128
  • GoogleColab + ChatGPT 堪称一站式科研提速神器(堪称代码语法苦恼者的福音)!

    工欲善其事,必先利其器! 今日导师随手分享了一篇文章,关于GoogleColab上如何开启ChatGPT,我于是顺手尝试了一下,结果是,简直了!GoogleColab + Chat…

    2023-02-21
    163