大模型日报（8月10~11日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

以向量化的方式进行 RISC-V 向量指令模拟

本文详细介绍了如何通过优化 NEMU 模拟器来提升 RISC-V 向量指令的模拟速度。研究团队通过消除地址计算的冗余、采用位运算实现掩码操作以及避免 unbounded 循环，成功地提高了自动向量化的效率，从而利用 X86 的 AVX 指令加速 RVV 模拟。优化后的 NEMU 在 SPECint 2006 的 h264 基准测试中达到了 131 MIPS 的速度，远超 QEMU 的 7 MIPS。这一优化方法不仅适用于 RISC-V Vector 指令集，还可以扩展到其他向量指令集如 ARM SVE。通过实验，团队证明了在未开启自动向量化的情况下性能提升至 4 倍，开启后更是达到了 6 倍的提升，主要得益于减少的权限检查、地址翻译以及分支预测错误的减少。

https://zhuanlan.zhihu.com/p/713732958?utm_psn=1805606654663860225

单卡可Million-context推理TTFT 10倍加速 – MInference 1.0

MInference 1.0 是一款高效的推理引擎，通过先进的内存管理和并行计算技术，实现了在单一 GPU 上进行 Million-context 级别的推理处理。它的核心优势在于能够显著降低 Time to First Token (TTFT)，从而实现推理速度的 10 倍加速。技术细节上，MInference 1.0 采用了动态批处理和流水线处理技术，优化了内存访问模式，减少了冗余计算，提高了缓存命中率。这些技术的应用使得 MInference 1.0 能够在保持较低资源消耗的同时，提供快速且稳定的推理服务。此外，该引擎还兼容多种深度学习模型架构，如 Transformer 和 RNN，增强了其在自然语言处理、机器翻译等领域的应用性。

https://zhuanlan.zhihu.com/p/707815545?utm_psn=1805605787671863296

从大数据到大模型：搜索推荐技术的前沿探索

文章由阿里巴巴集团的技术专家施兴撰写，旨在分享搜索推荐技术的最新进展，特别是大模型在推荐系统中的应用。文章首先介绍了推荐系统的基础架构，包括召回、粗排和精排等关键环节，以及如何利用大数据平台进行高效的数据处理和模型训练。接着详细阐述了阿里云机器学习平台 PAI 的技术特点，如资源管理、大数据和 AI 服务、特征平台 FeatureStore 等。在推荐算法方面，文章提到了百炼模型服务平台和 EasyRec 算法库，强调了 Embedding 特征在提升推荐质量中的作用。此外，文章还探讨了模型优化技术，如多级缓存、特征自动淘汰、WorkQueue 模式等，以解决模型复杂性带来的训练和推理效率问题。最后，文章展望了大语言模型在搜索推荐领域的新应用，如电商导购、内容推荐等，并提出了 PAI-RAG 项目，旨在通过模块化设计提升 RAG 链路的适用性和效率。

https://zhuanlan.zhihu.com/p/713026917?utm_psn=1805606498140815360

flash attention完全解析和CUDA零基础实现

Flash Attention 是一种提高深度学习模型在处理长序列数据时效率的注意力机制。它通过优化矩阵乘法的计算过程，减少内存占用和计算量。具体而言，Flash Attention 利用 Strassen 算法降低了矩阵乘法的计算复杂度，并通过 CUDA 并行计算技术实现了高效的 GPU 加速。这种机制特别适合处理自然语言处理等领域的大规模数据，能够在保持模型性能的同时，显著提升计算速度和降低内存需求。实验结果表明，相比传统注意力机制，Flash Attention 在处理长序列时，显著提高了计算效率，尤其在资源受限的环境下尤为突出。

https://zhuanlan.zhihu.com/p/658947627?utm_psn=1805607416940867586

FPX-NIC：用于硬件编码的FPGA加速NIC框架

FPX-NIC 是一个基于 FPGA 的硬件编码加速框架，专为网络接口卡设计。它通过将编码逻辑集成到 NIC 中，实现数据处理的近似时实处理，大幅降低了延迟。该框架支持多种编码算法，如 H.264、H.265 等，并且能够根据应用场景动态调整编码参数，以优化性能。FPX-NIC 的模块化设计使得它能够轻松扩展新的编码算法，并且支持热插拔，提高了系统的灵活性和可维护性。此外，通过 Zero-Copy 技术，FPX-NIC 避免了不必要的数据复制，进一步提升了数据处理效率。

https://zhuanlan.zhihu.com/p/713707898?utm_psn=1805609150048251906

京东广告稀疏大模型训练与推理 GPU 优化实践

京东广告团队针对稀疏大模型的 GPU 训练与推理优化实践，通过内存管理优化、异步计算通信、流水线并行等技术手段，显著提升了模型处理效率。具体包括：采用内存池技术减少内存碎片，优化内存访问模式以提高带宽利用率；实现计算与通信的重叠，通过异步 IO 和 CUDA 流减少 GPU 空闲时间；以及设计流水线并行机制，实现数据加载、计算和参数更新的同步异步处理。这些措施不仅降低了 GPU 资源消耗，还缩短了模型训练和推理时间，提高了系统整体性能。