大模型日报(6月15~16日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月15~16日 学术篇)

学习

01

由矩阵乘法边界处理引起的CUDA wmma fragment与原始矩阵元素对应关系探究

本文主要探讨了在 CUDA 编程中利用 WMMA API 进行矩阵乘法时,不同 WMMA shape(如 16x16x16、32x8x16 和 8x32x16)下的 fragment 与原始矩阵元素之间的对应关系。作者指出,对于 Half 类型的矩阵乘法,直接使用现有的 GEMM 模板效率低下,仅达到 CUDA WMMA 性能的四分之一左右。因此,需要对 WMMA 进行特化优化。
文章详细说明了 WMMA 的基础结构,即每个 warp 维护的三类 fragment(matrix_a, matrix_b 和 accumulator),以及它们的存储结构frag_base。在具体操作中,load_matrix_syncstore_matrix_sync是 WMMA 中的核心访存函数,它们基于起始地址和 stride 来确定每个 thread 的访存位置。作者以 16x16x16 WMMA 为例,逐步解释了如何计算每个 thread 负责的 A、B、C 矩阵元素,并提供了具体的代码示例。
在 half 精度的 accumulator 使用中,作者建议采用 float 类型,以避免 precision 溢出问题,并分享了自己在实际使用中遇到的 warp misaligned address 报错及其解决方法。对于 32x8x16 和 8x32x16 这两种 WMMA shape,作者同样给出了详细的元素对应关系,并指出在不同 shape 下,这些关系会发生变化。
最后,作者总结了 WMMA 在处理 half 数据类型时的访存规律,并强调了不同数据类型(如 bfloat16、tf32)的 WMMA 实现可能会有不同的访存模式。作者建议在使用 WMMA 之前,通过简单的 kernel 来了解 fragment 与目标矩阵的对应访存关系,并在条件允许的情况下直接使用 CUDA 内置的 warp 级访存函数。
大模型日报(6月15~16日 学术篇)https://zhuanlan.zhihu.com/p/703476975
02

到底是时代选择了Nvidia,还是Nvidia选择了时代?

NVIDIA 自 RIVA128 显卡起,通过不断创新,成为显卡行业的领导者。在显卡技术从 AGP 到 PCI-E 的过渡期,NVIDIA 洞察到显卡在浮点运算方面的潜力,推动了显卡在科学计算领域的应用。CUDA 的推出彻底改变了显卡的使用场景,使得 GPU 可以进行通用计算任务(GPGPU),尤其是在人工智能领域的深度学习计算中发挥了关键作用。NVIDIA 的 GPU 流处理器架构和 CUDA 生态系统的建立,为并行计算提供了强大的支持,极大地提升了计算能力,推动了 AI 技术的快速发展。尽管一开始有人对使用显卡进行科学计算的必要性和有效性存疑,但随着技术的成熟和实际应用的普及,NVIDIA 的 GPU 已经成为研究和工业界不可或缺的计算资源。
大模型日报(6月15~16日 学术篇)https://www.zhihu.com/question/657934455/answer/3524396101
03

基于大模型的多意图增强搜索

亚马逊 AWS 推出基于大型语言模型(LLM)的多意图增强搜索技术,旨在优化传统业务系统的机构数据检索。该技术通过 Claude 模型实现自然语言理解,能够准确识别用户查询的多重意图,并转化为精确的检索操作。技术细节包括意图识别(如 RAG 模式和 Text2SQL)和后续的匹配处理,通过这种方式,系统能够处理复杂查询,支持拼音、中英文混合输入,并提高检索的准确性和效率。AWS 云服务的集成支持高可用性和安全性,同时降低了系统构建和运营的复杂性和成本。通过实际案例展示,该技术在处理复杂查询和提升用户体验方面展现出显著优势。
大模型日报(6月15~16日 学术篇)https://aws.amazon.com/cn/blogs/china/multi-intent-enhanced-search-based-on-llm/
04

多个后端的 Hugging Face Accelerate 故事:FSDP 和 DeepSpeed

Hugging Face Accelerate 支持 DeepSpeed 和 FSDP 两种后端,针对它们在精度处理上的差异,进行了优化以实现无缝切换。DeepSpeed 在优化器分片时自动进行fp32升精,而 FSDP 在默认情况下不执行此操作。为了消除这一差异,Accelerate 0.30.0 版本增加了 FSDP 的混合精度模式和低精度模式,使其能够根据用户需求选择是否进行升精。通过这些改进,FSDP 能够在内存受限的情况下运行,同时保持与 DeepSpeed 相似的训练效果。吞吐量测试表明,在使用 IBM Granite 7B 模型进行训练时,FSDP 和 DeepSpeed 的性能相当。此外,Accelerate 提供了灵活的配置方式,包括命令行和Plugin类,以及一个概念指南,帮助用户更好地理解和操作这两种后端。这些技术细节的优化和指导,极大地方便了用户在 DeepSpeed 和 FSDP 之间进行选择和迁移,提升了模型训练的效率和性能。
大模型日报(6月15~16日 学术篇)https://huggingface.co/blog/deepspeed-to-fsdp-and-back
05

CUDA GEMM优化

文章详细记录了作者从对 CUDA 编程不熟悉到逐步掌握并优化 CUDA GEMM 的学习过程。作者首先梳理了 GPU 架构和 CUDA 编程模型的基础知识,然后通过实践中的错误和调试经验,逐步深入理解了如何利用共享内存、优化全局内存访问、减少同步开销等技术细节来提升性能。特别是在共享内存的使用上,作者强调了 tiling 技术的重要性,即将矩阵分割成小块以便更高效地利用共享内存。此外,作者还分享了如何通过 NVIDIA Visual Profiler 分析性能计数器来指导优化工作,并最终总结出实现高效 CUDA GEMM 的关键在于深入理解硬件特性、精心设计算法和持续进行性能测试。
大模型日报(6月15~16日 学术篇)https://zhuanlan.zhihu.com/p/703256080?utm_psn=1784691296243331072
06

在Mistral服务器上使用Mistral进行精细调优的魔法

Mistral 公司推出的 Mistral Server 平台,通过微调技术允许开发者针对特定任务定制 AI 模型。技术细节包括使用 Python 库、上传数据集、设置训练参数(如训练步数和学习率)、监控训练状态,以及使用 Weights & Biases 进行训练可视化。微调过程涉及数据预处理、模型训练和验证,以及结果的评估。通过这种方式,开发者可以优化模型,使其更适合特定的应用场景,从而提高模型的准确性和性能。Mistral 的解决方案支持多种定制化需求,为 AI 技术的应用提供了灵活且高效的工具。
大模型日报(6月15~16日 学术篇)https://medium.com/ai-artistry/craft-your-ai-vision-fine-tuning-magic-with-mistral-on-mistral-server-6c9335232159
HuggingFace&Github

01

LongRoPE

LongRoPE 是一种新的扩展大型语言模型(LLM)上下文窗口的方法。它通过位置嵌入中的非一致性,采用渐进式的微调策略,调整较短上下文的嵌入,从而实现上下文窗口从原来的 4k 扩展到 2048k,同时还能够保持模型在各个上下文长度下的良好性能。
大模型日报(6月15~16日 学术篇)https://github.com/jshuadvd/LongRoPE
02

ClipboardConqueror

Clipboard Conqueror 让用户可以在任何文本框中轻松调用先进的语言模型,提高工作效率和创造力。它支持多种模型和 API ,并提供了丰富的配置选项。通过复制” ||| “加上问题或命令,就可以生成响应并粘贴到任何地方。Clipboard Conqueror 几乎可以在任何地方使用。它还提供了一些有用的扩展资源,如 Prompt Tower 和设计模式切换书签。
大模型日报(6月15~16日 学术篇)https://github.com/aseichter2007/ClipboardConqueror
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14716.html

Like (0)
Previous 2024-06-14 19:11
Next 2024-06-17 19:09

相关推荐