大模型日报(1月4-5日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月4-5日 学术篇)

信号

01

香山开源项目在硅谷科技圈引起的反思

开源CPU的开发,尤其是高端CPU IP核,在全球范围内都被视为可能影响产业格局的关键技术。香山开源CPU核项目自启动以来,经历了五年的努力,并在2024年取得显著进展。香山团队持续优化其第三代芯片(昆明湖架构)的面积和功耗,最终实现与N2工艺相比,差距缩小到8%以内,这一成果进一步证明了开源CPU在性能和效率上的潜力。
开发开源芯片并非易事,特别是高端CPU IP核。相比传统的CPU,CPU IP核不仅需要高性能、低面积,还要确保功耗低,且在PPA(性能、面积、功耗)方面不能有短板。这种挑战意味着开发CPU IP核的难度远超直接制造一款CPU。尽管外界有声音质疑香山项目“雷声大雨点小”,但实际上,这个项目的技术难度和复杂性被低估了。香山团队不仅面临技术上的挑战,还要打破开源等于低性能和低质量的传统观念。过去五年的努力显示,香山已经成功突破了“开源=低性能”的偏见,并通过多家企业的评估证明了其高性能的价值。
目前,香山团队正在努力证明开源CPU核的质量不低于商业化版本,尤其是学术界发起的开源项目在市场上的应用潜力。这一目标的实现将是香山爆发的关键。尽管产业界普遍对中国学术界发起的开源项目持怀疑态度,但全球范围内,许多广泛应用的开源技术(如Linux、LLVM、Spark和Ray)最初也源自学术界,这为香山提供了前行的信心。
香山的研发团队拥有470多名在编人员,其中190余位是全职员工,具备丰富的量产芯片经验。这一优势使得香山有足够的基础面对行业挑战,并且团队深信自己能够突破技术难关。在市场应用方面,香山也已获得初步突破,成功吸引了“八大金刚”,即首批企业用户,证明了开源芯片在产业中的应用前景。尽管这些企业可能被一些人视为“小白鼠”,但它们对香山来说具有重要的责任和使命,团队将全力确保这些合作伙伴的成功,推动项目的进一步发展。
大模型日报(1月4-5日 学术篇)
https://zhuanlan.zhihu.com/p/16436754766
02

金融风控领域的大模型落地实践

Akulaku是一家海外互联网金融平台,通过引入大模型优化金融风控、智能客服和电商推荐等业务,提升了风控系统的效能和用户体验。其应用场景涵盖KYC人脸识别、智能客服和设备数据分析等,通过集成图像、文本和设备数据,为各环节的业务提供支持。大模型的应用不仅提升了效率,还减轻了业务人员的负担,尤其是在欺诈调查和数据分析中,展现了AGI系统的潜力。
Akulaku的智能体系统由规划模块、存储模块和工具模块组成,围绕业务流程提供增强支持。在落地过程中,Akulaku首先强化了现有工具(如KYC和NLP模型),通过大模型优化工作流程。例如,在NLP模型中,通过少量人工标注数据,结合大模型生成候选数据,减少了标注量和交付时间,并提高了模型效果。而在图像反欺诈中,Akulaku使用大模型将图像与文本特征对齐,提高了模型的泛化能力,提升了图像分类的准确性,尤其是在面对光照和肤色变化时。
在大模型优化中,Akulaku还强调了Planning和Memory模块的作用,特别是通过大模型支持的Copilot形式的助手,帮助员工快速完成任务。反欺诈调查助手通过GraphRAG技术,识别业务需求并自动查询数据库;数据分析助手利用Text2SQL和Pandas工具,帮助员工更高效地进行数据处理和分析。通过智能体系统的引入,Akulaku的业务人员不再需要处理繁琐的重复性工作,而是能将注意力集中在核心业务和个案分析上。
大模型日报(1月4-5日 学术篇)
https://zhuanlan.zhihu.com/p/16249193321
03

计算DeepSeekV3训练的MFU

自2024年12月发布以来,DeepSeekV3在人工智能领域引发了广泛关注,成为技术、政策、资本市场等多个领域的热点话题。其核心突破在于训练成本的显著降低,采用了创新的架构设计和高效的训练框架,训练成本仅为557万美元,却达到了SOTA级别的性能。这一成就引发了关于AI模型训练成本效益的深刻讨论,并间接影响了中美科技博弈和投资者对英伟达股价走势的预期。DeepSeekV3的背后是神秘的幻方公司,其低训练成本及高效的训练框架成为行业关注的焦点。
DeepSeekV3采用了MoE结构,尽管参数达到671B,但激活量仅为37B,大大提升了计算效率。此外,它还创新性地使用了幻方自研的HAI-LLM训练框架,采用流水线并行、FP8量化、通信计算隐藏等多种工程优化技术,从而实现了训练效率的飞跃。网络上的讨论主要集中在这一训练框架的高效性,尤其是Model FLOPs Utilization(MFU)的计算。MFU是衡量训练框架效率的重要指标,然而,直到DeepSeekV3的出现,MFU才引起了广泛关注。
通过计算每个token所需的FLOP数、总token数及GPU小时数,可以得出MFU。具体计算方法涉及多个复杂的FLOP估算,包括MLA和MoE的forward FLOP、MLP的forward FLOP等。根据公开数据,DeepSeekV3的MFU计算结果为35.5%,而通过估算另一种方法得到的MFU为38.2%。这一效率较之前版本DeepSeekV2的121提升了61%,显示出深度学习基础设施的显著优化。
从训练成本的角度来看,DeepSeekV3展示了其在AI大模型训练中的潜力,并且其高效的训练框架使得其每月能够节省大量的硬件租赁费用。与之相比,V2版本的训练效率较低,虽然两者在同一集群上训练,但V3的优化显著提高了整体效益。这一技术突破不仅对AI领域有深远影响,还对全球科技竞争格局、产业链的上游资源调配产生了重要的启示。
https://zhuanlan.zhihu.com/p/16445683081
04

LLMs生成代码的潜力与局限

2023年11月,OpenAI在ChatGPT中集成了DALL-E 3的图像生成功能,引发了一种短暂的网络迷因:用户给LLM一个基础图像,然后不断要求模型“让它更X”,X可以是任何属性。这种趋势很快消退,因为生成的图像大同小异且乏味,但学术上有趣的是,这种模糊的提示对最终图像产生了明显影响,且变化对用户显而易见。如果将类似技巧用于代码生成,LLM生成的代码遵循严格规则,质量可更客观衡量,若能通过迭代提示如“让代码更好”来提升代码质量,将极大提高生产力。但过度迭代又会怎样呢?代码会“走向宇宙”吗?
作者曾对LLM代码辅助工具如GitHub Copilot不感兴趣,因为使用时需要在不同思维模式间切换,且LLM生成的代码可能不准确,导致使用AI的生产力提升效果不佳。但Anthropic的Claude 3.5 Sonnet改变了作者的看法,其对各种提示尤其是编程提示的遵循度极高,且在多个技术与创造性任务中表现优异。
实验中,作者给Claude 3.5 Sonnet一个简单的Python编程问题:给定100万随机整数,找出数字和为30的最小与最大数之差。初始代码正确但效率不高,运行需657毫秒。通过不断要求“让代码更好”,Claude逐步优化代码。第一次迭代中,Claude将代码重构为Python类,预计算所有可能数字的数字和并存储在字节数组中,使代码速度提升2.7倍。第二次迭代,Claude引入多线程和numpy的向量化操作,速度提升至5.1倍。第三次迭代,代码虽无显著算法改进,但性能略有下降。第四次迭代,Claude使用numba库的JIT编译器和Python的asyncio进行并行化,速度提升至100倍。
然而,这种迭代提示存在局限,代码虽“更好”,但“更好”的定义过于宽泛,作者本意是算法优化,而非过度工程化的完整SaaS。于是作者尝试通过提示工程来明确要求。使用系统提示定义“完全优化”的规则,包括算法效率、并行化、风格规范等,并在用户提示中要求先规划所有必要优化。这次,Claude的初始实现使用了numpy和numba,速度提升59倍。后续迭代中,Claude尝试了更多优化手段,如SIMD操作、完美最小哈希表等,但部分实现存在错误或性能问题。最终,在修正错误后,代码速度提升至95倍。
大模型日报(1月4-5日 学术篇)
https://minimaxir.com/2025/01/write-better-code/

 HuggingFace&Github

01

aiCoder JavaScript库

利用 AI 轻松打造您的 JavaScript 库!
厌倦了手动将代码片段从 ChatGPT 复制并粘贴到编辑器中?aiCoder是您的解决方案,通过人工智能助手简化编码流程。
使用aiCoder作为您的编码副驾驶,您可以简化开发、完善代码并通过自然语言交互将想法变为现实。它可以智能地将人工智能建议的更改合并到您现有的代码中,而不会破坏您已经构建的代码。
神奇之处在于 aiCoder 先进的合并逻辑,它可以保持原始代码完整,同时精确可靠地集成新代码片段。
大模型日报(1月4-5日 学术篇)
https://github.com/mmiscool/aiCoder


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32593.html

Like (0)
Previous 2025-01-03 21:30
Next 2025-01-06 11:26

相关推荐