我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

信号

香山开源项目在硅谷科技圈引起的反思

开源CPU的开发，尤其是高端CPU IP核，在全球范围内都被视为可能影响产业格局的关键技术。香山开源CPU核项目自启动以来，经历了五年的努力，并在2024年取得显著进展。香山团队持续优化其第三代芯片（昆明湖架构）的面积和功耗，最终实现与N2工艺相比，差距缩小到8%以内，这一成果进一步证明了开源CPU在性能和效率上的潜力。

开发开源芯片并非易事，特别是高端CPU IP核。相比传统的CPU，CPU IP核不仅需要高性能、低面积，还要确保功耗低，且在PPA（性能、面积、功耗）方面不能有短板。这种挑战意味着开发CPU IP核的难度远超直接制造一款CPU。尽管外界有声音质疑香山项目“雷声大雨点小”，但实际上，这个项目的技术难度和复杂性被低估了。香山团队不仅面临技术上的挑战，还要打破开源等于低性能和低质量的传统观念。过去五年的努力显示，香山已经成功突破了“开源=低性能”的偏见，并通过多家企业的评估证明了其高性能的价值。

目前，香山团队正在努力证明开源CPU核的质量不低于商业化版本，尤其是学术界发起的开源项目在市场上的应用潜力。这一目标的实现将是香山爆发的关键。尽管产业界普遍对中国学术界发起的开源项目持怀疑态度，但全球范围内，许多广泛应用的开源技术（如Linux、LLVM、Spark和Ray）最初也源自学术界，这为香山提供了前行的信心。

香山的研发团队拥有470多名在编人员，其中190余位是全职员工，具备丰富的量产芯片经验。这一优势使得香山有足够的基础面对行业挑战，并且团队深信自己能够突破技术难关。在市场应用方面，香山也已获得初步突破，成功吸引了“八大金刚”，即首批企业用户，证明了开源芯片在产业中的应用前景。尽管这些企业可能被一些人视为“小白鼠”，但它们对香山来说具有重要的责任和使命，团队将全力确保这些合作伙伴的成功，推动项目的进一步发展。

https://zhuanlan.zhihu.com/p/16436754766

金融风控领域的大模型落地实践

Akulaku是一家海外互联网金融平台，通过引入大模型优化金融风控、智能客服和电商推荐等业务，提升了风控系统的效能和用户体验。其应用场景涵盖KYC人脸识别、智能客服和设备数据分析等，通过集成图像、文本和设备数据，为各环节的业务提供支持。大模型的应用不仅提升了效率，还减轻了业务人员的负担，尤其是在欺诈调查和数据分析中，展现了AGI系统的潜力。

Akulaku的智能体系统由规划模块、存储模块和工具模块组成，围绕业务流程提供增强支持。在落地过程中，Akulaku首先强化了现有工具（如KYC和NLP模型），通过大模型优化工作流程。例如，在NLP模型中，通过少量人工标注数据，结合大模型生成候选数据，减少了标注量和交付时间，并提高了模型效果。而在图像反欺诈中，Akulaku使用大模型将图像与文本特征对齐，提高了模型的泛化能力，提升了图像分类的准确性，尤其是在面对光照和肤色变化时。

在大模型优化中，Akulaku还强调了Planning和Memory模块的作用，特别是通过大模型支持的Copilot形式的助手，帮助员工快速完成任务。反欺诈调查助手通过GraphRAG技术，识别业务需求并自动查询数据库；数据分析助手利用Text2SQL和Pandas工具，帮助员工更高效地进行数据处理和分析。通过智能体系统的引入，Akulaku的业务人员不再需要处理繁琐的重复性工作，而是能将注意力集中在核心业务和个案分析上。

https://zhuanlan.zhihu.com/p/16249193321

计算DeepSeekV3训练的MFU

自2024年12月发布以来，DeepSeekV3在人工智能领域引发了广泛关注，成为技术、政策、资本市场等多个领域的热点话题。其核心突破在于训练成本的显著降低，采用了创新的架构设计和高效的训练框架，训练成本仅为557万美元，却达到了SOTA级别的性能。这一成就引发了关于AI模型训练成本效益的深刻讨论，并间接影响了中美科技博弈和投资者对英伟达股价走势的预期。DeepSeekV3的背后是神秘的幻方公司，其低训练成本及高效的训练框架成为行业关注的焦点。

DeepSeekV3采用了MoE结构，尽管参数达到671B，但激活量仅为37B，大大提升了计算效率。此外，它还创新性地使用了幻方自研的HAI-LLM训练框架，采用流水线并行、FP8量化、通信计算隐藏等多种工程优化技术，从而实现了训练效率的飞跃。网络上的讨论主要集中在这一训练框架的高效性，尤其是Model FLOPs Utilization（MFU）的计算。MFU是衡量训练框架效率的重要指标，然而，直到DeepSeekV3的出现，MFU才引起了广泛关注。

通过计算每个token所需的FLOP数、总token数及GPU小时数，可以得出MFU。具体计算方法涉及多个复杂的FLOP估算，包括MLA和MoE的forward FLOP、MLP的forward FLOP等。根据公开数据，DeepSeekV3的MFU计算结果为35.5%，而通过估算另一种方法得到的MFU为38.2%。这一效率较之前版本DeepSeekV2的121提升了61%，显示出深度学习基础设施的显著优化。

从训练成本的角度来看，DeepSeekV3展示了其在AI大模型训练中的潜力，并且其高效的训练框架使得其每月能够节省大量的硬件租赁费用。与之相比，V2版本的训练效率较低，虽然两者在同一集群上训练，但V3的优化显著提高了整体效益。这一技术突破不仅对AI领域有深远影响，还对全球科技竞争格局、产业链的上游资源调配产生了重要的启示。

https://zhuanlan.zhihu.com/p/16445683081

LLMs生成代码的潜力与局限

2023年11月，OpenAI在ChatGPT中集成了DALL-E 3的图像生成功能，引发了一种短暂的网络迷因：用户给LLM一个基础图像，然后不断要求模型“让它更X”，X可以是任何属性。这种趋势很快消退，因为生成的图像大同小异且乏味，但学术上有趣的是，这种模糊的提示对最终图像产生了明显影响，且变化对用户显而易见。如果将类似技巧用于代码生成，LLM生成的代码遵循严格规则，质量可更客观衡量，若能通过迭代提示如“让代码更好”来提升代码质量，将极大提高生产力。但过度迭代又会怎样呢？代码会“走向宇宙”吗？

作者曾对LLM代码辅助工具如GitHub Copilot不感兴趣，因为使用时需要在不同思维模式间切换，且LLM生成的代码可能不准确，导致使用AI的生产力提升效果不佳。但Anthropic的Claude 3.5 Sonnet改变了作者的看法，其对各种提示尤其是编程提示的遵循度极高，且在多个技术与创造性任务中表现优异。

实验中，作者给Claude 3.5 Sonnet一个简单的Python编程问题：给定100万随机整数，找出数字和为30的最小与最大数之差。初始代码正确但效率不高，运行需657毫秒。通过不断要求“让代码更好”，Claude逐步优化代码。第一次迭代中，Claude将代码重构为Python类，预计算所有可能数字的数字和并存储在字节数组中，使代码速度提升2.7倍。第二次迭代，Claude引入多线程和numpy的向量化操作，速度提升至5.1倍。第三次迭代，代码虽无显著算法改进，但性能略有下降。第四次迭代，Claude使用numba库的JIT编译器和Python的asyncio进行并行化，速度提升至100倍。

然而，这种迭代提示存在局限，代码虽“更好”，但“更好”的定义过于宽泛，作者本意是算法优化，而非过度工程化的完整SaaS。于是作者尝试通过提示工程来明确要求。使用系统提示定义“完全优化”的规则，包括算法效率、并行化、风格规范等，并在用户提示中要求先规划所有必要优化。这次，Claude的初始实现使用了numpy和numba，速度提升59倍。后续迭代中，Claude尝试了更多优化手段，如SIMD操作、完美最小哈希表等，但部分实现存在错误或性能问题。最终，在修正错误后，代码速度提升至95倍。