大模型日报（9月11日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

PPTV创始人姚欣AI再创业

姚欣的第二次创业聚焦分布式云计算，PPIO通过分布式推理算力，提供低成本、高效率的云服务，未自建IDC或购买GPU，成为全国节点最多的云服务商。公司采用分布式架构，解决了传统集中式架构的扩容成本和性能瓶颈问题。PPIO的AI推理平台通过API调用，大幅降低运维成本，优化生图效率，缩短了AI应用的推理时间，提供全球范围内低延迟服务。技术创新包括FP8量化、KV Cache稀疏压缩等推理加速引擎，提升了大模型推理性能。姚欣选择分布式推理的战略基于对AI时代算力结构转型的深刻理解，未来95%的算力需求将来自推理计算。PPIO通过Serverless架构与分布式调度，实现了弹性扩展与按需付费。此创新模式帮助中小企业和开发者突破算力门槛，推动AI普及。姚欣的技术信仰源于对分布式计算的长期关注，他希望将其写进计算机教科书，推动技术普惠大众。

https://mp.weixin.qq.com/s/Mn0aK4Z66WMr3042zbLGRg

「Her」主创官宣离职OpenAI

亚历克西斯・康诺（Alexis Conneau），曾是OpenAI的技术负责人之一，也是「Her」项目的主要推动者，最近离职并创办了自己的公司。康诺是GPT-4o实时音频技术的关键人物之一，并参与了GPT-5的研发。他的离职距离ChatGPT的「Her」模式开放不到两个月，虽然目前尚未透露新公司的具体方向，但康诺表示他将继续“创造神奇”，引发了外界的期待。

康诺的背景非常扎实，他在巴黎综合理工学院学习数学，之后受到AI浪潮的吸引，转向人工智能领域。在Meta的AI实验室工作期间，他发表了广受引用的XLM-RoBERTa论文，并参与了语音自监督学习的多个项目。随后，他在谷歌的BERT/PaLM团队工作了一年，专注于多模态语言模型和自监督学习。2023年4月，康诺被OpenAI挖走，负责开发并领导OpenAI版的「Her」项目。

康诺的离职并非个例，OpenAI近年来出现了关键技术人才流失的现象。与此同时，OpenAI的新一代模型「Strawberry」预计将在两周内推出，并且有可能与ChatGPT集成。这一新产品能够在回答问题前进行“思考”，并且OpenAI还推出了新的定价方案，定价为200美元/月，明显低于之前传闻的2000美元/月。

https://mp.weixin.qq.com/s/O7k1GOh59CJM7IqCRZIrmA

小模型越级挑战14倍参数大模型，谷歌开启Test-Time端新的Scaling Law

谷歌DeepMind的最新研究引发了广泛讨论，甚至有人猜测这可能是OpenAI即将发布的新模型”草莓”所采用的方法。研究的核心是通过根据prompt的难度，在推理阶段动态分配计算资源，从而优化大模型的推理效率。该方法在某些情况下比简单扩展模型参数更为经济有效。具体而言，研究团队探讨了如何在一定计算预算内，使用不同的计算策略解决问题，并评估这些策略的有效性。

他们研究了两种主要的测试时计算扩展机制：一是使用过程密集验证器奖励模型（PRM）来指导搜索算法，动态调整计算策略，以减少不必要的计算；二是根据prompt自适应地修订模型的响应，通过逐步修改先前生成的答案来提高精度。研究发现，不同计算策略的效果依赖于prompt的难度，他们提出了”计算最优”的扩展策略，能够以更少的计算资源超越传统的best-of-N方法。

研究还比较了增加预训练与测试时计算的效果，结论显示，简单和中等难度问题上，测试时计算更有效，而对于更复杂的问题，增加预训练的计算量可能更为有效。这项研究表明，尽管测试时的计算优化无法完全替代大规模预训练，但在某些场景中有显著优势。

有网友将此研究与OpenAI”草莓”模型联系起来，猜测草莓模型可能使用类似的计算优化策略，通过在回答前”思考”来优化推理过程。这一猜测引发了广泛讨论和推测。

https://mp.weixin.qq.com/s/tfi7VOpSdKIXVb–k6NCSg

斯坦福团队用模仿学习赋予机器人新技能

斯坦福大学的Aloha 2机器人通过模仿学习，成功掌握了包括系鞋带、挂衣服、拧齿轮等精细操作任务。这一成果通过全球首个机器人自主系鞋带演示视频展示，Aloha 2的表现引起了广泛关注。相比早期的炒菜版本，Aloha 2进行了多项硬件改进，并展示了更复杂和精细的任务执行能力，如系蝴蝶结、收拾厨房和为“同事”更换配件等。研究团队通过扩散策略，在5个任务上收集了2.6万个示范数据，仅依赖模仿学习完成训练。

技术细节上，Aloha 2采用了参考ACT模型的神经网络架构，并未使用强化学习或条件VAE编码器。研究人员在嵌入中加入了位置嵌入，结合8500万参数的Transformer编码器和双向注意力解码器，最终生成动作预测。基础模型的总参数量达到2.17亿。训练基于JAX框架，使用64个TPUv5e并行训练，进行了200万步训练，优化器为Adam，权重衰减系数为0.001。

实验表明，Aloha 2的模仿学习方法取得了极高的成功率，证明模仿学习是实现99%成功率的有效途径。研究成果现已开源，提供硬件设计、教程和模拟模型，供开发者研究双手操作。

https://mp.weixin.qq.com/s/e9PTy3CGxnNnLiwVXyXVWA

微软官宣创建12个逻辑量子比特，联合AI首次破解化学难题

微软宣布在量子计算领域取得突破，成功创造了性能最佳的12个逻辑量子比特，并将其应用于复杂的量子纠缠状态中。这一成果依赖于Quantinuum的H2量子计算机及Azure Quantum平台。通过扩展微软的纠错算法和优化硬件，H2量子计算机实现了双量子比特保真度达99.8%，并首次展示了12个逻辑量子比特的纠缠操作，电路错误率比物理量子比特提高了22倍。研究团队还验证了8个量子比特在5轮纠错中的容错计算，展示了逻辑纠错与深度量子计算的结合优势。

微软展示了首次通过逻辑量子比特进行端到端的化学模拟，结合AI和高性能计算，加速化学研究。这一模拟利用两个逻辑量子比特来估算催化剂的基态能量，并通过经典计算方法验证其精度。结果表明，逻辑量子比特的表现优于物理量子比特，具备更高的计算精度。

这一成就标志着量子计算朝着可扩展、实用化迈进，特别是在科学领域如化学、物理和生命科学方面，微软与Atom计算的合作目标是实现1000+逻辑量子比特的突破，进一步推动科学发现和研发进程。

https://mp.weixin.qq.com/s/fLdAayL8QJG2ga6y6Rblbg

推特

Pixtral 12B：Mistral再开源新多模态模型

“dim”: 5120,

“n_layers”: 40,

“head_dim”: 128,

“hidden_dim”: 14336,

“n_heads”: 32,

“n_kv_heads”: 8,

“rope_theta”: 1000000000.0,

“norm_eps”: 1e-05,

“vocab_size”: 131072,

“vision_encoder”:

“hidden_size”: 1024,

“num_channels”: 3,

“image_size”: 1024,

“patch_size”: 16,

“rope_theta”: 10000.0,

“intermediate_size”: 4096,

“num_hidden_layers”: 24,

“num_attention_heads”: 16,

“image_token_id”: 10

https://x.com/MistralAI/status/1833758285167722836

Expand AI：将每个网站变成一个API，互联网上任何网站的自动结构化输出

这是一个非凡的想法。将每个网站变成一个API。可以将其视为互联网上任何网站的自动结构化输出。太疯狂了。http://expand.ai

https://x.com/rauchg/status/1833539593054130336

OpenAI Ell分享：轻量级、功能强大的语言模型编程库

我很高兴宣布提示工程的未来：𝚎𝚕𝚕。

𝚎𝚕𝚕是我在OpenAI工作期间构思并开发的轻量级、功能强大的语言模型编程库：

自动版本控制和追踪
丰富的本地开源可视化工具
原生支持多模态

https://x.com/wgussml/status/1833615864131948756

谷歌Gemini Quickstart：5分钟内开始使用Gemini API，每天可获得超过1500次免费请求

公告：你可以在不到5分钟内开始使用Gemini API，无需信用卡，只需一个API密钥，每天即可获得超过1500次免费请求！🏎️

https://x.com/OfficialLoganK/status/1833572986923732996

通过元数据预过滤解决RAG相似性和相关性不能相互转化的问题

相似性搜索在RAG（检索增强生成）中通常是不够的，因为与查询的相似性并不总能转化为相关性。

举个简单的例子来说明这一点。假设我想构建一个基于RAG的投资顾问，它可以帮助我理解公司根据其公开的10-K年度报告的财务表现。问题是，这些报告的语言非常相似，涵盖的主题也相似，文件中通常会以“公司”来指代公司。如果我问一个简单的RAG应用“苹果公司2023年的收入是多少？”，以下两个片段可能都会被检索出来，但哪个是相关的呢？🤔

❓“2023年的净收入为462.5亿美元，比2022年下降了2%。”

❓“在2023财年，我们总收入为6113亿美元，主要由6059亿美元的净销售额组成。”

在这里，这两个片段都不相关。第一个是来自高盛集团的报告，第二个是来自沃尔玛的报告，所以理想情况下，我们不希望检索到它们，即使它们听起来很相似。

🚀通过元数据预过滤可以显著改善这种情况下的检索结果。每份财务文件只涵盖一家特定公司和一个特定的财年。当为RAG预处理这些文档时，我们可以从每个文档中提取此信息，并将其作为元数据添加到所有片段中。这样，我们可以在RAG中添加元数据预过滤步骤，使相似性搜索仅应用于已经按公司名称和/或财年过滤的片段子集。

我与@MongoDB的@joshaaayyyy合作写了一篇博客文章，并发布了一个笔记本，展示了如何将自定义元数据提取添加到@UnstructuredIO数据预处理管道中，以及如何使用@MongoDB和@LangChainAI的LangGraph构建自查询RAG。可以在这条推文中找到相关链接 👇