大模型日报（5月9日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

所有生命分子一夜皆可AI预测！AlphaFold 3改变人类对生命的理解，全球科学家都能免费使用

AlphaFold 3再登Nature！这次重磅升级，不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结构和相互作用。”只有了解它们如何在数百万种组合中相互作用，我们才能开始真正理解生命的过程。”这次的最大创新之一，是用上了AI绘画上常见的去噪扩散模型，直接生成每个原子的3D坐标。现在，AlphaFold 3对普通感冒病毒Spike蛋白（蓝色）的结构预测，灰色部分为预测结果。这能让人类更进一步了解冠状病毒。

https://mp.weixin.qq.com/s/27ZHwSgo5Cp3_ch0tktO-w

OpenAI提供了一窥其人工智能秘密指令背后的秘密

有没有想过为什么像ChatGPT这样的对话式人工智能会说“对不起，我做不到”或其他礼貌的拒绝？OpenAI提供了其模型参与规则背后的有限原因，无论是坚持品牌指导方针还是拒绝制作NSFW内容。大语言模型(llm)对它们能说或将要说的内容没有任何自然发生的限制。这就是它们如此多才多艺的原因，也是它们产生幻觉的原因。对于任何与公众互动的人工智能模型来说，有必要对它应该做什么和不应该做什么设置一些护栏，但定义这些护栏——更不用说执行它们了——是一项非常困难的任务。如果有人要求人工智能生成一堆关于公众人物的虚假声明，它应该拒绝，对吧?但如果他们自己就是人工智能开发者，为探测器模型创建一个合成虚假信息数据库呢? 如果有人要求推荐笔记本电脑怎么办？应该是客观的，但是，如果该模型是由笔记本电脑制造商部署的，而该制造商希望它只响应自己的设备呢? 人工智能制造商都在解决这样的难题，并寻找有效的方法来控制他们的模型，而不会导致它们拒绝完全正常的请求。但他们很少分享他们是如何做到的。OpenAI通过发布所谓的“模型规范”(model spec)来扭转这一趋势，这是一组间接管理ChatGPT和其他模型的高级规则。

https://techcrunch.com/2024/05/08/openai-offers-a-peek-behind-the-curtain-of-its-ais-secret-instructions/

阿里云发布通义千问2.5：全面赶超GPT-4 Turbo

阿里云正式发布了通义千问2.5，模型性能全面赶超GPT-4 Turbo，声称地表最强中文大模型。据了解，通义千问2.5最新开源的1100亿参数模型在多个基准测评中均取得了最佳成绩，成功超越了Meta的Llama-3-70B模型，成为开源领域的新标杆。相比通义千问2.1版本，通义千问2.5在上述四项能力上分别提升了9%、16%、19%和10%，其中中文能力更是持续领先业界。在权威基准OpenCompass上，通义千问2.5的得分追平了GPT-4 Turbo，这是该基准首次有国产大模型取得如此出色的成绩。这一成绩不仅证明了通义千问2.5在中文语境下的卓越性能，也展示了阿里云在人工智能领域的创新能力。

https://news.mydrivers.com/1/978/978802.htm

再见机器人：Altera的游戏AI代理得到了埃里克·施密特的支持

自主的，AI-based的玩家正在接近你的游戏体验，而一家名为Altera的初创公司正在加入这场战斗，以建立这种新的人工智能代理卫队。该公司周三宣布，在一轮超额认购的种子轮融资中筹集了900万美元，该轮融资由First Spark Ventures(埃里克•施密特的深度科技基金)和Patron (Riot Games校友共同创立的种子期基金)共同领投。

https://techcrunch.com/2024/05/08/bye-bye-bots-alteras-game-playing-ai-agents-get-backing-from-eric-schmidt/

微软将在原地投33亿美元建AI基础设施

微软周三宣布，将在威斯康星州投资数十亿美元用于建设人工智能(AI)基础设施，这家美国科技巨头正在为日益增长的AI计算需求做好准备，这也是该公司在全球范围内进行的一系列大规模投资中的最新一站。

https://www.cls.cn/detail/1670891

“驯服”不受控的大模型，要搞定哪些事？专访达观数据副总裁王文广

GPT 爆火一年多后，无论在国内、外，“几乎所有领域都需要用大模型重构”的论调已深入人心。中国 200 多家厂商掀起的“百模大战”、层出不穷的千亿和万亿大参数模型、性能效果与应用方向的飞速迭代，无一不在表明大模型被各行各业拥抱的热潮力度。但在更多行业对大模型跃跃欲试之际，也有许多现实的落地问题浮现出来，可控性问题就是其中之一。最近，达观数据副总裁王文广进行了演讲分享，他将从大模型相关技术和幻觉问题为切入点，探讨如何利用知识图谱、RAG 和大模型融合的技术路线提高大模型的可解释性、可操作性和可控性。

https://mp.weixin.qq.com/s/4p-1j5J4bHaanchJVmk9qQ

推特

OpenAI发布模型规范——塑造期望模型行为的方法

OpenAI：
为了加深公众对人工智能模型应如何行为的讨论，我们正在分享我们的模型规范——我们塑造期望模型行为的方法。

https://x.com/OpenAI/status/1788254844765217227

Shawn Wang评价：非常周到，基本上可以视为我们这个时代的三大法则

swyx在ICLR会议上提到了OpenAI API中的新功能：“聊天”与“无闲聊”的切换以及更多即将推出的更新。他认为Joanne Jang等人设计的新模型规范非常周到，基本上可以视为我们这个时代的三大法则，特别是目标、规则和默认设置的分割。但他也提出了一个问题：为什么没有人在讨论这里宣布的API的低调变更呢？新的角色变更包括将“平台”、“系统”改为“开发者”、“工具”，新设置包括“互动模式”的聊天风格与无闲聊，以及新增的多方控制字段，允许指定“接收者”和“结束回合”，这主要适用于代理间的对话。此外，还引入了多模态输入/输出功能。

https://x.com/swyx/status/1788383796225573017

Yi Ding评价模型规范：GPT-5在推理能力将是重大进步，但对开发者而言，GPT更加不透明和不可预测

来自 @OpenAI 模型规范的几点总结：

GPT-5和未来的模型在决策制定和指令执行方面将有显著改善。这里的条件数量庞大，有些甚至近乎矛盾，令人印象深刻。
多级指令，用户将无法访问大多数顶级指令。系统消息现在变为开发者消息，顶层有一个称为平台消息的层，只能由OpenAI更改。这一变更是出于安全/安保原因，但如果处理不当，可能会导致过度拒绝，就像我们在Llama 2中看到的那样。
基于“设置”的自定义输出。”交互式”和”最大令牌数”现在将直接影响模型的输出，这意味着将不再有一个标准的“GPT-5”响应。之前，最大令牌数只是进行截断，但现在它会影响简洁性。
YAML、JSON和XML在模型中被明确指出，并与提示的其他部分不同对待。这样做是为了避免提示注入，但这也可能意味着用这些类型的输入构建的提示在未来模型中的表现会更好。
有迹象表明，一些规则可以被覆盖。测试哪些规则被模型更强烈地持有，哪些规则被更弱地持有将是有趣的。

好消息：我认为这表明GPT-5在推理能力上将是一个重大的进步。这也表明OpenAI继续认真对待安全，尽管到目前为止，他们所实施的每一层过滤和安全措施都被绕过了。新的提示层次结构是否能彻底解决这个问题将是有趣的。

坏消息：对于应用程序开发者来说，这可能表明GPT输出将变得更加不可预测和不透明。许多规则层次无疑会导致之前调整好的程序和提示停止工作的特殊情况。

丑陋的一面：即使现在有了4个级别的提示，也没有专门的上下文或RAG消息。

https://x.com/yi_ding/status/1788281765637038294

AlphaFold 3：精确预测生命分子的结构和相互作用

非常兴奋地宣布推出AlphaFold 3，该模型能够预测几乎所有生命分子（包括蛋白质、DNA和RNA）的结构和相互作用，并达到最先进的准确性。生物学是一个复杂的动态系统，因此模拟相互作用至关重要。

https://x.com/demishassabis/status/1788229162563420560

Jim Fan评价：大突破，得益于现在的通用人工智能配方

AlphaFold-3发布了，这是人工智能在生物学领域最伟大突破的最新迭代。新特性是AlphaFold-3使用扩散过程来“渲染”分子结构。它从一个模糊的原子云开始，然后通过去噪逐渐实现分子的物质化。

我们生活在一个时代，Llama和Sora的学习成果可以为生命科学的信息提供和加速。我发现这种通用性的层次令人难以置信。同样的变换器+扩散主干不仅可以生成精美的像素，只要你相应地将数据转换为浮点数序列，它还可以想象蛋白质。

我们还没有达到一个单一的通用人工智能模型，但我们已经成功构建了一套通用的人工智能配方，这些配方在不同领域间转移训练、数据和神经架构。按理说这不应该行得通，但感谢上帝，它确实行得通！

https://x.com/DrJimFan/status/1788233450123936020

Phi-3 WebGPU：浏览器中本地运行，设备上推理！

推出Phi-3 WebGPU，这是一个私密且强大的AI聊天机器人，它在您的浏览器中本地运行，由🤗 Transformers.js和onnxruntime-web驱动！

🔒 设备上推理：不将数据发送到服务器

⚡️ WebGPU加速（> 20 t/s）

📥 模型下载一次并缓存

https://x.com/xenovacom/status/1788177160227660079

Niels Rogge分享：在Idefics2的基础上为文档的应用情景微调

Idefics2 是同等规模中最强大的开源视觉语言模型之一。为了庆祝它的发布，我创建了一个演示笔记本，展示了如何为文档AI用例（例如，收据图像 -> JSON）微调它。

https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb

https://x.com/NielsRogge/status/1788160339088912876

DeepLearning AI分享新课程：Jerry Liu讲述《构建具有代理性的RAG与LlamaIndex》

我很高兴启动我们的短期课程系列，这些课程聚焦于代理，首先是由 @jerryjliu0，@llama_index 的CEO教授的《构建具有代理性的RAG与LlamaIndex》。

这涵盖了RAG（检索增强生成）中的一个重要转变，在这一转变中，我们不再由开发者编写显式程序来检索信息以供给LLM（大型语言模型）上下文，而是构建一个具有获取信息工具的RAG代理。这使得代理可以决定获取哪些信息，并利用多步骤推理回答更复杂的问题。

具体来说，你将学习到：

路由：你的代理将使用决策来将请求路由到多个工具。
工具使用：你将创建一个界面，让代理选择使用哪个工具（函数调用）以及生成正确的参数。
使用工具的多步骤推理：你将使用LLM执行多个推理步骤，同时在整个过程中保持记忆。

你还将学习如何逐步检查你的代理正在做什么，以便调试和迭代改进。

构建代理的时代令人兴奋。在这里报名并开始学习吧！https://deeplearning.ai/short-courses/building-agentic-rag-with-llamaindex

https://x.com/AndrewYNg/status/1788246239517282795

Yuzhe Qin：我为什么敢让BunnyVisionPro机器人触摸我的脸

许多人对模特（也就是我）的勇敢印象深刻，因为我允许机器人触摸我的脸。然而，这并不像看起来那么危险。以下是常见的机器人操控系统如何增强安全性的要点：

硬件级保护：大多数机器人会监控电机电流。如果机器人发生重大撞击，电流将超过预设限制，触发自动关闭以防止任何危险行为。
控制级保护：装备有扭矩传感器的机器人可以监控和调整每个关节的扭矩。它们使用阻抗控制来适应不同的任务，这涉及到为最佳性能微调众多参数。这更像是精确性与顺应性之间的权衡，且是特定于任务的。例如，在护肤任务中，优先保证安全比精确性更重要。
算法级保护：运动生成和规划算法将期望的末端执行器姿态转换为特定的机器人运动命令，如关节级命令。在此过程中，我们可以对环境中的对象进行建模，以避免潜在的碰撞。碰撞检测需要大量计算资源，而且经常需要工程解决方案来加速这一过程，以实现实时执行。

多亏了这些技术，与机器人互动比你想象的要安全。

https://x.com/QinYuzhe/status/1787970486594641933

Keshav分享 Ilya 30u30：如果你真正学会了这些，你就掌握了当今90%重要的知识

今天我了解到，Ilya Sutskever 给 John Carmack 提供了一个包含大约30篇研究论文的阅读清单，并说，‘如果你真正学会了这些，你就掌握了当今90%重要的知识。’

https://x.com/keshavchan/status/1787861946173186062

AI Device Template：由AI驱动的语音助手，利用各种AI模型和服务为用户查询提供智能响应

这个项目是一个由AI驱动的语音助手，利用各种AI模型和服务为用户查询提供智能响应。它支持语音输入、转录、文本到语音、图像处理以及具有条件渲染的UI组件的函数调用。这个项目的灵感来源于最近的AI设备趋势，如Humane AI Pin和Rabbit R1。

今天，我将开源我最新的项目，深入研究人工智能设备。这个项目使用了多种技术，包括GroqInc的Llama3（即将推出耳语预览），LangChainAI和Langsmith，OpenAI的文字转语音、视觉和耳语技术，Vercel的人工智能开发套件，Next.js，Serperapi的搜索功能，Upstash的速率限制以及FAL的Llava。相关视频和代码仓库信息请查看下方链接。

https://x.com/Dev__Digest/status/1787860999950712846

产品

Abstra Workflows

Abstra Workflows 是一款基于 Python 和 AI 的工作流引擎，帮助公司设计和管理定制的业务流程，无需额外开支。它可以将自动化任务与人工评审相结合，提供实时运营洞察和完整的历史跟踪，解决了企业在使用无代码工具、管理本地脚本、赋予非技术人员自主权、审计流程变更等方面的痛点。

https://www.abstra.io/

Ringly.io

Ringly.io 是一家 AI 电话代理服务公司，旨在帮助电商企业自动化客户服务并降低成本。它通过将人工客户服务替换为基于 AI 的即时响应电话系统，让企业能节省 90% 的客户服务开支，同时为客户提供更快捷、更准确的服务。该公司使用了ElevenLabs的先进语音技术，使 AI 代理的声音更加自然流畅，提升了客户体验。

https://www.ringly.io/

投融资

DatologyAI完成4,600万美元A轮融资

DatologyAI宣布完成了由Felicis Ventures的Viv Faga和Astasia Myers领投的4,600万美元A轮融资，现有种子投资者Radical Ventures和Amplify Partners以及新投资者Elad Gil、M12和Amazon Alexa Fund也参与了此轮融资。该公司专注于构建全球最佳的自动数据筛选平台，帮助客户在PB级规模下更快地训练模型，提高性能，并使较小的模型实现与更大模型相竞争的性能。这笔资金将使公司能够大幅扩展团队规模，增加计算能力，推动数据筛选的可能性前沿，不仅限于语言模型，而是跨越多种模态。

公司官网：https://www.datologyai.com/

https://www.datologyai.com/post/datologyai-raises-46m-series-a

XTEND获得4,000万美元B轮融资，推出机器人和无人机操作系统

以色列初创公司XTEND开发了一款AI驱动的机器人和无人机操作系统，旨在为它们提供人工智能能力，并帮助它们与人类合作。该公司宣布已经完成4,000万美元的B轮融资，由Chartered Group领投，以及现有和新的战略投资者Clal-Tech等的进一步参与。CEO Aviv Shapira表示，此轮融资是在10月7日加沙战争爆发前发起的，自那时以来，公司已将全部注意力转向为以色列国防军开发系统。XTEND的人工监督、AI驱动的无人机和机器人操作系统使操作员能够在任何环境中执行高度复杂和动态的任务，无需太多培训。

公司官网：https://www.xtend.me/