大模型日报(9月11日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月11日 资讯篇)

资讯

01

PPTV创始人姚欣AI再创业

姚欣的第二次创业聚焦分布式云计算,PPIO通过分布式推理算力,提供低成本、高效率的云服务,未自建IDC或购买GPU,成为全国节点最多的云服务商。公司采用分布式架构,解决了传统集中式架构的扩容成本和性能瓶颈问题。PPIO的AI推理平台通过API调用,大幅降低运维成本,优化生图效率,缩短了AI应用的推理时间,提供全球范围内低延迟服务。技术创新包括FP8量化、KV Cache稀疏压缩等推理加速引擎,提升了大模型推理性能。姚欣选择分布式推理的战略基于对AI时代算力结构转型的深刻理解,未来95%的算力需求将来自推理计算。PPIO通过Serverless架构与分布式调度,实现了弹性扩展与按需付费。此创新模式帮助中小企业和开发者突破算力门槛,推动AI普及。姚欣的技术信仰源于对分布式计算的长期关注,他希望将其写进计算机教科书,推动技术普惠大众。
大模型日报(9月11日 资讯篇)https://mp.weixin.qq.com/s/Mn0aK4Z66WMr3042zbLGRg
02

「Her」主创官宣离职OpenAI

亚历克西斯・康诺(Alexis Conneau),曾是OpenAI的技术负责人之一,也是「Her」项目的主要推动者,最近离职并创办了自己的公司。康诺是GPT-4o实时音频技术的关键人物之一,并参与了GPT-5的研发。他的离职距离ChatGPT的「Her」模式开放不到两个月,虽然目前尚未透露新公司的具体方向,但康诺表示他将继续“创造神奇”,引发了外界的期待。
康诺的背景非常扎实,他在巴黎综合理工学院学习数学,之后受到AI浪潮的吸引,转向人工智能领域。在Meta的AI实验室工作期间,他发表了广受引用的XLM-RoBERTa论文,并参与了语音自监督学习的多个项目。随后,他在谷歌的BERT/PaLM团队工作了一年,专注于多模态语言模型和自监督学习。2023年4月,康诺被OpenAI挖走,负责开发并领导OpenAI版的「Her」项目。
康诺的离职并非个例,OpenAI近年来出现了关键技术人才流失的现象。与此同时,OpenAI的新一代模型「Strawberry」预计将在两周内推出,并且有可能与ChatGPT集成。这一新产品能够在回答问题前进行“思考”,并且OpenAI还推出了新的定价方案,定价为200美元/月,明显低于之前传闻的2000美元/月。
大模型日报(9月11日 资讯篇)https://mp.weixin.qq.com/s/O7k1GOh59CJM7IqCRZIrmA
03

小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law

谷歌DeepMind的最新研究引发了广泛讨论,甚至有人猜测这可能是OpenAI即将发布的新模型”草莓”所采用的方法。研究的核心是通过根据prompt的难度,在推理阶段动态分配计算资源,从而优化大模型的推理效率。该方法在某些情况下比简单扩展模型参数更为经济有效。具体而言,研究团队探讨了如何在一定计算预算内,使用不同的计算策略解决问题,并评估这些策略的有效性。
他们研究了两种主要的测试时计算扩展机制:一是使用过程密集验证器奖励模型(PRM)来指导搜索算法,动态调整计算策略,以减少不必要的计算;二是根据prompt自适应地修订模型的响应,通过逐步修改先前生成的答案来提高精度。研究发现,不同计算策略的效果依赖于prompt的难度,他们提出了”计算最优”的扩展策略,能够以更少的计算资源超越传统的best-of-N方法。
研究还比较了增加预训练与测试时计算的效果,结论显示,简单和中等难度问题上,测试时计算更有效,而对于更复杂的问题,增加预训练的计算量可能更为有效。这项研究表明,尽管测试时的计算优化无法完全替代大规模预训练,但在某些场景中有显著优势。
有网友将此研究与OpenAI”草莓”模型联系起来,猜测草莓模型可能使用类似的计算优化策略,通过在回答前”思考”来优化推理过程。这一猜测引发了广泛讨论和推测。
大模型日报(9月11日 资讯篇)https://mp.weixin.qq.com/s/tfi7VOpSdKIXVb–k6NCSg
04

斯坦福团队用模仿学习赋予机器人新技能

斯坦福大学的Aloha 2机器人通过模仿学习,成功掌握了包括系鞋带、挂衣服、拧齿轮等精细操作任务。这一成果通过全球首个机器人自主系鞋带演示视频展示,Aloha 2的表现引起了广泛关注。相比早期的炒菜版本,Aloha 2进行了多项硬件改进,并展示了更复杂和精细的任务执行能力,如系蝴蝶结、收拾厨房和为“同事”更换配件等。研究团队通过扩散策略,在5个任务上收集了2.6万个示范数据,仅依赖模仿学习完成训练。
技术细节上,Aloha 2采用了参考ACT模型的神经网络架构,并未使用强化学习或条件VAE编码器。研究人员在嵌入中加入了位置嵌入,结合8500万参数的Transformer编码器和双向注意力解码器,最终生成动作预测。基础模型的总参数量达到2.17亿。训练基于JAX框架,使用64个TPUv5e并行训练,进行了200万步训练,优化器为Adam,权重衰减系数为0.001。
实验表明,Aloha 2的模仿学习方法取得了极高的成功率,证明模仿学习是实现99%成功率的有效途径。研究成果现已开源,提供硬件设计、教程和模拟模型,供开发者研究双手操作。
大模型日报(9月11日 资讯篇)https://mp.weixin.qq.com/s/e9PTy3CGxnNnLiwVXyXVWA
05

微软官宣创建12个逻辑量子比特,联合AI首次破解化学难题

微软宣布在量子计算领域取得突破,成功创造了性能最佳的12个逻辑量子比特,并将其应用于复杂的量子纠缠状态中。这一成果依赖于Quantinuum的H2量子计算机及Azure Quantum平台。通过扩展微软的纠错算法和优化硬件,H2量子计算机实现了双量子比特保真度达99.8%,并首次展示了12个逻辑量子比特的纠缠操作,电路错误率比物理量子比特提高了22倍。研究团队还验证了8个量子比特在5轮纠错中的容错计算,展示了逻辑纠错与深度量子计算的结合优势。
微软展示了首次通过逻辑量子比特进行端到端的化学模拟,结合AI和高性能计算,加速化学研究。这一模拟利用两个逻辑量子比特来估算催化剂的基态能量,并通过经典计算方法验证其精度。结果表明,逻辑量子比特的表现优于物理量子比特,具备更高的计算精度。
这一成就标志着量子计算朝着可扩展、实用化迈进,特别是在科学领域如化学、物理和生命科学方面,微软与Atom计算的合作目标是实现1000+逻辑量子比特的突破,进一步推动科学发现和研发进程。
大模型日报(9月11日 资讯篇)https://mp.weixin.qq.com/s/fLdAayL8QJG2ga6y6Rblbg

推特

01

Pixtral 12B:Mistral再开源新多模态模型

“dim”: 5120,
“n_layers”: 40,
“head_dim”: 128,
“hidden_dim”: 14336,
“n_heads”: 32,
“n_kv_heads”: 8,
“rope_theta”: 1000000000.0,
“norm_eps”: 1e-05,
“vocab_size”: 131072,
“vision_encoder”:
“hidden_size”: 1024,
“num_channels”: 3,
“image_size”: 1024,
“patch_size”: 16,
“rope_theta”: 10000.0,
“intermediate_size”: 4096,
“num_hidden_layers”: 24,
“num_attention_heads”: 16,
“image_token_id”: 10
大模型日报(9月11日 资讯篇)https://x.com/MistralAI/status/1833758285167722836
02

Expand AI:将每个网站变成一个API,互联网上任何网站的自动结构化输出

这是一个非凡的想法。将每个网站变成一个API。可以将其视为互联网上任何网站的自动结构化输出。太疯狂了。http://expand.ai
大模型日报(9月11日 资讯篇)https://x.com/rauchg/status/1833539593054130336
03

OpenAI Ell分享:轻量级、功能强大的语言模型编程库

我很高兴宣布提示工程的未来:𝚎𝚕𝚕。
𝚎𝚕𝚕是我在OpenAI工作期间构思并开发的轻量级、功能强大的语言模型编程库:
  • 自动版本控制和追踪
  • 丰富的本地开源可视化工具
  • 原生支持多模态

大模型日报(9月11日 资讯篇)https://x.com/wgussml/status/1833615864131948756

04

谷歌Gemini Quickstart:5分钟内开始使用Gemini API,每天可获得超过1500次免费请求

公告:你可以在不到5分钟内开始使用Gemini API,无需信用卡,只需一个API密钥,每天即可获得超过1500次免费请求!🏎️
大模型日报(9月11日 资讯篇)https://x.com/OfficialLoganK/status/1833572986923732996
05

通过元数据预过滤解决RAG相似性和相关性不能相互转化的问题

相似性搜索在RAG(检索增强生成)中通常是不够的,因为与查询的相似性并不总能转化为相关性。
举个简单的例子来说明这一点。假设我想构建一个基于RAG的投资顾问,它可以帮助我理解公司根据其公开的10-K年度报告的财务表现。问题是,这些报告的语言非常相似,涵盖的主题也相似,文件中通常会以“公司”来指代公司。如果我问一个简单的RAG应用“苹果公司2023年的收入是多少?”,以下两个片段可能都会被检索出来,但哪个是相关的呢?🤔
❓“2023年的净收入为462.5亿美元,比2022年下降了2%。”
❓“在2023财年,我们总收入为6113亿美元,主要由6059亿美元的净销售额组成。”
在这里,这两个片段都不相关。第一个是来自高盛集团的报告,第二个是来自沃尔玛的报告,所以理想情况下,我们不希望检索到它们,即使它们听起来很相似。
🚀通过元数据预过滤可以显著改善这种情况下的检索结果。每份财务文件只涵盖一家特定公司和一个特定的财年。当为RAG预处理这些文档时,我们可以从每个文档中提取此信息,并将其作为元数据添加到所有片段中。这样,我们可以在RAG中添加元数据预过滤步骤,使相似性搜索仅应用于已经按公司名称和/或财年过滤的片段子集。
我与@MongoDB的@joshaaayyyy合作写了一篇博客文章,并发布了一个笔记本,展示了如何将自定义元数据提取添加到@UnstructuredIO数据预处理管道中,以及如何使用@MongoDB和@LangChainAI的LangGraph构建自查询RAG。可以在这条推文中找到相关链接 👇
大模型日报(9月11日 资讯篇)https://x.com/mariaKhalusova/status/1833520362602086764

产品

01

Effie

Effie 是一款 AI 驱动的写作和思维导图软件,可以帮助用户释放创造力。它提供了简洁的界面、1000 多个启发性提示和 AI 驱动的模板,帮助用户轻松进入创作状态。Effie 也支持跨设备同步,即使在离线状态下也能随时访问你的想法。
大模型日报(9月11日 资讯篇)https://www.effie.pro/
02

Hoop

Hoop 是一款面向忙碌专业人士的人工智能任务管理工具,能够自动从 Google Meet、Zoom 和 Slack 等平台抓取任务并整合到一个列表中,帮助用户高效管理工作。它通过访问日历和邮件,提供优先级建议,可以减少管理时间,让用户专注于重要任务。
大模型日报(9月11日 资讯篇)https://www.hoop.app/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/12995.html

Like (0)
Previous 2024-09-11 17:17
Next 2024-09-11 18:37

相关推荐

  • BEV感知的开源数据集分享

    BEV感知系列分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍BEV感知相关的算法和数据集等内容。BEV感知系列主要分为以下几篇文章: BEV感知,是下一代自动驾驶感…

    2022-10-31
    278
  • 大模型日报(7月30日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-30
    234
  • 大模型日报(8月16日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-16
    230
  • 大模型日报(9月10日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-10
    262
  • 大模型日报(8月15日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-15
    187
  • 大模型日报(6月24日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    158
  • 大模型日报(8月17~18日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-18
    223
  • 大模型日报(8月24~25日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-25
    208
  • 大模型周报:GPT-4时代已过?零一万物发布并开源Yi模型?苹果发力大模型动画生成!​Midjourney封禁Stability

    大模型周报由大模型日报精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 资讯 01 GPT-4时代已过?全球网友…

    2024-03-10
    140
  • 大模型日报(3月25日)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 资讯 01 讨论下一个token预测时,我们…

    2024-03-25
    137