我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
潜空间活动报名
本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra,What matters?—— 不同AI产品形态对团队的挑战》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。
资讯
清华赵明国:智能人形机器人≠智能+人形
在2024年,人形机器人领域经历了爆发式增长,得益于特斯拉的Optimis迭代、OpenAI对1X的投资、初创公司崛起以及学术界的持续创新。清华大学赵明国教授强调,这一技术进步虽然令人振奋,但发展路径必须谨慎选择,以应对复杂环境中的自主适应与学习需求。
赵教授认为,“智能人形机器人”不仅仅是智能和人形机器人的叠加,而是需要更深层次的融合,形成一个全新的研究主题。他提到,运动控制涉及多层次系统,不应单纯依赖大模型。人类的运动控制是复杂的,涵盖本体反射、中枢控制和大脑控制,研究者需深入生物运动机制,以重新构建机器人控制架构。
赵教授还指出,技术的先进性并不意味着其实用性,必须与时代需求相匹配。他提及波士顿动力和本田在机器人运动控制上的贡献,认为当前人形机器人的发展呈现多元化的态势,各种技术路线都有其价值。
在双足运动控制方面,赵教授提到,传统仿生模型面临许多技术瓶颈,强化学习的突破为解决复杂任务提供了新方法,但视觉感知的仿真仍需改进。未来,结合运动控制与人工智能的系统可能会通过数据获取和学习方法的融合实现新的进展。
最后,赵教授总结说,运动控制不应仅依赖于大模型的逻辑,生物神经系统的多层次结构为机器人运动控制提供了新的思路。他呼吁在推动机器人技术发展的同时,结合人工智能的进步,以便更有效地解决复杂任务并推动整个人形机器人领域的前进。
OpenAI 招聘 Twitter 竞争对手 Pebble 的联合创始人
OpenAI 最近招聘了 Gabor Cselle,他曾是 Twitter 竞争对手 Pebble 的首席执行官和联合创始人。Cselle 自十月以来便在 OpenAI 工作,他在社交媒体上宣布了这一消息,并表示将会在适当的时候分享更多工作进展。他在科技行业有丰富的经验,曾出售多家公司,包括将移动电子邮件初创公司 reMail 卖给谷歌。
Pebble 于 2022 年由 Cselle 和前 Discord 工程负责人 Michael Greer 共同创立,旨在提供一个强调安全和内容管理的微型博客服务。尽管 Pebble 在初期获得了一定的关注和资金支持,但最终未能保持增长,去年十月宣布关闭,并转型为 Mastodon 实例。
在 Pebble 关闭之前,Cselle 曾在谷歌的 Area 120 孵化器担任主管,并致力于多个生成式 AI 原型的开发。他的加入恰逢 OpenAI 竞争对手 Anthropic 也招聘了前自动驾驶卡车公司 Embark 的创始人 Alex Rodrigues,后者将担任 AI 安全研究员。
https://techcrunch.com/2024/11/03/openai-has-hired-the-co-founder-of-twitter-challenger-pebble/
英伟达团队机器训练新方法!仅5次演示让机器生成1000个新demo
DexMimicGen是英伟达提出的一种新型机器人训练方案,旨在解决机器人训练中数据匮乏的问题。该系统仅需人类演示五次,就能够生成1000个新的演示数据(demo),并能在仿真环境中显著提高任务成功率,达到97%,超越使用真人数据的效果。参与该项目的科学家Jim Fan认为,这种“用机器训练机器”的方法有效地解决了数据收集的痛点,并预测机器人数据的未来将是生成式的。
DexMimicGen的工作原理基于之前的MimicGen,后者通过将人类示范数据分割成以目标物体为中心的片段来生成新数据。DexMimicGen在此基础上,针对双臂机器人灵巧操作任务进行了改进,加入了并行、协调、顺序三种子任务类型,并设计了相应的异步、同步和顺序约束机制,以实现双臂的独立及协调动作。
具体实验中,DexMimicGen通过采集和分割5-10个示范样本来生成数据,并在9个场景中测试了三种机器人形态,获得了21000多个生成demo。在执行整理抽屉、积木组装和罐子分类等任务时,使用DexMimicGen生成的数据成功率大幅提升,分别达到76%、80.7%和97.3%。在迁移到真实环境的易拉罐分拣任务中,使用40个生成demo的成功率达到了90%。
DexMimicGen展现出强大的泛化能力和鲁棒性,能够在不同任务和初始状态分布下保持一定的成功率。项目团队由来自德克萨斯大学奥斯汀分校的研究人员组成,他们都是李飞飞教授的学生,反映了学术界与业界的紧密联系。整体来看,DexMimicGen为机器人学习提供了一个新的视角,未来可能在多个领域得到广泛应用。
万卡集群的AI数据中心,到底是如何运作的?
在2024年7月22日,xAI创始人Elon Musk宣布在美国田纳西州孟菲斯市启动全球最强的AI训练集群,集合了10万个液冷H100芯片。然而,该项目引发了当地居民的抗议,主要由于其每天消耗100万加仑水和150兆瓦电力,环保人士对此表示担忧。
随着AI计算需求的增长,数据中心的结构和运营面临着挑战。数据中心主要由主机房、供电系统和冷却系统组成,其中冷却系统尤为关键。传统CPU向GPU的转变导致了功率密度的显著提升,从每个机柜3-5千瓦跃升至10千瓦甚至更高。这样的提升给冷却和供电系统带来了四个主要挑战:散热能力、能源供应、占地面积和快速部署。
冷却系统的耗水问题主要源于液冷技术的使用,这种技术通过水的蒸发潜热来降温,相较于传统风冷,液冷的热交换效率更高。液冷分为冷板液冷和浸没液冷,而前者在主流GPU中应用广泛。由于液冷消耗大量水,一些地区的环保抗议愈发严重,影响当地水资源的可用性和质量。
在供电方面,随着功率密度的提升,供电系统的占地面积成为一大挑战。传统供电设备需要大量空间,而新型的交流直流供配电一体化方案则能够减少30%的占地面积。为了提高电能传输效率,行业内也在积极采用碳化硅和多晶合金等新技术。
面对快速增长的算力需求,数据中心建设速度也需提升。一些创新方案如使用正交胶合木(CLT)材料的木质数据中心,通过预制化方法显著缩短建设时间。综上所述,AI时代的数据中心在冷却、供电和建设速度等方面都面临重大的技术挑战和转型机遇。
芯片互连取得进展
文章探讨了分解系统级芯片(SoC)并通过异构方式将其组成部分组合的技术进展,强调了互连、复杂分区以及业界对可行性的理解。实现即插即用的愿景比预期更复杂,受到应用程序、工作负载、封装类型、调度和互连类型的影响。
互连被视为连接各部分的“粘合剂”,包括片上网络(NoC)和芯片间连接(如UCIe)。互连的设计需要解决如何有效地划分计算和数据流的问题。不同的互连技术(如电缆和潜在的光互连)在性能上有所不同,物理特性如直径、密度和绝缘性也需考虑。
芯片互连的挑战在于如何处理跨芯片的时序接口,以优化信号的传输速率。设计时通常会隔离跨芯片边界的时序接口,以避免复杂的收敛问题。D2D(芯片到芯片)互连的效率关键在于降低功耗和面积,并确保电路复杂性与性能之间的平衡。
多个协议(如AMBA CHI和UCIe)被用于实现芯片间数据传输。芯片互连的设计需要考虑到信号处理、数据包传输和系统内存映射的性能影响。正确的互连选择和架构设计至关重要,尤其是在高数据速率下,保证各部分的协同工作。
此外,随着Chiplet系统的发展,设计和测试新的D2D接口成为一大挑战,特别是在支持多供应商互操作性方面。文章指出,芯片设计需要围绕系统发现进行标准化,确保各个芯片能有效地互连和协作。
https://zhuanlan.zhihu.com/p/4765531373
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
外国小哥在旧金山咖啡馆随口一句抱怨,Cursor CEO竟然主动帮忙调试
朋 友在旧金山的一家咖啡馆,结果他的笔记本电脑上「Cursor 崩溃了」。
就在那一刻,Cursor 的一位联合创始人正好路过,主动提出帮忙调试。
这家公司真的是无处不在啊。
“兄弟,
我现在和 Antun 在一家咖啡馆工作,
我随口说了一句『Cursor 崩溃了』。
然后有个路过的家伙说『嘿,你要我帮你调试吗?』
结果他竟然是 Cursor 的创始人。”
“不会吧!
哪个创始人?”
“Aman Sanger (@amanrsanger) 在 X 上。”
https://x.com/trivanmnzs/status/1852785731099635950
在终端中使用本地工具运行 AI 代理?Sumanth分享gptme开源工具
介绍 gptme:一个开源工具,让您在终端中使用本地工具运行 AI 代理。
它就像您终端中的个人 AI 助手,拥有多种功能,可以:使用终端、运行代码、编辑文件、浏览网页、进行视觉处理等等。
介绍 gptme:一个开源工具,让您在终端中使用本地工具运行 AI 代理。
它就像您终端中的个人 AI 助手,拥有多种功能,可以:使用终端、运行代码、编辑文件、浏览网页、进行视觉处理等等。
https://x.com/Sumanth_077/status/1852705713656934501
Claude观看施工现场视频并创造待解决关键问题表格,Emollick:AI管理者/全局监视将产生重大影响
“嘿 Claude,当你使用电脑时,观看这个施工现场视频并写下你看到的危险或好的方面,创建一个需要解决的关键问题的电子表格。”(加速播放)
公司将 AI 用作管理者、教练或全景监视工具的方式,将对未来的工作形式产生重大影响。
https://x.com/emollick/status/1853255574843982241
Oasis:可玩的 AI 生成游戏,根据你的键盘输入生成画面
我们与 @DecartAI 合作,构建了一个实时互动的世界模型,在搜狐平台上运行速度提升超过10倍。我们将开源该模型的架构、权重和研究成果。
Oasis 会根据你的键盘输入生成画面。你可以在游戏中移动、跳跃、打破方块,甚至每次玩游戏时都能构建和探索全新的地图。
我们设计的 Oasis 在即将推出的 AI 芯片 Sohu 上运行速度极快,该芯片具有 DiT 主干网络、ViT 自动编码器等特点。Sohu 专为处理大规模视频模型而打造,支持4K分辨率,运行超过1000亿参数的模型。游戏体验只是个开始。很快,互联网上的大部分内容将由 AI 生成,其中超过70%的网络流量将是视频。视频扩散模型对计算资源需求极高,每帧需要处理数千个 token。这种工作负载非常适合 Sohu。
https://x.com/Etched/status/1852089772329869436
Researcher Raschka分享文章:理解多模态大语言模型如何工作
如果你对多模态大语言模型(Multimodal LLMs)如何工作感到好奇,我写了一篇新文章,解释了两种主要方法:仅解码器方法和交叉注意力方法: https://magazine.sebastianraschka.com/p/understanding-multimodal-llms 。另外,我还审阅并总结了最新的10篇研究论文,以了解这些方法在实际中的应用。祝阅读愉快!
https://x.com/rasbt/status/1853073656525599022
Hertz-dev:开源的全双工对话音频基础模型,拥有 85 亿参数
在 Standard Intelligence,我们发布了 𝗵𝗲𝗿𝘁𝘇-𝗱𝗲𝘃,这是一个开源的全双工对话音频基础模型。
Hertz-dev 拥有 85 亿参数,基于 2000 万小时高质量音频数据训练而成。我们在网站上公开了支持单声道和全双工生成的模型检查点和代码,遵循 Apache 许可证。
Hertz-dev 是一个基础模型,未经过微调。研究人员可以将其用于实时翻译、分类等各种音频建模任务。
通过全球最大的高质量对话音频数据集,Hertz-dev 学习了类似人类的语音模式,如停顿和情感起伏。
Hertz-dev 的理论平均延迟为 80 毫秒,单块 RTX 4090 上的实测延迟为 120 毫秒,比之前的最先进模型低 1.5-2 倍。
我们正在训练一个 700 亿参数的扩展版本 Hertz,并计划未来扩展到更多模态。
https://x.com/si_pbc/status/1853184307063660723
产品
VoteGPT
VoteGPT 是一个 AI 驱动的平台,可以帮助未决定的选民通过回答关键问题找到与自己利益最契合的候选人。它提供个性化的候选人匹配、无偏见的信息和用户隐私保护,简化选民的决策过程,帮助他们在信息泛滥中做出自信的投票选择。
KLING AI
Kling AI 是一个下一代人工智能创意工作室,利用先进的 AI 技术提升创意过程,帮助用户生成图像、文本和音频等内容,以提高创作效率和创造力。
https://klingai.com/
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21665.html