我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
李飞飞和谢赛宁近期发布了新研究,深入探讨多模态大语言模型的空间认知能力。尽管这些模型在视觉和语言理解方面已取得显著进展,但它们在空间推理上的表现仍远不如人类,约71%的错误与空间推理相关。因此,空间推理被视为当前的主要瓶颈。尤其是在任务中,常用的语言提示技术(如思维链和思维树)未能提升模型的空间表现,反而导致性能下降。然而,明确生成认知地图则能有效增强模型在空间任务中的表现。
为了研究这一问题,团队提出了VSI-Bench基准测试集,基于视频数据集(如ScanNet等)自动生成视觉问答(VQA)问题。该测试集涵盖了物体计数、相对距离、房间大小等任务,评估了15种支持视频输入的多模态大语言模型。测试结果表明,人类在这些任务中的准确率远高于模型,尤其在配置型和时空任务中,模型的准确率普遍不足50%。
研究进一步揭示,尽管模型在视频理解和语言推理方面有一定能力,约70%的错误源自其空间推理不足。为了改进这一点,团队尝试了认知地图作为辅助工具,发现该机制能显著提高模型在相对距离任务中的表现,提升了10个百分点。研究表明,模型倾向于形成局部空间理解,而非全面的全局空间感知,这为未来模型的改进提供了新的方向。
智元灵犀 X1 装机教程
智元灵犀X1通用人形套餐自上线以来,受到广泛关注,近期为了帮助爱好者DIY组装,推出了《智元灵犀X1装机教程》系列视频,进一步激发了粉丝的热情。为便于DIY,智元还提供了完整的装机指南、开发指南以及核心组件的介绍,包括视频和文字版内容,方便用户快速上手。此外,X1套餐现已备货充足,购买后即能发货。
智元灵犀X1包含六大核心组件:OmniPicker自适应夹爪、域控制器DCU、电机组件PowerFlow系列(R86-2, R86-3, R52, L28)。其中,PowerFlow R86-2主要用于肩膀、膝盖和腹部的关节,具备强大扭矩和协调性,确保精确操控。PowerFlow R86-3专注于腿部关节,具备模块化设计,支持快速更换和扩展,适应不同任务需求。PowerFlow R52电机驱动上臂和小腿,采用高集成FOC驱动技术,有效减少能耗并保持高稳定性。PowerFlow L28线性关节则用于连接夹爪和手臂,确保精准协同操作。
此外,域控制器DCU集成了多个ECU功能,提升了系统的性能和可靠性。OmniPicker自适应夹爪具备智能夹持功能,能够精准抓取多种物体,且支持硬件二次开发接口,方便用户定制化开发。
目前,智元灵犀X1的全套DIY组件及相关配件已正式开售,用户可以在agibotmall.com下单购买,还可享受增量代码和OTA升级等福利。
星动纪元端到端原生机器人大模型ERA-42正式亮相
星动纪元的ERA-42端到端原生机器人大模型近日正式发布,标志着具身大模型在通用灵巧操作领域的突破。ERA-42结合了自研的五指灵巧手星动XHAND1,展示了前所未有的灵巧操作能力,能用多种工具完成100多种复杂任务,如用螺钉钻紧螺钉、用锤子敲打钉子等。ERA-42通过强大的泛化和自适应能力,能够在不到2小时内快速学习新任务,并持续扩展技能,展现出通用性和高效性。
ERA-42是全球首个真正的五指灵巧手具身大模型,采用端到端的架构,能够直接从全模态数据中学习并执行任务,而无需预编程或人工干预。该模型的三大核心要素为:统一的任务和环境泛化能力、端到端流程、以及可通过数据积累持续优化的规模化能力。这些特性使得ERA-42成为具身智能体的未来发展方向。
与其他大模型类似,ERA-42的优势还体现在其“世界模型”融合能力,使其不仅能执行任务,还能理解和预测物理世界的动态,极大地提高了任务的成功率和精准度。例如,通过学习因果关系,ERA-42能有效应对外部干扰,并根据环境变化自适应调整任务执行。
星动纪元还创新性地将AI原生硬件平台与ERA-42协同进化,特别是星动XHAND1,它的多自由度设计与高精度触觉传感使其能够执行更精细的操作任务,如与ERA-42配合,实现多样化和智能化的操作。XHAND1能模拟人类手部动作,甚至在复杂任务中表现出优异的灵活性和可靠性,推动了通用具身智能体的产业化。
通过这些创新,ERA-42不仅提升了机器人的操作能力,还加速了机器人在多个领域的应用。星动纪元正在推动原生具身智能体的广泛应用,未来将致力于实现机器人服务于各行各业的愿景。
全球视野下的 AI Infra:AI 出海挑战、GPU 集群解决方案与选型
随着全球数字化的推进,AI 应用的出海成为越来越多企业的目标,但这一过程面临着算力、基础设施和稳定性等多方面的挑战。在AICon大会上,GMI Cloud的King Cui和Jay Hsueh分享了AI出海中GPU基础设施的重要性及其解决方案,重点讨论了如何确保GPU集群在AI训练中的稳定性。
AI出海的关键挑战之一是算力的不足,尤其是高端GPU的缺乏。国内高端GPU供给不足且无法进入中国大陆,因此,企业需要寻找海外GPU服务。此外,海外IDC的选择也充满不确定性,尤其是在对AI基础设施不熟悉的情况下,如何确保GPU集群的稳定性成为重大难题。Meta的LLama 3训练中,16,000张H100 GPU出现了超过400次故障,突显了GPU稳定性面临的巨大挑战。
为了解决这些问题,GMI Cloud专注于提供高效且稳定的GPU云服务,特别是在美国和亚太区的AI应用部署。作为全球排名前十的Nvidia云合作伙伴,GMI Cloud拥有GPU的优先分配权,能够提供最新的英伟达GPU(如H200、GB200等)。GMI Cloud的技术团队由谷歌X实验室成员和硅谷技术专家组成,致力于构建AI Native Cloud,提供高效、稳定的基础设施服务。
在GPU集群的构建上,GMI Cloud依托自主研发的Cluster Engine平台,整合了高性能GPU、网络和存储资源,确保AI应用的高效运行。平台提供裸机、容器和虚拟化等多种服务,并且支持跨全球数据中心的GPU资源管理。特别是在存储方面,GMI Cloud为不同应用场景提供不同等级的存储选项,如NVMe磁盘和并行高速存储系统,以满足AI训练和计算的需求。
为了保障GPU集群的稳定性,GMI Cloud还注重实时监控和故障预防。平台具备主动监控系统,能够在问题发生前预警并采取应对措施。此外,GMI Cloud与供应商保持紧密合作,确保硬件故障能够在最短时间内得到修复。
GMI Cloud为客户提供灵活的AI基础设施选型,包括按需租用和长期预定两种模式。按需服务适合短期计算任务,而长期预定则为持续研发项目提供稳定资源支持,避免了数据迁移和重复配置的麻烦。
科技/电子:AI引领创新,自主可控持续
2025年主线:AI ASIC起步+端侧落地、高阶智驾普及、自主可控新阶段
2024年电子行业在AI催化以及消费电子需求复苏推动下景气度持续上行。展望2025年,我们看好三大投资主线:1)云厂自研AI算力芯片放量以及AI端侧持续落地,云厂加速推出推理/训练侧自研芯片,端侧智能手机/眼镜作为AI Agent载体落地将进一步拉动产业链需求;2)高阶智驾向下普及带来硬件产业链需求提升,我们看好比亚迪发力低价车型智驾标配,自主品牌开始加速智能化进程;3)自主可控进入新阶段下的投资机遇,国内设备厂国产替代走向高端化与平台化,同时国产化向上游零部件与材料环节延伸。
芯片产业链2025年投资展望
硬件基础设施作为AI大模型发展基石,但海外对华供应高端GPU、HBM受限,先进制造、先进封装代工产能难以获取。国内AI算力产业链仍在起步追赶阶段,可以类比海外AI在2023年之前的爆发前夕,但关键环节处于“有需求、没供给”的状态。虽然国内半导体国产化率在过去几年持续提升,但是核心环节国产化率仍然较低。在传统半导体国产化已有一定基础的情况下,高端芯片、先进存储、先进封装、核心设备材料、EDA软件的国产化仍有较大提升空间。
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Raschka:《LLM研究论文:2024年度清单》
今年在人工智能研究领域中充满了事件与惊喜,尤其是对大语言模型(LLMs)感兴趣的研究者而言。
本来,我为这次12月的专题准备了宏大的计划,计划发布一篇新文章,讨论我在2024年研究中的所有亮点。我仍计划完成它,但由于一次意外和严重受伤,我目前无法在电脑前工作并完成草稿。不过,我希望能在接下来的几周内恢复并重新站起来。
与此同时,我想分享一份我在2024年发现的许多引人入胜的研究论文(主要与LLM相关)的书签清单。这仅仅是一个清单,但对于那些希望在假期里找到一些研究亮点阅读的人来说,也许会有所帮助。
此外,如果你对代码层面的阅读和实验更感兴趣,我的《从零构建大语言模型》(Build A Large Language Model (From Scratch))一书已于上月在亚马逊上架。同时,我也在GitHub仓库中添加了许多额外的材料。
https://x.com/rasbt/status/1870830723852312772
Thinking in Space:探索多模态大语言模型如何感知、记忆和回忆空间
如今的模型可以处理 YouTube 视频片段和故事长片,但对于我们和未来的 AI 助手需要导航和体验的日常空间呢?
我们推出了 《Thinking in Space》,这是一项最新研究,探索多模态大语言模型(LLMs)如何感知、记忆和回忆空间。 🧵[1/n]
https://x.com/sainingxie/status/1870877202595958791
Aaron Ng分享:离线使用QwQ 32B
如果我断网了,QwQ 32B 会是我想要下载的模型之一。现在它正以 15 tok/s 的速度从我的笔记本电脑流向我的手机。
这个模型在某些领域可以媲美 o1-mini。更疯狂的是,你可以用一台笔记本电脑将它服务于整个网络。
https://x.com/localghost/status/1870530369088537065
面部表情:全新 LTX Studio 功能,轻松掌控角色的面部表情
推出 面部表情:全新 LTX Studio 功能,轻松掌控角色的面部表情。
通过 面部表情 功能,您可以快速从预设的情绪中选择,只需几秒即可调整角色的表情。在 Storyboard 部分或 Motion Editor 中访问此功能,即可在不打断工作流程的情况下进行精准调整。
如果需要更精细的调整,可以使用 自定义控制 功能。您可以微调眼睛、嘴巴或眉毛等特定部位,打造您需要的精准情绪效果
https://x.com/LTXStudio/status/1870473275786350980
产品
Gensmo 利用人工智能搜索解锁您应得的生活方式
Gensmo 是一款新一代人工智能搜索,可以激发您的日常生活!需要服装创意、礼物建议或装饰搭配?只需拍摄一张照片或输入您的查询,Gensmo 就会根据您的需求创建时尚拼贴画。
https://gensmo.com
人工智能圣诞老人 您的孩子与圣诞老人的个性化视频聊天
让圣诞节的魔力栩栩如生!我们的 AI 圣诞老人应用可让家长为 3 岁以上的孩子定制 3DAR 圣诞老人。通过个性化的文本和语音聊天、故事和游戏,这是基于浏览器的完美假日体验。让圣诞节令人难忘!
https://santa.ac/?ref=producthunt
投融资
「阶跃星辰」完成数亿美元 B 轮融资
中国大模型独角兽“阶跃星辰”近期完成了数亿美元的B轮融资,吸引了多家投资方,包括上海国有资本投资有限公司、腾讯投资、五源资本、启明创投等。这笔资金将用于继续推动基础模型研发、强化多模态和复杂推理能力,并扩大C端应用场景的覆盖,提升用户体验。
阶跃星辰的技术实力在大模型领域中尤为突出,特别是在多模态理解和生成能力方面。公司自成立以来,致力于从单模态到多模态,再到通用人工智能(AGI)的逐步发展。尽管国内许多厂商因技术瓶颈放缓了AGI探索,但阶跃星辰持续推进技术创新,并在过去10个月内发布了多个自研大模型,涵盖语言、图像、视频、语音等多个模态。公司发布的Step系列模型,尤其是在语言和视觉领域的表现,取得了显著成绩,在多个国内外榜单上排名领先。
阶跃星辰在商业化方面也取得了显著进展,特别是在多模态API的应用上,2024年下半年API调用量增长超过45倍。其Step系列模型已被多个应用开发者广泛使用,并成功提升了产品的付费率。此外,阶跃星辰通过与上海报业、荣耀、OPPO等公司的合作,深耕金融、内容创作和智能终端等垂直领域,推动技术落地。
公司团队由一批顶尖人才组成,包括微软和字节跳动的前高管,为技术创新和快速发展提供了有力支持。阶跃星辰的产品策略包括自研和生态合作相结合,力求通过技术领先和差异化产品进一步拓展市场份额。
在激烈的市场竞争中,阶跃星辰能够顺利完成新一轮融资,表明资本市场对其技术创新、产品差异化及商业化潜力充满信心。这为公司未来的发展提供了更多空间,预计将在大模型市场中占据更为重要的地位。
公司官网:https://www.stepfun.com/
https://36kr.com/p/3090736042736004
Tetsuwan Scientific:打造可独立运行实验的机器人AI科学家
Tetsuwan Scientific公司正致力于研发能够自主进行实验的机器人AI科学家。其创始人Cristian Ponce和Théo Schäfer在2023年通过创业平台Entrepreneur First相识,随后共同创立了这家公司。两人之前在不同领域积累了丰富经验,Ponce曾在加州理工学院从事生物工程研究,Schäfer则在麻省理工学院从事水下自主机器人研究,并曾在NASA工作。
Tetsuwan Scientific的初衷是解决传统实验室中,实验人员在进行基因工程时面临的繁重体力劳动问题。尽管市场上已有一些自动化机器人,但它们通常价格昂贵且需要专业的编程技能,操作起来极为繁琐。因此,Tetsuwan采用了较为低成本的白标实验室机器人,并结合大型语言模型(LLM)技术,探索如何让机器人理解并执行科学实验。
2024年5月,Tetsuwan的创始人在观看OpenAI发布会时,意识到LLM技术的科学推理能力可能是机器人自主实验的突破口。Tetsuwan将其机器人系统与LLM结合,成功实现了机器人在看到DNA凝胶图像后,能够诊断出潜在问题并提出详细的改进建议。
该公司的机器人并非拟人化设计,而是采用类似玻璃立方体的结构,旨在实现实验数据分析后,自动调整实验条件。它们通过先进的传感器和软件,具备自动理解液体属性、校准等能力。
Tetsuwan目前已经获得了来自La Jolla Labs的初步客户支持,这是一家专注于RNA治疗药物的生物科技公司,正在使用这些机器人来帮助测量和确定药物剂量的有效性。此外,Tetsuwan还完成了270万美元的超额认购种子轮融资,由2048 Ventures主导,Carbon Silicon、Everywhere Ventures以及一些知名生物科技天使投资人参与。
https://techcrunch.com/2024/12/22/tetsuwan-scientific-is-making-robotic-ai-scientists-that-can-run-experiments-on-their-own/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29057.html