我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

英伟达重磅发布5090，定价15000

英伟达在CES发布了最新的GPU——RTX 5090，采用Blackwell架构，具备920亿个晶体管，4000 AI TOPS的AI性能，以及380 RT TFLOPS的光线追踪性能。RTX 5090的售价为1999美元（约14651元），而其他型号如RTX 5080和RTX 5070 Ti分别定价999美元和749美元。此次发布还推出了更新版的NVLink72互联技术，提供1.4 ExaFLOPS的计算能力和超高带宽。此外，英伟达还展示了全球最小的个人AI超级计算机——Project Digits，具备2000亿参数的大模型，能够在桌面系统上运行并支持云部署，起售价为3000美元。

Project Digits搭载了基于Grace Blackwell架构的GB10超级芯片，结合高效能Grace CPU和最新的Blackwell GPU，为用户提供高性能的AI推理和开发环境。此外，英伟达宣布将开源可商用的世界基础模型——Cosmos，专为自动驾驶和机器人领域的训练而设计，提供了大量基于驾驶和机器人视频数据的训练模型。这些模型支持开发者在物理环境中生成合成数据，并进行微调。

在其他模型发布方面，英伟达推出了三类模型：Nano、Super和Ultra，适应不同的应用需求，涵盖从低延迟实时部署到高精度定制模型的广泛场景。英伟达还推出了NIM微服务和AI蓝图，支持多种开发需求，如数字人类和内容创作。

此次发布的技术和产品表明，英伟达正加速推动AI计算和模型训练的普及，并强调AI将成为各行各业的核心。英伟达股价在发布后创下新高，市值达到3.66万亿美元，稳居全球第二大上市企业，仅次于苹果。

htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg

Sora核心作者掌舵，谷歌世界模型新团队全球招募

Tim Brooks，曾在OpenAI领导Sora研究并是DALL-E 3的作者之一，近日宣布加入谷歌DeepMind，成立一个新的世界模型团队。这一团队将致力于创建多个世界模型，推动谷歌在视频生成与模拟等领域的研究，合作对象包括DeepMind旗下的Gemini、Veo和Genie等团队。Brooks将在此团队中构建“实时交互生成”工具，并将其与现有多模态模型整合，以推动AGI的实现。DeepMind认为，通过对视频和多模态数据进行预训练，世界模型将对视觉推理、具身智能体规划以及交互娱乐等多个领域产生深远影响。

Brooks于2023年从UC伯克利博士毕业，并在同年开始领导Sora团队的研究。他的转职和此次团队建设得到谷歌DeepMind CEO Demis Hassabis的支持，后者认为Brooks将帮助实现长期以来的“世界模拟器”梦想。团队招聘的职位包括研究科学家和工程师，要求硕士或博士学位，并提供竞争力薪资。

在深度模拟领域，谷歌早期的成果如Genie 2展示了其模拟和训练具身智能体的潜力，尽管这一技术仍在发展中。Genie 2能够生成响应玩家操作的3D世界，并可用于评估具身智能体的任务表现。谷歌希望利用世界模型为具身智能体提供多样的训练环境，以实现更安全、广泛的智能体训练。

此外，世界模型的潜力不仅在于交互式媒体的生成（如视频游戏和电影），还在于模拟现实环境，帮助机器人和具身智能体进行训练。谷歌在这一领域的优势，尤其在数据方面，源自其庞大的YouTube数据资源，这为其团队提供了独特的竞争力。

世界模型的研发前景引发了广泛关注，包括初创公司如李飞飞的World Labs和Decart等也在积极探索该领域。尽管面临技术和版权等挑战，世界模型被视为实现AGI的关键路径之一，特别是在扩展预训练和多模态数据的领域。谷歌DeepMind对这一技术的投资显示出其在智能体和多模态模型开发中的战略雄心。

https://m‍p.w‍e‍ixi‍n.qq.‍com/s/3lK9u-YtZQEzc7Dyi_Inkw

元资助

AI眼镜能走多远？

产品历经多轮验证，AI眼镜已出现成功范式。1）定价：价格亲民，后续仍有降本空间。全球AI眼镜品牌陆续发布多款产品，定价基本处于1-3,000元区间，能够向用户提供较低的尝试成本。此外，我们看好未来SoC等核心器件的降本机会，打开下沉市场，吸引用户购买；2）交互及应用：我们认为智能眼镜接入大模型提供全新交互方式，同时，大模型提供了更多应用场景，有望打造全场景生活助手，提供全新硬件体验。3）品牌：目前已有Meta、百度、Rokid和Xreal等AI眼镜产品发布，我们预计三星、苹果、字节及小米等大厂均有相关产品规划，产品有望在未来1-2年上市。我们认为新终端需要全球头部公司进行消费者教育，完成市场推广，并吸引更多应用开发者入场实现生态丰富。回顾过去ARVR多轮产业发展，我们认为目前AI眼镜的成功范式已现，行业有望迎快速发展阶段。

AI眼镜仍有较大优化空间，产品形态丰富有望推动出货增长。1）基础功能：我们认为未来AI眼镜有望通过超薄夹层镜片设计，解决用户定制化屈光度的解决方案，以及通过电致变色技术实现墨镜佩戴的适配度提升，助力AI眼镜实现并优化眼镜基础功能。2）SoC：根据目前产品的BOM拆解，SoC占据较高的成本，我们看好未来国产芯片有望陆续发布，提供更高性价比的芯片解决方案，在续航及成本等方面升级。3）存储：我们看好未来智能眼镜功能丰富，有望推动存储规格提升，并随着出货量增长，我们测算未来存储市场有望实现百亿美元市场增量。4）光学显示：中长期来看，我们认为光学显示是AI眼镜的关键升级之一，随着光波导及Micro LED等核心器件成熟，全球头部品牌有望率先推出搭载显示的AI眼镜（AR眼镜），进一步丰富应用场景，并通过显示功能完成信息交互及反馈，优化使用体验。综上，我们认为未来3-5年AI眼镜有望在基础功能、SoC、存储及显示等领域实现持续升级，改善用户体验，丰富应用场景，带动产品整体出货增长。

http‍s://mp.w‍‍e‍ix‍in.qq.com/s/sf_Pfu7LSSQGLNUq2HDX8g

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Google AI Studio发布为渐进式网络应用，现在支持在桌面、iOS 和 Android 设备上本地安装

我们刚刚将 Google AI Studio 发布为渐进式网络应用（PWA），现在您可以在桌面、iOS 和 Android 设备上本地安装它。🚢

非常感激，现在我终于不用每天输入 20 次 AI Studio 的网址了 :)

https://x.com/OfficialLoganK/status/1876378894036783614

OpenAI分享Structured Outputs 示例应用仓库

很高兴分享我们的 Structured Outputs 示例应用仓库：

https://github.com/openai/openai-structured-outputs-samples

这个仓库包含 3 个示例应用，展示如何通过严格的 JSON 模式利用 LLM 输出构建可靠的应用！

详细使用方法请见 🧵

https://x.com/kagigz/status/1876307987314483226

SmallThinker-3b：在手机上运行的推理 AI 模型，在多个领域的表现与 gpt-4o 相当

SmallThinker-3b 是第一个可以在手机上运行的推理 AI 模型。目前运行速度为 12 tok/s。

在多个领域的表现与 gpt-4o 相当。令人惊叹的是，这样的技术竟然能在你手中运行。

https://x.com/localghost/status/1876325214931636297

Malic分享：加州大学伯克利课程“Robots that Learn”课程资料

很高兴分享我在 UC Berkeley 开设的课程 “Robots that Learn” 的课程资料，该课程由

Toru 的出色协助共同教授。

课程视频：YouTube 播放列表

课程笔记及其他资料：课程官网

https://x.com/JitendraMalikCV/status/1876072144020644198

HappenstanceAI 人物搜索工具：开始可以通过它向您的导师、个人朋友、满意客户等的社交网络发送好友请求

Happenstance 🍀 是全球最出色的 AI 人物搜索工具。

从今天开始，您可以通过它向您的导师、个人朋友、满意客户等的社交网络发送好友请求，或者让您的网络对您周围的人可搜索。

https://x.com/alex_teichman/status/1876346988025069840

产品

AnyParser Pro 功能强大的多语言解析工具

AnyParser Pro 是一款功能强大的多语言解析工具，专为满足现代企业需求而设计。它能够高效处理各类文档和图像，包括 PDF、Word、PPT 和复杂的图片文件，精准提取文本、表格和图表等关键信息。借助先进的 AI 技术，AnyParser Pro 提供卓越的解析精度，无论是复杂格式还是多语言内容，都能轻松应对。产品在设计过程中始终将客户隐私置于首位，采用严格的数据保护措施，确保敏感信息的安全性。此外，AnyParser Pro 支持无缝企业集成，兼容多种工作流和平台，为用户提供高效、便捷的文档处理体验，帮助企业显著提升工作效率和数据利用能力。

https://www.cambioml.com/anyparser?ref=producthunt

Sitelifter AI 驱动的工具优化网页设计工具

Sitelifter 是一款由 AI 驱动的工具，专注于帮助用户优化网站页面的设计、内容信息传递、用户流畅度以及转化率表现。通过深入分析目标受众需求，Sitelifter 提供定制化的可操作建议，帮助用户在网站开发和运营的早期阶段减少错误，避免反复试验所带来的浪费。同时，它通过精准的数据分析和优化方案，使网站性能得到显著提升，帮助企业实现更高效的数字化运营，无需依赖经验或猜测即可获得专业结果。

https://sitelifter.com/?ref=producthunt

投融资

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

智平方宣布完成Pre-A轮融资

智平方近期在具身智能领域取得了重要突破。其国产具身大模型在通用空间感知和泛化操作方面超越了硅谷顶尖模型，推动了中国自主可控的物理世界大模型和机器人技术的发展。智平方的软件产品，如AI2R Brain和Alpha Bot机器人，已经获得了客户的积极认可。这一成绩的背后是强大的资本支持，智平方在2025年初完成了数亿元的Pre-A轮战略融资，由达晨财智和敦鸿资产领投，基石资本跟投，标志着具身智能产业化的进一步加速。

智平方由国家级创新人才郭彦东博士创立，郭博士拥有深厚的AI学术背景和产业经验，曾在微软、小鹏汽车和OPPO担任重要职务，主导了多款智能终端的研发。团队成员来自微软、小鹏、OPPO、Momenta等国际知名企业和学术机构，如清华大学和加州伯克利大学，具备强大的技术创新能力和产业化经验。团队结合AI创新与智能终端领域的变革，构建了从原理研发到市场落地的完整闭环能力。

在技术方面，智平方率先突破了空间感知模型的瓶颈，其原创模型结构与增量技术节约了训练成本，并获得了国家级认证。智平方的端到端具身大模型，特别是在RoboMamba和Alpha Bot系列产品中取得了显著进展，尤其在未见任务的泛化能力上超越了国际顶尖企业如Google。智平方的产品如Alpha Bot 1S，在多任务场景中具备高度灵活性和超长续航，成功应用于柔性工业、物料搬运等领域，获得了大量商业订单，成为国内首批进行具身智能商业化的公司之一。

本轮融资将加速智平方在技术迭代和商业化拓展方面的步伐，推动具身智能从实验室走向广泛的产业应用。智平方的目标是让通用智能机器人像智能手机和汽车一样，成为普及化的智能终端。投资人表示，智平方具备全球竞争力的AI与具身技术，并在商业化推进上展现出色能力，预计将引领具身智能领域的发展。