我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

潜空间第六季活动开始报名!!

资讯
何恺明带队新作「分形生成模型」:逐像素建模高分辨率图像、效率提升4000倍
2025年2月26日,机器之心报道了何恺明团队的新成果——分形生成模型(Fractal Generative Models)。这一模型受数学分形概念启发,采用递归调用同类生成模型的方式构建,形成具有自相似性的复杂架构。其核心是将生成模型抽象为模块,通过组合这些模块开发更高级的生成模型。论文标题为《Fractal Generative Models》,由MIT博士后Tianhong Li和MIT本科生Qinyi Sun担任主要作者,论文地址https://arxiv.org/pdf/2502.17437v1,GitHub地址为https://github.com/LTH14/fractalgen。
分形生成模型的灵感来源于生物神经网络和自然数据中的分形特性,关键组件是定义递归生成规则的生成器,例如自回归模型。在该模型中,每个父自回归块生成多个子块,子块进一步生成更多子块,形成类似分形的自相似模式。研究者通过逐像素图像生成任务验证了该模型的性能,结果显示其在高分辨率图像生成中表现出色,能够实现准确的似然估计和高质量的生成效果。
分形生成模型通过递归地解耦联合分布,显著降低了计算成本,同时捕获了数据中的内在层次结构。在实现上,研究者以自回归模型为原子模块,展示了如何通过分形框架对高维非序列数据进行建模。例如,在逐像素图像生成任务中,模型将图像分割成小块,递归地对每个块进行建模,最终实现对像素的逐个生成。通过这种分而治之的策略,模型在生成256×256分辨率图像时的计算成本仅为生成64×64图像的两倍,计算效率提升了4000倍。
实验结果表明,分形生成模型在ImageNet数据集上展现了优秀的性能,无论是在64×64分辨率的无条件图像生成任务中,还是在256×256分辨率的类条件图像生成任务中,均实现了低负对数似然(NLL)、高Frechet Inception Distance(FID)和高Inception Score(IS)等指标。此外,在图像编辑任务中,该模型能够根据未遮蔽区域准确预测被遮蔽像素,并从类标签中捕获高级语义信息。这一成果不仅为高分辨率图像生成提供了新的思路,也为生成建模领域带来了新的范式。

https://mp.weixin.qq.com/s/T1ie9nIJdu1Q96_AJsweSg
DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世
2025年2月26日,机器之心报道了DeepSeek开源的通用矩阵乘法库DeepGEMM。DeepGEMM是一款支持密集型和专家混合(MoE)GEMM的FP8 GEMM库,专为V3/R1模型的训练和推理设计,在英伟达Hopper GPU上可实现1350+ FP8 TFLOPS的计算性能。该库采用CUDA编写,通过轻量级的Just-In-Time(JIT)模块在运行时编译所有内核,无需安装时编译。DeepGEMM仅支持Hopper张量核心,并采用两级累加机制解决FP8张量核心累加不精确的问题。尽管借鉴了CUTLASS和CuTe的概念,但DeepGEMM避免了对其模板或代数的重度依赖,注重简洁性,核心内核函数仅300行代码,性能却与专家调优的库相当甚至更优。
DeepGEMM的开源地址为https://github.com/deepseek-ai/DeepGEMM。使用DeepGEMM需要Hopper架构的GPU(支持sm_90a)、Python 3.8或更高版本、CUDA 12.3或更高版本(推荐12.8或更高)、PyTorch 2.1或更高版本以及CUTLASS 3.6或更高版本。部署时需克隆Git子模块,并通过指定命令完成安装和测试。
此外,路透社爆料DeepSeek可能在5月之前发布下一代R2模型,该模型将具备更强大的代码生成能力,并支持除英语以外的语言推理。DeepSeek在北京的办公室距离清华、北大很近,创始人梁文锋常与工程师深入研究技术细节。DeepSeek的薪酬水平较高,与幻方量化齐名。幻方在2020年和2021年投资12亿元建设了两个超级计算AI集群,第二个集群Fire-Flyer II由约一万块英伟达A100芯片组成,用于训练AI模型。

https://mp.weixin.qq.com/s/TgSSgdnPZnm3Iu_pNG5vlQ
Apptronik人形机器人迈出自主生产第一步
2025年2月25日,美国奥斯汀的人形机器人制造商Apptronik宣布与供应链巨头Jabil达成试点合作,标志着其人形机器人Apollo在自主生产方面迈出了重要一步。此前两周,Apptronik刚刚完成3.5亿美元的A轮融资,旨在扩大Apollo机器人的生产规模。此次合作是Apptronik继2024年3月与奔驰合作后的第二个重大试点项目。
根据协议,Jabil将在其工厂测试Apollo机器人,用于执行简单的重复性物流和制造任务,如零部件分拣和运输。如果Apollo被证明具有商业可行性,Jabil将开始在其工厂生产该机器人,这意味着未来人形机器人有望自主参与自身生产。尽管这一目标仍需时间实现,但Apptronik已将2026年定为商业量产的起始年份。
Apptronik在人形机器人领域具有显著优势。作为德克萨斯大学的衍生企业,该公司拥有十年的人形机器人开发经验,并曾参与开发NASA的Valkyrie机器人。此外,Apptronik还与谷歌DeepMind合作开发人工智能系统,以提升其机器人性能。

推特
深度研究功能已向 ChatGPT Plus 用户开放
深度研究功能已向 ChatGPT Plus 用户开放!
这是我们推出过的我最喜欢的功能之一。

https://x.com/sama/status/1894527988378550392
谷歌推出免费 Gemini Code Assist:每月 18 万次代码补全,支持所有公共领域的编程语言,128K 令牌上下文窗口
我们正在全球推出免费的 Gemini Code Assist,帮助您更快地开发。它提供:
🛠️ 每月 18 万次代码补全
🌐 支持所有公共领域的编程语言
💡 128K 令牌上下文窗口
立即体验 → https://goo.gle/3F3Snpj

https://x.com/GoogleDeepMind/status/1894349711160578093
OpenAI推出由 GPT-4o mini 驱动的 Advanced Voice 版本:更高的成本效益
从今天起,我们将推出由 GPT-4o mini 驱动的 Advanced Voice 版本,让所有 ChatGPT 免费用户每天在各个平台上体验预览。
该版本在自然对话节奏和语调上与 GPT-4o 相似,同时具备更高的成本效益。

https://x.com/OpenAI/status/1894495906952876101
Wan2.1开源,阿里巴巴:AI 视频生成的全新进化
🚀 宣布推出 Wan2.1——AI 视频生成的全新进化!
我们很高兴开源我们最前沿的视频生成套件!
❶ 🏆 Wan2.1-T2V-14B
• VBench 排行榜第一,超越 SOTA 开源与商业模型
• 精通复杂运动动态、物理模拟与文本渲染…
❷ ⚡️ Wan2.1-T2V-1.3B
• 轻量级怪兽(仅需 8.19GB VRAM 即可生成 480P 5 秒视频)
• 超越其他 5B 参量模型(甚至远超更大规模模型…)
❸ 🎨 Wan2.1-I2V-14B
• 全新突破性的图像到视频模型,性能强劲
• 释放你的创造力,体验流畅动态过渡
🔗 立即探索 👉
GitHub: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
ModelScope: https://modelscope.cn/organization/Wan-AI
Blog: https://wanxai.com

https://x.com/Alibaba_Wan/status/1894391929024152055
Ronith分享Iris新原型:动态提示字段
Ronith 分享了原型:动态提示字段

https://x.com/ronithhh/status/1894538136161849588
功夫机器人:Unitree G1
Kungfu BOT: Unitree G1 🥳
我们持续升级 Unitree G1 的算法,使其能够学习并执行几乎任何动作。你还想看到它表演哪些动作?欢迎在评论区分享你的想法!(请与机器人保持安全距离。)
#Unitree #Kungfu #EmbodiedAI #春晚机器人 #AI #仿人机器人 #双足机器人 #世界模型 #舞蹈

产品
TestAI:一键为 AI 智能体提供 1000 多项自动化测试
TestAI 是一款 AI 测试平台,旨在解决 AI 系统在现实世界中易失效的问题。
它能模拟超 1000 种现实交互,检测 AI 在逻辑、响应等方面的故障,还具备阿拉伯语验证和持续监控功能。
该平台现针对 Product Hunt 用户推出优惠,含免费试用、个性化指导等。
TestAI 的功能有哪些?
-
模拟现实世界中的 AI 行为 —— 将背景噪音、口音、干扰等各种情况都施加于你的 AI。
-
在用户发现问题之前找到故障点 —— 检测逻辑、响应能力和合规性方面的故障。
-
验证执行过程,而不仅仅是意图 ——AI 应该能够贯彻执行,而不仅仅是理解。
-
阿拉伯语 AI 验证 —— 为准确性和现实世界的可靠性设定基准。
-
持续监控 —— 随着时间推移,AI 会发生变化,TestAI 会对其进行监控。

投融资
Perplexity 推出 5000 万美元种子和天使投资基金
Perplexity 是一家开发人工智能搜索引擎的公司,近日宣布推出一只 5000 万美元的种子和天使投资基金。尽管大部分资金来自外部有限合伙人,但 Perplexity 也利用部分自身资金作为锚定投资者。此前,该公司在 2024 年 12 月完成了 5 亿美元的融资,估值达到 90 亿美元。
该基金由 Kelly Graziadei 和 Joanna Lee Shevelenko 管理,二人于 2018 年共同创立了早期风险投资公司 F7 Ventures。F7 Ventures 曾投资于女性健康公司 Midi 等初创企业。目前尚不清楚 Graziadei 和 Shevelenko 是否会继续运营 F7,还是会将全部精力投入到 Perplexity 的投资基金中。
Perplexity 认为自身在投资初创公司方面具有优势,因为其网络中有约 80000 名开发者,公司能够通过其 API 看到谁在使用其应用程序以及谁的活跃度最高。此外,Perplexity 的创始人和投资者也参与了该基金的投资。
值得注意的是,OpenAI 也管理着一个名为 OpenAI 初创基金的投资基金。然而,与 Perplexity 不同的是,OpenAI 声称其投资并未使用自身资金

https://techcrunch.com/2025/02/25/perplexity-launches-50m-seed-and-pre-seed-vc-fund/
Perfect获2300万美元种子轮融资,用AI优化招聘流程
以色列初创公司Perfect近日完成2300万美元种子轮融资,旨在通过AI技术解决招聘流程中的低效问题。Perfect平台为招聘人员提供从撰写职位描述到筛选候选人的一站式服务,帮助其节省每周多达25小时的工作时间。自去年上线以来,Perfect已将客户从20家扩展至200家,包括Fiverr、eToro等知名企业。
Perfect由Eylon Etshtein创立,他此前是面部识别公司AnyVision的创始人。Etshtein从AnyVision的招聘经历中汲取灵感,希望打造一个能够精准匹配候选人的AI平台。与依赖第三方大语言模型的平台不同,Perfect从零开始构建了自己的矢量数据集,通过清洗和标注数据,确保招聘结果的准确性。Etshtein表示,尽管ChatGPT等大语言模型兴起,但Perfect的预ChatGPT架构并未被取代,因为它在处理大量数据时表现出色。
此次融资分为两轮,去年从Target Global等机构获得1200万美元股权融资,近期又从Hanaco Ventures等机构获得无息SAFE票据。Perfect计划利用这笔资金进一步完善工具集,并推出免费的候选人工具,以优化双方的招聘体验。

瑞典AI初创公司Lovable完成1500万美元融资,推动无代码应用开发平台发展
瑞典AI初创公司Lovable近期完成了1500万美元的Pre-A轮融资,由Creandum领投。该公司专注于开发基于生成式AI的应用构建平台,允许用户通过简单的提示创建应用程序,无需任何编程知识。Lovable的核心产品GPT Engineer能够生成生产级的代码,支持用户快速构建网站和网页应用。目前,该平台已拥有50万用户,每天创建超过2.5万个新产品,并且已实现1700万美元的年度经常性收入。
Lovable由Anton Osika和Fabian Hedin于2023年创立,目标是将编程能力扩展到仅占全球人口1%的程序员之外。其技术结合了OpenAI、Google Gemini和Anthropic的模型,能够自主创建和调试应用程序。此前,Lovable还完成了750万美元的种子轮融资,由Hummingbird Ventures和byFounders领投。
Lovable的快速增长使其成为欧洲发展最快的初创公司之一。公司计划利用新融资扩大与第三方服务的整合,如Supabase和GitHub。Creandum的合伙人Fredrik Cassel表示,Lovable的产品受到了用户的极大喜爱,类似于当年的Spotify。

— END —
2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切
3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/02/43135.html