我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

资讯
马斯克全力阻止OpenAI转盈利!已向法院申请禁令
马斯克与OpenAI的诉讼再次升级,马斯克已经向法院申请禁令,意图阻止OpenAI转型为营利性机构。此举不仅涉及OpenAI本身,还牵涉到其CEO萨姆·奥特曼、总裁Greg Brockman、微软、领英联合创始人Reid Hoffman以及微软副总裁Dee Templeton。马斯克指控OpenAI及相关方进行多项非法行为,包括阻挠投资者支持马斯克的AI公司xAI、通过与微软的合作非法获取竞争敏感信息,并将OpenAI的治理结构转变为营利性机构。马斯克的律师称,如果禁令不被批准,将对马斯克及公众造成“无法弥补的伤害”,因为OpenAI的非营利性质将难以恢复。OpenAI对此回应称,马斯克的诉讼毫无根据,且重复无价值。
这场诉讼源于今年二月马斯克首次提起诉讼,指控OpenAI背离其非营利使命。然而,马斯克在六月撤诉,但在11月重新启动诉讼,并增加了新的指控和被告,指控OpenAI涉嫌不正当竞争,垄断生成式AI市场。新增的被告包括微软、Hoffman和Templeton等人,马斯克的律师还指出,Hoffman在微软和OpenAI的董事会双重身份,使他能够获取两家公司交易的敏感信息。而Templeton在担任OpenAI董事会观察员期间,可能促成了微软和OpenAI之间违反反垄断法的协议。此外,马斯克还指控OpenAI要求其投资者承诺不投资xAI,从而影响了xAI的融资。
马斯克的律师进一步表示,OpenAI与微软之间继续非法共享资源,且OpenAI的转型可能会导致公司失去足够资金支付未来可能的赔偿。如果不批准禁令,OpenAI在获得新投资后可能将变得无法恢复。马斯克的最新申请还提到,OpenAI最近通过组织要约收购完成了15亿美元的交易,使得软银成为公司重要股东,这进一步加剧了马斯克的指控。与此同时,马斯克的xAI公司正在快速推进,员工们在节假日期间仍在加班,且xAI的融资状况良好,刚完成了50亿美元的融资。
ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星
在ICLR 2025的评审现场,张吕敏团队的IC-Light论文获得了极高的评价,四位审稿人全给出满分10分。这篇基于扩散模型的照明编辑工具,可以通过简单的文本指令精确控制图像的光照效果,解决了传统图像编辑中难以精准调节光照和材质的问题。IC-Light的成功之处在于其能通过物理原理来模拟光的传输一致性,确保在修改光照的同时,保留物体的内在属性如反射率和细节。此方法不仅提升了光照编辑的准确性,还能在大规模、复杂的数据上稳定训练,表现出了更好的泛化能力和可扩展性。
论文介绍了如何在训练过程中通过一致光传输的约束条件,确保图像修改仅涉及光照变化,而不影响其他细节。实验结果表明,该方法能够处理多种复杂光照场景,包括背光、边缘光、霓虹灯等,并且能够在多样化的训练数据上进行有效训练。特别是在野外照明条件下,IC-Light能够显著提升光照编辑的精度。与传统方法相比,IC-Light减少了伪影,保持了图像的细节和一致性。
此外,IC-Light的应用不仅限于照明编辑,还可以扩展到法线贴图生成、艺术照明处理等领域,展示了其在实际场景中的强大鲁棒性。通过与其他方法的对比,IC-Light在感知质量上具有明显优势,特别是在阴影处理和图像细节的保留上。此外,模型还支持不同的基础模型,如SD1.5、SDXL和Flux,进一步提高了其灵活性和实用性。
总结来说,IC-Light不仅为照明编辑提供了新的思路,还为AI图像生成和编辑领域带来了突破性的进展。通过强加一致光传输,该模型在精确光照控制的同时,保证了图像细节的准确呈现,成为目前该领域最为先进的技术之一。
计算机视觉中的自回归模型综述
这篇论文综述了自回归模型在视觉领域的最新发展,主要涉及图像生成、视频生成、3D生成和多模态生成等应用。自回归模型通过序列化的方式处理视觉数据,逐个预测图像或视频中的元素,已被证明在多个任务中具有强大的生成能力。文章详细介绍了自回归模型的两个核心部分:序列表示和自回归序列建模。序列表示将视觉数据转化为离散元素(如像素、视觉词元等),而自回归序列建模则通过条件概率依次预测这些元素,训练目标是最小化负对数似然损失。
文献综述方面,文章回顾了约250篇相关文献,包括新兴领域如3D医疗和具身智能等,并将自回归模型按序列表示策略分为基于像素、基于视觉词元和基于尺度的模型。每种方法都有其优势和挑战,例如基于像素的模型在生成高分辨率图像时计算成本较高,基于视觉词元的模型则面临码本利用率低和采样速度慢的问题,而基于尺度的模型通过多尺度的生成方式提高了效率和质量。
自回归模型与其他生成模型(如变分自编码器、生成对抗网络、扩散模型等)有着紧密的关系。自回归模型通过最大化数据的似然性进行训练,生成的样本质量较高,但采样速度较慢。与GANs相比,尽管自回归模型训练稳定,但速度较慢;与扩散模型相比,两者都能生成高质量样本,但自回归模型在生成过程中展示了更大的扩展潜力。
在应用方面,文章介绍了自回归模型在图像生成(包括无条件生成和文本到图像生成等)、视频生成、3D生成和多模态生成等领域的广泛应用。自回归模型不仅能在视觉生成任务中提供较高的质量和多样性,还能够结合其他技术(如大语言模型)来进行文本到图像或视频生成。针对评估标准,文章指出,评估模型性能需要考虑生成质量、图像多样性和语义一致性等多个方面的指标。
尽管自回归模型在视觉领域取得了显著进展,仍面临若干挑战,包括视觉分词器的设计、离散与连续表示的选择、模型架构中的归纳偏差等问题。未来的研究可能会集中在如何改进视觉分词器、如何设计合适的损失函数、以及如何将自回归模型扩展到更广泛的下游任务中。
总体而言,自回归模型在计算机视觉领域具有巨大的应用潜力,尽管仍存在一些挑战,随着技术的不断发展,它们有望在多个领域中得到更广泛的应用。

三名高中生,为近百年的分形定理带来了新证明
最近,三名高中生—Niko Voth、Joshua Broden 和 Noah Nazareth—在导师多伦多大学数学家Malors Espinosa的指导下,成功证明了一项关于扭结和分形的新数学定理。这一成就让他们成为数学界关注的焦点。该定理表明,所有类型的扭结都能在门格海绵(Menger sponge)这一著名分形结构中找到位置。门格海绵是一种复杂的自相似形状,具有多孔的结构,数学家Karl Menger在近一个世纪前首次提出,至今仍吸引着数学家们的兴趣。
Malors在2021年秋天设计了一个数学问题,意图让高中生挑战这个没有现成答案的难题。通过与学生们的多次讨论,Malors提出,扭结是否可以嵌入门格海绵是一个值得深入探讨的问题。扭结在数学上是指一条绳子被扭成的环状物体,而Menger的定理则保证可以在海绵中找到圆形的曲线,但未能证明所有类型的扭结都能被嵌入。高中生们决定挑战这一问题,并成功解决了它,证明所有扭结都可以在门格海绵中找到。
这项研究的过程非常复杂,学生们需要深入理解扭结的几何特性,并通过一种称为“弧表示法”的技巧将其转化为二维网格上的图形。接着,他们利用康托尔集的数学结构,确保扭结可以在海绵的结构中穿过而不脱离。这个突破性成果不仅解答了Malors最初的问题,还启发了他们进一步探讨是否所有扭结都能嵌入四面体版本的门格海绵中,尽管这仍是一个未解之谜。
这项工作展示了年轻数学家的潜力,并证明了正确问题的重要性。Broden、Nazareth和Voth的成就被誉为巧妙地将不同数学领域结合在一起,刷新了对门格海绵和扭结的理解。Malors表示,这项研究虽然充满挑战,但也让学生们体验到数学研究的真正乐趣,特别是当他们从失败中找到了新的解决方法。尽管这些学生已经高中毕业,但他们的数学旅程远未结束,其中一些人计划继续深造并从事数学研究工作。
https://mp.weixin.qq.com/s/1AtBIAskKtLFY7dLpkTtBQ
推特
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Karpathy: 人们对“向AI提问”这件事的意义抱有过于膨胀的理解
人们对“向AI提问”这件事的意义抱有过于膨胀的理解。AI本质上是通过模仿人类标注员的数据训练出来的语言模型。与其将其神秘化为“向AI提问”,不如把它看作“向互联网上的普通数据标注员提问”。
当然,也有一些需要注意的地方,例如在某些领域(如代码、数学、创意写作),公司会雇佣技术娴熟的数据标注员(所以可以把它看作向这些专业人士提问)。不过,当涉及强化学习时,这种观点并不完全适用。尽管如此,我之前已经吐槽过,RLHF(通过人类反馈强化学习)勉强算是强化学习,“真正的强化学习”仍处于早期阶段,或者仅限于可以提供简单奖励函数的领域(例如数学)。
但大体而言(以现阶段为准),你并不是在向某种神奇的AI提问,而是在向某种人类数据标注员提问。他们的平均特质被以一种有损压缩的方式,提炼成了这些大型语言模型的统计符号系统。当然,这仍然可能非常有用。这篇文章的起因是某人建议“我们可以问AI如何治理国家”。简而言之,你不是在问AI,而是在问它的“平均数据标注员”的混合精神体。
例如,当你问“阿姆斯特丹的十大景点”之类的问题时,很可能某个被雇佣的数据标注员曾经看到过类似的问题,用Google或Trip Advisor等工具花了20分钟研究,整理出一个包含10个景点的列表。而这个列表字面上就成了正确答案,用于训练AI在遇到类似问题时给出这个答案。
如果这个具体的景点不在微调训练集里,神经网络会基于从预训练阶段(对互联网文档的语言建模)中获得的知识,推断出一个具有统计上相似“氛围”的列表。
https://x.com/karpathy/status/1862565643436138619
秒换穿搭,瞬间找到你的完美造型:Kling AI试衣间功能上线
Kling「AI试衣间」现已上线!👗✨ 秒换穿搭,瞬间找到你的完美造型!💫💃 #klingai #AI造型 #轻松时尚 #黑色星期五

https://x.com/Kling_ai/status/1862409032767873284
曾负责OpenAI AGI 准备的 Rosie离职,分享离职消息:我们的使命并不仅仅是“构建 AGI”
这是我在OpenAI工作的最后一周,时长约为3年半。我最初从事API安全相关工作,随后转向政策研究,与@Miles_Brundage紧密合作,专注于AI治理、前沿政策问题以及AGI(通用人工智能)的准备工作。
大家好,在这里工作了近三年半之后,我即将离开 OpenAI。我一直被确保安全且有益的 AGI(通用人工智能)这一使命所驱动。在 Miles 离职以及 AGI 准备团队解散之后,我相信在外部可以更有效地继续追求这一目标。
在我任职期间,我致力于前沿政策问题的研究,包括危险能力评估、数字感知以及治理具备自主能力的系统。我很高兴公司支持了这种被忽视的、稍显奇怪的政策研究,而这些研究在认真对待转型型 AI 的可能性时变得尤为重要。然而,我感到有些遗憾的是,内部已不再有适合我继续从事这类工作的空间。
能够在这样关键的时刻,与如此卓越的人们共同致力于改变世界的技术,是一种真正的荣幸。然而,尽管随着发展而改变是不可避免的,过去一年左右的一些变化让我感到不安,尤其是许多塑造我们文化的人离开。我真心希望那些让我觉得这里如此特别的东西可以被强化,而不是被削弱。基于这一点,尽管可能显得有些冒昧,我想给大家留下我的一些建议:
1. 请记住,我们的使命并不仅仅是“构建 AGI”。还有很多工作需要完成,以确保它能够真正造福人类。
2. 认真对待当前的安全方法可能不足以应对我们预计在本十年内出现的强大系统这一前景。
3. 尽量讲述真实的事情,即使它们令人不安或难以面对。
4. 以恰当的严肃态度行事:我们正在构建的并不仅仅是另一个科技产品。
在这里我学到了很多,我也非常感激能够与你们共同经历这段激动人心的旅程。希望我们还能保持联系。
https://x.com/RosieCampbell/status/1863017727063113803
React Scan 更新:显示需要优化的 props
React Scan 现在会显示需要优化的 props ⚠️
https://github.com/aidenybai/react-scan

https://x.com/aidenybai/status/1862891648646295788
INTELLECT-1:开源去中心化训练的 100 亿参数模型
发布 INTELLECT-1:我们正在开源首个去中心化训练的 100 亿参数模型:

https://x.com/PrimeIntellect/status/1862607165669900407
产品
Crono
Crono 是一个专为 B2B 销售团队设计的一体化销售自动化平台,可以使销售过程更快、更简单和更智能。创始团队拥有超过 30 年的销售经验,深知销售团队面临的挑战,如销售时间浪费、工具集成不良等。Crono 提供了一个包含 10 亿联系人数据库的解决方案,允许用户轻松查找潜在客户、自动化多渠道营销、生成个性化消息、跟踪互动并整合多达 15 种日常工具和 CRM 系统。
Bika.ai
Bika.ai 是一个易于使用的 AI 自动化数据库和知识库,可以自动化重复性任务并在营销和销售等多个职能中无缝执行。它结合了 GenAI Zapier 的自动化功能和支持高达 10 亿行数据的能力,允许用户轻松管理复杂的数据系统。Bika.ai 的主要特点包括将自动化工作流程保存为模板、支持多种自动化触发器和操作、以及自动跟踪任务进度并生成报告。该平台为用户提供了一个无代码的解决方案,帮助他们智能地自动化工作,提升效率。
Kroto
Kroto 推出了全新的多语言功能,允许用户一次录制并以 60 多种语言分享,配备 AI 生成的配音和无缝翻译,适用于视频和指南。这一功能使 Kroto 能够面向全球受众,打破语言障碍,使文档更易于获取。
https://www.kroto.one/multi-lingual
投融资
Pathway获1000万美元融资,加入“实时AI”阵营
随着大型企业在将人工智能融入其平台和流程时遇到的挑战,生成式AI的记忆功能和持续更新的训练数据成为了亟需解决的问题。这个领域被称为“实时AI”(Live AI),包括Cohere和Writer等初创公司在内的多家公司正在积极探索。近日,Pathway宣布成功完成1000万美元的种子轮融资,旨在构建能够实时学习和思考的AI系统。
此次融资由TQ Ventures主导,Kadmos、Innovo、Market One Capital、Id4以及多位天使投资人参与。此外,OpenAI GPT系列的核心研究员之一、Transformer算法的共同作者Lukasz Kaiser也投资了Pathway。Pathway提供的产品包括“基础设施组件”,能够支持实时AI系统,处理结构化和非结构化数据,帮助企业AI平台基于最新数据做出决策。公司目前的客户包括北约和法国邮政等。
Pathway的联合创始人兼CEO Zuzanna Stamirowska表示,目前的深度学习和大语言模型(LLM)在使用时并不具备“记忆”能力,模型虽然可以处理训练数据,但无法有效储存和应用这些知识,且无法实时更新。Pathway的技术解决方案通过在构建LLM应用时实时输入数据来弥补这一不足。
Stamirowska还透露,Pathway的团队由多位资深技术专家组成,其中包括曾与“AI教父”Geoff Hinton合作的CTO Jan Chorowski。她本人曾在美国科学院发表过关于复杂网络的前瞻性模型研究。
在与其他初创公司比较时,Stamirowska指出,Pathway在生成式AI工程和知识管理领域的应用,与Cohere和Writer等公司有相似之处,但在企业级解决方案中,Pathway的定位更具产品化优势,常与Palantir等公司在AI转型项目中竞争。
公司官网:https://pathway.com/
https://techcrunch.com/2024/11/29/as-cohere-and-writer-mine-the-live-ai-arena-pathway-joins-the-pack-with-a-10m-round/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/23065.html