大模型日报(12月9日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月9日 资讯篇)


资讯

01

扩散模型的动态机制


本文研究了在数据维度和样本量都很大的情况下,以及得分函数被最优训练时,生成性扩散模型(DMs)的动态机制。通过统计物理方法,我们识别了生成性扩散过程中的三个不同的动态机制。从纯噪声开始的生成动态,首先遇到物种形成转变,数据的广泛结构在此阶段显现,类似于相变中的对称性破缺。随后是崩塌阶段,动态被吸引到特定的训练点,类似于玻璃相中的凝聚机制。物种形成时间可以从数据相关矩阵的谱分析中获得,而崩塌时间与过剩熵度量相关,并揭示了扩散模型存在维度的诅咒。这些理论发现得到了高斯混合的解析解的支持,并通过对真实数据集的数值实验得到证实。
大模型日报(12月9日 资讯篇)
https://www.nature.com/articles/s41467-024-54281-3
02

a16z:2025年科技发展趋势

1. 能源革命与核能回归
  • 核能需求增加,得益于监管改革、公众支持、资本注入,以及人工智能数据中心对清洁能源的巨大需求。
  • 过去关闭的核电站,例如宾夕法尼亚的三里岛,将重新启用,推动能源供应可靠性。
2. 硬件与软件跨界的新兴职业
  • 随着人工智能应用于复杂硬件,电气工程、机械工程和机器人等学科将迎来需求激增。
  • 2025年,制造业、自动化领域的高技能技术人员需求可能超过传统软件工程师。
3. 太空探索与快速运输
  • SpaceX的Starship快速可重复使用技术将推动人类登月和火星探索,甚至实现40分钟内完成地球范围的人员与货物运输。
4. 国防去中心化
  • 自主无人机和战场AI将实现实时战术调整,减少对中心化控制的依赖,加强边缘设备的作战能力。
5. XR设备与物理世界的连接
  • XR(扩展现实)设备将推动机器人与模拟技术的发展,并在需要大量物理数据的领域发挥关键作用。
6. 健康与生物科技突破
  • 新型AI健康工具将实现个性化预防和疾病早期检测。
  • 生物科技领域针对重大疾病(如糖尿病、肥胖症)的创新治疗方法正在兴起。
7. 实时AI与交互技术
  • AI实时响应能力将催生新的应用场景,如教育中的动态反馈系统和实时视频生成。
8. AI和区块链结合
  • AI将更加自主,拥有自己的加密钱包和节点,参与市场交易,推动去中心化的经济活动。
9. 企业技术堆栈重塑
  • 企业逐步抛弃传统系统(如Salesforce),转向基于AI的动态系统以提升效率。
10. 去中心化自治组织(DAO)与新型治理模式
  • 区块链技术将推动“液态民主”等新型治理方式的试点,应用于地方政府与社区治理。
大模型日报(12月9日 资讯篇)
https://a16z.com/big-ideas-in-tech-2025/
03
元资助

北交开源o1代码版

北京交通大学的研究团队推出了一款名为O1-CODER的编码任务模型,并且开源了所有源代码、精选数据集以及衍生模型。该模型结合了强化学习(RL)与蒙特卡洛树搜索(MCTS),旨在提高系统-2思维能力,特别是在编码任务中的推理能力。团队的关键发现之一是,通过伪代码推理显著提高了代码生成的质量,此外将监督微调(SFT)与直接偏好优化(DPO)结合,能够提升测试用例的生成效果,并通过自我对弈强化学习实现了推理与代码生成的持续改进。
O1-CODER采用了六步框架,其中包括训练测试用例生成器(TCG),利用MCTS生成包含推理过程的代码数据,通过强化学习更新策略模型,以及通过伪代码生成完整的可执行代码。在解决自我对弈强化学习面临的挑战时,团队首先提出了训练测试用例生成器,以提供标准化的代码测试环境和结果奖励,确保生成的代码能够得到有效评估。其次,团队选择“先思考后行动”的策略,即通过伪代码进行详细的思考,再生成代码,提升了推理过程的控制能力和适应性。
具体来说,测试用例生成器经历了两个阶段的训练:监督微调(SFT)和直接偏好优化(DPO)。SFT阶段旨在确保生成器输出符合预定义格式,从而生成有效的测试用例,DPO阶段则通过构建偏好数据集进一步提升生成器的性能。在实验中,经过DPO阶段,测试用例的通过率从80.8%提升到89.2%,展现了显著的改进。
伪代码的引入则帮助模型进行更深层次的推理。团队将伪代码视为引导模型推理的工具,首先用伪代码定义算法的结构,再逐步细化每个函数的具体步骤,最后生成完整代码。基于这一方法,模型在MBPP数据集上的表现有所提升,尽管通过率有所下降,但平均采样通过率(ASPR)大幅提高,表明伪代码推理显著优化了推理过程。
在强化学习部分,团队结合了MCTS来生成推理路径,并为每个推理步骤分配奖励。通过伪代码引导的路径探索,团队能够将终端节点的奖励(如编译成功率和测试用例通过率)反向传播到推理路径的每个步骤,从而为策略模型的训练提供了有效的过程奖励。通过这种方式,O1-CODER在强化学习的帮助下不断优化推理过程,形成了数据生成、奖励建模和策略优化的闭环,确保了推理能力的持续提升。
大模型日报(12月9日 资讯篇)
https://mp.weixin.qq.com/s/Y7qZDFtBklmoTeRUxjV_fw
04
元资助

美国旧金山草根调研与海外AI应用进展

海外AI应用关注缘何而起——AI渗透率明显提升、三季度业绩支撑
今年11月份以来,海外AI应用的关注度得到大幅的提升,起因是11月9日美国CRM公司Salesforce宣布将招聘1000名销售人员推广其AI助手产品Agent force,并且很多客户对Agent force的使用反馈佳。此后美股进入财报季,一批AI应用公司第三季度财报超预期,包括AI广告的Applovin,AI数据的Palantir和Snowflake,AI电商的Shopify,以及Salesforce自身财报的超预期,闭环验证了AI助手的可行性。
哪些细分领域看到变化——集中在To B场景,广告/Agent/数据方向先行
AI广告:AI明显提升广告投放的精准度,程序化广告公司Applovin连续4个季度收入增速35%以上,AI投放系统Axon 2.0开始显现飞轮效应,除游戏之外,电商广告的投放转化率也有望得到普遍提升。
AI助手:企业所有内部管理流程与业务环节,都具备AI化的潜力,如Salesforce的客户管理助手Agent force首周就得到200个订单,2美元/单轮对话的定价也得到普遍认可。AI也赋能SAP、ServiceNow、Workday等公司,提升企业内部的财务、人力、供应链管理等环节的效率。
AI数据分析:不论是大型跨国企业的数据仓库,还是中小公司的内部数据库,AI都能辅助更好地数据管理、分析与可视化,包括Palantir、Snowflake、Elastic等公司三季度业绩都展现良好趋势。
AI应用长期怎么看——B端先出业绩,但长期C端弹性更大
B端AI应用更容易在短期兑现业绩,因为对于企业而言采用AI产品本质是一道计算题:AI带来的长期回报大于购买成本,则购买意愿就大(如Agent force的2美金/单次对话,比对应的人力成本划算)
而C端应用的核心则是“大幅提升”需求端的感受,这个过程是相对缓慢、需要迭代的,但一旦爆发则长期空间和弹性都更大。C端应用,我们则坚定看好AI视频、陪伴&游戏、搜索等方向的发展。
大模型日报(12月9日 资讯篇)
https://mp.weixin.‍qq.com/s/rVDPUB3nXFFLSg2QwfcAhw

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Sora v2 即将发布:1 分钟视频输出,文本生成视频,文本 + 图片生成视频,文本 + 视频生成视频

Sora v2 即将发布:
• 1 分钟视频输出
• 文本生成视频(text-to-video)
• 文本 + 图片生成视频(text+image-to-video)
• 文本 + 视频生成视频(text+video-to-video)
OpenAI 的 Chad Nelson 在伦敦的 C21Media 主旨演讲中展示了这一点。他表示正如 @sama 之前暗示的那样,这些功能将非常快地与大家见面。

大模型日报(12月9日 资讯篇)

https://x.com/RuudNL/status/1865425438991945938
02 

Llama 3.3 70B 在 M1 Pro 上以 7.8 个 token/秒的速度流式传输到我的手机

Llama 3.3 70B 在 M1 Pro 上以 7.8 个 token/秒的速度流式传输到我的手机。
虽然不是最快的,但令人惊叹的是,你可以在没有互联网的情况下将如此强大的模型服务于整个家庭。

大模型日报(12月9日 资讯篇)

https://x.com/localghost/status/1865497302670164469
03

Kalouche分享EyeSight Hand 的触觉体验:将眼部手部一体化技术发挥到了极致

EyeSight Hand 的触觉体验是我见过最好的。它将眼部手部一体化技术(eye-in-hand)发挥到了极致,并将触觉感知编码为密集的视觉信息。
由于仿人手的设计容易受到高遮挡的影响,它们确实需要触觉感知才能良好运行。
仅靠视觉是不够的。

大模型日报(12月9日 资讯篇)

https://x.com/simonkalouche/status/1865580747991712004
04

Timbo分享:可探索的待办事项列表

待办事项列表本身是一个单元(代码),每个待办事项也是一个单元。在 Unit 中,动态添加子项不会自动改变代码。不过,“将待办事项保存在代码本身”的过程仍然在数据层面通过一个元模式完成(这个模式与 Git 一起工作)。
你可以在这里体验一下:
https://unit.tools/u/9473d045-1389-4514-b2b4-bdb4c8843d9e

大模型日报(12月9日 资讯篇)

https://x.com/io_sammt/status/1865573038236025236
05

谷歌Murphy分享:强化学习教程的第一版草稿现已发布

我很高兴宣布,我的强化学习(RL)教程的第一版草稿现已发布:
https://arxiv.org/abs/2412.05265
大模型日报(12月9日 资讯篇)
https://x.com/sirbayes/status/1865987143669334480

产品

01

Jenium 是一款面向初创企业的全能型工作套件

Jenium 是一款面向初创企业的全能型工作套件,它将任务管理、销售线索跟进、财务核算、时间提醒和团队协同等关键功能整合在同一平台上,从而帮助团队高效而有序地处理日常运营事务。通过统一的界面和数据集成,用户不再需要在多个软件与工具之间频繁切换,而是可以一站式掌握公司进度与决策信息。此外,Jenium 的下一版本将引入生成式人工智能(GenAI)技术与针对初创企业场景定制的 AI 智能代理,进一步推动工作流程的自动化与智慧化,让团队以更低的成本、更高的效率掌控项目全局。
大模型日报(12月9日 资讯篇)https://jenium-modern-business-suite.webflow.io
02

Sharbo 01  全方位竞争情报 AI 解决方案

Sharbo 01 是一款面向企业的全方位竞争情报 AI 解决方案。借助整合的多源信息和智能洞察,用户可以一站式获取竞争对手的最新动态与战略趋势,从而快速识别市场机会与潜在威胁。通过自动化的报告生成和功能特性对比追踪,团队可轻松监控关键指标与差异化优势,无需在繁杂的信息源之间来回切换。Sharbo 01 以高效、简便的方式让企业轻松掌控竞争格局,进而优化决策过程,提升市场应变能力与整体竞争实力。
大模型日报(12月9日 资讯篇)
https://www.sharbo.io



推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/25105.html

Like (0)
Previous 2024-12-09 19:10
Next 2024-12-10 20:04

相关推荐