大模型日报(12月5日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月5日 学术篇)

信号

01

Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset

最近的 English Common Crawl 数据集(例如 FineWeb-Edu 和 DCLM)通过积极的基于模型的过滤取得了显着的基准收益,但代价是删除了 90% 的数据。这限制了它们对长token范围训练的适用性,例如 Llama 3.1 的 15T token。在本文中,我们展示了如何通过结合分类器集成、合成数据重写和减少对启发式过滤器的依赖,在准确性和数据量之间实现更好的权衡。当为 1T token训练 8B 参数模型时,使用我们数据的高质量子集将 MMLU 比 DCLM 提高了 5.6,这证明了我们的方法在相对较短的token范围内提高准确性的有效性。此外,我们完整的 6.3T token数据集与 MMLU 上的 DCLM 相匹配,但包含的独特真实token数量是 DCLM 的四倍。
大模型日报(12月5日 学术篇)
https://arxiv.org/abs/2412.02595
02

Motion Prompting: Controlling Video Generation with Motion Trajectories

运动控制对于生成富有表现力和引人注目的视频内容至关重要;然而,大多数现有的视频生成模型主要依靠文本提示进行控制,很难捕捉动态动作和时间合成的细微差别。为此,我们训练了一个以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动调节工作相比,这种灵活的表示可以编码任意数量的轨迹、特定对象或全局场景运动以及时间稀疏运动;由于其灵活性,我们将这种调节称为运动提示。虽然用户可以直接指定稀疏轨迹,但我们还展示了如何将高级用户请求转换为详细的半密集运动提示,我们将这个过程称为运动提示扩展。我们通过各种应用展示了我们方法的多功能性,包括相机和对象运动控制、与图像“交互”、运动传输和图像编辑。我们的结果展示了新兴行为,例如现实物理,表明运动提示在探索视频模型以及与未来生成世界模型交互方面的潜力。最后,我们进行定量评估,进行人体研究,并展示强大的性能。
大模型日报(12月5日 学术篇)
大模型日报(12月5日 学术篇)
https://motion-prompting.github.io/
03

World-consistent Video Diffusion with Explicit 3D Modeling

扩散模型的最新进展为图像和视频生成树立了新的基准,实现了跨单帧和多帧上下文的逼真视觉合成。然而,这些模型仍然难以高效、明确地生成 3D 一致的内容。为了解决这个问题,我们提出了世界一致视频扩散(WVD),这是一种新颖的框架,它结合了使用 XYZ 图像的显式 3D 监督,对每个图像像素的全局 3D 坐标进行编码。更具体地说,我们训练一个扩散变换器来学习 RGB 和 XYZ 帧的联合分布。这种方法通过灵活的修复策略支持多任务适应性。例如,WVD 可以根据真实 RGB 估计 XYZ 帧,或者使用沿指定相机轨迹的 XYZ 投影生成新的 RGB 帧。为此,WVD 统一了单图像到 3D 生成、多视图立体和摄像机控制视频生成等任务。我们的方法在多个基准测试中展示了具有竞争力的性能,为使用单个预训练模型生成 3D 一致的视频和图像提供了可扩展的解决方案。
大模型日报(12月5日 学术篇)
大模型日报(12月5日 学术篇)https://arxiv.org/abs/2412.01821

HuggingFace&Github

01

Digma 无需离开 IDE 即可持续识别性能问题工具

Digma 是一款在运行时分析应用程序执行情况并识别关键性能问题的工具。Digma 由一个分析后端(在容器上本地运行)和一个作为主要前端的 IDE 插件组成(目前仅限 Jetbrains)。该插件提供与性能、查询问题、瓶颈扩展问题等相关的代码级洞察。
Digma 的工作原理
Digma 的后端从您的应用程序接收 OTEL 数据(在本地运行应用程序时自动收集),对其进行分析,并识别代码执行中的特定问题。所有数据都在本地处理,以支持合规性要求,无需更改代码。Digma 摄像头配置文件数据来自多个环境,包括开发、测试、准备、生产等。
Digma 背后的故事
Digma认为,除非应用程序分析是连续且自动的(就像测试一样),否则它不会有效。目前有许多可观察性工具,但它们都需要积极和手动地花费时间、注意力和专业知识才能获得结果。当发生可怕的事情时,它们只会被动使用,这并不奇怪。可观察性的最终目标不应该是创建仪表板,而应该是改进我们的应用程序和代码。

大模型日报(12月5日 学术篇)

https://github.com/digma-ai/digma


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/24315.html

Like (0)
Previous 2024-12-05 18:00
Next 2024-12-05 21:07

相关推荐

  • 大模型日报(12月23日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-12-23
    51
  • 科技乐观主义者宣言|Z Talk

    Z Talk 是真格分享认知的栏目。 我们在这里谈论最新的行业观察,先锋的创业动态,也在这里与真格老友相聚。我们相信持续的学习和进化,相信最深刻的认知来自土壤。 上周,a16z 的…

    2023-10-24
    149
  • 再见2024,憧憬2025

    2024年的最后一天下午2点,提审的小程序新版本被拒,半小时后,我出现在了学员的办公室里。    很神奇的是,这两件似乎毫无关联的事情,构成了在2024年的尾巴想清楚,会在2025…

    2025-01-01
    103
  • MolarData| AI领域资讯速递

    MOLAR NEWS 2020年第27期   MolarData人工智能每周见闻分享,每周一更新。 准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸 为了更好地…

    2020-08-25
    181
  • 「特工宇宙」2024 年度 AI 应用榜单

    2024 年是 AI 应用大爆发的一年,据我们知识库内部数据统计,在这一年中,我们总共收录了 1w+ AI 应用,深度调研了 300+ AI 产品。 在这跨年之际,我们计划也像其他…

    2025-01-01
    103
  • 对话姬朋飞:从大厂辞职到 Chat2DB 的诞生

    最有力的回击就是用产品说话,而不是口舌之争。 ——姬朋飞 今天,是姬朋飞的生日。 在一年前的今天,姬朋飞选择离开了工作 8 年的地方,毅然选择了创业做 Chat2DB,希望用户能用…

    2024-10-16
    426
  • 真格被投都在 WAIC 发了什么新鲜玩意儿|Z NEWS

    7 月 6 日- 8 日,2023 世界人工智能大会(WAIC)在上海世博中心举办。 以“智联世界 生成未来”为主题,科研前沿、创业企业、产业力量在这里交汇,共同探讨智能领域新趋势…

    2023-07-10
    199
  • 新年新愿,启航2025。

    整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术…

    2024-12-31
    67
  • AI神器组合 | DeepSeek+Napkin: 让你的想法秒变高清效果图 (内附完整步骤)

    你是否经常有这样的困扰:脑子里有一个绝妙的idea,甚至已经从DeepSeek或者ChatGPT获得了大致的框架,但当你试图把它变成一张效果图时,却发现总是差强人意? 要么是细节不…

    2025-03-12
    82