我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

信号

Evolving Deeper LLM Thinking

我们探索了一种用于扩展大型语言模型中推理时间计算的进化搜索策略。所提出的方法 Mind Evolution 使用语言模型来生成、重新组合和优化候选响应。所提出的方法避免了在有解决方案评估器可用时形式化底层推理问题的需要。控制推理成本后，我们发现 Mind Evolution 在自然语言规划任务中的表现明显优于其他推理策略，例如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中，Mind Evolution 使用 Gemini 1.5 Pro 解决了 98% 以上的问题实例，而无需使用正式求解器。

原文链接：http://arxiv.org/abs/2501.09891v1

今日信号解读：https://rflow.ai/flow/0d6d66ca-ce92-46c6-b114-00920391d81a

PaSa: An LLM Agent for Comprehensive Academic Paper Search

我们推出了 PaSa，这是一款由大型语言模型驱动的高级论文搜索代理。PaSa 可以自主做出一系列决策，包括调用搜索工具、阅读论文和选择相关参考文献，最终为复杂的学术查询获得全面而准确的结果。我们使用强化学习和合成数据集 AutoScholarQuery 优化了 PaSa，该数据集包含来自顶级 AI 会议出版物的 35k 个细粒度学术查询和相应论文。此外，我们还开发了 RealScholarQuery，这是一个收集现实世界学术查询的基准，用于评估 PaSa 在更现实场景中的表现。尽管是在合成数据上进行训练的，但 PaSa 的表现明显优于 RealScholarQuery 上的现有基准，包括 Google、Google Scholar、使用 GPT-4 进行释义查询的 Google、chatGPT（支持搜索的 GPT-4o）、GPT-o1 和 PaSa-GPT-4o（通过提示 GPT-4o 实现的 PaSa）。值得注意的是，PaSa-7B 在召回率@20 和召回率@50 上分别比基于 Google 的最佳基线 Google（GPT-4o）高出 37.78% 和 39.90%。此外，它在召回率和准确率上也分别比 PaSa-GPT-4o 高出 30.36% 和 4.25%。

原文链接：https://arxiv.org/abs/2501.10120v1

信号源：ByteDance Research

元资助

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

生成对抗网络 (GAN) 的应用最近推动了基于中间表示（如梅尔谱图）的语音超分辨率 (SR)。然而，现有的 SR 方法通常依赖于独立训练和连接的网络，这可能会导致表示不一致和语音质量差，尤其是在域外场景中。在这项工作中，我们提出了 HiFi-SR，这是一个利用端到端对抗训练实现高保真语音超分辨率的统一网络。我们的模型采用统一的变换器-卷积生成器，旨在无缝处理潜在表示的预测及其向时域波形的转换。变换器网络充当强大的编码器，将低分辨率梅尔谱图转换为潜在空间表示，而卷积网络将这些表示升级为高分辨率波形。为了提高高频保真度，我们在对抗训练过程中加入了多频带、多尺度时频鉴别器以及多尺度梅尔重构损失。HiFi-SR 功能多样，能够将 4 kHz 至 32 kHz 之间的任何输入语音信号上调至 48 kHz 采样率。实验结果表明，HiFi-SR 在客观指标和 ABX 偏好测试中的表现均显著优于现有的语音 SR 方法，无论是在域内还是域外场景中

原文链接：https://arxiv.org/abs/2501.10045v1

信号源：Alibaba Group

元资助

X-Dyna: Expressive Dynamic Human Image Animation

我们推出了 X-Dyna，这是一种新颖的零镜头、基于扩散的管道，可使用从驾驶视频中获取的面部表情和身体动作为单个人体图像制作动画，从而为主体和周围环境生成逼真的情境感知动态。X-Dyna 以先前以人体姿势控制为中心的方法为基础，解决了导致动态细节丢失的关键缺陷，增强了人体视频动画的逼真度。我们方法的核心是 Dynamics-Adapter，这是一个轻量级模块，可有效地将参考外观上下文集成到扩散主干的空间注意力中，同时保留运动模块合成流畅和复杂动态细节的能力。除了身体姿势控制之外，我们还将局部控制模块与我们的模型连接起来，以捕捉身份分离的面部表情，促进准确的表情传递，从而增强动画场景的真实感。这些组件共同形成了一个统一的框架，能够从各种人物和场景视频中学习物理人体运动和自然场景动态。全面的定性和定量评估表明，X-Dyna 优于最先进的方法，可以创建高度逼真和富有表现力的动画。