大模型日报(11月29日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(11月29日 学术篇)

信号

01

ColPali: Efficient Document Retrieval with Vision Language Models

文档是通过文本、表格、图表、页面布局或字体等视觉元素传达信息的结构化信息载体。尽管现代文档检索系统在查询到文本匹配方面表现出色,但它们在有效利用视觉线索方面存在困难,这阻碍了它们在实际文档检索应用(如“检索增强生成”)中的表现。为了衡量当前系统在丰富视觉文档检索方面的性能,我们推出了Visual Document Retrieval Benchmark ViDoRe,这是一个由涵盖多个领域、语言和设置的多种页面级检索任务组成的基准集。现代系统的固有缺陷促使我们引入了新的检索模型架构ColPali,它利用最近的视觉语言模型的文档理解能力,仅从文档页面的图像中生成高质量的上下文化嵌入。结合后期的交互匹配机制,ColPali在速度上大大优于现代文档检索管道,并且是端到端可训练的。
大模型日报(11月29日 学术篇)
https://arxiv.org/abs/2407.01449
02

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

文本到图像扩散模型可以产生令人印象深刻的结果,但对于希望进行精细控制的艺术家来说,它们往往是令人沮丧的工具。例如,一个常见的用例是创建特定实例在新上下文中的图像,即“身份保持生成”。这一设置以及其他许多任务(例如光照调整)非常适合图像文本条件生成模型。然而,直接训练此类模型需要大量的高质量配对数据。我们提出Diffusion Self-Distillation,一种使用预训练的文本到图像模型生成其自身数据集以进行文本条件图像到图像任务的方法。我们首先利用文本到图像扩散模型的上下文生成能力创建网格图像,并借助视觉语言模型创建一个大型配对数据集。然后,我们使用该配对数据集微调文本到图像模型以生成图像到图像模型。我们证明Diffusion Self-Distillation在身份保持生成任务上优于现有的零样本方法,并且在不进行测试时优化的情况下与针对每个实例的调整技术具有竞争力。
大模型日报(11月29日 学术篇)
https://arxiv.org/abs/2411.18616
03

CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

我们提出了一种名为CAT4D的方法,可以从单目视频创建4D(动态3D)场景。CAT4D利用在多种数据集上训练的多视点视频扩散模型,以实现在任意指定摄像机位置和时间点上的新颖视点合成。结合一种新的采样方法,该模型可以将单目视频转换为多视点视频,通过对可变形3D高斯表示的优化实现稳健的4D重建。我们在新颖视点合成和动态场景重建基准测试中展示了其具有竞争力的表现,并强调了从真实或生成的视频中生成4D场景的创造性能力。
大模型日报(11月29日 学术篇)
https://arxiv.org/abs/2411.18613

HuggingFace&Github
01

LightRAG

LightRAG 是一个高效的检索增强型生成系统,希望通过检索相关知识提升生成任务的性能。其主要功能包括支持多种存储类型(如 JSON、Oracle 和 Neo4j)、多种语言模型(如 OpenAI 和 Hugging Face)、自定义知识图谱的插入和查询,以及多种文件类型的导入(如 PDF 和 CSV)。LightRAG 还提供图形可视化功能和 RESTful API 服务,便于集成到其他应用中。
大模型日报(11月29日 学术篇)
https://github.com/HKUDS/LightRAG


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/22514.html

Like (0)
Previous 2024-11-28 10:44
Next 2024-11-30 15:34

相关推荐