能理解 20 分钟长视频的 Qwen2-VL 来了!

能理解 20 分钟长视频的 Qwen2-VL 来了!

以下内容摘录自官网,点击「阅读原文」可查看原博客。

经历了接近一年时间的持续努力,今天我们很高兴地宣布最新一代的视觉语言模型:Qwen2-VL!Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:

1. 读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。

2. 理解 20 分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。

3. 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。

4. 多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

我们以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,并发布了 Qwen2-VL-72B 的 API!开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。希望能为您提供便捷的开发体验!

能理解 20 分钟长视频的 Qwen2-VL 来了!

模型性能

我们从六个方面来评估我们模型的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看,我们 72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,特别是在文档理解方面优势明显,仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。

能理解 20 分钟长视频的 Qwen2-VL 来了!

在 7B 规模上,我们同样支持图像、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现,特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。

能理解 20 分钟长视频的 Qwen2-VL 来了!

除此之外,我们还提供了一个更小的 2B 规模的模型,以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力,性能强劲,特别在视频文档和通用场景问答相较同规模模型优势明显。

能理解 20 分钟长视频的 Qwen2-VL 来了!

能理解 20 分钟长视频的 Qwen2-VL 来了!

模型能力

1. 更细节的识别理解

Qwen2-VL 不仅能识别植物和地标,而且能理解场景中多个对象间的关系。我们还特别增强了对手写文字及图像中多种语言的识别能力,令其在全球范围内更加易用。

2. 视觉推理:解决现实世界问题

在此版本中,Qwen2-VL 的数学和编程能力得到了显著增强。模型能够通过分析图片解决问题,还可以解读复杂的数学问题,通过图表进行分析,甚至极端长宽比的图片也能正确解读。除此之外,我们还强化了从真实世界图像和图表中提取信息的能力,并改进了其指令跟随的能力。这种视觉感知与逻辑推理的结合,赋予模型解决实际问题的能力,让模型能够扮演生活中的小助手。

3. 视频理解与实时聊天

除了静态图像,Qwen2-VL 的能力已扩展到视频内容分析。它能够总结视频要点、即时回答相关问题,并维持连贯对话,仿佛一位随时待命的个人助手,帮助用户从视频中获取有价值的信息。这一特性无疑拓宽了 AI 应用的边界,为用户提供更加直观且即时的帮助。

4. Visual Agent 能力: 函数调用和视觉交互

Qwen2-VL 在作为视觉代理方面展示了强大的潜力,已经初步具备一些能够利用视觉能力完成一些自动化的工具调用和交互。
  • Function Calling: 模型支持函数调用,使其能够利用外部工具进行实时数据检索——无论是航班状态、天气预报还是包裹追踪——通过解读视觉线索。视觉解读与功能执行的整合提升了模型的实用性,使其成为信息管理和决策的有力工具。

  • Visual Interactions: 视觉交互对多模态大模型是更高的感知能力要求。我们初步做了一些简单的探索,让模型能够更像人一样和环境交互。使得 Qwen2-VL 不仅作为观察者,而是能有代替人做更多的执行者的可能。

当然模型并不完美,仍然存在一些局限性,比如无法从视频中提取音频、知识仅更新至 2023 年 6 月等。此外,模型在复杂的指令和复杂场景下不能保证完全正确,在计数、人物识别和 3D 空间感知方面也相对薄弱。
能理解 20 分钟长视频的 Qwen2-VL 来了!
模型架构
整体上我们仍然延续了 Qwen-VL 中 ViT 加 Qwen2 的串联结构,在三个不同尺度的模型上,我们都采用 600M 规模大小的 ViT,并且支持图像和视频统一输入。为了让模型更清楚地感知视觉信息和理解视频,我们还进行了以下升级:
  • Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性,更是模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力,使其在图像处理领域展现出更加灵活和高效的表现。

能理解 20 分钟长视频的 Qwen2-VL 来了!
  • Qwen2-VL 在架构上的另一重要创新则是多模态旋转位置嵌入(M-ROPE)。传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。

能理解 20 分钟长视频的 Qwen2-VL 来了!
能理解 20 分钟长视频的 Qwen2-VL 来了!
能理解 20 分钟长视频的 Qwen2-VL 来了!

原创文章,作者:特工宇宙,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/2473.html

Like (0)
Previous 2024-08-30 01:10
Next 2024-08-30 17:45

相关推荐