以下内容摘录自官网,点击「阅读原文」可查看原博客。
经历了接近一年时间的持续努力,今天我们很高兴地宣布最新一代的视觉语言模型:Qwen2-VL!Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:
1. 读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
2. 理解 20 分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
3. 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
4. 多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
我们以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,并发布了 Qwen2-VL-72B 的 API!开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。希望能为您提供便捷的开发体验!
模型性能
我们从六个方面来评估我们模型的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看,我们 72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,特别是在文档理解方面优势明显,仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。
在 7B 规模上,我们同样支持图像、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现,特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。
除此之外,我们还提供了一个更小的 2B 规模的模型,以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力,性能强劲,特别在视频文档和通用场景问答相较同规模模型优势明显。
模型能力
1. 更细节的识别理解
Qwen2-VL 不仅能识别植物和地标,而且能理解场景中多个对象间的关系。我们还特别增强了对手写文字及图像中多种语言的识别能力,令其在全球范围内更加易用。
2. 视觉推理:解决现实世界问题
3. 视频理解与实时聊天
4. Visual Agent 能力: 函数调用和视觉交互
-
Function Calling: 模型支持函数调用,使其能够利用外部工具进行实时数据检索——无论是航班状态、天气预报还是包裹追踪——通过解读视觉线索。视觉解读与功能执行的整合提升了模型的实用性,使其成为信息管理和决策的有力工具。
-
Visual Interactions: 视觉交互对多模态大模型是更高的感知能力要求。我们初步做了一些简单的探索,让模型能够更像人一样和环境交互。使得 Qwen2-VL 不仅作为观察者,而是能有代替人做更多的执行者的可能。

-
Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性,更是模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力,使其在图像处理领域展现出更加灵活和高效的表现。

-
Qwen2-VL 在架构上的另一重要创新则是多模态旋转位置嵌入(M-ROPE)。传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。



原创文章,作者:特工宇宙,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/2473.html