限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini--商业世界网

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini

小尚 2024-01-26

快科技1月26日消息，今日，阿里云公布多模态大模型研究进展。

据悉，通义千问视觉理解模型Qwen-VL再次升级，继Plus版本之后，再次推出Max版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，整体性能堪比GPT-4V和Gemini Ultra。

Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型，在文档分析（DocVQA）、中文图像相关（MM-Bench-CN）等任务上超越GPT-4V，达到世界最佳水平。

基础能力方面，升级版模型能够准确描述和识别图片信息，并且根据图片进行信息推理、扩展创作；具备视觉定位能力，还可针对画面指定区域进行问答。

本文标签：