首页 > 科技 » 正文

限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌Gemini

 小尚

快科技1月26日消息,今日,阿里云公布多模态大模型研究进展。

据悉,通义千问视觉理解模型Qwen-VL再次升级, 继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力, 能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,整体性能堪比GPT-4V和Gemini Ultra。

Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界最佳水平。

基础能力方面,升级版模型能够准确描述和识别图片信息,并且根据图片进行信息推理、扩展创作;具备视觉定位能力,还可针对画面指定区域进行问答。

本文标签:
微软的2.5倍:苹果公司人均创收达1680万元!
恰逢中法建交60周年 京东服饰美妆年货节上线法国时尚大牌专场