阿里云开源通义千问多模态大模型Qwen-VL

/csr-component-m/config/article/index.js

lx.huanqiu.com

【环球网科技综合报道】8月25日，记者从阿里云方面获悉，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。

据了解，Qwen-VL是支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

多模态是通用人工智能的重要技术演进方向之一。业界普遍认为，从单一感官的、仅支持文本输入的语言模型，到“五官全开”的，支持文本、图像、音频等多种信息输入的多模态模型，蕴含着大模型智能跃升的巨大可能。

【环球网科技综合报道】8月25日，记者从阿里云方面获悉，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。

据了解，Qwen-VL是支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

多模态是通用人工智能的重要技术演进方向之一。业界普遍认为，从单一感官的、仅支持文本输入的语言模型，到“五官全开”的，支持文本、图像、音频等多种信息输入的多模态模型，蕴含着大模型智能跃升的巨大可能。

43147

10995

10996

11000

11001

10997

11023

11024

10998

11016

11006

11002

11003

10999

11017

11326

11018

11007

11004

11005

11019

11020

7009984

11328

11008