百度 Qianfan-VL 开源发布，昆仑芯助力多模态 AI 新突破

百度在 AIGC 领域迎来了新的里程碑，正式开源了其最新的视觉理解模型 ——Qianfan-VL。该系列模型共推出三个版本，分别为3B、8B 和70B，参数量由小到大，适用于不同的应用场景。令人瞩目的是，Qianfan-VL 系列的训练完全依赖于百度自研的昆仑芯 P800芯片，充分展现了国产芯片在人工智能领域的强大实力。

Qianfan-VL 被称为多模态大模型，具备同时理解图像和文本的能力。例如，它可以分析复杂图表中的数据和趋势。在其核心能力方面，Qianfan-VL 在 OCR（光学字符识别）和教育场景优化上表现尤为突出。用户只需拍摄身份证，模型便能自动识别姓名和证件号，实现全场景的文字识别。无论是印刷体、手写字，还是复杂的数学公式，它都能轻松识别并提取信息，转换为结构化数据。

在教育领域，Qianfan-VL 被定位为 “超级学霸”，能够帮助学生拍照解题，进行几何推理和函数分析。根据测试结果，70B 版本的 Qianfan-VL 在科学问答测试 ScienceQA 中获得了98.76的高分，远超同类竞争对手。同时，在中文多模态基准测试 CCBench 中，该版本也以80.98的高分脱颖而出，展示出其在中文语境下的强大理解能力。

支撑 Qianfan-VL 训练的昆仑芯 P800芯片，具备极佳的功耗控制，150W 至160W 的功耗让其在大规模集群中具有明显的能耗和散热优势。P800的独特架构设计将计算单元与通信单元分开，优化了芯片的利用效率。通过 “通算融合” 技术，数据传输与计算过程可以无缝衔接，大幅提高了模型训练性能。

Qianfan-VL 的底层架构融合了多个业界优秀成果，并采用了创新的 “四阶段训练管线” 方法，确保模型在训练过程中具备扎实的通识基础和专业知识。目前，Qianfan-VL 全系列模型已在 GitHub 和 Hugging Face 等平台上开源，供企业和开发者自由使用，同时百度智能云的千帆平台也提供在线体验与部署服务。

GitHub:

https://github.com/baidubce/Qianfan-VL

Hugging Face:

https://huggingface.co/baidu/Qianfan-VL-70B