百度在 AIGC 领域迎来了新的里程碑,正式开源了其最新的视觉理解模型 ——Qianfan-VL。该系列模型共推出三个版本,分别为3B、8B 和70B,参数量由小到大,适用于不同的应用场景。令人瞩目的是,Qianfan-VL 系列的训练完全依赖于百度自研的昆仑芯 P800芯片,充分展现了国产芯片在人工智能领域的强大实力。
Qianfan-VL 被称为多模态大模型,具备同时理解图像和文本的能力。例如,它可以分析复杂图表中的数据和趋势。在其核心能力方面,Qianfan-VL 在 OCR(光学字符识别)和教育场景优化上表现尤为突出。用户只需拍摄身份证,模型便能自动识别姓名和证件号,实现全场景的文字识别。无论是印刷体、手写字,还是复杂的数学公式,它都能轻松识别并提取信息,转换为结构化数据。
在教育领域,Qianfan-VL 被定位为 “超级学霸”,能够帮助学生拍照解题,进行几何推理和函数分析。根据测试结果,70B 版本的 Qianfan-VL 在科学问答测试 ScienceQA 中获得了98.76的高分,远超同类竞争对手。同时,在中文多模态基准测试 CCBench 中,该版本也以80.98的高分脱颖而出,展示出其在中文语境下的强大理解能力。
支撑 Qianfan-VL 训练的昆仑芯 P800芯片,具备极佳的功耗控制,150W 至160W 的功耗让其在大规模集群中具有明显的能耗和散热优势。P800的独特架构设计将计算单元与通信单元分开,优化了芯片的利用效率。通过 “通算融合” 技术,数据传输与计算过程可以无缝衔接,大幅提高了模型训练性能。
Qianfan-VL 的底层架构融合了多个业界优秀成果,并采用了创新的 “四阶段训练管线” 方法,确保模型在训练过程中具备扎实的通识基础和专业知识。目前,Qianfan-VL 全系列模型已在 GitHub 和 Hugging Face 等平台上开源,供企业和开发者自由使用,同时百度智能云的千帆平台也提供在线体验与部署服务。
GitHub:
https://github.com/baidubce/Qianfan-VL
Hugging Face:
https://huggingface.co/baidu/Qianfan-VL-70B
划重点:
🌟 百度 Qianfan-VL 系列模型正式开源,包含3B、8B 和70B 三个版本,适用于不同场景。
🧠 模型具备强大的多模态能力,可同时识别文字和图像,尤其在 OCR 和教育领域表现突出。
💡 昆仑芯 P800芯片支撑模型训练,功耗低且利用效率高,优化了大规模计算性能。