10月16日,百度飞桨(PaddlePaddle)团队正式发布了最新视觉语言模型 PaddleOCR-VL,一经上线便引发全球 OCR(光学字符识别)领域轰动。该模型以 0.9B 参数规模 在权威评测 OmniDocBench V1.5 中取得 92.56分 的成绩,超越包括 DeepSeek-OCR 在内的所有主流模型,成功登顶全球 OCR 榜单。

截至10月21日,Huggingface 全球模型趋势榜(Trending Models)前3名均被 OCR 模型包揽:
🥇PaddleOCR-VL(百度飞桨)
🥈DeepSeek-OCR
🥉NanonetOCR
其中,百度的 PaddleOCR-VL 已连续 5天位居榜首,成为当前最受关注的开源 OCR 模型。
PaddleOCR-VL 支持 109种语言识别,可精准解析文本、表格、公式与图表,并具备文档语义结构重建能力。这意味着它不仅能“识字”,还能“读懂”复杂文档内容,在科研论文、发票识别、知识抽取等领域展现出极高实用价值。
值得一提的是,DeepSeek 团队在其论文中也特别致谢 PaddleOCR,并透露其训练数据部分使用了 PaddleOCR 进行标注。这一细节揭示了当前业界 OCR 模型繁荣背后的真实逻辑:百度、DeepSeek 与上海 AI Lab 等机构几乎在同时开源 OCR 模型,目的并非仅是比拼识别性能,而是为大模型训练清洗、标注数据提供基础能力。
换句话说,这场“OCR 军备竞赛”的核心,不只是识别谁更准,而是谁能更快地让 AI 看懂世界的文字与图像。