
百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%
2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。此次发布的PaddleOCR3.0全面适配
2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。
PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。此次发布的PaddleOCR3.0全面适配了飞桨框架3.0正式版,不仅提升了文字识别精度,还支持多文字类型识别和手写体识别,满足了大模型应用对复杂文档高精度解析的需求。此外,结合文心大模型4.5Turbo,PaddleOCR3.0显著提升了关键信息抽取精度,并新增了对昆仑芯、昇腾等国产硬件的支持。
PaddleOCR3.0的核心亮点之一是全场景文字识别模型PP-OCRv5。该模型实现了单一模型支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。与上一代相比,PP-OCRv5的整体识别精度提升了13个百分点,达到了业界领先水平。PP-OCRv5通过统一模型架构实现了多种文字类型的无缝识别,简化了部署流程,提升了识别的总体精度和速度。
在文档解析方面,PaddleOCR3.0推出了通用文档解析方案PP-StructureV3。该方案强化了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序的恢复能力,并可以将结果转换为Markdown和JSON格式。PP-StructureV3在OmniDocBench基准测试中领先众多开源和闭源方案,展现了其在多场景、多版式PDF高精度解析方面的强大能力。
此外,PaddleOCR3.0还发布了智能文档理解方案PP-ChatOCRv4。该方案原生支持文心大模型4.5Turbo,关键信息抽取精度相比上一代提升了15个百分点。PP-ChatOCRv4结合了大模型和小模型的优势,支持离线使用多模态文档理解模型PP-DocBee2,能够一站式解决版面分析、生僻字、多页PDF、表格、印章识别等复杂文档信息抽取问题。
PaddleOCR3.0的发布,不仅体现了百度在OCR技术上的持续创新,也为广大开发者提供了更加强大和易用的工具,助力开发者快速落地AI应用。
开源地址:
https://github.com/PaddlePaddle/PaddleOCR
发表评论 取消回复