昊梵体育网

很多人应该都刷到过,Anthropic之前为了训练Claude,被曝出来搞了一个

很多人应该都刷到过,Anthropic之前为了训练Claude,被曝出来搞了一个叫「巴拿马计划」的项目。

干什么呢?就是大规模买实体书,买完之后用液压切割机把书脊切掉,一页一页拆开,用工业级扫描仪扫描。

扫完以后,安排回收公司把拆掉的书全部销毁。整整几百万册,我真觉得有点魔幻。

1过去两年大模型的竞争,大家关注的重点主要是参数量,谁的模型更大、算力更猛,谁就更有优势。

但这个阶段正在过去,原因也很简单,互联网上能抓到的公开数据,基本已经被各家薅了个差不多了。

这时候一个很现实的问题就浮出来了:下一波高质量数据从哪来?

答案在现实世界里。想想看,人类积累了几百年的知识,绝大部分并不在互联网上。图书馆里的纸质书、企业内部的文档资料、各种档案、古籍文献,还有我们日常用手机随手拍的各种文件。

这些东西数量巨大,质量也高,但它们有个共同的问题:都不是数字化的。

所以Anthropic才会做出拆书这种看起来很极端的事。不是他们不爱惜书,而是他们的技术路线决定了,必须把书页弄平整、弄规整,才能保证扫描和识别的精度。

传统OCR的能力有限,书页弯了不行,有阴影不行,拍歪了也不行。机器读不懂真实世界的样子,那就只能先把真实世界改造成机器喜欢的样子。

2差不多同一时间,被很多人称为GPT之父的Alec Radford也做了一件事。

他发布了一个叫talkie的模型,总共130亿参数,但训练数据非常特别,全部来自1931年之前的旧文献。书籍、报纸、期刊、科学论文、美国专利、判例法,全是近百年前的东西,而且是他自己手动做OCR识别的。

结果这个只读过旧书的模型,居然能写出正确的Python代码。这就很值得琢磨了,一个从没见过任何现代编程语言的模型,靠着19世纪的知识做推理,竟然能自己推导出编程逻辑。

这说明高质量的文本数据,哪怕年代久远,对模型的泛化能力也有实实在在的帮助。数据的质量和多样性,可能比单纯的数量更重要。

把这两件事放在一起看,一个趋势就很清楚了:大模型竞争的重心,正在从参数转向数据。谁能更高效地获取现实世界中的高质量数据,谁就能在下一轮竞争中占据优势。

3这里面最关键的技术环节是什么?就是OCR。

OCR的价值已经不再只是帮你把纸质文件变成电子版那么简单了,它正在变成连接物理世界和数字世界的一个关键通道。

模型要变强,就需要更多、更好的数据;而这些数据大量存在于纸质文件、拍照文档这些非数字化的介质里。OCR的能力,直接决定了这些数据能不能被高效、准确地转化成模型可用的训练素材。

但问题来了,如果你的OCR技术像Anthropic那样,必须把书拆了才能扫,那获取数据的成本和代价就太大了。有没有一种方式,不需要拆书,不需要压平,直接就能理解真实场景下的文档?

还真有。百度最近发布的文心衍生模型PaddleOCR-VL-1.6就是走的这条路。这个模型基于文心大模型训练而来,是文心多模态能力的一个重要组成部分。

在行业权威评测OmniDocBench v1.6上,它的准确率达到了96.33%,超过了Gemini-3-Pro、GPT-5.2这些大家耳熟能详的模型,综合性能排全球第一。

4但我觉得更值得说的,是它在真实场景下的表现。

在Real5-OmniDocBench这个专门针对复杂真实场景的测试中,PaddleOCR-VL-1.6拿到了93.19%的成绩,比Gemini-3-Pro高出将近4个百分点。扫描件能认,弯折的文档能认,手机随便拍的也能认,光线不好的、歪歪斜斜的,都能搞定。

同理,表格解析、古籍文献、生僻字这些传统OCR很头疼的场景,这次也有了明显提升。印章识别、图表理解这些能力也同步增强了。而且整个模型只有0.9B的参数量,非常轻量,部署成本很低。

这意味着大量沉睡在图书馆、档案室、企业文件柜里的纸质资料,不需要被拆开、被销毁,就可以被高效地数字化,进而成为大模型训练的高质量数据来源。

5目前百度文心PaddleOCR支持超过100种语言,覆盖170多个国家和地区的用户,GitHub上的Star数已经突破79.2K,超过了谷歌的Tesseract OCR,是全球最受欢迎的开源OCR项目之一。

最后多说一句,从Anthropic拆书、Radford手动OCR旧文献这些事情来看,行业最前沿的玩家们已经把注意力转向了一个更底层的问题:数据从哪来,怎么来。

OCR看起来是个老话题,但它正在成为大模型时代最重要的基础设施之一。谁的OCR更强,谁就能更高效地把现实世界的知识喂给模型。

这不是一个工具层面的小升级,而是一个战略层面的大问题。而在这个问题上,文心PaddleOCR,已经给出了自己的答案。