很多人应该都刷到过，Anthropic之前为了训练Claude，被曝出来搞了一个

很多人应该都刷到过，Anthropic之前为了训练Claude，被曝出来搞了一个叫「巴拿马计划」的项目。

干什么呢？就是大规模买实体书，买完之后用液压切割机把书脊切掉，一页一页拆开，用工业级扫描仪扫描。

扫完以后，安排回收公司把拆掉的书全部销毁。整整几百万册，我真觉得有点魔幻。

1过去两年大模型的竞争，大家关注的重点主要是参数量，谁的模型更大、算力更猛，谁就更有优势。

但这个阶段正在过去，原因也很简单，互联网上能抓到的公开数据，基本已经被各家薅了个差不多了。

这时候一个很现实的问题就浮出来了：下一波高质量数据从哪来？

答案在现实世界里。想想看，人类积累了几百年的知识，绝大部分并不在互联网上。图书馆里的纸质书、企业内部的文档资料、各种档案、古籍文献，还有我们日常用手机随手拍的各种文件。

这些东西数量巨大，质量也高，但它们有个共同的问题：都不是数字化的。

所以Anthropic才会做出拆书这种看起来很极端的事。不是他们不爱惜书，而是他们的技术路线决定了，必须把书页弄平整、弄规整，才能保证扫描和识别的精度。

传统OCR的能力有限，书页弯了不行，有阴影不行，拍歪了也不行。机器读不懂真实世界的样子，那就只能先把真实世界改造成机器喜欢的样子。

2差不多同一时间，被很多人称为GPT之父的Alec Radford也做了一件事。

他发布了一个叫talkie的模型，总共130亿参数，但训练数据非常特别，全部来自1931年之前的旧文献。书籍、报纸、期刊、科学论文、美国专利、判例法，全是近百年前的东西，而且是他自己手动做OCR识别的。

结果这个只读过旧书的模型，居然能写出正确的Python代码。这就很值得琢磨了，一个从没见过任何现代编程语言的模型，靠着19世纪的知识做推理，竟然能自己推导出编程逻辑。

这说明高质量的文本数据，哪怕年代久远，对模型的泛化能力也有实实在在的帮助。数据的质量和多样性，可能比单纯的数量更重要。

把这两件事放在一起看，一个趋势就很清楚了：大模型竞争的重心，正在从参数转向数据。谁能更高效地获取现实世界中的高质量数据，谁就能在下一轮竞争中占据优势。

3这里面最关键的技术环节是什么？就是OCR。

OCR的价值已经不再只是帮你把纸质文件变成电子版那么简单了，它正在变成连接物理世界和数字世界的一个关键通道。

模型要变强，就需要更多、更好的数据；而这些数据大量存在于纸质文件、拍照文档这些非数字化的介质里。OCR的能力，直接决定了这些数据能不能被高效、准确地转化成模型可用的训练素材。

但问题来了，如果你的OCR技术像Anthropic那样，必须把书拆了才能扫，那获取数据的成本和代价就太大了。有没有一种方式，不需要拆书，不需要压平，直接就能理解真实场景下的文档？

还真有。百度最近发布的文心衍生模型PaddleOCR-VL-1.6就是走的这条路。这个模型基于文心大模型训练而来，是文心多模态能力的一个重要组成部分。

在行业权威评测OmniDocBench v1.6上，它的准确率达到了96.33%，超过了Gemini-3-Pro、GPT-5.2这些大家耳熟能详的模型，综合性能排全球第一。

4但我觉得更值得说的，是它在真实场景下的表现。

在Real5-OmniDocBench这个专门针对复杂真实场景的测试中，PaddleOCR-VL-1.6拿到了93.19%的成绩，比Gemini-3-Pro高出将近4个百分点。扫描件能认，弯折的文档能认，手机随便拍的也能认，光线不好的、歪歪斜斜的，都能搞定。

同理，表格解析、古籍文献、生僻字这些传统OCR很头疼的场景，这次也有了明显提升。印章识别、图表理解这些能力也同步增强了。而且整个模型只有0.9B的参数量，非常轻量，部署成本很低。

这意味着大量沉睡在图书馆、档案室、企业文件柜里的纸质资料，不需要被拆开、被销毁，就可以被高效地数字化，进而成为大模型训练的高质量数据来源。

5目前百度文心PaddleOCR支持超过100种语言，覆盖170多个国家和地区的用户，GitHub上的Star数已经突破79.2K，超过了谷歌的Tesseract OCR，是全球最受欢迎的开源OCR项目之一。

最后多说一句，从Anthropic拆书、Radford手动OCR旧文献这些事情来看，行业最前沿的玩家们已经把注意力转向了一个更底层的问题：数据从哪来，怎么来。

OCR看起来是个老话题，但它正在成为大模型时代最重要的基础设施之一。谁的OCR更强，谁就能更高效地把现实世界的知识喂给模型。

这不是一个工具层面的小升级，而是一个战略层面的大问题。而在这个问题上，文心PaddleOCR，已经给出了自己的答案。

昊梵体育网