甲骨文识别研究：实验室里的高准确率为何难落地

至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率，到了真实的甲骨拓片上就大打折扣。

近年来，计算机领域兴起了一门甲骨文识别技术，让电脑通过深度学习，自动辨认甲骨上的文字。研究者们制作了多个数据集，也就是把成千上万张甲骨字形图像分门别类整理好，作为训练和测试电脑模型的教材与考卷。自 Oracle-20k 问世以来，国内外团队已陆续建成甲骨文数据集。在这些数据集上，电脑模型的分类准确率频频超过 80%，个别常见字甚至达到 97% 以上。

然而，一个令人尴尬的现实是，至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率，到了真实的甲骨拓片上就大打折扣。这一反差提示我们，既有研究可能在某些认识上存在偏差。

数据集 " 高歌猛进 " 背后的问题

目前公开的甲骨文数据集，按任务类型可分为检测数据集（如殷契文渊检测集）、分类与检索数据集（如 Oracle-20k、HWOBC）以及考释数据集（如 EVOBC、HUST-OBC）等。这些数据集规模不断扩大，分类准确率屡创新高。但在实际应用中，它们存在四类问题。

第一，多数数据集用的是人工摹写，而非原始拓片。在已有公开的甲骨文数据集中，超过半数明确标注其图像来自手工摹写。摹写图像干净、端正、边缘清晰，但恰恰丢失了原始甲骨拓片因年代久远而产生的裂纹、残损等痕迹。古文字学者每天面对的是原始甲骨拓片，而电脑只见过标准字。好比一个人只练过印刷体，突然让他辨认手写草书，自然认不出来。

第二，标注错误时有发生。数据集需要人工给每个字形图像贴上正确的字类标签，但这项工作中失误并不少见。如在 OBC306 数据集中，编号 038000h01166_ 甲 -1 等四个字形实际是 " 豖 " 字，却被归入 " 犬 " 类。两个字含义不同，电脑学了错误对应关系，后续的准确率也就失去了意义。又如 Oracle-MNIST 数据集中展示的 " 马 " 字示例图片，除了第一张外，其余均非 " 马 " 字。

第三，只收录已释读的字，把最需要解决的难题排除在外。现有数据集几乎都只包含现代汉字已经能够对应的甲骨文字。而古文字学最大的挑战，恰恰是那些至今尚未释读的字，约占全部甲骨文的三分之二。电脑模型目前只学习已知的字，尚无法帮助学者破解未知的字。

第四，单字被切出来，丢掉了上下文。现有数据集大部分是一个个切割好的单字图像，没有前后文，也没有所在卜辞的整句信息。但真正的古文字认字，从来不是孤立地看一个字。学者要把这个字放回句子中，结合卜辞、同版其他刻辞等来综合判断。脱离语境的图像分类，哪怕准确率再高，也回答不了 " 这个甲骨文字在这句卜辞里到底是什么意思 " 这一重要问题。

两套知识体系的认知差异

上述问题的共同根源可能在于，研究者为了追求高准确率，倾向于使用干净、规整、已标好答案的实验室数据，而非古文字学者实际面对的残泐不清、异体繁多的原始拓片。这不是计算机学科本身的问题，图像分类任务的常规做法确是如此。但问题在于，如果目标是做出能够辅助学者的实用工具，那么训练和测试的环境就必须逼近真实的研究场景。

在古文字学中，" 认出一个字 " 是一个结合考古、历史、语言、文字等多学科知识的复杂推理过程。学者需要运用字形比较法、辞例推勘法等，将字形与已知字形比对，再放回卜辞中通读验证，最终确定其读音和意义。例如，甲骨文 " 蠢 " 字的释读，蒋玉斌先生先将未释字形与 " 屯 " 字比对，确认其隶定为 " 屯 "，再放入 " 屯盂方 "" 屯人方 " 等卜辞语境中，结合《诗经》" 蠢尔蛮荆 " 等传世文献，推知其读为 " 蠢 "，表示蠢动、作乱之义。整个考释过程需要一个完整的证据链。

而在计算机学科中，目前的甲骨文识别研究主要被处理为一个图像分类问题，给定一张甲骨字形图像，输出其对应的类别标签。这一做法隐含着三个假设。一是每个字形有唯一正确答案。二是正确答案可以通过与训练数据的相似度确定。三是字形本身的视觉信息足以决定其意义。这三个假设在甲骨文字形系统面前均不完全成立。一字多形、一形多字、异体通用等现象普遍存在。在甲骨文字形系统中，字形相似未必字义相同，而字形不相似未必字义不相同。

因此，那些令人振奋的 97%、99%，本质上是在一个经过人工美化、脱离语境的实验室里测出来的。一旦将模型放到真实的拓片上，未经人工摹写、未经切割、含有未释字和大量噪声，准确率就会明显下降。更关键的是，模型输出的只是一个标签和一个概率值，它无法告诉学者 " 为什么是这个字 "，也无法提供字形演变、辞例证据、构形理据等可解释的信息。学术论证需要的是证据链，这是目前算法尚无法给出的。

走出困境：从 " 各自为战 " 到 " 人机协同 "

有人可能会问：古文字学有一百多年的积累，出版了大量的字形编、字表、辞例类纂，比如孙海波《甲骨文编》、李宗焜《甲骨文字编》、姚孝遂《殷墟甲骨刻辞类纂》等，这些能否直接用于计算机训练？答案是：很难。这些成果是前数字时代的纸本工具书，其知识组织方式（按部首、按笔画、按意义分类）与计算机需要的像素级标注、大规模均衡采样等完全不同。它们是非常宝贵的知识库，但不是可以直接喂给深度学习模型的 " 数据集 "。

问题在于，两个学科的学者的有效沟通尚待进一步提高。古文字学者对数据集建设参与不足。计算机学者往往从零开始自己标注，既不熟悉已有的学术成果，也不了解原始拓片的真实面貌，于是在早已被指出的错误上重蹈覆辙。结果是，计算机花大力气做出的数据集，在古文字学者看来漏洞百出；而学者积累的深厚知识，计算机又用不上。

要改变现状，需要双方都往前走一步。对于计算机研究者，首先要调整目标：不再把在某个封闭数据集上 " 刷榜 " 作为识别成功的唯一标准，而是把能否在真实的、未经处理的原始拓片上取得可用的识别结果作为评判依据。其次，数据集建设建议放弃人工摹写，直接从高精度照片或拓片中提取字形，保留残泐、噪点和异体变化。同时纳入未释字。再次，要保留辞例上下文，输入的不应该是单字图像，而应该是包含该字的整行或整版拓片片段，让模型能够利用上下文信息。

对于古文字学者，可以主动提供小规模但高质量的标注数据，比如几百个典型字形及其语境，用于验证和校准模型；也可以参与设计评估指标，不要只看准确率，更要看模型能否为考释提供有用的线索，比如相近字形的检索、同辞例中其他字的分布等。

最理想的方向，不是让电脑代替学者去 " 认字 "，而是开发一个交互式工具：学者在拓片上画一个不认识的字符，模型返回最相似的字形图像、在已有数据集中的位置、相关的辞例例句，以及基于上下文推测的可能候选。学者可以纠正模型的错误，模型也能从学者的反馈中持续学习。这种人机协同的路径，远比训练一个封闭数据集上的高精度分类器更有价值。

* * *

甲骨文识别 " 高准确率难落地 "，本质是实验室标准化技术逻辑，与古文字非标准化、人文性、历史性的底层特质不匹配。纸面精度是可控数据集的最优结果，而落地应用需要适配残缺多元的实物样本、复杂深厚的历史语境、专业严谨的学术体系。

古文字学百年积累的知识体系，与计算机学科日益强大的模式识别能力，不是替代关系，而是互补关系。两者能否有效结合，不在于某一方单方面的努力，而在于双方能否真正理解对方的认知方式，并在此基础上设计出服务于学者工作的实用工具。

说到底，实验室里的高准确率只是一个中间指标，而不是最终目的。未来甲骨文智能识别的突破，不在于一味追求算法精度提升，而在于打破文理壁垒、构建标准化数据体系、融合视觉识别与文史考据逻辑，这或许是甲骨文识别研究走出困境的正解。

（作者为上海交通大学中华文化基因智能实验室教授）

宙世代

一起剪

相关标签