至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。
近年来,计算机领域兴起了一门甲骨文识别技术,让电脑通过深度学习,自动辨认甲骨上的文字。研究者们制作了多个数据集,也就是把成千上万张甲骨字形图像分门别类整理好,作为训练和测试电脑模型的教材与考卷。自 Oracle-20k 问世以来,国内外团队已陆续建成甲骨文数据集。在这些数据集上,电脑模型的分类准确率频频超过 80%,个别常见字甚至达到 97% 以上。
然而,一个令人尴尬的现实是,至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。这一反差提示我们,既有研究可能在某些认识上存在偏差。
数据集 " 高歌猛进 " 背后的问题
目前公开的甲骨文数据集,按任务类型可分为检测数据集(如殷契文渊检测集)、分类与检索数据集(如 Oracle-20k、HWOBC)以及考释数据集(如 EVOBC、HUST-OBC)等。这些数据集规模不断扩大,分类准确率屡创新高。但在实际应用中,它们存在四类问题。
第一,多数数据集用的是人工摹写,而非原始拓片。在已有公开的甲骨文数据集中,超过半数明确标注其图像来自手工摹写。摹写图像干净、端正、边缘清晰,但恰恰丢失了原始甲骨拓片因年代久远而产生的裂纹、残损等痕迹。古文字学者每天面对的是原始甲骨拓片,而电脑只见过标准字。好比一个人只练过印刷体,突然让他辨认手写草书,自然认不出来。
第二,标注错误时有发生。数据集需要人工给每个字形图像贴上正确的字类标签,但这项工作中失误并不少见。如在 OBC306 数据集中,编号 038000h01166_ 甲 -1 等四个字形实际是 " 豖 " 字,却被归入 " 犬 " 类。两个字含义不同,电脑学了错误对应关系,后续的准确率也就失去了意义。又如 Oracle-MNIST 数据集中展示的 " 马 " 字示例图片,除了第一张外,其余均非 " 马 " 字。
第三,只收录已释读的字,把最需要解决的难题排除在外。现有数据集几乎都只包含现代汉字已经能够对应的甲骨文字。而古文字学最大的挑战,恰恰是那些至今尚未释读的字,约占全部甲骨文的三分之二。电脑模型目前只学习已知的字,尚无法帮助学者破解未知的字。
第四,单字被切出来,丢掉了上下文。现有数据集大部分是一个个切割好的单字图像,没有前后文,也没有所在卜辞的整句信息。但真正的古文字认字,从来不是孤立地看一个字。学者要把这个字放回句子中,结合卜辞、同版其他刻辞等来综合判断。脱离语境的图像分类,哪怕准确率再高,也回答不了 " 这个甲骨文字在这句卜辞里到底是什么意思 " 这一重要问题。
两套知识体系的认知差异
上述问题的共同根源可能在于,研究者为了追求高准确率,倾向于使用干净、规整、已标好答案的实验室数据,而非古文字学者实际面对的残泐不清、异体繁多的原始拓片。这不是计算机学科本身的问题,图像分类任务的常规做法确是如此。但问题在于,如果目标是做出能够辅助学者的实用工具,那么训练和测试的环境就必须逼近真实的研究场景。
在古文字学中," 认出一个字 " 是一个结合考古、历史、语言、文字等多学科知识的复杂推理过程。学者需要运用字形比较法、辞例推勘法等,将字形与已知字形比对,再放回卜辞中通读验证,最终确定其读音和意义。例如,甲骨文 " 蠢 " 字的释读,蒋玉斌先生先将未释字形与 " 屯 " 字比对,确认其隶定为 " 屯 ",再放入 " 屯盂方 "" 屯人方 " 等卜辞语境中,结合《诗经》" 蠢尔蛮荆 " 等传世文献,推知其读为 " 蠢 ",表示蠢动、作乱之义。整个考释过程需要一个完整的证据链。
而在计算机学科中,目前的甲骨文识别研究主要被处理为一个图像分类问题,给定一张甲骨字形图像,输出其对应的类别标签。这一做法隐含着三个假设。一是每个字形有唯一正确答案。二是正确答案可以通过与训练数据的相似度确定。三是字形本身的视觉信息足以决定其意义。这三个假设在甲骨文字形系统面前均不完全成立。一字多形、一形多字、异体通用等现象普遍存在。在甲骨文字形系统中,字形相似未必字义相同,而字形不相似未必字义不相同。
因此,那些令人振奋的 97%、99%,本质上是在一个经过人工美化、脱离语境的实验室里测出来的。一旦将模型放到真实的拓片上,未经人工摹写、未经切割、含有未释字和大量噪声,准确率就会明显下降。更关键的是,模型输出的只是一个标签和一个概率值,它无法告诉学者 " 为什么是这个字 ",也无法提供字形演变、辞例证据、构形理据等可解释的信息。学术论证需要的是证据链,这是目前算法尚无法给出的。
走出困境:从 " 各自为战 " 到 " 人机协同 "
有人可能会问:古文字学有一百多年的积累,出版了大量的字形编、字表、辞例类纂,比如孙海波《甲骨文编》、李宗焜《甲骨文字编》、姚孝遂《殷墟甲骨刻辞类纂》等,这些能否直接用于计算机训练?答案是:很难。这些成果是前数字时代的纸本工具书,其知识组织方式(按部首、按笔画、按意义分类)与计算机需要的像素级标注、大规模均衡采样等完全不同。它们是非常宝贵的知识库,但不是可以直接喂给深度学习模型的 " 数据集 "。
问题在于,两个学科的学者的有效沟通尚待进一步提高。古文字学者对数据集建设参与不足。计算机学者往往从零开始自己标注,既不熟悉已有的学术成果,也不了解原始拓片的真实面貌,于是在早已被指出的错误上重蹈覆辙。结果是,计算机花大力气做出的数据集,在古文字学者看来漏洞百出;而学者积累的深厚知识,计算机又用不上。
要改变现状,需要双方都往前走一步。对于计算机研究者,首先要调整目标:不再把在某个封闭数据集上 " 刷榜 " 作为识别成功的唯一标准,而是把能否在真实的、未经处理的原始拓片上取得可用的识别结果作为评判依据。其次,数据集建设建议放弃人工摹写,直接从高精度照片或拓片中提取字形,保留残泐、噪点和异体变化。同时纳入未释字。再次,要保留辞例上下文,输入的不应该是单字图像,而应该是包含该字的整行或整版拓片片段,让模型能够利用上下文信息。
对于古文字学者,可以主动提供小规模但高质量的标注数据,比如几百个典型字形及其语境,用于验证和校准模型;也可以参与设计评估指标,不要只看准确率,更要看模型能否为考释提供有用的线索,比如相近字形的检索、同辞例中其他字的分布等。
最理想的方向,不是让电脑代替学者去 " 认字 ",而是开发一个交互式工具:学者在拓片上画一个不认识的字符,模型返回最相似的字形图像、在已有数据集中的位置、相关的辞例例句,以及基于上下文推测的可能候选。学者可以纠正模型的错误,模型也能从学者的反馈中持续学习。这种人机协同的路径,远比训练一个封闭数据集上的高精度分类器更有价值。
* * *
甲骨文识别 " 高准确率难落地 ",本质是实验室标准化技术逻辑,与古文字非标准化、人文性、历史性的底层特质不匹配。纸面精度是可控数据集的最优结果,而落地应用需要适配残缺多元的实物样本、复杂深厚的历史语境、专业严谨的学术体系。
古文字学百年积累的知识体系,与计算机学科日益强大的模式识别能力,不是替代关系,而是互补关系。两者能否有效结合,不在于某一方单方面的努力,而在于双方能否真正理解对方的认知方式,并在此基础上设计出服务于学者工作的实用工具。
说到底,实验室里的高准确率只是一个中间指标,而不是最终目的。未来甲骨文智能识别的突破,不在于一味追求算法精度提升,而在于打破文理壁垒、构建标准化数据体系、融合视觉识别与文史考据逻辑,这或许是甲骨文识别研究走出困境的正解。
(作者为上海交通大学中华文化基因智能实验室教授)



登录后才可以发布评论哦
打开小程序可以发布评论哦