本报讯(记者 何洁) 计算机可以像人一样思考和理解古文字。5月16日,南京大学举行的“数智赋能中华文明研究”成果展示会上,文学院助理研究员聂菲现场介绍了由他们课题组牵头搭建的一款人工智能古文字析解模型,并演示计算机变身“古文字专家”写字的过程。
古文字主要指商代晚期到秦汉时期所使用的汉字,这类文字的解读门槛极高。文字资料浩如烟海,大部分字形无法通过字符检索的方式直接检索。“对于古文字学者而言,在其有生之年能考证出一个疑难的古文字,都是了不起的成就。”聂菲介绍,古文字析解就是对古文字构形进行拆分和理解。“破译”古文字需要经过识形和读词两个步骤,而分析古文字构形,对于“识形”来说十分重要。“比如这个甲骨文字形,右边像一只拿着小棍子的手,左边则像弓形,根据研究,这是发射的‘发’的初文。”聂菲说。
“分析字形,识别字形,是考释古文字的前提。如果要让计算机像人一样识别古文字,便要对字形进行深入分析。”聂菲表示,传统的思路是让计算机识别静态图片,但一遇到没有训练过的字形就会“罢工”,其泛化和迁移能力差,于是团队采用了创新思路:捕捉人类专家在书写古文字时的动态路径,搭建数据模型,让计算机通过深度的自我学习来理解古文字的基础构件。
“大致的步骤分为4步,首先是让人类专家书写示范,由计算机记录下书写的动态轨迹,然后进行模型搭建,让机器学习这些古文字是如何形成并书写的,再进行数据增量、模型调试,最后进行模型迭代和分析理解。”聂菲说,搭建人工智能古文字析解模型最终的目的是,当计算机面对一张复杂的字图时,虽然之前从未学过该字形,但仍可清晰分辨出其中包含了哪些它之前学过的基础构件,从而识别出正确的古文字。
“目前我们的研究正在试验阶段,已经以古文字学强基班学生手写的数万个古文字字形为基础数据进行了前期测验。从生成结果来看,基础构件的识读已初见成效,计算机能成功模仿人类书写的笔势、笔顺和大致轮廓,比如古文字‘牢’,像是一头牛被圈在围栏中,模型已经能大致复现‘先写牛头,再画围栏’的笔顺。但在笔画识别的准确性、位置关系等问题上,我们还需进一步探索。”聂菲说。