严程在北京大学做专题报告。
当明清闺阁才女的诗词文稿通过数字技术跨越时空呈现在世人面前,那些曾被历史尘埃遮蔽的女性文学声音得以清晰回响。近日,由字节跳动与北京大学联合打造的公益性古籍数字化平台“识典古籍”正式上线“中国古代女子艺文数据库”。这一数据库由清华大学人文学院副教授、清华大学传统文化智能实验室成员严程带领团队历时三年整理完成;后经与识典古籍平台深度合作推进,历时半年实现正式上线。首批收录200余部明清闺阁诗文集,包含多部珍贵诗话、诗论作品,另有500余部整理中的著作待上架。在国家大力推进古籍数字化与文化数字化战略的背景下,这一数据库的诞生不仅为古代女性文学研究提供了全新支撑,更彰显了科技与学术深度融合对古籍整理传播的革命性意义。
学术坚守与技术支撑 数据库的诞生之路
在传统社会中,女性著作往往被视为“闺阁闲笔”,大量作品在流传过程中散佚消亡,仅存的文献也多分散于各地馆藏,给整理研究带来巨大挑战。“古代女子艺文数据库”的立项,源于严程对这一资料空白的长期关注。
作为清华大学人文学院的学者,严程团队多年来致力于古代女性文学文献的搜集与整理。项目初期,团队借助唐宸老师开发的“全球汉籍影像开放系统”匹配了首期800种女性著作图像,发布在团队主页“女子艺文资料库”上,并开始探索图像数据的批量OCR整理和校对路径。在传统整理模式下,仅标点校对一部10万字的诗文集就需要数位学者花费数月时间,而面对千余部待整理著作,单纯依靠人工整理的局限性日益凸显。
2023年,项目获得清华大学自主科研计划文科专项资助。2024年11月,经唐宸老师引荐,项目与“识典古籍”平台正式建立合作,平台以公益免费的技术支持,为数据库的加速成型提供了关键助力。字节跳动将自身在人工智能、大数据处理等领域的技术积累与平台资源全面开放,为学术整理工作提供了全方位支持。同时依托成熟的团队管理功能与创新众包机制,形成“技术+协作”的双重助力。双方合作搭建了专属数字化处理流程:首先通过“女子艺文资料库”下载全球范围内公开的古代女性著作图像资料,再利用字节跳动自主研发的古籍文字识别模型完成文本转录,其识别准确率针对明清刻本已提升至98%以上;随后AI辅助校对系统自动标记疑似错误,学者仅需聚焦关键疑点进行复核修正,效率较纯人工校勘提升5倍以上;最后通过结构化处理,实现作品、作者、题跋、版本等信息的标注为后续检索分析奠定基础。
经过近一年的技术磨合与内容打磨,由来自清华大学、湖南女子学院、青岛恒星科技学院的两百余位志愿者完成了首批两百余部核心文献的数字化整理,涵盖潘素心《不栉吟未刻稿》(清抄本)、恽珠《国朝闺秀正始集》等一批珍稀文献。与传统数据库不同,该平台不仅实现了文本的数字化呈现,更整合了“识典古籍”的全文检索、溯源引文、跨书聚合等功能,让用户能够快速定位特定词句、追踪文献源流、关联不同作者作品,极大提升了文献使用的便捷性。平台网页版与App端同步上线,打破了时间与空间的限制,让这份凝结着学术坚守与技术创新的文献宝藏触手可及。
模式革新 技术重构古籍整理新生态
“中国古代女子艺文数据库”的诞生,不仅是一项学术成果的落地,更折射出古籍整理模式在数字时代的深刻变革。长期以来,传统古籍整理始终面临效率低下、流程繁复、传播受限等难题,而字节跳动的技术赋能正从根本上破解这些行业痛点。
传统古籍整理以“人工为主、逐本推进”为核心模式,其流程往往始于文献普查,学者需亲身走访各地藏书机构,花费大量时间进行版本鉴别与底本选择;随后进入点校阶段,需逐字逐句核对原文、标注标点、校勘异文,这一过程对学者的专业素养要求极高,且耗时耗力。此外,传统整理成果多以纸质出版物形式呈现,不仅出版周期长、成本高,且检索不便,难以满足现代学术研究的需求。
与传统模式相比,现代数字化整理平台虽已有所发展,但多数仍停留在“扫描录入+简单检索”的初级阶段,缺乏智能化处理能力与跨文献关联功能。部分专题数据库受限于技术实力,存在文本识别准确率低、校勘粗糙、数据格式不统一等问题,影响了学术使用价值。而“识典古籍”平台凭借字节跳动的技术优势,构建了“智能辅助+学术主导”的全新整理模式,实现了古籍整理全流程的效率革新与质量提升。
在文本获取阶段,高分辨率扫描技术与图像修复算法能够还原古籍原貌,即使是残损页面也能最大程度恢复文字信息;文字识别环节,基于大规模古籍语料训练的OCR模型,能够精准识别明清刻本、手写稿等不同版本的文字,甚至准确区分异体字、避讳字;校勘阶段,AI校勘系统可自动比对不同版本、引用文献,标记差异之处,辅助学者完成校勘工作,将学者从重复性劳动中解放出来;在数据组织阶段,知识图谱技术能够构建作者、作品、地名、典故等要素之间的关联网络,实现跨文献的内容聚合与溯源。这种技术与学术的深度融合,既保证了古籍整理的学术严谨性,又极大提升了整理效率,让千余部古籍的规模化整理成为可能。
此外,字节跳动的产品研发能力为数据库的传播使用提供了保障。平台支持全文检索、关键词高亮、引文溯源等功能,用户输入任意词句即可快速定位相关文献,查看其在不同著作中的引用情况;移动端App的推出让用户能够随时随地查阅文献,满足碎片化阅读与研究需求;开放共享的公益属性,则打破了传统古籍出版物的获取壁垒,让更多学者、学生及传统文化爱好者能够免费使用这一学术资源,目前已上线4万余部古籍,超过3800个学术团队在“识典古籍”上开展工作。
学术价值凸显 照亮古代女性文学研究新路径
“中国古代女子艺文数据库”的上线,为古代女性文学研究乃至整个古典文学研究领域带来了深远影响,其学术价值不仅体现在文献整理的系统性上,更在于为学术研究提供了全新的方法与视角。
该数据库填补了古代女性艺文文献数字化整理的空白,为研究者提供了权威、系统的基础资料。在传统研究模式下,学者想要搜集某一位闺阁才女的作品,往往需要辗转多个图书馆,查阅数十种文献,耗时费力且难以穷尽。而数据库首批收录的200余部诗文集,涵盖了明清时期不同地区、不同阶层的女性作者作品,其中多部诗话、诗论作品更是首次数字化呈现。随着千余部待整理著作的逐步上线,数据库将为相关研究提供坚实的文献支撑。
智能化的检索与分析功能拓展了学术研究的深度与广度。传统研究往往依赖学者的记忆与手工检索,难以进行大规模的文本分析与数据统计。而借助数据库的全文检索与AI分析功能,学者可以快速统计特定词汇、意象在女性作品中的使用频率,考察不同地域、不同时期女性文学的风格演变,甚至开展女性文学与男性文学的对比研究。“研究者可以通过关键词检索,梳理‘闺愁’‘羁旅’等主题在明清闺阁诗中的表现形式,分析女性作者的情感世界与价值观念。”严程介绍,“还可以通过跨书聚合功能,发现不同女性作者之间的交往关系与文学影响,还原古代女性文学社群的真实面貌。”这种大数据分析方法,能够帮助学者发现传统研究中难以察觉的文学规律与文化现象,推动研究向更深层次发展。
数据库的开放共享模式,促进了学术研究的交流与合作。传统古籍文献的传播范围有限,许多珍稀文献仅为少数图书馆收藏,限制了相关研究的开展。而数据库的公益开放属性,让全球各地的研究者都能便捷获取这些文献资源,打破了地域与机构的壁垒。学者们可以基于同一套权威数据开展研究,避免了因文献版本差异导致的研究分歧;同时,数据库支持用户标注、评论等互动功能,为学者之间的交流讨论提供了平台,有助于形成研究合力。
“识典古籍”相关负责人表示,“中国古代女子艺文数据库”首批文献的上线只是一个开始。随着千余部待整理著作的逐步完成,数据库将不断丰富完善,成为古代女性文学研究的重要平台。在技术与学术的双重驱动下,这些沉睡已久的闺阁文献将焕发出新的生命力,照亮古代女性文学研究的新路径,也让更多人感受到中华优秀传统文化的魅力与温度。
(王未圆)