印象传媒

当古籍修复遇上人工智能

发表于:2024-04-29 作者:印象报导
编辑最后更新 2024年04月29日,由北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的"经典智能信息处理"系列研讨会日前在线举办。研讨会上,北京大学数字人文研究中心主任王军介绍,我国现有古籍约20万种,从1949年到2019年,共修复整理出版古籍近38000种。 以这样的速度,修复整理所有现存古籍,可能需要300年。 但是,如果利用人工智能技术辅助修复整理的话,大约二三十年就能完成。王

由北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的"经典智能信息处理"系列研讨会日前在线举办。

研讨会上,北京大学数字人文研究中心主任王军介绍,我国现有古籍约20万种,从1949年到2019年,共修复整理出版古籍近38000种。 以这样的速度,修复整理所有现存古籍,可能需要300年。 但是,如果利用人工智能技术辅助修复整理的话,大约二三十年就能完成。

王军所说的"利用人工智能技术修复古籍",不是遥远的科学构想,而是现实的生动实践。 "古籍智能信息处理"系列研讨会首届演讲开始后不久,字节跳动将向北大教育基金捐款,支持北京大学-字节跳动数字人文开放实验室研发"古籍数字化平台",利用智能技术加快中华古籍资源数字化建设,三年内实现1110

古籍文本转换智能化

长期以来,古籍保护主要采用原生态的保护方式。 也就是说,将古籍作为"文化财产"进行保护。 随后出现了再生保护方式,对古籍进行了复制再生和图像保存,古籍可以以纸质书或缩微胶片的形式存在。 现有的数字化古籍大多由缩微胶片转换而来,分辨率低,图像多为黑白。

即使用数字化手段复制出版所有古籍,古籍还是"死了",人们也不能方便地使用。 北京大学中文系教授杨海峥举了一个简单的例子,--复印的古籍没有标点符号,很难读。 另外,也不利于检索古籍内容,想查某些内容的话,必须一页一页地阅读原文,很难快速找到想要的知识。 因此,为了提高传统古籍的利用率,有必要将古籍内容转化为数字文本。 过去,这种转变主要依靠专家人工输入,时间成本极高。

"信息技术的发展,特别是人工智能和大数据技术的出现,给古籍的修复整理带来了革命性的变化。 "王军表示,近年来,包括北京大学在内的许多高校、科研机构在古籍数字化方面开展了大量开拓性工作,在光学文字识别(OCR )、AI文字阅读、实体识别等方面积累了比较成熟的技术和经验。 以OCR应用为例,用电子设备清除纸质古籍后,古籍内容将被转录到计算机中,生成相应的数字文档,与人工输入相比,效率提高了几千万倍以上。

借助人工智能和大数据技术,北京大学数字人文中心在先秦至明清的大型古籍文本词汇整理中,已经实现了古籍的自动句读,平均准确率达到94%,同时也实现了人名、地名、时代名、职称、书名的自动识别,中古史料

在这些方面,字节跳动等互联网公司也有很多经验和技术的积累。 例如,OCR技术广泛应用于当今头条、抖音等平台的图像文字识别、字幕翻译、商业化业务中的各种卡片票券和行业文件识别等领域。 "这些技术可以逐渐转向古籍智能数字化的方向。 我们在古籍数字化平台开发方面,与北大技术优势互补,进行了有效的开通和融合。 "。 "我们需要帮助,"字节跳动人工智能实验室总监李航说。

王军表示,"古籍数字化平台"将进一步提高古籍整理的准确度、智能化水平、开放度。 一方面,精准重点文本,满足专家学者对资料准确性的要求;另一方面,借助智能平台上的文字识别校对工具,学者和旧书爱好者可以在线一站式完成古籍整理工作,一如既往地通过word文档进行整理编辑

利用古籍有望智慧化

四川大学中国文化世界传播大数据中心教授王兆鹏认为,技术进步给古籍修复整理智能化带来了两个方面。 一是古籍文本智能化,二是古籍利用智能化。

将纸质古籍内容转换为数字文本,只是古籍修复整理的第一步。 在此基础上,需要解决的另一个问题是如何对庞大而费解的古籍内容进行整理分类,形成交互式、可触摸、可视化的数字人文作品,以便人们查阅和使用。 否则,输入计算机的古籍依然"沉睡"。

基于人工智能技术,目前我国已经建立了许多古籍整理自动化和可视化平台。 比如王军主持设计和研发的"《宋元学案》知识地图可视化系统",对240万字的《宋元学案》进行了文档处理和分析,提取了2000多位宋元理学家、近100个学术流派的相关人物、时间、地点、著作等,构建了知识地图然而,许多平台的智能化水平仍然较低,例如,当输入关键字时,所搜索的内容各自是孤立的和无序的。 王兆鹏认为,更智慧的古籍整理利用平台应该从1.0版发展到2.0版。 例如,内容检索应该"服从",检索到的内容应该相互关联,并通过人工智能有机地分类。

北京大学与字节跳动合作开发"古籍数字化平台",是提高古籍整理与利用智慧化水平的尝试。 "我们合作的技术核心是将人工智能和大数据应用于海量古文字,实现古文字知识图谱的自动生成和古文字内容的智能化整理,使古文字能够以文本的形式检索、关联阅读、深入挖掘利用。 "李航表示,未来,"古籍数字化平台"不仅是古籍的智能整理平台,也是面向读者的数字化阅读工具,提供免费开放的访问服务。

王军预计,随着人工智能技术的运用,古文字中的古代历史文化知识将不断提炼,建立各种知识库,以知识地图的形式支持互联网的前端应用。

由于互联网产品在开发、设计方面具有优势,互联网公司等社会力量的加入将进一步保障古籍数字化平台的服务质量。 "我们拥有优秀的产品经理、设计师和软件工程师,能够不断优化和创新古籍数字化平台的产品功能,提供更好的用户体验。 "北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前领先的设计团队和抖音的开发、测试团队正在参与"古籍数字化平台"的开发。

需要跨学科的合作

随着人工智能技术在古典修复整理领域的广泛应用,杨海峥作为古典文献专业的老师,经常问学生:"在学习古典文献的同时,还学习人工智能吗?" 杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,开辟了一个全新的交叉学科领域,利用人工智能技术修复整理古籍,需要更多的复合型人才。

王军认为,在这种情况下,高校古典文献学等相关专业如何培养技术与学术能力兼具的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待解决的问题。

另外,人工智能并不是"绝顶聪明"。 华南理工大学电子信息学院教授金连文表示,古籍图像增强、修复、布局复杂古籍文献图像布局分析等问题都有待解决。 在古籍内容的分析整理中,目前最大的技术难点是人工智能识别古籍中的人名、地名等专有名词后,如何进一步实现关系提取,为古代历史文化知识图谱的自动生成准备技术条件。

因此,杨海峥认为,在古籍整理中,人文社会科学家要积极介入,加强与技术人员的合作。 这样,就可以更好地利用机器,而不是被机器拖着走,保证结果的正确性。

人工智能技术的发展带来了古籍整理研究方法、思路的根本性变化。 业内共识之一是,利用人工智能推进古籍修复整理,需要跨学科、环境、文化、区域合作。 正如王军所说:"保护古籍需要社会各界共同努力,欢迎更多热心古籍收藏机构、研究机构和古籍事业的个人参与,才能打造开放的'古籍数字化平台'。"

(本报记者韩业庭)。

2022-05-12 13:33:46
0