[发明专利]一种基于自然语言处理的古文标点符号修复方法在审
申请号: | 202210453137.7 | 申请日: | 2022-04-27 |
公开(公告)号: | CN115374751A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 黄煜哲;董启文;兰韵诗;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 古文 标点符号 修复 方法 | ||
本发明公开了一种基于自然语言处理的古文标点符号修复方法,该方法包括:获取古籍中的文本数据并进行基础的数据清洗;根据古籍的内容分为不同的藏部体系分类;对文本进行向量化表示;利用各个分类中已有的存在标点符号的文本作为完成标注的训练数据;训练命名实体识别模型;将待标点的古籍文本对应的向量输入预先训练好的命名实体识别模型中;得到模型结果进行标点。本发明与现有技术相比可以将古籍细分为不同的藏部分别训练模型进行标点,提高命名实体识别模型的精度,获得更加准确的标点符号,对修复古籍和古籍的解读具有很高的价值。
技术领域
本发明涉及机器学习及深度学习技术领域,尤其是一种基于自然语言处理的古文标点符 号修复方法。
背景技术
中华文字源远流长,在数千年的文化传承中,古人留下的文字著作浩如烟海,但是古人 习惯于不加标点。因此,大量传承至今的古文著作依然由没有标点的,连续的字符序列组成。 虽然先贤的著作记载了千年来的文化精华,具备极高的价值,但是这样无断句的文本形式成 为现代人学习与利用古汉语的障碍。互联网时代下,海量的古汉语典籍已经实现数字化,但 是原文的标点缺漏很不利于人文学者对这些典籍资料的组织和利用。
综上所述,针对数字化的古籍文本缺少标点断句,难以学习的问题,用深度学习的方法 来进行自动化的古文标点具有十分重要的意义。
发明内容
本发明的目的是针对现有技术的不足而提出的一种基于自然语言处理的古文标点符号修 复方法,采用基于机器学习与深度学习模型,并根据古籍所属藏部的不同,构建相应的古文 标点符号标注模型,来获得待标点的古籍文本中的标点符号标注。本发明有效解决了古文标 点数据缺失,人工标点代价过大的问题,大大减轻了文学工作者对古籍进行标点的负担,降 低了古文研究者的研究成本,有利于学者对尚未研究过的古籍的学习,对中华文化的传承有 着极大的帮助。
实现本发明目的的具体技术方案是:
一种基于自然语言处理的古文标点符号修复方法,特点是采用深度学习命名实体识别模 型,来计算文本中各个文字的实体标注。该文字之后的标点符号类别,即计算出来的标注类 别。其数据的处理标注和命名实体识别模型的构建包括以下具体步骤:
步骤1:获取古籍中的文本数据并进行基础的数据清洗
在网络上爬取各个古籍数据库的古籍数据,所爬取到的古籍数据存在各种乱码字符或其 他原因导致的脏乱,要对其进行基础的数据清洗,处理成整洁规范易于阅读的文本数据;
步骤2:古籍的藏部体系分类
步骤1中得到的古籍文本数据根据内容的不同被划分为十个不同的藏部,分别为佛藏、 儒藏、医藏、史藏、子藏、易藏、艺藏、诗藏、道藏及集藏;每一个藏部之间的文本内容和 风格都不相同,对其标点时要针对到各种类型藏部的特征;
步骤3:待训练语料的向量化
将步骤2中的不同藏部古籍文本输入预先针对古文训练好的词向量模型,得到每一个文 字的向量表示;然后组合不固定数量的句子将文字的向量组合成文本的张量;并且根据这些 张量所表示的文本是否存在标点,来将其划分为训练数据和待标点数据;
步骤4:训练数据的标注体系
对步骤3中得到的训练数据进行标注;如果训练数据的张量所表示的原文本中,某一个 文字后没有标点符号,那么就在这个文字对应的向量的位置标注‘o’;如果有标点符号,便 根据标点符号的不同,加上不同的标注;两种类型的标注字符,共同构建了对训练数据的标 注体系;
步骤5:命名实体识别模型的构建与训练
使用基于BiLSTMAttention的神经网络,对步骤2中古籍文本的每一个藏部,分别构建 用于其标点的命名实体识别模型;使用经过步骤4标注过的文本训练数据输入构建好的命名 实体识别模型,并通过Adam优化器对命名实体模型进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210453137.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有用于灯的保持夹的灯座
- 下一篇:一种高产γ-氨基丁酸的短乳杆菌及其应用