[发明专利]一种基于自然语言处理的古文标点符号修复方法在审
申请号: | 202210453137.7 | 申请日: | 2022-04-27 |
公开(公告)号: | CN115374751A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 黄煜哲;董启文;兰韵诗;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 古文 标点符号 修复 方法 | ||
1.一种基于自然语言处理的古文标点符号修复方法,其特征在于,该方法包括以下具体步骤:
步骤1:获取古籍中的文本数据并进行基础的数据清洗
在网络上爬取各个古籍数据库的古籍数据,所爬取到的古籍数据存在各种乱码字符或其他原因导致的脏乱,要对其进行基础的数据清洗,处理成整洁规范易于阅读的文本数据;
步骤2:古籍的藏部体系分类
步骤1中得到的古籍文本数据根据内容的不同被划分为十个不同的藏部,分别为佛藏、儒藏、医藏、史藏、子藏、易藏、艺藏、诗藏、道藏及集藏;每一个藏部之间的文本内容和风格都不相同,对其标点时要针对到各种类型藏部的特征;
步骤3:待训练语料的向量化
将步骤2中的不同藏部古籍文本输入预先针对古文训练好的词向量模型,得到每一个文字的向量表示;然后组合不固定数量的句子将文字的向量组合成文本的张量;并且根据这些张量所表示的文本是否存在标点,来将其划分为训练数据和待标点数据;
步骤4:训练数据的标注体系
对步骤3中得到的训练数据进行标注;如果训练数据的张量所表示的原文本中,某一个文字后没有标点符号,那么就在这个文字对应的向量的位置标注‘o’;如果有标点符号,便根据标点符号的不同,加上不同的标注;两种类型的标注字符,共同构建了对训练数据的标点标注体系;
步骤5:命名实体识别模型的构建与训练
使用基于BiLSTMAttention的神经网络,对步骤2中古籍文本的每一个藏部,分别构建用于其标点的命名实体识别模型;使用经过步骤4标注过的文本训练数据输入构建好的命名实体识别模型,并通过Adam优化器对命名实体模型进行训练;
步骤6:命名实体模型的使用
在步骤5中训练完成命名实体识别模型后,将步骤3中得到的古籍文本的待标点数据的向量化表示,输入进所得到的命名实体识别模型;根据模型输出的结果,得到文本中各个文字的实体标注,该标注注明了该文字后应当是什么标点符号;依据该结果整理原文本后,便得到了带有标点符号的古籍文本。
2.根据权利要求1所述的基于自然语言处理的古文标点符号修复方法,其特征在于,步骤3所述的词向量模型,按下述步骤构建:
2-1:收集大量古籍即佛经、史书类型的文本语料;
2-2:利用预训练语言模型古文BERT,对获取的语料数据进行持续训练与微调,使得模型学习到古籍的语料特征,获得词向量模型。
3.根据权利要求1所述的基于自然语言处理的古文标点符号修复方法,其特征在于,步骤4所述的标点标注体系,按下述步骤构建:
3-1:提取文本语料中存在标点符号的文本,并进行统计,筛选出七种不同的标点符号,分别为逗号,句号,分号,问好,冒号,双引号,感叹号;
3-2:利用长度为512的文本的向量化输入数据,根据每一个位置的文字后的字符的不同,获得一条512维度的向量,向量的第某个维度代表文本的输入数据的第某个文字之后的字符类型。
4.根据权利要求1所述的基于自然语言处理的古文标点符号修复方法,其特征在于,步骤5所述的命名实体识别模型,按下述步骤构建:
4-1:根据古籍的内容不同,划分为不同的藏部体系;
4-2:对清洗好的古籍文本进行数据标注,逐字标注该文字之后的符号是什么类型;
4-3:将标注好的数据集按7:1:2的比例划分为训练集、验证集和测试集;
4-4:基于BiLSTMAttention神经网络模型,构建分类神经网络的自然命名实体识别模型;
4-5:将文本语句的表征输入自然命名实体识别模型,得到神经网络模型的输出向量,并将其输入Softmax分类器,得到该文字后是各种标点符号的概率;
4-6:在训练集上使用交叉熵损失函数,衡量字符的实体识别模型所预测的标点类别概率与该文字后真实标点符号的差距,并通过Adam优化器反向传播,更新神经网络和分类器的参数;所述交叉熵损失函数由下述(1)式计算:
其中:D为向量维度,数值等于分类类别数目;yi为输入文本语句xi对应真实标签;为分类器预测该文字后的字符属于第i类的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210453137.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有用于灯的保持夹的灯座
- 下一篇:一种高产γ-氨基丁酸的短乳杆菌及其应用