[发明专利]一种标点符号添加方法、装置、电子设备及存储介质在审
申请号: | 202111424072.5 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114065709A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 叶永龙;何维华;刘宝强 | 申请(专利权)人: | 深圳视界信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/117;G06K9/62;G06N3/04 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 蒋学超 |
地址: | 518057 广东省深圳市南山区西*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标点符号 添加 方法 装置 电子设备 存储 介质 | ||
1.一种标点符号添加方法,其特征在于,所述方法包括:
构建初始浅层神经网络模型;
获取初始文本数据,将所述初始文本数据进行数据预处理,生成待标注文本数据;
将所述待标注文本数据进行标注处理,生成带标签的预训练文本数据;
将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练,得到目标浅层神经网络模型;
获取预处理文本数据,将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果;
根据所述标签预测结果对所述预处理文本数据进行标点符号的添加,生成目标文本数据。
2.如权利要求1所述的标点符号添加方法,其特征在于,所述获取初始文本数据,将所述初始文本数据进行数据预处理,生成待标注文本数据包括:
获取样本文本数据;
将所述样本文本数据按照设定要求进行筛选,经过筛选的样本文本数据作为所述初始文本数据;
获取所述初始文本数据并进行数据预处理;
将经过所述数据预处理的初始文本数据作为所述待标注文本数据。
3.如权利要求2所述的标点符号添加方法,其特征在于,所述数据预处理包括:
筛选获取符合设定数据长度要求且有标点符号的初始文本数据;
筛选获取包含中文数据的初始文本数据;
筛选获取所述预处理文本数据中有意义的初始文本数据;
将所述初始文本数据中的标点/符号/英文/字母的表述方式和格式按照设定要求转换为统一的表述方式和格式。
4.如权利要求1所述的标点符号添加方法,其特征在于,所述将所述待标注文本数据进行标注处理,生成预训练文本数据包括:
获取待标注文本数据;
将所述待标注文本数据按照设定要求进行分割,生成片段文本数据,将片段文本数据的首字符标注B标签,将片段文本数据的其他字符标注O标签,生成BO标签文本数据;
将所述BO标签文本数据作为所述预训练文本数据。
5.如权利要求4所述的标点符号添加方法,其特征在于,所述将所述预训练文本数据映射至所述初始浅层神经网络模型进行训练,得到目标浅层神经网络模型包括:
构建可以进行命名实体识别的BiLSTM+CRF网络模型,并将其作为初始浅层神经网络模型;
获取预训练文本数据,并将所述预训练文本数据映射至所述BiLSTM+CRF网络模型中进行训练;
将训练完成后的BiLSTM+CRF网络模型作为所述目标浅层神经网络模型。
6.如权利要求5所述的标点符号添加方法,其特征在于,所述获取预处理文本数据,将所述预处理文本数据映射至所述目标浅层神经网络模型中进行标签预测得到标签预测结果包括:
获取输入文本数据;
将所述输入文本数据进行处理,并把经过处理的输入文本数据作为所述预处理文本数据;
将所述预处理文本数据映射至所述目标浅层神经网络模型中;
利用所述目标浅层神经网络模型对所述目标文本数据包含的字符进行标签预测,生成带标签的预处理文本数据,将带标签的预处理文本数据作为标签预测结果。
7.如权利要求6所述的标点符号添加方法,其特征在于,所述根据所述标签预测结果对所述预处理文本数据进行标点符号的添加,生成目标文本数据包括:
获取所述带标签的预处理文本数据;
判断所述带标签的预处理文本数据包含的字符的标签类型;
若判断字符的标签类型为B标签,则于该字符与前一字符之间的位置添加标点符号。
8.一种标点符号添加装置,其特征在于,包括用于执行如权利要求1-7任一项所述的标点符号添加方法的单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳视界信息技术有限公司,未经深圳视界信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111424072.5/1.html,转载请声明来源钻瓜专利网。