[发明专利]一种标点预测模型训练方法及文本标点确定方法有效
申请号: | 201911072366.9 | 申请日: | 2019-11-05 |
公开(公告)号: | CN110852040B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 刘彦志;曹扬 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/279 |
代理公司: | 贵州派腾知识产权代理有限公司 52114 | 代理人: | 宋妍丽 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标点 预测 模型 训练 方法 文本 确定 | ||
1.一种标点预测模型训练方法,其特征在于:包括以下步骤:
(1)获取用于标点预测模型训练的分字文本训练集;
(2)利用数据增强方法从分字文本训练集中生成训练样本;
(3)输入标点预测模型,通过训练样本,获取训练好的标点预测模型;
所述步骤(1),分为以下步骤:
(1.1)获取原始训练文本语料,对原始训练文本语料进行预处理,获取预处理后的训练文本语料;
(1.2)对预处理后的训练文本语料进行分字处理,获取分字后的训练文本语料;
(1.3)对分字后的训练文本语料中的每个文字的标签类型进行标注,获取训练目标标签集合;
(1.4)获取训练目标标签集合中各个标签的权重值;
(1.5)去掉分字后的训练文本语料中的标点,并与训练目标标签集合组成分字文本训练集;
所述步骤(2),分为以下步骤:
(2.1)每次生成训练样本时,在1到500产生一个随机整数作为训练样本的最少字数;
(2.2)获取步骤(1)中分字文本训练集的一个完整句子作为种子句子,将种子句子的下一个句子拼接到种子句子的后面,作为新的种子句子,直到新的种子句子的文字数量不小于步骤(2.1)中的最少字数,获取最终的种子句子;
(2.3)获取最终的种子句子在步骤(1.3)中的训练目标标签集合中对应的标签序列,将最终的种子句子与标签序列作为利用数据增强方法生成的训练样本。
2.如权利要求1所述的标点预测模型训练方法,其特征在于:所述步骤(1.4),分为以下步骤:
(1.4.1)获取步骤(1.3)中,训练目标标签集合中各个标签的数量;
(1.4.2)将训练目标标签集合中标签‘0’的数量与各个标签数量的比值作为各个标签的权重值。
3.如权利要求2所述的标点预测模型训练方法,其特征在于:所述标签‘0’表示,在步骤(1.2)中,分字后的训练文本语料中的文字的后面不是标点。
4.如权利要求1所述的标点预测模型训练方法,其特征在于:所述步骤(3),分为以下步骤:
(3.1)利用标点预测模型获取步骤(2)中训练样本的各个文字的编码特征向量;
(3.2)根据文字的编码特征向量,通过标点预测模型获取各个文字的标签得分向量;
(3.3)根据所述标签得分向量和步骤(1.4)的标签权重值,获取标点预测模型的损失函数值;
(3.4)根据损失函数值,调整标点预测模型的权重参数,直到损失函数值达到指定阈值,获取训练后的标点预测模型。
5.一种文本标点确定方法,其特征在于:包括以下步骤:
(1)获取无标点的目标文本;
(2)对无标点的目标文本进行分字处理,获取目标文本中每个文字后面的预测标点;
(3)将预测标点插入目标文本中对应文字的后面,获取标点确定的目标文本。
6.如权利要求5所述的文本标点确定方法,其特征在于:所述步骤(2),分为以下步骤:
(2.1)对无标点的目标文本进行分字处理,获取分字处理后的目标文本;
(2.2)根据权利要求1-4任意一项所述的标点预测模型训练方法的标点预测模型,获取分字处理后的目标文本中的每个文字的特征编码向量;
(2.3)根据每个文字的特征编码向量,并利用标点预测模型,获取每个文字的标签得分向量;
(2.4)根据标签与标点的映射关系,获取每个文字的标签得分向量中得分最高的标签对应的标点,将所述标点作为目标文本中文字后面的预测标点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911072366.9/1.html,转载请声明来源钻瓜专利网。