[发明专利]基于语言模型的文本纠错方法、装置、终端设备及介质有效
申请号: | 202110810881.3 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113268977B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 陈乐清;曾增烽;刘东煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/30;G06F40/289 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李艳丽 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 模型 文本 纠错 方法 装置 终端设备 介质 | ||
1.一种基于语言模型的文本纠错方法,其特征在于,包括:
确定待纠错文本中的人名,对所述待纠错文本中的人名进行词汇替换,得到替换文本,所述词汇替换用于将所述待纠错文本中的人名,分别替换为预设人名词汇和预设产品词汇;
将所述替换文本输入语言模型进行文本分析,得到文本得分,所述文本得分用于表征所述替换文本内词汇之间的关联程度;
将最大文本得分对应的替换文本设置为标准文本,以及根据所述标准文本对所述待纠错文本进行文本纠错;
所述根据所述标准文本对所述待纠错文本进行文本纠错,包括:
确定所述标准文本中所述预设人名词汇的位置信息,得到人名位置;
查询所述待纠错文本上所述人名位置对应的词汇,得到第一待纠错词汇;
若所述第一待纠错词汇不是人名,则查询所述第一待纠错词汇对应的标准人名词汇,并将查询到的所述标准人名词汇对所述第一待纠错词汇进行替换;
若所述第一待纠错词汇是人名,则判定所述第一待纠错词汇无需纠错。
2.根据权利要求1所述的基于语言模型的文本纠错方法,其特征在于,所述对所述待纠错文本中的人名进行词汇替换,得到替换文本,包括:
确定所述待纠错文本中的人名,根据所述预设人名词汇对确定到的所述待纠错文本中的人名进行人名替换,得到第一替换文本,所述预设人名词汇用于表征所述第一替换文本中的人名的字符位置;
再次确定所述待纠错文本中的人名,根据所述预设产品词汇对确定到的所述待纠错文本中的人名替换,得到第二替换文本,所述预设产品词汇用于表征所述第二替换文本中的人名的字符位置;
所述替换文本包括所述第一替换文本和所述第二替换文本。
3.根据权利要求1所述的基于语言模型的文本纠错方法,其特征在于,所述根据所述标准文本对所述待纠错文本进行文本纠错,还包括:
确定所述标准文本中所述预设产品词汇的位置信息,得到产品位置;
查询所述待纠错文本上所述产品位置对应的文本词汇,得到第二待纠错词汇;
若所述第二待纠错词汇不是人名,则判定所述第二待纠错词汇无需纠错;
若所述第二待纠错词汇是人名,则查询所述第二待纠错词汇对应的标准产品名称,并将查询到的所述标准产品名称对所述第二待纠错词汇进行替换。
4.根据权利要求2所述的基于语言模型的文本纠错方法,其特征在于,所述将所述替换文本输入语言模型进行文本分析,得到文本得分,包括:
将所述第一替换文本和所述第二替换文本输入所述语言模型进行分词,得到分词词汇;
根据所述语言模型,分别确定所述第一替换文本和所述第二替换文本中,不同分词词汇之间的关联值,所述关联值用于表征不同分词词汇之间的关联程度;
分别计算所述第一替换文本和所述第二替换文本中,不同所述分词词汇之间的关联值的和,得到所述文本得分。
5.根据权利要求1所述的基于语言模型的文本纠错方法,其特征在于,所述将所述替换文本输入语言模型进行文本分析之前,还包括:
确定预设的文本语料中的人名,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,得到第一样本文本;
再次确定所述文本语料中的产品名称,根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行产品替换,得到第二样本文本;
再次确定所述文本语料中的人名和产品名称,根据所述预设人名词汇对确定到的所述文本语料中的人名进行人名替换,并同时根据所述预设产品词汇对确定到的所述文本语料中的产品名称进行名称替换,得到第三样本文本;
根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,以及根据所述训练样本对所述语言模型进行训练,直至所述语言模型收敛。
6.根据权利要求5所述的基于语言模型的文本纠错方法,其特征在于,所述根据所述第一样本文本、所述第二样本文本和所述第三样本文本构建训练样本,包括:
将所述第一样本文本、所述第二样本文本和所述第三样本文本依序进行存储,以及根据预设分隔符对所述第一样本文本、所述第二样本文本和所述第三样本文本进行文本分隔,以得到所述训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110810881.3/1.html,转载请声明来源钻瓜专利网。