[发明专利]专有名词的智能纠错方法、装置、设备及存储介质在审
申请号: | 202010164805.5 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111428494A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 曾增烽;刘东煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/232;G06F40/242;G06F16/33;G06F16/332 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专有名词 智能 纠错 方法 装置 设备 存储 介质 | ||
1.一种专有名词的智能纠错方法,其特征在于,所述专有名词的智能纠错方法包括以下步骤:
获取待纠错文本,基于所述待纠错文本确定待纠错专有名词;
对所述待纠错专有名词进行分词处理,得到所述待纠错专有名词的多个分词片段,并输出每个所述分词片段的拼音;
将每个所述分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果;
若所述检索结果不为空,则基于所述检索结果,确定所述各检索候选词;
基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果;
基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。
2.如权利要求1所述的专有名词的智能纠错方法,其特征在于,在所述获取待纠错专有名词的步骤之前,还包括:
获取第一原始语料;
对所述第一原始语料进行分词处理,得到所述原始语料的多个词片段;
将所述词片段以拼音的格式输入,统计所述多个词片段的拼音;
基于所述多个词片段的拼音,确定拼音相同的词片段,构建同音字字典,其中,所述同音字字典包括同一拼音与不同文字的对应关系。
3.如权利要求1所述的专有名词的智能纠错方法,其特征在于,在所述获取待纠错专有名词的步骤之前,还包括:
获取第二原始语料;
对所述第二原始语料进行切词处理,得到所述第二原始语料的多个词片段;
基于所述多个词片段,分别将所述词片段进行单字切词,得到单字集合;
基于所述单字集合,构建倒排索引字典。
4.如权利要求1所述的专有名词的智能纠错方法,其特征在于,在所述基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果的步骤之后,还包括:
若所述检索结果为空,则遍历剔除所述分词片段中的字,获取多个词组;
分别将所述词组作为关键字,调用预置倒排索引字典,检索所述词组对应的多个候选词,得到检索结果;
基于所述检索结果,输出每个词组对应的检索候选词。
5.如权利要求4所述的专有名词的智能纠错方法,其特征在于,在所述基于所述检索结果,输出每个词组对应的检索候选词的步骤之后,还包括:
基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果;
基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。
6.如权利要求1或5所述的专有名词的智能纠错方法,其特征在于,所述基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果包括:
基于所述检索候选词,确定所述对应检索候选词的词频信息;
基于所述检索候选词的词频信息,计算所述检索候选词对应的分数,其中,所述词频信息与所述分数成正比;
基于所述分数,对所述检索候选词进行排序。
7.如权利要求6所述的专有名词的智能纠错方法,其特征在于,所述基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段包括:
基于所述排序结果,获取所述检索候选词的分数;
基于所述检索候选词的分数,将分数最高的检索候选词作为替换项,替换对应分词片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010164805.5/1.html,转载请声明来源钻瓜专利网。