[发明专利]文本纠错方法、电子设备及计算机可读存储介质在审
申请号: | 202111012472.5 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113743094A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 张浩波 | 申请(专利权)人: | 上海携宁计算机科技股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F40/242;G06F16/33;G06F16/31 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 200030 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 电子设备 计算机 可读 存储 介质 | ||
1.一种文本纠错方法,其特征在于,包括:
对待纠错词汇按字粒度进行切分,得到若干检索片段;其中,所述检索片段的类型为单个字母或汉字拼音;
在预设的索引词元集合中,确定与所述检索片段一致的目标索引词元;其中,所述索引词元集合中的索引词元的类型包括单个字母和汉字拼音;
根据所述目标索引词元在预设的索引中进行检索,得到和所述目标索引词元顺序一致的若干专有名词作为候选词;其中,所述索引为预设的所述索引词元到所述专有名词之间的映射关系的集合;
根据所述待纠错词汇的字频和所述候选词的字频计算编辑距离,对所述候选词打分,得到所述候选词对应的分数;
将分数最高的候选词作为纠错结果,替换所述待纠错词汇。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述索引词元集合和所述索引通过以下步骤获取:
获取预设的专有名词集合,所述专有名词集合中包括若干个所述专有名词;
遍历所述专有名词,对所述专有名词按字粒度进行切分,得到若干索引片段;其中,所述索引片段的类型包括单个字母和汉字拼音,所述单个字母包括原始字母和汉字字母,所述原始字母为所述专有名词中本身存在的字母,所述汉字字母为所述专有名词中的每个汉字的拼音的首字母,所述汉字拼音包括原始拼音和近似拼音,所述原始拼音为所述专有名词中的每个汉字本身的拼音,所述近似拼音为根据所述原始拼音从预设的近音字典中确定的近似音;
将所述索引片段作为所述索引词元,得到所述索引词元集合,并构建所述索引词元到所述专有名词之间的映射关系,得到所述索引。
3.根据权利要求1或2所述的文本纠错方法,其特征在于,所述索引词元集合中的索引词元的类型还包括单个汉字,所述根据所述待纠错词汇的字频和所述候选词的字频计算编辑距离,对所述候选词打分,得到所述候选词对应的分数,包括:
对所述待纠错词汇按字粒度进行切分,得到若干打分片段,其中,所述打分片段的类型为以下任意一种:单个字母、汉字拼音或单个汉字;
统计所述索引词元集合中各索引词元的字频,并根据所述各索引词元的字频,确定第一目标字的字频和第二目标字的字频;其中,所述第一目标字为所述打分片段,所述第二目标字为所述打分片段在所述候选词中对应的索引词元;
根据所述第一目标字的字频、所述第二目标字的字频和预设的成本函数,计算所述第一目标字与所述第二目标字之间的编辑成本;
根据所述编辑成本,计算所述待纠错词汇与所述候选词之间的编辑距离;
根据所述编辑距离,计算所述待纠错词汇与所述候选词之间的编辑相似度;
根据所述编辑相似度对所述候选词进行打分,得到所述候选词对应的分数。
4.根据权利要求3所述的文本纠错方法,其特征在于,所述统计所述索引词元集合中各索引词元的字频,包括:
获取所述索引词元集合对应的专有名词集合中各专有名词的初始词频;
根据历史纠错记录,确定各专有名词在所述历史纠错记录中出现的次数作为所述专有名词的纠错词频;
根据所述初始词频和所述纠错词频确定所述专有名词的累计词频;
获取各索引词元对应的若干专有名词的若干累计词频,对所述若干累计词频统计求和,得到所述索引词元的字频。
5.根据权利要求3所述的文本纠错方法,其特征在于,所述根据所述第一目标字的字频、所述第二目标字的字频和预设的成本函数,计算所述第一目标字与所述第二目标字之间的编辑成本,包括:
若所述第一目标字与所述第二目标字相同,则确定编辑成本为:cost=0,其中,cost为所述编辑成本;
若所述第一目标字与所述第二目标字不相同,则确定编辑成本为:cost=norm[lg(A/B)],norm(x)=(mx-m-x)/(mx+m-x),其中,norm[lg(x)]为所述预设的成本函数,m为预设常数,A为所述第一目标字的字频,B为所述第二目标字的字频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携宁计算机科技股份有限公司,未经上海携宁计算机科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111012472.5/1.html,转载请声明来源钻瓜专利网。