[发明专利]候选词评估方法、候选词排序方法及装置有效
申请号: | 201810321032.X | 申请日: | 2018-04-11 |
公开(公告)号: | CN108694167B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李贤 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F16/33 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 冯右明 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选 评估 方法 排序 装置 | ||
1.一种候选词评估方法,其特征在于,包括:
检测到错词,获取错词对应的多个候选词;所述错词包括基于用户的书写操作得到的词;
确定各候选词与所述错词的编辑距离;
确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列率和/或最长公共子串率得到;所述最长公共子序列率和/或所述最长公共子串率用于表征各候选词与错词之间相同字符的多寡,以及相同字符所占的比例;
分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;
获取所述错词相对于各候选词的出错信息;
根据所述编辑距离、所述相似度、所述评估概率以及所述出错信息,确定各候选词的评估得分;
其中,所述根据所述候选语句确定对应候选词的评估概率,包括:
根据预设的语言模型计算候选语句中候选词、候选词的临近词各自在其位置的概率,将所述概率的log值作为各词的语言环境概率;
对候选语句中候选词的语言环境概率、候选词的临近词的语言环境概率求平均,得到所述候选语句中候选词的评估概率;
所述根据所述编辑距离、所述相似度、所述评估概率以及所述出错信息,确定各候选词的评估得分,包括:
根据所述编辑距离的倒数、所述相似度、所述评估概率的倒数以及所述出错信息,确定各候选词对应的评估得分;
所述出错信息包括以下任一项或多项:
所述错词与候选词的字符数量是否相同的信息,所述错词与候选词的偏旁是否相同的信息,所述错词中是否含有非法符号的信息。
2.根据权利要求1所述的候选词评估方法,其特征在于,所述语言模型包括:N-Gram模型、BiLSTM模型或者LSTM模型。
3.根据权利要求1所述的候选词评估方法,其特征在于,还包括:
检测到待检测词不在预设词库中,确定所述待检测词为错词。
4.根据权利要求3所述的候选词评估方法,其特征在于,在检测出错词之后,还包括步骤:
计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。
5.根据权利要求1所述的候选词评估方法,其特征在于,还包括:
根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词;
和/或,
根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。
6.根据权利要求5所述的候选词评估方法,其特征在于,所述根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,包括:
从多个候选词中确定出所述评估得分最高的候选词,作为所述错词对应的纠错词。
7.根据权利要求2所述的候选词评估方法,其特征在于,根据如下公式计算各候选词的评估得分:
其中,Dedit表示候选词与错词的编辑距离,word表示候选词,mx表示语言模型,表示候选词的评估概率,scoreword表示候选词对应的评估得分,K表示错词相对于各候选词的出错信息;若候选词和错词首字母相同,K取值为K1,否则,K取值K2,K1、K2均为预设的数值,S表示候选词与所述错词的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810321032.X/1.html,转载请声明来源钻瓜专利网。