[发明专利]候选词评估方法、候选词排序方法及装置有效

专利信息
申请号: 201810321700.9 申请日: 2018-04-11
公开(公告)号: CN108595419B 公开(公告)日: 2022-05-03
发明(设计)人: 李贤 申请(专利权)人: 广州视源电子科技股份有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06F16/33
代理公司: 华进联合专利商标代理有限公司 44224 代理人: 冯右明
地址: 510530 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 候选 评估 方法 排序 装置
【权利要求书】:

1.一种候选词评估方法,其特征在于,包括:

检测到错词,获取错词对应的多个候选词;

确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列率和/或最长公共子串率得到;所述最长公共子序列率和/或所述最长公共子串率用于表征各候选词与错词之间相同字符的多寡,以及相同字符所占的比例;

分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;

根据所述相似度以及评估概率,确定各候选词的评估得分;

其中,所述根据所述候选语句确定对应候选词的评估概率,包括:

根据预设的语言模型计算候选语句中候选词、候选词的临近词各自在其位置的概率,将所述概率的log值作为各词的语言环境概率;

对候选语句中候选词的语言环境概率、候选词的临近词的语言环境概率求平均,得到所述候选语句中候选词的评估概率。

2.根据权利要求1所述的候选词评估方法,其特征在于,所述根据所述相似度以及评估概率,确定各候选词的评估得分,包括:

根据所述评估概率的倒数以及相似度,确定各候选词对应的评估得分;

和/或,

所述语言模型包括:N-Gram模型、BiLSTM模型或者LSTM模型。

3.根据权利要求1所述的候选词评估方法,其特征在于,还包括:

检测到待检测词不在预设词库中,确定所述待检测词为错词。

4.根据权利要求3所述的候选词评估方法,其特征在于,在检测出错词之后,还包括步骤:

计算所述错词与所述词库中已知词的编辑距离,选取编辑距离在设定范围内的已知词,得到所述错词对应的多个候选词。

5.根据权利要求1所述的候选词评估方法,其特征在于,还包括:

根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,用所述纠错词校正所述错词;

和/或,

根据所述评估得分对所述多个候选词进行排序,显示排序后的所述多个候选词。

6.根据权利要求5所述的候选词评估方法,其特征在于,所述根据所述评估得分从所述多个候选词中确定出所述错词对应的纠错词,包括:

从多个候选词中确定出所述评估得分最高的候选词,作为所述错词对应的纠错词。

7.根据权利要求2所述的候选词评估方法,其特征在于,根据如下公式计算各候选词的评估得分:

其中,word表示候选词,scoreword表示候选词对应的评估得分表示候选词的评估概率,mx表示语言模型,S表示候选词与所述错词的相似度。

8.一种候选词评估装置,其特征在于,包括:

候选词获取模块,用于检测到错词,获取错词对应的多个候选词;

相似度确定模块,用于确定各候选词与错词的相似度,所述相似度根据各候选词与错词的最长公共子序列率和/或最长公共子串率得到;所述最长公共子序列率和/或所述最长公共子串率用于表征各候选词与错词之间相同字符的多寡,以及相同字符所占的比例;

第二概率确定模块,用于分别用各候选词替换所述错词,得到候选语句,根据所述候选语句确定对应候选词的评估概率,所述评估概率根据候选语句中候选词的语言环境概率、以及候选词的临近词的语言环境概率得出;

以及,第六评估模块,用于根据所述相似度以及评估概率,确定各候选词的评估得分;

其中,所述第二概率确定模块,用于分别用各候选词替换所述错词,得到候选语句,根据预设的语言模型计算候选语句中候选词、候选词的临近词各自在其位置的概率,将所述概率的log值作为各词的语言环境概率;对候选语句中候选词的语言环境概率、候选词的临近词的语言环境概率求平均,得到所述候选语句中候选词的评估概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810321700.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top