[发明专利]文本纠错方法、装置及终端有效
申请号: | 201610976879.2 | 申请日: | 2016-11-07 |
公开(公告)号: | CN106528532B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 谢瑜;张昊;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文本纠错方法、装置和终端,文本纠错方法包括:对待纠错语料进行分词,以得到单字串和词串;对所述单字串中的至少一部分进行合并,以得到多个错词候选词;将拼音相同的错词候选词和词串划分至同一错词候选类;在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。本发明技术方案提高了对于文本中音似词纠错的简便有效性。 | ||
搜索关键词: | 文本 纠错 方法 装置 终端 | ||
【主权项】:
1.一种文本纠错方法,其特征在于,包括:对待纠错语料进行分词,以得到单字串和词串;对所述单字串中的至少一部分进行合并,以得到多个错词候选词;将拼音相同的错词候选词和词串划分至同一错词候选类;在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错;所述对所述单字串中的至少一部分进行合并,以得到所述多个错词候选词包括:如果相邻两个单字串的成词概率均小于第一阈值,则将所述相邻两个单字串合并,以作为错词候选词;并且/或者,如果所述单字串与相邻词串的成词概率均小于所述第一阈值,则将所述单字串与所述相邻词串合并,以作为所述错词候选词;所述在每一错词候选类中,根据每一错词候选词的成词概率选取推荐词包括:计算每一错词候选类中所有词语两两之间的语义距离;如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;在每一错词候选集中,分别根据所述每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610976879.2/,转载请声明来源钻瓜专利网。