[发明专利]一种分词方法、装置及电子设备在审
申请号: | 201810128617.X | 申请日: | 2018-02-08 |
公开(公告)号: | CN110134936A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 陈小帅;臧娇娇 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词结果 分词 目标字符串 字符串 纠错 装置及电子设备 修正 错误识别 错误字符 结果表征 修正目标 | ||
本发明公开了一种分词方法、装置及电子设备。该分词方法包括:对目标字符串进行分词获得第一分词结果;对目标字符串进行错误识别获得识别结果;若识别结果表征目标字符串存在错误,基于识别结果对目标字符串进行纠错;对纠错获得的字符串进行分词获得第二分词结果;基于第二分词结果修正第一分词结果获得修正后的分词结果。在上述技术方案中,通过对目标字符串的纠错,获得正确字符串的分词结果来修正目标字符串的分词结果,解决了因为错误字符导致的分词准确性和实用性大大降低的技术问题,提高了分词的准确性和实用性。
技术领域
本发明涉及软件技术领域,特别涉及一种分词方法、装置及电子设备。
背景技术
随着科学技术的不断发展,分词技术得到了广泛的应用,除了常用的搜索、字符匹配等领域,在选词方面也得到了应用。针对用户选中的或剪切板中的字符提供分词功能,将分词结果展示给用户,辅助用户快捷、准确选取其中部分内容进行理解、使用。
随着分词技术的广泛应用,对分词的准确性要求越来越高。现有技术中,对分词的优化通常是从语法、分词方式、分词数据库方面着手,但现如今这几个方面已经非常完善,进一步优化的难度大,对准确性的提升幅度也非常小,亟需一种新的分词优化方法来提高分词的准确性。
发明内容
本发明实施例提供一种分词方法、装置及电子设备,用于提高语音识别的准确率。
本发明实施例提供一种分词方法,该方法包括:
对目标字符串进行分词获得第一分词结果;
对所述目标字符串进行错误识别获得识别结果;
若所述识别结果表征所述目标字符串存在错误,基于所述识别结果,对所述目标字符串进行纠错获得纠错后的字符串;
对所述纠错后的字符串进行分词获得第二分词结果;
基于所述第二分词结果修正所述第一分词结果,获得修正后的分词结果。
可选的,基于所述识别结果,对所述目标字符串进行纠错获得纠错后的字符串,包括:
获取所述识别结果中的错误分词,以及获取与所述错误分词相关的候选词;
基于所述候选词对所述目标字符串中的分词进行替换,获得替换后的候选字符串;
基于所述语言模型对所述候选字符串进行打分,获取打分最高的候选字符串作为纠错后的字符串。
可选的,获取与所述错误分词相关的候选词,包括:
获取与所述错误分词之间读音相同和/或相似的词作为所述候选词。
可选的,获取与所述错误分词相关的候选词,包括:
获取与所述错误分词之间字形相似的词作为所述候选词。
可选的,获取与所述错误分词相关的候选词,包括:
判断所述错误分词中是否包含重复的字和/或词;
若是,去除所述错误分词中重复的字和/或词获得所述候选词;
可选的,获取与所述错误分词相关的候选词,包括:
获得与所述错误分词之间具有N元关系的N元关系词作为所述候选词,N为大于等于2的整数。
可选的,基于所述候选词对将所述目标字符串中的分词进行替换获得替换后的候选字符串,包括:
通过将所述目标字符串中的所述错误分词替换为所述候选词获得所述候选字符串;或者,
通过将所述目标字符串中与所述错误分词之间具有N元关系的N元关系词替换为所述候选词获得所述候选字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810128617.X/2.html,转载请声明来源钻瓜专利网。