[发明专利]分词处理方法、装置、电子设备及存储介质在审
申请号: | 202110750635.3 | 申请日: | 2021-07-02 |
公开(公告)号: | CN113609850A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 胡羽蓝 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 处理 方法 装置 电子设备 存储 介质 | ||
本公开关于一种分词处理方法、装置、电子设备及存储介质,该方法包括:获取包括按序排列的多个目标字的待分词信息对应的目标特征向量;对目标特征向量进行标签预测处理,得到多个目标字各自属于预设分词标签的第一预测结果;基于预设分词标签,对待分词信息对应的目标分词片段中的目标字进行组合,得到多个目标字各自对应的目标词序列,并对目标词序列进行标签预测处理,得到多个目标字各自属于预设分词标签的第二预测结果;根据第一预测结果和第二预测结果,确定多个目标字各自对应的目标分词标签;根据待分词信息和目标分词标签,确定待分词信息的分词结果。利用本公开实施例提供的方案能够提高待分词信息的分词效果和性能,降低分词成本。
技术领域
本公开涉及互联网技术领域,尤其涉及一种分词处理方法、装置、电子设备及存储介质。
背景技术
自然语言处理中的中文分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。
相关技术中通常基于匹配、统计、深度学习等分词算法进行中文分词。然而基于匹配的分词算法(比如,正向、逆向等匹配算法)过于依赖词典,词典的维护成本较高,系统资源消耗较大,且基于匹配的分词算法对于歧义词以及未登录词等的分词处理效果(比如,分词边界的稳定性)较差;基于统计的分词算法,复杂度大,分词性能(比如,分词速率)较差,且需要大量的人工标注,分词成本较高。而基于深度学习的分词算法,模型复杂度大,分词成本较高,无法满足高性能分词要求的场景。
发明内容
本公开提供一种分词处理方法、装置、电子设备及存储介质,以至少解决相关技术中访问此成本较高,分词效果和分词性能较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种分词处理方法,包括:
获取待分词信息对应的目标特征向量,所述待分词信息包括按序排列的多个目标字;
对所述目标特征向量进行标签预测处理,得到所述多个目标字各自属于预设分词标签的第一预测结果;
基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果;所述目标分词片段由所述待分词信息中的首个目标字所组成,或由所述首个目标字至任一非首个目标字所组成;
根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签;
根据所述待分词信息和所述目标分词标签,确定所述待分词信息的分词结果。
在一示例性的实施方式中,所述基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果,包括:
基于所述预设分词标签对初始分词片段中的目标字进行组合,得到所述首个目标字对应的目标词序列,所述初始分词片段由所述首个目标字组成,或者由所述首个目标字与所述首个目标字之后预设数量个目标字所组成;
对所述首个目标字对应的目标词序列进行标签预测处理,得到所述首个目标字属于所述预设分词标签的第二预测结果:
将所述待分词信息中除所述首个目标字之外的其他目标字所组成的序列,作为其他目标字序列,遍历所述其他目标字序列中的每一其他目标字,并在遍历每一其他目标字时,执行以下操作:
基于所述预设分词标签,对由所述首个目标字至每一其他目标字所组成的目标分词片段进行组合,得到每一其他目标字对应的目标词序列;
对每一其他目标字对应的目标词序列进行标签预测处理,得到每一其他目标字属于所述预设分词标签的第二预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110750635.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据线用圆面丝印装置
- 下一篇:一种镜场控制系统