[发明专利]分词处理方法及装置有效
申请号: | 201811129922.7 | 申请日: | 2018-09-27 |
公开(公告)号: | CN110969016B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛;李相雨 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 处理 方法 装置 | ||
1.一种分词处理方法,其特征在于,包括:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分词的排列次序,依次将所述标签组成原始路径的步骤,包括:
针对每个所述分词,分别选择概率满足预设概率要求的预选标签;
根据所述分词的排列次序,依次将所述预选标签组成原始路径。
3.根据权利要求1所述的方法,其特征在于,所述获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数的步骤,包括:
将待处理语句输入至预设的分词模型中,得到预分词结果以及所述预分词结果中的分词的标签参数。
4.根据权利要求3所述的方法,其特征在于,所述根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径的步骤,包括:
从所述原始路径中,选择满足预设路径规则的预选路径;
根据预设算法,确定所述预选路径的点互信息值;
根据所述预选路径中的标签概率以及所述点互信息值,确定综合点互信息值;所述标签概率为所述预选路径中的每个标签的概率的连乘积;
选择所述综合点互信息值最大的预选路径作为目标路径,生成所述目标路径的分词结果。
5.根据权利要求4所述的方法,其特征在于,所述根据预设算法,确定所述预选路径的点互信息值的步骤,包括:
根据以下公式,确定所述预选路径的点互信息值:
其中,F为所述点互信息值;
A1,A2,…,An分别表示所述预选路径中的分词;
PA1,A2,…,An表示A1,A2,…,An在所述待处理语句中同时出现的概率;
PA1表示A1在所述待处理语句中出现的概率;
PA2表示A2在所述待处理语句中出现的概率,…,PAn表示An在所述待处理语句中出现的概率。
6.根据权利要求5所述的方法,其特征在于,所述分词模型中的损失函数为:
L=Lc+(-F);
其中,L为所述损失函数的值;Lc为原始损失函数,且
LC(W,b)=-Σi,x∈Clogp(y|x;W,b);
其中,W为所述分词模型中的预设权重;x为所述分词模型中的输入分词;y为所述输入分词的标签;b为所述x的前一个输入分词的损失函数;
p(y|x;W,b)为所述y的概率。
7.一种分词处理装置,其特征在于,包括:
获取模块,用于获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
组成模块,用于根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
确定模块,用于根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
8.根据权利要求7所述的装置,其特征在于,所述组成模块用于:
针对每个所述分词,分别选择概率满足预设概率要求的预选标签;
根据所述分词的排列次序,依次将所述预选标签组成原始路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811129922.7/1.html,转载请声明来源钻瓜专利网。