[发明专利]分词方法及分词装置有效
申请号: | 201910036059.9 | 申请日: | 2019-01-15 |
公开(公告)号: | CN111444710B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王潇斌;谢朋峻;马春平;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/09 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 方法 装置 | ||
1.一种分词方法,其特征在于,包括:
确定目标文本中的各个字符分别对应的隐变量,其中,每个字符均对应多个隐变量,所述隐变量包括第一元素以及第二元素,所述第一元素用于指示分词结果中字符的位置,所述第二元素用于指示所述字符所属的领域;
通过标签模型确定所述字符与其对应的各个隐变量之间的匹配概率;
根据计算得到的多个匹配概率确定目标文本的每个字符对应的匹配概率集合,所述匹配概率集合中的匹配概率与隐变量一一对应,所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系;
通过序列模型根据各个字符对应的所述匹配概率集合进行预测,确定所述目标文本对应的预测标签序列,所述预测标签序列由所述隐变量组成,且其中的隐变量与所述目标文本中的字符一一对应;
根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。
2.根据权利要求1所述的方法,其中,所述标签模型为卷积神经网络CNN模型或者长短时记忆网络LSTM模型。
3.根据权利要求1所述的方法,其中,所述序列模型包括条件随机场CRF模型。
4.根据权利要求3所述的方法,其中,通过所述CRF模型中的维比特算法根据各个字符对应的所述匹配概率集合进行预测,确定所述目标文本对应的预测标签序列。
5.根据权利要求1所述的方法,其中,所述标签模型以及所述序列模型组合成分词模型,将多个样本文本分别输入所述分词模型中,并将每个所述样本文本对应的多个标注序列作为监督,以训练所述分词模型,所述标注序列由所述隐变量组成,且所述标注序列中的隐变量与所述样本文本中的字符一一对应;
通过训练得到的分词模型确定目标文本中每个字符与其对应的隐变量集合之间的匹配概率集合,并根据各个字符对应的所述匹配概率集合进行预测,确定各个字符在分词结果中的位置以及所属的领域,以确定所述目标文本的分词结果。
6.根据权利要求5所述的方法,其中,将所述样本文本输入所述分词模型,通过分词模型根据该样本文本对应的多个标注序列进行预测,确定多个标注序列各自对应的概率值;
根据确定的多个所述概率值确定损失值,根据所述损失值调整所述分词模型的参数,以将多个标注序列作为监督来训练所述分词模型。
7.根据权利要求6所述的方法,其中,计算确定的多个所述概率值之和,根据概率值之和确定所述损失值。
8.一种分词装置,其特征在于,包括:
变量确定模块,用于确定目标文本中的各个字符分别对应的隐变量,其中,每个字符均对应多个隐变量,所述隐变量包括第一元素以及第二元素,所述第一元素用于指示分词结果中字符的位置,所述第二元素用于指示所述字符所属的领域;
标签模型,用于确定所述字符与其对应的各个隐变量之间的匹配概率;
概率计算模块,用于根据计算得到的多个匹配概率确定目标文本的每个字符对应的匹配概率集合,所述匹配概率集合中的匹配概率与隐变量一一对应,所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系;
序列模型,用于根据各个字符对应的所述匹配概率集合进行预测,确定所述目标文本对应的预测标签序列,所述预测标签序列由所述隐变量组成,且其中的隐变量与所述目标文本中的字符一一对应;
结果确定模块,用于根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910036059.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有扣件的内部模块
- 下一篇:电能表无线数据上传方法