[发明专利]分词方法、装置以及计算机可读存储介质在审
申请号: | 201711363751.X | 申请日: | 2017-12-18 |
公开(公告)号: | CN109933778A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 许蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 隐马尔可夫模型 词库 词语 标注 训练语料 应用场景 自定义 计算机可读存储介质 隐马尔科夫模型 自动识别 语料 互联网技术 关联性 构建 场景 学习 | ||
1.一种分词方法,包括:
根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;
利用所述分词词库对训练语料进行标注;
利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。
2.根据权利要求1所述的分词方法,其中,所述利用所述分词词库对训练语料进行标注包括:
通过训练语料与所述分词词库中的词语进行匹配,将所述训练语料进行分词;
根据分词后的训练语料中每个字在词语中的位置,对每个字标注状态,所述状态包括:词头、词中、词尾和单字。
3.根据权利要求2所述的分词方法,其中,所述利用标注后的训练语料对隐马尔可夫模型进行训练包括:
根据标注后的训练语料统计同一个字在不同状态下的概率作为该字的标注概率;
将所述训练语料输入所述隐马尔可夫模型得到同一个字在不同状态下的概率作为该字的训练概率;
根据各个字的标注概率与训练概率误差,调整所述隐马尔可夫模型的参数,直至所述误差达到最小,则得到训练好的隐马尔可夫模型。
4.根据权利要求1所述的分词方法,其中,
所述训练语料和所述待分词的语料是根据停用词表去除停用词后的语料;
其中,所述训练语料和所述待分词的语料被划分为多个弹性分布式数据集,所述停用词表被设置为广播变量,在各个弹性分布式数据集中被并行调用,执行对每个弹性分布式数据集中训练语料或待分词的语料去除停用词的步骤。
5.根据权利要求1所述的分词方法,其中,
所述训练语料被划分为多个弹性分布式数据集,所述分词词库被设置为广播变量;
所述利用所述分词词库对训练语料进行标注包括:
在每个弹性分布式数据集中调用所述广播变量中的分词词库,对每个弹性分布式数据集中的训练语料并行进行标注。
6.根据权利要求1所述的分词方法,其中,还包括:
将待分词的语料划分为多个弹性分布式数据集;
在每个弹性分布式数据集中调用所述训练好的隐马尔可夫模型,对每个弹性分布式数据集中的待分词的语料并行进行分词;
将各个弹性分布式数据集中的待分词的语料的分词结果进行组合,得到所述待分词的语料的分词结果。
7.根据权利要求6所述的分词方法,其中,
调用训练好的隐马尔可夫模型对待分词的语料进行分词包括:
将所述待分词的语料输入训练好的隐马尔可夫模型,得到所述待分词的语料中每个字在每种状态下的概率矩阵,每两个字之间的状态转移概率矩阵,以及初始概率矩阵;
根据所述每个字在每种状态下的概率矩阵,每两个字之间的状态转移概率矩阵,以及初始概率矩阵,利用维特比算法确定每个字对应的状态;
根据每个字对应的状态进行分词,得到分词结果。
8.一种分词装置,包括:
词库构建模块,用于根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;
标注模块,用于利用所述分词词库对训练语料进行标注;
模型训练模块,用于利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。
9.根据权利要求8所述的分词装置,其中,
所述标注模块用于通过训练语料与所述分词词库中的词语进行匹配,将所述训练语料进行分词,根据分词后的训练语料中每个字在词语中的位置,对每个字标注状态,所述状态包括:词头、词中、词尾和单字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711363751.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:知识库扩展装置
- 下一篇:用户意图识别方法及系统