[发明专利]分词方法、装置以及计算机可读存储介质在审
申请号: | 201711363751.X | 申请日: | 2017-12-18 |
公开(公告)号: | CN109933778A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 许蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 隐马尔可夫模型 词库 词语 标注 训练语料 应用场景 自定义 计算机可读存储介质 隐马尔科夫模型 自动识别 语料 互联网技术 关联性 构建 场景 学习 | ||
本公开涉及一种分词方法、装置以及计算机可读存储介质,涉及互联网技术领域。本公开的方法包括:根据应用场景构建分词词库,分词词库中包括与应用场景对应的自定义词语;利用分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。本公开根据应用场景添加自定义词语到分词词库,并利用分词词库对训练语料进行标注,基于标注的语料对隐马尔科夫模型进行训练,隐马尔科夫模型可以学习这些自定义词语的特征,进而,训练好的隐马尔可夫模型则可以自动识别该应用场景下的词语,并且隐马尔可夫模型根据词语的前后关联性可以自动识别新词,提高了分词的准确性。
技术领域
本公开涉及互联网技术领域,特别涉及一种分词方法、装置以及计算机可读存储介质。
背景技术
随着互联网技术的发展和人工智能的发展,自然语言处理技术取得了很大进步。
分词算法是自然语言处理中比较基础的部分,对语料进行分词,分词的结果可以应用于搜索、语义分析等各种领域,因此,分词算法的准确性与效率对于应用非常重要。
目前,常用于分词的算法包括基于字符串匹配的分词算法,基于理解的分词算法等。
发明内容
发明人发现:上述基于字符串匹配的分词算法,准确性较低,并且无法解决歧义词和新词的划分的问题,而基于理解的分词算法目前还在尝试阶段,实现比较困难,准确性也较差。并且,上述两种算法针对具体应用场景都无法识别特有的词语,造成分词效果不佳。
本公开所要解决的一个技术问题是:如何提高分词的准确性。
根据本公开的一些实施例,提供的一种分词方法,包括:根据应用场景构建分词词库,分词词库中包括与应用场景对应的自定义词语;利用分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。
在一些实施例中,利用分词词库对训练语料进行标注包括:通过训练语料与分词词库中的词语进行匹配,将训练语料进行分词;根据分词后的训练语料中每个字在词语中的位置,对每个字标注状态,状态包括:词头、词中、词尾和单字。
在一些实施例中,利用标注后的训练语料对隐马尔可夫模型进行训练包括:根据标注后的训练语料统计同一个字在不同状态下的概率作为该字的标注概率;将训练语料输入隐马尔可夫模型得到同一个字在不同状态下的概率作为该字的训练概率;根据各个字的标注概率与训练概率误差,调整隐马尔可夫模型的参数,直至误差达到最小,则得到训练好的隐马尔可夫模型。
在一些实施例中,训练语料和待分词的语料是根据停用词表去除停用词后的语料;其中,训练语料和待分词的语料被划分为多个弹性分布式数据集,停用词表被设置为广播变量,在各个弹性分布式数据集中被并行调用,执行对每个弹性分布式数据集中训练语料或待分词的语料去除停用词的步骤。
在一些实施例中,训练语料被划分为多个弹性分布式数据集,分词词库被设置为广播变量;利用分词词库对训练语料进行标注包括:在每个弹性分布式数据集中调用广播变量中的分词词库,对每个弹性分布式数据集中的训练语料并行进行标注。
在一些实施例中,该分词方法还包括:将待分词的语料划分为多个弹性分布式数据集;在每个弹性分布式数据集中调用训练好的隐马尔可夫模型,对每个弹性分布式数据集中的待分词的语料并行进行分词;将各个弹性分布式数据集中的待分词的语料的分词结果进行组合,得到待分词的语料的分词结果。
在一些实施例中,调用训练好的隐马尔可夫模型对待分词的语料进行分词包括:将待分词的语料输入训练好的隐马尔可夫模型,得到待分词的语料中每个字在每种状态下的概率矩阵,每两个字之间的状态转移概率矩阵,以及初始概率矩阵;根据每个字在每种状态下的概率矩阵,每两个字之间的状态转移概率矩阵,以及初始概率矩阵,利用维特比算法确定每个字对应的状态;根据每个字对应的状态进行分词,得到分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711363751.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:知识库扩展装置
- 下一篇:用户意图识别方法及系统