[发明专利]分词方法、装置以及计算机可读存储介质在审
申请号: | 201711363751.X | 申请日: | 2017-12-18 |
公开(公告)号: | CN109933778A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 许蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及一种分词方法、装置以及计算机可读存储介质,涉及互联网技术领域。本公开的方法包括:根据应用场景构建分词词库,分词词库中包括与应用场景对应的自定义词语;利用分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。本公开根据应用场景添加自定义词语到分词词库,并利用分词词库对训练语料进行标注,基于标注的语料对隐马尔科夫模型进行训练,隐马尔科夫模型可以学习这些自定义词语的特征,进而,训练好的隐马尔可夫模型则可以自动识别该应用场景下的词语,并且隐马尔可夫模型根据词语的前后关联性可以自动识别新词,提高了分词的准确性。 | ||
搜索关键词: | 分词 隐马尔可夫模型 词库 词语 标注 训练语料 应用场景 自定义 计算机可读存储介质 隐马尔科夫模型 自动识别 语料 互联网技术 关联性 构建 场景 学习 | ||
【主权项】:
1.一种分词方法,包括:根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;利用所述分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711363751.X/,转载请声明来源钻瓜专利网。
- 上一篇:知识库扩展装置
- 下一篇:用户意图识别方法及系统