[发明专利]分词的方法及装置有效
申请号: | 201610051438.1 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105718586B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 黄金才;陈发君;刘忠;程光权;朱承;修保新;陈超;冯旸赫;孟果;易作天 | 申请(专利权)人: | 中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 胡伟华 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 方法 装置 | ||
本发明公开了一种分词方法和装置,装置包括包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N‑最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N‑最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。
技术领域
本发明涉及互联网技术领域,尤其涉及一种分词的方法及装置。
背景技术
随着互联网的快速发展,信息服务变得越来越普遍。信息服务提供商提供信息服务时,通常会挖掘实体(现实世界中的客观事物称为实体,例如概念、事物或事件等)之间的关联关系,并根据实体之间的关联关系提供信息服务。例如,“南方航空”是“航空板块”的概念股票,二者是实体的实例并且之间存在联系,基于这种关联关系通过检索“航空板块”可以获取与其相关的概念股票。实体之间的关联关系通常是在文本分词基础之上通过计算共现等测度获得,因此分词性能的好坏直接影响后续处理及最终的关联结果。
在现有技术中通常有基于词典的分词和基于统计模型的分词,如公开号为102982099A的专利文献,提供了一种个性化并行分词处理系统及其处理方法。基于词典的分词方法分词效率较高但准确性较差,而基于统计模型的分词方法可以自动学习词语切分的规则,在歧义切分效果上较好,但受限于训练语料分词结果在粒度和一致性上不够稳定,性能较差。基于N-最短路径的分词方法结合词典与统计模型在分词速度和准确度两方面都取得了较好效果,但受限词典与统计模型,对于词的切分常常过于细,例如“可穿戴设备”被切分为“可”、“穿戴”和“设备”,但在特定领域内常常需要将“可穿戴设备”作为一个整词来与其他实体建立关联。通常可采用领域词典的方式对初始分词结果中的词进行机械合并,但这种方法只能合并领域词典中包含的词,例如词典中只包含“广东旅游”、“北京旅游”则只能合并这两个词而不能合并“西藏旅游”,并且常由于不考虑上下文信息而导致错误的合并。
N-最短路径以及其他基于词典和统计模型的分词方法对特定领域的词常常切分过细导致部分实体之间的关联无法建立,例如在金融领域,一些概念与股票的名词通常是由几个较短的单词组合而成,在切分过程中很容易被切分成多个较短的单词,这对这些特定领域内实体关联的建立非常不利。而采用领域词典的方式虽然能合并词典中包含的词,但常常导致错误的合且不具有泛化能力。
发明内容
针对现有技术存在的缺陷,本发明提出一种分词的方法和装置,在原始分词的基础上考虑上下文信息从而可使特定领域内的实体在分词结果中正确切分,并通过对领域词典中的词模式进行自动学习可识别出具有相同模式的词从而进行正确切分,例如词典中只包含“广东旅游”、“北京旅游”,对于“西藏旅游”也能正确切出来,从而提升实体之间的关联效果。
本发明的技术方案是:首先使用条件随机场(简称CRF)训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N-最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N-最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。关于领域词典,就是特定领域的定制词典,就是具体应用领域中,需要在分词中完整切分的词,例如金融领域中的相关概念词、股票全称以及简称等。
具体地,一种分词方法,包括词标注模型训练和分词应用两个阶段,首先使用条件随机场(简称CRF)训练词标注模型,得到词标注模型后即可进入分词应用。
所述词标注模型训练包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司,未经中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610051438.1/2.html,转载请声明来源钻瓜专利网。