[发明专利]一种基于信息论的中文自动分词算法在审

申请号：	201610831711.2	申请日：	2016-09-19
公开（公告）号：	CN106610937A	公开（公告）日：	2017-05-03
发明（设计）人：	金平艳;胡成华	申请（专利权）人：	四川用联信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于信息论中文自动分词算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及中文语义网络技术领域，具体涉及一种基于信息论的中文自动分词算法。

背景技术

现阶段基于理解的中文分词算法目前还处于试验阶段，基于分词词典和基于概率统计的方法成为当前中文自动分词技术的主流。基于分词词典的方法移植简单、无需考虑不同领域间移植的自适应性问题；但是这类方法对自动分词过程中所产生的歧义分析以及命名实体识别等问题的处理还相对欠缺。基于统计的方法依托于强大的数学统计模型，在分词性能方面有了很大的提高，但是在跨领域方面效果不好，对训练语料的依赖性比较大，需要针对不同的领域，准备不同的训练语料来训练不同的领域统计分词模型。这样导致在领域变换后，必须为它们提供相应领域的分词训练语料。然而，进行分词训练所需要的标注语料的建立和维护需要大量的人力和物力，相比之下，基于分词词典的方法在领域自适应方面存在着一定优势。当目标分词领域改变时，基于词典的方法只需要加入相应领域的词典即可，领域词典的获取相比训练语料而言也要容易很多，因此将分词词典和概率统计的方法结合使用成为当前分词的主流。为了实现中文自动分词功能以及提高分词结果的准确度，本发明提出了一种基于信息论的中文自动分词算法。

发明内容

为实现中文自动分词功能以及针对分词结果的准确性不高问题，本发明提供了一种基于信息论的中文自动分词算法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型。

步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词。

步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E。

步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值。

步骤5：找到权值最大的一条路径，即为待分词句子的分词结果。

步骤6：验证此分词结果的准确率和召回率。

本发明有益效果是：

1、中文预处理的速度较基于分词词典的方法快。

2、此方法较基于分词词典的方法有更好的精度。