[发明专利]一种新的中文自动分词算法在审
申请号: | 201610835327.X | 申请日: | 2016-09-20 |
公开(公告)号: | CN106610947A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 自动 分词 算法 | ||
技术领域
本发明涉及中文语义网络技术领域,具体涉及一种新的中文自动分词算法。
背景技术
自上世纪八十年代初,中文信息处理领域提出中文自动分词这一课题以来,就一直吸引着来自计算机界、数学界、信息检索界、语言界无数的专家和学者。他们经过几十年的不懈努力和艰苦探索,已取得了一些重要的进展和实用性的成果。可以把这些方法概括的分为三大类。第一,基于词典的中文分词方法,其过程简单、易于理解,但也存在一个明显的不足,就是对多义词、歧义词和嵌套词的切分效果不太理想。第二,基于统计的中文分词方法,该类方法,通过选取合适的数学统计模型,依靠大量的语料来对其进行训练,待模型稳定以后,再利用训练好的模型实现汉字串的自动分词。最后,基于理解的中文分词方法,基于理解的分词方法就是借助于人工智能中的相关技术,将事先已经提取好的关于汉语构词的一些规则和知识加入到推理过程中,利用这些规则和知识结合不同的推理机制,实现最终的中文分词,目前为止基于理解的分词系统还处在试验阶段。
为提高中文自动分词的准确性,本发明提供了一种新的中文自动分词算法。
发明内容
为了提高中文自动分词的准确性,本发明提供了一种新的中文自动分词算法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词。
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E。
步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值。
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果。
本发明有益效果是:
1、中文预处理的速度较基于分词词典的方法快。
2、此方法较基于分词词典的方法有更好的精度。
3、此方法较基于统计学方法有更好的准确度。
4、此方法为后续自然语言处理技术提供了极大地应用价值。
附图说明
图1为一种新的中文自动分词算法的结构流程图。
图2为n元语法分词算法图解。
具体实施方式
为了提高中文自动分词的准确性,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:
把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图2所示。
步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
步骤4.1)计算相邻两个词(C1,C2)相关度RE(C1,C2)
将两个词(C1,C2)映射到概念模型中,得到相应的概念(g1,g2),即概念(g1,g2)的相关度RE(g1,g2)即为相邻两个词(C1,C2)相关度。
RE(C1,C2)=RE(g1,g2)
这里考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念(g1,g2)间的相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610835327.X/2.html,转载请声明来源钻瓜专利网。