[发明专利]一种基于隐马尔科夫模型的智能分词方法在审
申请号: | 201510708169.7 | 申请日: | 2015-10-28 |
公开(公告)号: | CN105373529A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 邓剑波;马润宇;刘毓智 | 申请(专利权)人: | 甘肃智呈网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 兰州中科华西专利代理有限公司 62002 | 代理人: | 李艳华 |
地址: | 730000 甘肃省兰州*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐马尔科夫 模型 智能 分词 方法 | ||
技术领域
本发明涉及一种中文分词方法,尤其涉及一种基于隐马尔科夫模型的智能分词方法。
背景技术
随着互联网技术的发展,人们对计算机处理文本的要求越来越高。其中,软件需要具有对文章的输入、显示、编辑、输出等功能,而实现这些功能的基础则是对文本中词语的辨识;但是与英语不同,中文的词语没有天然的分界,所以要想提高中文软件对文本的处理能力,就必须做好中文分词。
目前,用来进行中文分词的主要方法有机械分词法、理解法和统计法。机械分词法是根据词典中已有的字符串进行分词,但是其分词需要大量的数据,而且对于新出现的词语无能为力;理解法是通过计算机对文章句意、语法的分析来进行分词,缺点在于由于汉语的复杂性,其算法的实现上有极大的困难;统计法,是通过大量的训练对字与字之间概率进行统计,从而实现中文分词。
隐马尔可夫模型(HiddenMarkovModel,HMM)作为一种统计分析模型,已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。《基于隐马尔科夫模型的中文分词研究》(魏晓宁,电脑知识与技术(学术交流),2007年21期)采用一种基于隐马尔科夫模型(HMM)的算法,通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的准确性,又保证了分词的效率。但隐马尔可夫模型缺乏对于语言环境的分析,对于频率较低但不常用或较多出现但不成词的情况处理也容易不准确。
AsaharaM,GohCL,WangX,etal.CombiningsegmenterandchunkerforChinesewordsegmentation[C]//ProceedingsofthesecondSIGHANworkshoponChineselanguageprocessing-Volume17.AssociationforComputationalLinguistics,2003:144-147.
XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-48.
这两篇文献介绍了一种基于字标注的隐马尔科夫中文分词模型,该模型继承了字标注模型的优点它能够平衡地看待词表词和未登录词的识别问题,但是缺乏对语言环境的分析。
发明内容
本发明所要解决的技术问题是提供一种对大量中文文本进行准确而高效分词的基于隐马尔科夫模型的智能分词方法。
为解决上述问题,本发明所述的一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:
⑴建立隐马尔可夫模型参数,
其中
N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为,且(,…,);
M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);
L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值,……,,记t时刻观察到的观察值,其中(,……,);
π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中,1≤?≤N;
A表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1≤≤N;
B1表示第j个状态中观察值k出现的概率矩阵,N×M,式中,1≤≤N,1≤≤M;
B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵,N×L,式中,1≤≤N,1≤≤L;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甘肃智呈网络科技有限公司,未经甘肃智呈网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510708169.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种确定敏感资源处理策略的方法及服务器
- 下一篇:微型计算机