[发明专利]一种基于隐马尔科夫模型的智能分词方法在审
申请号: | 201510708169.7 | 申请日: | 2015-10-28 |
公开(公告)号: | CN105373529A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 邓剑波;马润宇;刘毓智 | 申请(专利权)人: | 甘肃智呈网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 兰州中科华西专利代理有限公司 62002 | 代理人: | 李艳华 |
地址: | 730000 甘肃省兰州*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于隐马尔科夫模型的智能分词方法,该方法包括以下步骤:⑴建立隐马尔可夫模型参数;⑵确定文章中的状态集Θ;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的初始A矩阵和B1矩阵及B2矩阵采用BW算法进行文章训练,并按BW算法重估公式进行重估,得到新的π矩阵、A矩阵和B1、B2矩阵;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。本发明可对大量中文文本进行准确而高效分词。 | ||
搜索关键词: | 一种 基于 隐马尔科夫 模型 智能 分词 方法 | ||
【主权项】:
一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:⑴建立隐马尔可夫模型参数,其中N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为,且(,…,);M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值,……,,记t时刻观察到的观察值,其中(,……,);π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中,1 ≤ і ≤ N;A表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1 ≤≤ N;B1表示第j个状态中观察值k出现的概率矩阵,N×M,式中,1 ≤≤ N,1 ≤≤ M;B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵, N×L,式中,1 ≤≤ N,1 ≤≤ L;⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率,并对每个观察元素的观察值概率按BW算法重估公式进行重估,算出新的隐马尔可夫模型的参数及;并使收敛到一个最大值,从而得到新的π矩阵、A矩阵和B1、B2矩阵;其中:;;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甘肃智呈网络科技有限公司,未经甘肃智呈网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510708169.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种确定敏感资源处理策略的方法及服务器
- 下一篇:微型计算机