[发明专利]一种基于隐马尔科夫模型的智能分词方法在审

专利信息
申请号: 201510708169.7 申请日: 2015-10-28
公开(公告)号: CN105373529A 公开(公告)日: 2016-03-02
发明(设计)人: 邓剑波;马润宇;刘毓智 申请(专利权)人: 甘肃智呈网络科技有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 兰州中科华西专利代理有限公司 62002 代理人: 李艳华
地址: 730000 甘肃省兰州*** 国省代码: 甘肃;62
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于隐马尔科夫模型的智能分词方法,该方法包括以下步骤:⑴建立隐马尔可夫模型参数;⑵确定文章中的状态集Θ;⑶在确定了NML之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的初始A矩阵和B1矩阵及B2矩阵采用BW算法进行文章训练,并按BW算法重估公式进行重估,得到新的π矩阵、A矩阵和B1B2矩阵;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。本发明可对大量中文文本进行准确而高效分词。
搜索关键词: 一种 基于 隐马尔科夫 模型 智能 分词 方法
【主权项】:
一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:⑴建立隐马尔可夫模型参数,其中N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为,且,…,);M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值,……,,记t时刻观察到的观察值,其中,……,);π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中,1 ≤ і ≤ NA表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1 ≤≤ NB1表示第j个状态中观察值k出现的概率矩阵,N×M,式中,1 ≤≤ N,1 ≤≤ MB2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵, N×L,式中,1 ≤≤ N,1 ≤≤ L;⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率,并对每个观察元素的观察值概率按BW算法重估公式进行重估,算出新的隐马尔可夫模型的参数;并使收敛到一个最大值,从而得到新的π矩阵、A矩阵和B1、B2矩阵;其中:;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甘肃智呈网络科技有限公司,未经甘肃智呈网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510708169.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top