[发明专利]汉语词法分析方法有效
申请号: | 201310421538.5 | 申请日: | 2013-09-16 |
公开(公告)号: | CN103473221B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 于江德;刘运通;王希杰;胡顺义;郑霞;葛彦强;王继鹏 | 申请(专利权)人: | 于江德;刘运通;王希杰 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 赵慧 |
地址: | 455000 河南省安阳市弦歌*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 词法 分析 方法 | ||
技术领域
本发明涉及一种汉语词法分析方法。
背景技术
在中文信息处理领域,汉语词法分析是其中一项重要的基础性研究课题。它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、问答系统、信息检索和信息抽取等应用的关键环节。汉语词法分析主要包括汉语分词、词性标注与命名实体识别三项子任务,在国内外一些相关的评测中,常常将它们作为三个独立的任务进行评测。在已有的研究中,大部分学者也习惯将三项子任务独立起来加以考虑,尤其习惯于将汉语分词和词性标注依次处理,分词之后再在词序列基础上考虑词性标注问题。这种将汉语词法分析的三项子任务独立处理的方法容易造成错误向上传递放大累加,并且多类信息难以整合利用的不足。
对于汉语词法分析这一问题,也有一些学者对汉语词法分析的分词、词性标注、命名实体识别三项任务的一体化进行了探索。文献[1](刘群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词法分析.计算机研究与发展,2004,41(8):1421-1429.)公开了一种基于层叠隐马模型的汉语词法分析,该方法将汉语分词、词性标注和未登录词识别集成到一个完整的理论框架中,但该方法还需要词典的支持,对词性标注也是在词序列的基础上进行。专利文献[2](中国科学院计算技术研究所于2008年6月13日提交的2008年10月29日公开的公开号为CN101295295A的中国专利申请的题为“基于线性模型的汉语词法分析方法”,)公开了一种基于线性模型的汉语词法分析方法,该方法采用感知机模型对语句进行逐字分析,得出当前字的分词标注和词性标注,用于汉语语句的词法分析。该方法存在计算复杂、运算量大的不足,且没有将命名实体的识别纳入其中。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种将汉语词法分析的三项任务统一到字序列框架中、完全脱离字典并包含了命名实体识别的汉语词法分析方法。
为解决上述技术问题,本发明采用技术方案的基本构思是:
一种汉语词法分析方法,包括以下步骤:
1)从一给定的训练语料中获得特征函数和权重:
设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照所述设定的样本窗口大小通过所述特征模板集扩展出上下文特征,每个特征对应一组特征函数,多组所述的上下文特征对应多组特征函数,并求取所述多组特征函数的的权重,多个权重组成权重向量;
2)切分输入的汉语文本:将输入的汉语文本切分为多个语句,一个语句为一个字序列;
3)计算输入的汉语文本对应的字序列的所有可能的词法信息标记序列的条件概率:
获得所述输入的汉语文本对应的每个字序列的所有可能的词法信息标记序列,计算每种所述词法信息标记序列的条件概率;其中,所述词法信息标记序列为由一个字序列中所有字的词法信息标记组成的序列,所述词法信息标记包括词位信息、词性信息和命名实体信息三类;
4)确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列:
将具有最高条件概率值的词法信息标记序列确定为所述输入的汉语文本对应的字序列的最终的词法信息标记序列;
5)进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果:
根据最终的词法信息标记序列中的“词位信息”进行汉语分词,得到分词结果;
根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注,得到词性标注结果;或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别,得到命名实体识别结果;
对于多字词的情况,选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。
进一步地,步骤3)中计算每种所述词法信息标记序列的条件概率的步骤具体为:
设输入的汉语文本对应的字序列为O={o1,o2,......,oT},所述字序列的词法信息标记序列为S={s1,s2,......,sT},其中s1,s2,......,sT与所述字序列的o1,o2,......,oT一一对应,权重向量为Λ={λ1,λ2,...,λK},则所述词法信息标记序列的条件概率为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于于江德;刘运通;王希杰,未经于江德;刘运通;王希杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310421538.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据聚类方法、系统及数据处理设备
- 下一篇:专捕泥鳅笼具