[发明专利]汉语词法分析方法有效
申请号: | 201310421538.5 | 申请日: | 2013-09-16 |
公开(公告)号: | CN103473221B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 于江德;刘运通;王希杰;胡顺义;郑霞;葛彦强;王继鹏 | 申请(专利权)人: | 于江德;刘运通;王希杰 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 赵慧 |
地址: | 455000 河南省安阳市弦歌*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种汉语词法分析方法,包括以下步骤:1)从一给定的训练语料中获得特征函数和权重;2)切分输入的汉语文本:将输入的汉语文本切分为多个语句,一个语句为一个字序列;3)计算输入的汉语文本对应的字序列的所有可能的词法信息标记序列的条件概率;4)确定输入的汉语文本对应的字序列的最终的词法信息标记序列;5)进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果。本发明将汉语词法分析的三项子任务统一到字序列标注框架中实现,克服了错误向上传递放大累加,多类信息难以整合利用的不足,计算简单、运算量小;完全脱离词典,对未登录词语也能较好的切分和标注。 | ||
搜索关键词: | 汉语 词法 分析 方法 | ||
【主权项】:
一种汉语词法分析方法,其特征在于,包括以下步骤:1)从一给定的训练语料中获得特征函数和权重:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照所述设定的样本窗口大小通过所述特征模板集扩展出上下文特征,每个特征对应一组特征函数,多组所述的上下文特征对应多组特征函数,并求取所述多组特征函数的权重,多个权重组成权重向量;2)切分输入的汉语文本:将输入的汉语文本切分为多个语句,一个语句为一个字序列;3)计算输入的汉语文本对应的字序列的所有可能的词法信息标记序列的条件概率:获得所述输入的汉语文本对应的每个字序列的所有可能的词法信息标记序列,计算每种所述词法信息标记序列的条件概率;其中,所述词法信息标记序列为由一个字序列中所有字的词法信息标记组成的序列,所述词法信息标记包括词位信息、词性信息和命名实体信息三类;即将汉语分词、词性标注、命名实体识别统一到字序列标注框架中;4)确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列:将具有最高条件概率值的词法信息标记序列确定为所述输入的汉语文本对应的字序列的最终的词法信息标记序列;5)进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果:根据最终的词法信息标记序列中的“词位信息”进行汉语分词,得到分词结果;根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注,得到词性标注结果;或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别,得到命名实体识别结果;对于多字词的情况,选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于于江德;刘运通;王希杰,未经于江德;刘运通;王希杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310421538.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据聚类方法、系统及数据处理设备
- 下一篇:专捕泥鳅笼具