[发明专利]一种基于短语结构句法树的英文词义消歧方法在审

专利信息
申请号: 201610011045.8 申请日: 2016-01-10
公开(公告)号: CN105677639A 公开(公告)日: 2016-06-15
发明(设计)人: 鹿文鹏;成金勇;张维玉 申请(专利权)人: 齐鲁工业大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 250353 山东省济南*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及到一种基于短语结构句法树的英文词义消歧方法,属于自然语言处理领域。其步骤为:1.通过对句子进行短语结构句法分析,生成其短语结构句法树;2.以短语结构句法树为依据,筛选词义相关词;3.构建词义消歧模型,通过评估歧义词的词义与词义相关词的密切程度而判定正确词义;4.由词义标注语料库,利用遗传算法,对步骤3中的词义消歧模型的参数进行优化;5.对于待消歧词,重复步骤1和2,利用步骤4所获得的优化词义消歧模型,判定歧义词的正确词义。本发明提出的基于短语结构句法树的英文词义消歧方法,利用短语结构句法树筛选词义相关词并为其赋予消歧权重,能够减少噪声词的干扰,改善词义相关度的计算精度,提高英文词义消歧的正确率。
搜索关键词: 一种 基于 短语 结构 句法 英文 词义 方法
【主权项】:
一种基于短语结构句法树的英文词义消歧方法,其特征在于:其具体操作步骤为:步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体为:步骤1.1:用符号S表示待处理的句子;步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号、英文断词(Tokenization)等,获得预处理后的句子S’;步骤1.3:使用短语结构句法分析器,对句子S’进行短语结构句法分析,生成短语结构句法树T;步骤1.4:对短语结构句法树T中的词语进行词形还原;步骤二、以短语结构句法树为依据,计算歧义词与句子中其它词语的层次距离和路径距离,筛选出词义相关词;具体为:步骤2.1:用符号wt表示待消歧的歧义词,用符号w表示句子中的其它词语,用符号W表示句子中除歧义词wt之外的全部实词的集合;步骤2.2:由短语结构句法树T,统计歧义词wt与其它词语w的层次距离dl,将dl记入w,并保存到W中;步骤2.3:由短语结构句法树T,统计歧义词wt与其它词语w的路径距离dp,将dp记入w,并保存到W中;步骤2.4:指定层次距离参数d_layer和路径距离参数d_path,从W中筛选dl不大于d_layer并且dp不大于d_path的词语,构建歧义词的词义相关词集合R;步骤三、构建词义消歧模型,通过评估歧义词的各个词义与词义相关词的密切程度而判定正确词义;具体为:步骤3.1:对于词义相关词集合R中的每个词语w,根据其层次距离dl和路径距离dp,由公式(1)计算其消歧权重;(1)其中,α和β为层次距离dl和路径距离dp的调节参数;步骤3.2:对于歧义词wt的每个词义si,由公式(2)计算其与词义相关词集R的密切程度;(2)其中,si表示歧义词wt的第i个词义,sense(wt)表示歧义词wt的全部词义的集合,si∈sense(wt),wj表示第j个词义相关词,R表示歧义词wt的全部词义相关词的集合,wj∈R,weight(wj)表示由公式(1)计算而得的wj的消歧权重,wnss(si,wj)表示词义si与词义相关词wj的词义相关度;步骤3.3:根据由步骤3.2所得的各个词义si与词义相关词集R的密切程度,选择密切程度最高的词义作为歧义词的正确词义;步骤四、由词义标注语料库,利用遗传算法,对步骤三中的词义消歧模型的参数进行优化,获得优化的词义消歧模型;具体为:步骤4.1:选择适当的词义标注语料库Corpus;步骤4.2:收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注,构建词义消歧模型训练数据集Ctrain;步骤4.3:将步骤2.4和3.1中的层次距离参数d_layer、路径距离参数d_path及其调节参数α、β作为遗传算法的输入向量,将公式(3)作为遗传算法的目标函数,在Ctrain上进行优化训练,获得最优的d_layer、d_path、α、β参数;(3)其中,precision为消歧正确率,其值为正确消歧的歧义词的数量与歧义词总数的比值;步骤4.4:将步骤4.3所获得的d_layer、d_path代入步骤2.4,将α、β代入公式(1),完成词义消歧模型的参数优化;步骤五、对于待消歧词,重复步骤一和二,利用步骤四所获得的优化的词义消歧模型,判定歧义词的正确词义;具体为:步骤5.1:根据步骤一,生成待消歧词wt所在句子的短语结构句法树T;步骤5.2:根据步骤二,获得待消歧词wt与句子中其它词语的层次距离和路径距离,根据步骤四所获得的d_layer、d_path参数,筛选词义相关词,构建词义相关词集合R;步骤5.3:根据步骤四所获得的α、β参数,由步骤3.1,计算词义相关词集合R中的每个词义相关词的消歧权重;步骤5.4:由步骤3.2,确定歧义词wt的每个词义si与词义相关词集R的密切程度;步骤5.5:由步骤3.3,确定歧义词wt的正确词义;经过以上步骤的操作,即可判定英文歧义语的词义,完成词义消歧任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610011045.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top