[发明专利]一种基于短语结构句法树的英文词义消歧方法在审
申请号: | 201610011045.8 | 申请日: | 2016-01-10 |
公开(公告)号: | CN105677639A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 鹿文鹏;成金勇;张维玉 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 短语 结构 句法 英文 词义 方法 | ||
技术领域
本发明涉及到一种英文词义消歧方法,特别涉及一种基于短语结构句法树的英文 词义消歧方法,属于自然语言处理技术领域。
背景技术
词义消歧是指根据歧义词所处的上下文环境判断其正确的词义。词义是构成一个 句子含义的基本单位,是理解一个句子的前提。词义消歧属于自然语言处理领域的基础性 任务,在机器翻译、信息检索、文本分类、问答系统等领域具有广泛的应用需求。
歧义词的词义由其所处的上下文环境而确定。能否准确地选择上下文词义相关 词,将直接影响词义消歧系统的性能。现有的词义消歧方法通常利用上下文滑动窗口来选 择上下文相关词,即以歧义词为中心选择左右一定距离以内的词语。这种方法只考虑了词 语在句子中的直接距离,而未考虑词语的语法、语义关系。这种方法无法滤除近距离的噪声 词,也容易遗漏远距离的相关词。
歧义词的词义通常通过比较各词义与上下文词义相关词的密切程度而确定。能否 准确地计算密切程度,对词义消歧系统的性能具有决定性影响。不同距离的相关词对歧义 词词义的影响程度并不相同,需要赋予适当的消歧权重。现有的词义消歧方法通常将上下 文词义相关词的权重视为同等的,这无法体现不同距离词语的权重差异,难以准确评估词 义与上下文词义相关词的密切程度。
鉴于上述问题,本申请提出一种基于短语结构句法树的英文词义消歧方法,该方 法可以充分利用短语结构句法树来进行词义相关词的筛选并为其赋予消歧权重,根据词义 与上下文词义相关词的密切程度而判断正确词义。
发明内容
本发明的目的是为了克服现有词义消歧技术的不足,主要解决上下文词义相关词 的筛选及赋权和词义相关度的计算问题,提出了一种新的基于短语结构句法树的英文词义 消歧方法。
本发明的目的是通过如下技术方案实现的。
一种基于短语结构句法树的英文词义消歧方法,其具体操作步骤如下。
步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体如下。
步骤1.1:用符号S表示待处理的句子。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号、英文断词 (Tokenization)等,获得预处理后的句子S’。
步骤1.3:使用短语结构句法分析器,对句子S’进行短语结构句法分析,生成短语 结构句法树T。
步骤1.4:对短语结构句法树T中的词语进行词形还原。
步骤二、以短语结构句法树为依据,计算歧义词与句子中其它词语的层次距离和 路径距离,筛选出词义相关词;具体如下。
步骤2.1:用符号wt表示待消歧的歧义词,用符号w表示句子中的其它词语,用符号 W表示句子中除歧义词wt之外的全部实词的集合。
步骤2.2:由短语结构句法树T,统计歧义词wt与其它词语w的层次距离dl,将dl记入 w,并保存到W中。
步骤2.3:由短语结构句法树T,统计歧义词wt与其它词语w的路径距离dp,将dp记入 w,并保存到W中。
步骤2.4:指定层次距离参数d_layer和路径距离参数d_path,从W中筛选dl不大于 d_layer并且dp不大于d_path的词语,构建歧义词的词义相关词集合R。
步骤三、构建词义消歧模型,通过评估歧义词的各个词义与词义相关词的密切程 度而判定正确词义;具体如下。
步骤3.1:对于词义相关词集合R中的每个词语w,根据其层次距离dl和路径距离dp, 由公式(1)计算其消歧权重。
(1)
其中,α和β为层次距离dl和路径距离dp的调节参数。
步骤3.2:对于歧义词wt的每个词义si,由公式(2)计算其与词义相关词集R的密切 程度。
(2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610011045.8/2.html,转载请声明来源钻瓜专利网。