[发明专利]一种汉语框架网标注时框架排歧方法及装置有效
申请号: | 201010264377.X | 申请日: | 2010-08-20 |
公开(公告)号: | CN102375808A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 李茹;刘海静;李双红;高俊杰 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 框架 标注 方法 装置 | ||
技术领域
本发明涉及中文信息处理技术和语义处理技术领域,特别涉及一种汉语框架网标注汉语句子时的框架排歧的方法及装置。
背景技术
随着中文信息处理技术的不断发展,越来越多的研究人员逐渐从对词法、句法方面的研究过渡到语义方面。汉语框架网(Chinese FrameNet)就是中文语义的探索性研究之一。
利用汉语框架网对一个中文句子进行标时,经常遇到一个目标词可以充当多个不同框架的词元这种问题,这是由于中文词汇的多义现象所致。上述情况导致用户在利用汉语框架网进行中文句子分析时,很难选择合适的框架。
现有技术中虽然提出了框架排歧的概念,即根据上下文语境与各个侯选框架所表示场景的一致程度,为目标词选择一个合适的框架。但是针对以上提到的汉语框架排歧问题,至今还没有一种有效的解决办法。
发明内容
本发明实施例提供一种汉语框架网标注汉语句子时的框架排歧方法及装置,用于解决现有技术中没有合适的方法实现汉语框架排歧的问题。
一种汉语框架网标注汉语句子时框架排歧的方法,当应用汉语框架网标注待识别句子的框架信息时,包括:
选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息;
对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;
选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练,得到特定参数的标注模型;
对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;
将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词的所属框架。
根据上述方法本发明还提供一种汉语框架网标注时框架排歧的装置,包括:
训练语料选择模块,用于当应用汉语框架网标注待识别句子的框架信息时,选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息;
依存句法分析模块,用于对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;
标注模型生成模块,用于选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练,得到特定参数的标注模型;
待识别框架句子处理模块,用于对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词的所属框架。
应用本发明实施例所提供的方法进行框架排歧时,首先,引入了句子的依存句法关系,由于语义上的歧义在许多情况下可以通过句法信息来区分,因此依存句法关系非常有利于框架排歧的处理。其次,运用了T-CRF模型。T-CRF模型可以与句子的依存句法关系结合,更加合理地利用句子的依存句法关系。
附图说明
图1为本发明实施例一种汉语框架网标注时框架排歧方法的流程图;
图2为现有技术中举例句子进行依存分析的结果示例图;
图3为本发明实施例中处理待识别的句子具体实现流程图;
图4为本发明实施例中得到合适标注模型的方法流程图;
图5为本发明实施例一种汉语框架网标注时框架排歧装置的结构图;
图6为本发明实施例中标注模型生成模块的结构图。
具体实施方式
本发明实施例提供一种语义消岐的方法,具体包括:选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息;对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练,得到特定参数的标注模型;对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词的所属框架。
如图1所示,本发明实施例提供一种汉语框架网标注汉语句子时框架排歧的方法,当应用汉语框架网标注待识别句子的框架信息时,具体实现方法包括步骤:
步骤101,选择训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010264377.X/2.html,转载请声明来源钻瓜专利网。