[发明专利]一种基于多特征语义树核的关系抽取方法和信息检索方法有效
申请号: | 201310652675.X | 申请日: | 2013-12-05 |
公开(公告)号: | CN104699695B | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 韩先培;孙乐 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容特征 特征扩展 特征语义 关系抽取 句法分析树 句法结构 自然语言处理技术 文本信息检索 句法分析 内容信息 信息检索 语义信息 综合判断 树结构 算法 融合 融入 应用 统一 | ||
本发明公开一种基于多特征语义树核的关系抽取方法,以及应用该方法进行文本信息检索的方法,属于自然语言处理技术领域。该关系抽取方法主要包含:面向句法分析树关系表述表示的特征扩展机制;基于上述特征扩展机制的句法树内容特征扩展;融合内容特征和句法分析树结构特征的多特征语义树核。面向句法分析树的特征扩展机制将特定关系表述的句法结构和内容特征置于统一的表示框架之中进行表示。句法树特征扩展将关系表述的重要语义信息和内容信息融入到句法树表示中。多特征语义树核提供了一种有效和高性能的算法,可综合关系表述的句法结构和内容特征进行综合判断。
技术领域
本发明涉及一种关系抽取方法,特别是涉及一种基于多特征语义树核的关系抽取方法,以及应用该方法对互联网网中文本信息进行检索的方法,属于自然语言处理技术领域。
背景技术
近年来,随着Web2.0的发展,互联网上涌现出越来越多的非结构化文本信息。如何挖掘这些文本中的信息并构建智能信息服务是一项有重要意义的工作。通过从非结构化的文本中抽取出用户感兴趣的知识,关系抽取是实现上述目标的关键技术之一。
另一方面,语义知识是自然语言理解的基石,是实现文本各个层面智能分析的基础,其核心是概念与概念之间的语义关系。由于人工编写方法受制于专家构建的时间,低估了语义知识的复杂性和规模,大规模语义知识的缺乏一直是高性能自然语言处理的关键瓶颈。为此如何利用自动的关系抽取技术获取海量的语义知识也是自然语言处理技术实用化的重要因素之一。
综上,构建智能信息服务的核心之一是知识获取和自然语言理解,而关系抽取是提供自然语言理解基础知识的一项关键技术。
由于自然语言表达的多样性和歧义性,关系抽取需要结合关系表述的句法结构特征和内容特征进行综合判断。现有的关系抽取方法分为两种:一种是基于浅层特征的分类方法,一种是基于树核的分类方法。然而,上述两种方法都存在一定的不足,它们都不能在一个统一的框架下表示和利用关系表述的句法结构特征和内容特征:其中基于浅层特征的分类方法只能捕捉内容特征,而基于树核的分类方法只能捕捉关系表述的句法结构。
发明内容
为克服现有关系抽取技术在统一表示和利用关系表述句法结构和内容特征方面的不足,本发明主要提供了一种基于多特征语义树核的关系抽取方法,采用统一的框架来表示关系表述的句法结构和内容特征,可结合关系表述的句法结构和内容特征进行综合判断。
本发明所采用的技术方案如下:
一种基于多特征语义树核的关系抽取方法,其步骤包括:
1)在句法分析树的每一个节点处加入用于表示内容特征的特征向量,以统一表示关系表述的句法结构特征和内容特征;
2)对句法分析树中的每一个树节点,抽取表示其内容特性的一系列特征,并将该一系列特征加入到树节点的特征向量中,从而形成多特征扩展句法分析树;
3)基于所述多特征扩展句法分析树构建多特征语义树核,通过该多特征语义树核综合利用句法结构特征和内容特征计算不同句法分析树之间的相似度,得到可靠的关系抽取结果。
进一步地,步骤1)使用通用句法分析器对关系表述文本进行句法分析得到所述句法分析树。
进一步地,步骤1)所述多特征扩展句法分析树,其中每一个节点被扩展表示为:
Rn=(Ln,Fn),
其中,Rn是多特征扩展句法分析树中的节点n的多特征表示,Ln是节点n的句法树标签;Fn是节点n的内容特征向量。该多特征扩展句法分析树表示实现了关系表述句法结构和内容特征的高效统一表示:其中树结构表示了句法结构,而节点的特征向量表示了内容特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310652675.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及其驱动方法
- 下一篇:存储器芯片扰码验证方法