[发明专利]实体关系分类装置和实体关系分类方法有效
申请号: | 201210320607.9 | 申请日: | 2012-08-31 |
公开(公告)号: | CN103678316B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 缪庆亮;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 李春晖,李德山 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 分类 装置 方法 | ||
技术领域
本发明涉及人工智能领域,具体地,涉及自然语言处理领域,更具体地,本发明涉及一种对实体关系进行分类的装置和方法。
背景技术
随着互联网的发展,网络信息飞速增长,如何从海量、非结构化的网络信息中抽取实体之间的关系,并识别实体之间的关系的类别,从而更有效地进行知识挖掘、本体构建与扩展、科学假设产生,已经成为本领域中亟待解决的问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于背景技术部分所述的需求,本发明关注于对未知关系类别样本进行分类。具体地,本发明提出了一种基于训练语料库构建基于预定模式的关系分类模型,并利用该模型对未知关系类别样本进行分类的装置和方法。
根据本发明的一个方面,提供了一种实体关系分类装置,包括:特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
根据本发明的另一个方面,提供了一种实体关系分类方法,包括:抽取输入样本中的实体的特征和实体上下文的特征;以及使用分类器利用所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
根据本发明的又一个方面,提供了一种利用训练语料库训练实体关系分类器的方法,包括:抽取训练语料库中的样本中的实体的特征和实体上下文的特征;以及采用最大似然估计方法计算如下概率中的至少一个:各个实体关系的概率;以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本发明的以上和其它优点和特征,下面结合附图对本发明的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本发明的典型示例,而不应看作是对本发明的范围的限定。在附图中:
图1示出了根据本发明的一个实施例的实体关系分类装置的结构;
图2示出了根据本发明的一个实施例的分类器的模型的示例;
图3示出了根据本发明的一个实施例的自动构建训练语料库的方法的流程图;
图4示出了根据本发明的一个实施例的利用训练语料库训练实体关系分类器的方法的流程图;
图5示出了根据本发明的一个实施例的实体关系分类方法的流程图;以及
图6是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320607.9/2.html,转载请声明来源钻瓜专利网。