[发明专利]实体关系分类装置和实体关系分类方法有效
申请号: | 201210320607.9 | 申请日: | 2012-08-31 |
公开(公告)号: | CN103678316B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 缪庆亮;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 李春晖,李德山 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 分类 装置 方法 | ||
1.一种实体关系分类装置,包括:
特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;
分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及
实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
2.根据权利要求1所述的装置,其中,所述分类器被配置为基于所述特征进行分类,得到以下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率。
3.根据权利要求1所述的装置,其中所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
4.根据权利要求3所述的装置,其中所述词特征表示该词本身,所述词性特征表示该词的词性,所述实体类型特征表示该实体的类别,所述实体对位置特征表示该实体中的两个实体出现的先后关系,所述关键词的词典特征表示该关键词是否在训练语料词典中出现,所述关键词语义相似度特征表示该关键词不在训练语料词典中出现时与词典中的词语的语义相似度,所述否定词特征表示包含该关键词的预定大小的窗口中是否存在否定词。
5.根据权利要求1-4中任意一项所述的装置,所述分类器被配置为在所述输入样本缺失所述预定模式中的所述实体上下文之一的情况下,对与缺失的实体上下文有关的条件概率项进行平滑处理。
6.根据权利要求5所述的装置,所述平滑处理包括取所述分类器中与所述缺失的实体上下文有关的条件概率在所述分类器中的样本的总数上的平均。
7.根据权利要求1-4中的任意一项所述的装置,所述分类器被配置为在所述分类器不包括所述输入样本中的某个实体或某个实体上下文的情况下,在计算所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率时,使用所述分类器中相似的实体或实体上下文替代所述实体或所述实体上下文。
8.根据权利要求7所述的装置,其中,存在多个所述相似的实体或实体上下文,并且使用与多个所述相似的实体或实体上下文有关的概率的平均值作为所述实体或所述实体上下文的相应的概率值。
9.一种实体关系分类方法,包括:
抽取输入样本中的实体的特征和实体上下文的特征;以及
使用分类器利用所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;
基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
10.一种利用训练语料库训练实体关系分类器的方法,包括:
抽取训练语料库中的样本中的实体的特征和实体上下文的特征;以及采用最大似然估计方法计算如下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320607.9/1.html,转载请声明来源钻瓜专利网。