[发明专利]实体分类方法以及相关装置在审
申请号: | 202010246849.2 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111460826A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 李直旭;陈志刚;何莹;牛雷 | 申请(专利权)人: | 科大讯飞(苏州)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 黎坚怡 |
地址: | 215000 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 分类 方法 以及 相关 装置 | ||
1.一种实体分类方法,其特征在于,包括:
获取待识别实体的至少一组待处理三元组;
基于对样本实体的样本三元组进行训练得到的表达信息,获取所述待处理三元组的谓词表达和客体表达,以及预先设置的至少一个目标实体类别的类别表达,其中,所述待处理三元组和样本三元组均包含实体、谓词和客体;
利用所述待处理三元组的谓词表达和客体表达,确定所述待识别实体的实体表达;
基于所述待识别实体的实体表达分别与各个所述目标实体类别的类别表达之间的差异,确定所述待识别实体所属的实体类别。
2.根据权利要求1所述的实体分类方法,其特征在于,所述至少一个目标实体类别构成实体类别树;所述方法还包括:
重复执行所述基于对样本实体的样本三元组进行训练得到的表达信息,获取所述待处理三元组的谓词表达和客体表达,以及至少一个目标实体类别的类别表达及其后续步骤,来逐层确定所述待识别实体在所述实体类别树中所属的实体类别,直至所确定出的实体类别为所述实体类别树的叶节点。
3.根据权利要求2所述的实体分类方法,其特征在于,在逐层确定所述待识别实体在所述实体类别树中所属的实体类别的过程中:
以所述待识别实体确定所属的实体类别在所述实体类别树中的子节点作为目标实体类别;所述表达信息包括对属于所述目标实体类别的样本实体的样本三元组进行训练得到的谓词表达、客体表达以及所述目标实体类别的类别表达;
所述基于对样本实体的样本三元组进行训练得到的表达信息,获取所述待处理三元组的谓词表达和客体表达,以及至少一个目标实体类别的类别表达,包括:
从所述表达信息中,查找出与所述待处理三元组中的谓词、客体分别对应谓词表达、客体表达,以及所述目标实体类别的类别表达。
4.根据权利要求2所述的实体分类方法,其特征在于,所述方法还包括:
按照若干样本实体所属的实体类别,将所述若干样本实体划分为多个实体集合;
将满足预设上下位关系条件一对实体集合所对应的一对实体类别,作为一候选类别关系;
利用所述候选类别关系,构建所述实体类别树。
5.根据权利要求4所述的实体分类方法,其特征在于,所述利用所述候选类别关系,构建所述实体类别树之前,所述方法还包括:剔除不满足预设构建条件的候选类别关系;
和/或,所述预设上下位关系条件包括:所述实体集合之间的上下位关系置信度大于预设置信度阈值;所述方法还包括:
获取任意两个所述实体集合各自的第一样本实体数量,及所述任意两个实体集合之间重合的第二样本实体数量;
利用所述第一样本实体数量和所述第二样本实体数量,获取所述任意两个实体集合之间的上下位关系置信度。
6.根据权利要求1所述的实体分类方法,其特征在于,所述表达信息包括所述样本三元组的样本客体训练得到的客体表达;所述基于对样本实体的样本三元组和所属实体类别进行训练得到的表达信息,获取所述待处理三元组的客体表达,包括:
若所述待处理三元组的待处理客体属于所述样本客体,则从所述表达信息中查找出与所述待处理客体对应的客体表达,作为所述待处理三元组的客体表达;
若所述待处理三元组的待处理客体不属于所述样本客体,则选择与所述待处理客体满足预设相似度条件的所述样本客体,并从所述表达信息中查找出所述选择的样本客体对应的客体表达,作为所述待处理三元组的客体表达。
7.根据权利要求1所述的实体分类方法,其特征在于,所述方法还至少包括以下步骤,以训练得到所述表达信息:
从所述样本实体对应的样本三元组中,获取属于所述目标实体类别的目标样本实体的目标样本三元组;
对于每个所述目标样本实体:利用所述目标样本三元组的谓词表达和客体表达,确定所述目标样本实体的实体表达;并基于所述目标样本实体的实体表达与其所属的目标实体类别的类别表达之间的差异,调整所述目标样本三元组的谓词表达和客体表达以及所属的目标实体类别的类别表达;
将调整之后的所述谓词表达、所述客体表达、所述类别表达作为所述表达信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞(苏州)科技有限公司,未经科大讯飞(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010246849.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车牌的识别方法及装置
- 下一篇:用于更新事件集合的方法和装置