[发明专利]实体分类方法和装置有效
申请号: | 202010728250.2 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111813942B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 缪庆亮;施淼元;钟丽娟 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 分类 方法 装置 | ||
1.一种实体分类方法,包括:
在源语言中训练第一类别分类模型;
收集与所述源语言中的第一实体的对应的目标语言中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;
基于所述第一对应关系将所述第二实体与所述目标语言的知识库做映射;
将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;
利用机器翻译技术,将所述源语言中的第一实体的名称翻译到所述目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;
将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
2.根据权利要求1所述的方法,其中,所述将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练包括:
将第一样本集合作为训练集,训练所述目标语言中的第二实体类别分类模型;
用所述第二实体类别分类模型对所述第二样本集合进行分类;
若对于所述第二样本集合的某个实体的分类结果与所述第二样本集合通过映射得到的类别一致,将所述某个实体加入所述第一样本集合形成新的第一样本集合;
利用所述新的第一样本集合重新训练第二类别分类模型并利用所述第二样本集合再次进行迭代直至所述第一样本集合中的实体不再增加为止。
3.根据权利要求1所述的方法,其中,所述收集与所述源语言中的第一实体的对应的目标语言中的第二实体包括:
利用所述源语言的知识库中所述第一实体的关联关系收集所述第二实体,所述关联关系包括:等价关系、重定向关系、别称关系;和/或
利用所述源语言中所述第一实体的文本中含有特定模式的指定关系收集所述第二实体;和/或
利用所述源语言中所述第一实体的实体分类信息平台中的跨语言信息收集所述第二实体;和/或
利用Web页面中的锚文本与所述第一实体的链接关系收集所述第二实体。
4.根据权利要求1所述的方法,其中,所述基于所述第一对应关系将所述第二实体与所述目标语言的知识库做映射包括:
为各实体中每一种实体类型选择最具区分力的属性集合P;
比较所述第一实体和所述第二实体在所述最具区分力的属性集合P中的属性值相似度;
若所述属性值相似度达到设定阈值,则确定所述第一实体和所述第二实体具有第一对应关系;
基于所述第一对应关系将所述第二实体与所述目标语言的知识库做映射;
所述基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射包括:
为各实体中每一种实体类型选择最具区分力的属性集合P;
比较所述第一实体和所述第三实体在所述最具区分力的属性集合P中的属性值相似度;
若所述属性值相似度达到设定阈值,则确定所述第一实体和所述第三实体具有第二对应关系;
基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射。
5.根据权利要求4所述的方法,其中,所述为各实体中每一种实体类型选择最具区分力的属性集合P包括:
对某一类候选实体集合,对于所述候选实体集合中的每个候选实体ei具有m(ei)个属性,m(ei)个属性值;
统计所述候选实体集合中每个属性p的频率f(p),f(p)为属性在所述候选实体集合所有属性中出现的频率,设定阈值δ,大于δ的属性保留在所述属性集合P中。
6.根据权利要求1-5中任一项所述的方法,其中,所述在源语言中训练第一类别分类模型包括:
通过对源语言进行实体类型定义,为每一个类型收集训练数据,在所述源语言中训练实体类型模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010728250.2/1.html,转载请声明来源钻瓜专利网。