[发明专利]实体分类方法和装置有效
申请号: | 202010728250.2 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111813942B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 缪庆亮;施淼元;钟丽娟 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 分类 方法 装置 | ||
本发明公开一种实体分类方法和装置,其中,实体分类方法,包括:训练第一类别分类模型;收集与第一实体的对应的第二实体,确定第一实体与第二实体的第一对应关系;基于第一对应关系将第二实体与知识库做映射;将第一实体已分类的类别赋予第二实体以获得与第二实体对应的标记好类别的第一样本集合;利用机器翻译技术,将第一实体的名称翻译到目标语言中形成第三实体,确定第一实体和第三实体的第二对应关系,基于第二对应关系将第三实体与知识库做映射以获得与第三实体对应的标记好类别的第二样本集合;将第一样本集合作为训练集,训练目标语言中的第二类别分类模型,并利用第二样本集合对第二类别分类模型进行迭代训练。
技术领域
本发明属于实体分类技术领域,尤其涉及实体分类方法和装置。
背景技术
目前已有的识别知识图谱中实体类别的方法主要根据分类模型,将实体分为预定义好的类别,如人物,机构,地点,植物,动物等等。如果换一种语言需要重新标注训练数据,重新训练分类模型。
发明内容
本发明实施例提供一种实体分类方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种实体分类方法,包括:在源语言S中训练第一类别分类模型;收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
第二方面,本发明实施例提供一种实体分类装置,包括:训练模块,配置为在源语言S中训练第一类别分类模型;收集确定模块,配置为收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;映射模块。配置为基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;赋予模块,配置为将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;翻译模块,配置为利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;训练迭代模块,配置为将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的实体分类方法的步骤。
第四方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
本申请实施例提供的方法通过在一种语言上收集训练数据,训练分类模型,然后识别其他语言的实体类别,不需要重新在新语言上标注数据训练模型,从而可以实现跨语言实体分类的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010728250.2/2.html,转载请声明来源钻瓜专利网。