[发明专利]上下游关系的抽取方法、装置、电子设备及存储介质在审
申请号: | 202011598720.4 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112632975A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 高剑奇;景艳山 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06F16/35;G06N7/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 下游 关系 抽取 方法 装置 电子设备 存储 介质 | ||
本申请提供一种上下游关系的抽取方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法通过获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;采用实体抽取模型抽取待分析文本语料中的多个实体;根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。
技术领域
本申请涉及数据处理技术领域,特别涉及一种上下游关系的抽取方法、装置、电子设备及存储介质。
背景技术
上游企业是相对下游企业而言的,指处于行业生产和业务的初始阶段的企业和厂家,其中,这些厂家主要生产下游企业所必需的原材料和初级产品等的厂商,下游企业主要是对原材料进行深加工和改性处理,并将原材料转化为生产和生活中的实际产品。随着各个行业的快速发展,通过分析企业之间的上下游关系可以对企业经营过程中可能存在的风险进行分析,辅助企业进行决策。
现有抽取企业之间的上下游关系时,主要通过制定严格的抽取规则,进而基于该抽取规则可以抽取企业之间的上下游关系。
但由于现有的抽取方式比较简单,因此,现有的抽取方法存在着泛化能力较差的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种上下游关系的抽取方法、装置、电子设备及存储介质,可以提高抽取方法的泛化能力。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本发明提供一种上下游关系的抽取方法,包括:
获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级。
在可选的实施方式中,所述采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,包括:
根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
在可选的实施方式中,所述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
在可选的实施方式中,所述根据多个所述实体,确定业务主体实体对,包括:
根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
在可选的实施方式中,所述方法还包括:
获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011598720.4/2.html,转载请声明来源钻瓜专利网。