[发明专利]一种企业关联关系识别方法、装置及存储介质在审
申请号: | 202011331510.9 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112418320A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 陈家银;陈曦;麻志毅 | 申请(专利权)人: | 杭州未名信科科技有限公司;浙江省北大信息技术高等研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 311200 浙江省杭州市萧*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 关联 关系 识别 方法 装置 存储 介质 | ||
本发明公开了一种企业关联关系识别方法、装置、存储介质及终端,该方法包括:通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;输出待识别企业和多个企业之间的关联关系。因此,采用本申请实施例,使得训练后的模型在识别时将数据分类问题转成分布问题,能进一步提高模型的识别能力,可根据识别出的企业关联关系可以加速企业关系知识图谱构建工作,让人工智能技术更好的在企业营销活动中落地。
技术领域
本发明涉及人工智能技术领域,特别涉及一种企业关联关系识别方法、装置及存储介质。
背景技术
企业关联关系,是指根据供给关系确定上游企业与下游企业之间的关系。通常,一家企业的上游企业和下游企业的健康状况,直接影响该企业的经营状态。如果能够获知与该企业具有上下游关系的企业,则可以将上下游企业的诸多因素纳入考虑范围内。因此,在很多场景下,例如,对企业进行信用评估等场景,人们希望能够准确获知企业关联关系。
现有的企业上下游供需关系识别方法采用分类的思想进行识别,具体有无监督学习和监督学习两种主流方法。其中无监督学习需要手工去构造与企业上下游供需关系相关的特征,但需要很强的行业知识,因为不同行业企业的关联特征是不同的。监督学习通常是基于深度学习的方法,但需要大量的标注数据才能取到好的效果,消耗大量的人工成本。由于现有技术中无监督学习和监督学习生成的模型识别能力低,从而降低了企业关系知识图谱构建工作,让人工智能技术无法高效的在企业营销活动中落地。
发明内容
本申请实施例提供了一种企业关联关系识别方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种企业关联关系识别方法,该方法包括:
通过应用程序编程接口和/或网络爬虫采集多个企业的文本信息;
确定待识别企业的文本信息,将多个企业的文本信息和待识别企业的文本信息输入预先训练的企业关联关系识别模型中;其中,企业关联关系识别模型基于BERT神经网络、卷积神经网络以及K均值聚类算法创建的;
输出待识别企业和多个企业之间的关联关系。
可选的,按照下述方法生成预先训练的企业关联关系识别模型,包括:
采集并预处理每个行业中多个企业的文本信息,生成训练样本;
根据BERT神经网络、卷积神经网络以及K均值聚类算法创建企业关联关系识别模型;
将训练样本输入至企业关联关系识别模型中,输出模型的损失值;
当损失值达到最小时,生成训练后的企业关联关系识别模型。
可选的,方法还包括:
从训练样本中随机抽取某一企业的文本信息;
将某一企业的文本信息输入训练后的企业关联关系识别模型中,生成企业类别;
计算企业类别的类别相似度;
当类别相似度大于预设值且模型的训练次数到达预设次数时,生成预先训练的企业关联关系识别模型。
可选的,采集并预处理每个行业中多个企业的文本信息,生成训练样本,包括:
采集每个行业中多个企业的文本信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州未名信科科技有限公司;浙江省北大信息技术高等研究院,未经杭州未名信科科技有限公司;浙江省北大信息技术高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011331510.9/2.html,转载请声明来源钻瓜专利网。