[发明专利]一种企业关系挖掘方法在审
申请号: | 201910716435.9 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110597870A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 马越;吕东方;梁贝贝;李涛;杨茜;姜涛 | 申请(专利权)人: | 长春市万易科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/26;G06F16/28;G06Q30/02 |
代理公司: | 22214 长春众邦菁华知识产权代理有限公司 | 代理人: | 于晓庆 |
地址: | 130000 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业关系 分支机构 挖掘 图谱 发现 企业风险评估 标注信息 多源数据 股东关系 股权结构 关系抽取 检查数据 竞争关系 企业数据 企业投资 数据获取 数据清洗 数据挖掘 图形展示 信息综合 员工信息 结构化 社交圈 构建 融合 探索 调查 分析 经营 统一 投资 | ||
一种企业关系挖掘方法,属于数据挖掘领域,包括:关系定义:企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;数据获取:企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;数据清洗:检查数据一致性、处理无效值和缺失值;多源数据融合:将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;关系抽取。企业关系挖掘是构建企业关系图谱的核心,企业关系图谱可将企业关系以结构化的图形展示给用户,方便用户快速理解和进一步探索。挖掘企业关系可以发现企业社交圈、发现企业投资圈、发现企业股权结构、发现企业实际控制人、进行企业风险评估等。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种企业关系挖掘方法。
背景技术
2012年,谷歌提出了知识图谱的概念,用于增强搜索引擎功能。知识图谱是对客观物理世界的一种结构化的符号表达,也是一个网状知识库,它由具有属性的实体通过关系链接而成,关系也包含自身的属性。从图论的角度理解,知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系。企业与企业之间、企业与人物之间存在着各种关系。通过这些关系,可以构建企业关系网络,也就是企业知识图谱。构建企业知识图谱,能够帮助我们从大量杂乱的数据中挖掘出企业潜在关联,生成企业画像。
企业知识图谱构建的关键点在于企业关系挖掘。企业关系挖掘常用的方法有基于规则的方法、基于有监督的统计学习的方法、无监督的开放关系抽取方法、引入第三方数据等。其中,基于规则的方法是使用关系抽取模板从文本中抽取实体关系的一种方法;基于有监督的统计学习的方法是将关系抽取任务转变为分类问题的一种方法;无监督的开放关系抽取方法的主要思想是将所有的动词短语都看作是潜在的关系动词进行关系抽取,然后通过关系判别器来判断每一个动词短语是否正确的表达了某一种关系;引入第三方数据是指引用第三方数据服务商的结构化的企业关系数据。
《中文企业知识图谱构建与分析》(华东师范大学,2016届研究生硕士学位论文,程文亮),该方案从上市公司的公报数据中抽取了企业之间的商业往来关系,进行关系挖掘的步骤是将上市公司公报数据进行分词,统计公报中的动词词频。根据动词词频将公司之间的商业往来关系定义为持有关系、投资关系、转让关系、合并关系、收购关系五种。定义关系抽取的特征模板,根据特征模板构造关系抽取器。然后用最大熵模型训练关系分类器。该方案存在以下问题:
(1)上市公司数目只占总公司数目的很小一部分。非上市公司绝大部分不会公布本公司公报数据。基于公报数据定义的公司关系语义规则也不适用于其它来源数据。
(2)该方案中定义的企业关系分类并不合理。五种关系可以统一合并成股东关系。
(3)基于规则的关系抽取器准确率高、召回率低,在新数据集上的表现差,不利于拓展。
《企业关系挖掘技术研究》(哈尔滨工业大学,2010年研究生硕士学位论文,郭凯),该方案中,信息抽取的数据源是阿里巴巴网站上的IT领域企业网页。从企业网页中抽取经营产品等信息作为代表企业信息的文本。基于“文本描述相似的企业在经营上也存在较大的相似性”这一假设,该方案引入了文本相似度,通过相似度值判定企业间竞争大小。因为企业间的关系主要体现在企业产品间的联系上,为了获得产品间的联系,该方案引入了本体,通过领域本体对产品进行推理查询,以产品关系判定企业关系。该方案将企业间的关系简单的分为竞争关系和合作关系。对生产同类产品的企业考虑了企业的经营模式信息。对于经营模式分别为“生产经营”和“经销批发”的同类产品企业间判定为存在潜在合作关系。该方案采用Jena工具包进行关系推理。该方案存在以下问题:
(1)数据集中在某一行业,类型单一。
(2)关系分类简单。同一行业的公司可以分为竞争合作关系。不同行业的企业关系按竞争合作关系分类并不太合适。该方案中只关注某一行业企业关系,没有指出跨行业的企业竞争合作关系如何抽取。竞争合作关系只是企业关系中的很小一部分,不适用于挖掘其它企业关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春市万易科技有限公司,未经长春市万易科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910716435.9/2.html,转载请声明来源钻瓜专利网。