[发明专利]一种基于知识产权大数据的情报调查方法、系统和存储介质在审
申请号: | 202010790498.1 | 申请日: | 2020-08-07 |
公开(公告)号: | CN111737477A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 耿德强;武伟;刘洋;李杨 | 申请(专利权)人: | 杭州六棱镜知识产权科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/33;G06F16/31;G06F16/215;G06F16/28 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 唐超文 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识产权 数据 情报 调查 方法 系统 存储 介质 | ||
1.一种基于知识产权大数据的情报调查方法,包括以下步骤:
S1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构化文本、非结构化文本、其他数据信息;
S2、数据处理步骤:包括数据清洗,数据分类,添加标签;
S3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系;
S4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库;其中,
在数据获取步骤中,所述多元多样化的数据信息包括知识产权数据信息、工商注册企业数据信息、企业投资和融资数据;
在实体关系挖掘步骤中,利用语义序列核函数对训练数据样本空间中每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相似度s,其中s为0~1之间的实数;并利用层次聚类方法,将训练数据样本空间进行聚类,并采用平均相似度进行簇间度量,度量公式为:
式中,
在聚类过程中,限定簇间相似度满足终止阈值:
其中终止阈值ε设置为0.9~1。
2.根据权利要求1所述的方法,在步骤S1中,将购买自第三方的数据信息直接录入数据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文件根据预定规则解析后提取到数据库中;来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。
3.根据权利要求1所述的方法,在步骤S2中,数据处理步骤包括数据清洗预加工,数据分类聚类以及对关键词添加标签的步骤。
4.根据权利要求3所述的方法,在所述数据清洗预加工步骤中,数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。
5.根据权利要求3所述的方法,在所述数据分类聚类步骤中,完成切词的分类聚类处理后,对所提取的关键词添加标签,并将其作为模型分析的计算指标。
6.根据权利要求3或5之一所述的方法,所述对关键词添加的标签包括实体类型标签,例如企业、高校院所、研究机构、个人;关系类标签,例如股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;行业类标签,包括但不限于农业、通信业、林业、医药制造业、金属采掘业;地址类标签,例如国别、省市、街道、园区、邮政编码;身份类标签,包括但不限于董事、监事、总经理、院士、教授、工程师;时间类标签,包括但不限于专利申请日、专利申请年、专利公开日、专利公开年、任职日期、任职年限、投资时间。
7.根据权利要求1所述的方法,所述实体关系挖掘步骤包括建立数据样本空间,进行样本空间修剪以及建立基于Hadoop的关系挖掘处理方案三个步骤,其中利用层次聚类方法,将训练数据样本空间进行聚类修剪。
8.根据权利要求1或7之一所述的方法,在获得层次聚类后的样本簇后,根据预先设定的核心关联关系,基于定义的推理规则对候选关联实体对进行推理,得到更多的扩展关联实体关系,所述核心关联关系包括但不限于股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;所述推理规则包括语义推理和传递推理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州六棱镜知识产权科技有限公司,未经杭州六棱镜知识产权科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010790498.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置