[发明专利]一种基于互联网数据的P2P企业自动识别方法与系统在审
申请号: | 201711035398.2 | 申请日: | 2017-10-30 |
公开(公告)号: | CN108038490A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 金耀辉;姜华;李慧;王永坤 | 申请(专利权)人: | 上海思贤信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 201207 上海市浦东新区自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 数据 p2p 企业 自动识别 方法 系统 | ||
1.一种基于互联网数据的P2P企业自动识别方法,其特征在于,包括以下主要步骤:
步骤1、采集结构化和非结构化企业数据;
步骤2、清洗整合提炼为结构化数据;
步骤3、结合非数值型与数值型两部分数据形成结构化宽表;
步骤4、选取样本进行特征转化,形成特征数据;
步骤5、利用特征数据进行数学建模;
步骤6、人工交叉验证,调整模型;
步骤7、服务器端接收用户输入的识别请求;
步骤8、系统进入网站采集企业数据;
步骤9、利用模型进行企业识别;
步骤10、服务器端返回模型识别结果。
2.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤1具体为:服务器端通过数据采集系统等数据源采集非结构化企业数据;所述非结构化企业数据包括P2P企业和非P2P企业数据。
3.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤4具体为:根据所述步骤3中所述结构化宽表的数据,选取其中已知的P2P企业与非P2P企业数据,以这些企业数据作为样本进行特征转化,把每个字段转化为数值特征,形成特征数据。
4.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤5具体为:应用所述步骤4中的特征数据,在此基础上利用分类器算法生成一个针对公司是否涉及P2P业务的分类模型,形成P2P企业识别模型。
5.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤6具体为:利用模型分析预测其他企业涉及P2P业务的概率,结合人工交叉验证,分析预测错误的数据,调整参数重新训练,直到模型达到一定精度,完善所述P2P企业识别模型。
6.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤7具体为:服务器接收用户发送的识别请求,所述识别信息为用户输入的企业信息或网址。
7.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤8具体为:系统自动分析用户输入信息,若用户输入的是企业网站,系统自动采集企业网站信息后进行分析,形成企业数据。
8.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤9具体为:系统根据采集到的企业数据或用户输入的文字性描述,利用所述P2P企业识别模型自动进行P2P企业识别,获得识别结果。
9.一种基于互联网数据的P2P企业自动识别系统,其特征在于,包括服务器、企业分类建模装置、企业自动识别装置;
所述服务器端用于采集非结构化企业数据、服务器端接收用户输入的企业信息或网址和返回模型识别结果;
所述企业分类建模装置用于,对非结构化企业数据进行清洗整合,提炼结构化数据,对数值型数据进行整合;结合非数值型与数值型两部分数据形成结构化宽表;选取企业作为样本进行特征转化,把每个字段转化为数值特征;利用这些数值化数据进行数学建模;利用模型分析预测其他企业涉及P2P业务的概率,进行人工交叉验证,分析预测错误的数据,调整参数重新训练,直到模型达到一定精度;
所述企业自动识别模块用于,接收用户输入的企业信息或网址;系统自动分析用户输入信息,若用户输入的是企业网站,系统自动采集企业网站信息后进行分析;利用P2P企业识别模型对相应企业数据进行识别,获取企业识别结果。
10.如权利要求9所述的基于互联网数据的P2P企业自动识别系统,其特征在于,
所述企业分类建模装置包括:数据采集模块、数据整合模块、特征转化模块、建立识别模型模块;
所述数据采集模块用于采集结构化和非结构化的企业数据;
所述数据整合模块用于将数据采集模块采集到的企业数据整合提炼成结构化数据,并形成结构化宽表;
所述特征转化模块用于提取特征数据,利用数据整合模块中生成的结构化数据,选取已知的P2P企业与非P2P企业作为样本进行特征转化,将每个字段转化为数值特征;
所述建立识别模型模块用于建立P2P企业识别分类模型,并对此模型进行调整直至精度达到要求;
所述企业自动识别装置包括:输入模块、P2P企业识别模块、输出模块;
所述输入模块用于让用户输入待识别的企业信息或网址;
所述P2P企业识别模块利用模型分析数据,对企业进行识别;
所述输出模块用于输出模型识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海思贤信息技术股份有限公司,未经上海思贤信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711035398.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置