[发明专利]一种数据爬取的方法及其相关设备有效
申请号: | 201710997897.3 | 申请日: | 2017-10-23 |
公开(公告)号: | CN107798091B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 车进;曾晶;李学照;张良杰;陈桓 | 申请(专利权)人: | 金蝶软件(中国)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 方法 及其 相关 设备 | ||
本申请实施例公开了一种数据爬取的方法,用于获取更多的企业外部数据。本申请实施例方法包括:数据爬取装置根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;然后从所述第一目标文本中提取第二语义支撑词;再根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;最后根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
技术领域
本申请涉及互联网搜索引擎技术领域,尤其涉及一种数据爬取的方法及其相关设备。
背景技术
企业外部数据挖掘是通过挖掘暴露在公共领域(如互联网)公开数据,通过分析获取到的企业外部数据以帮助企业做决策的过程。传统的企业外部数据是通过运营人员人工搜索获取或者爬虫暴力获取之后通过分析分析后获取。
传统的通过人工搜索方式获取企业外部数据的方法效率低下,依赖人工收集数据,企业外部数据的挖掘局限于运营人员的主观判断,主观性很强,往往不能得到很全面的数据。而现有技术中利用爬虫暴力获取企业外部数据,会受限于网站设置的数据壁垒,不能挖掘出足够多的企业外部数据。
发明内容
本申请实施例提供了一种数据爬取的方法及其相关设备,用于获取更多的企业外部数据。
本申请实施例一方面提供了一种数据爬取的方法,具体包括:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
从所述第一目标文本中提取第二语义支撑词;
根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
本申请实施例另一方面提供了一种数据爬取装置,具体包括:
第一爬取单元,用于根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
第一提取单元,用于从所述第一目标文本中提取第二语义支撑词;
生成单元,用于根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
第二爬取单元,用于根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
本申请实施例另一方面提供了一种数据爬取装置,具体包括:
输入装置、输出装置、处理器和存储器;
所述处理器通过调用所述存储器存储的操作指令,用于执行如下步骤:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
从所述第一目标文本中提取第二语义支撑词;
根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
本申请的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶软件(中国)有限公司,未经金蝶软件(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710997897.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置