[发明专利]物联网设备数据集构建方法、装置、电子设备和存储介质在审
申请号: | 202011359712.4 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112445862A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 李红;刘培培;于楠;文辉;闫兆腾;朱红松;孙利民 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/215;G06F16/951;G06F40/295 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王宇杨 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联网 设备 数据 构建 方法 装置 电子设备 存储 介质 | ||
1.一种物联网设备数据集构建方法,其特征在于,包括:
S1:从至少一个网站抓取设备信息;其中,每一设备信息包括如下信息中的至少一种:设备类型、设备品牌、设备型号、设备详情页网址;
S2:从所述设备信息中筛选出属于物联网设备的物联网设备信息;
S3:对每一物联网设备信息,判断所述物联网设备信息是否存在异常情况;所述异常情况包括如下至少一种情况:设备品牌的冗余、设备型号的冗余、设备品牌的缺失;
S4:若所述物联网设备信息存在异常情况,则通过如下至少一种方式修正:通过预先训练的命名实体识别模型修正、通过预设的正则表达式修正、基于修正后的内容通过网络搜索的结果修正;
S5:通过设备详情页的内容对修正后的物联网设备信息进行再修正;
S6:对再修正后的物联网设备信息进行标准化处理得到标准物联网设备信息,将所述标准物联网设备信息添加到数据库中。
2.根据权利要求1所述的物联网设备数据集构建方法,其特征在于,所述S4包括:
若所述异常情况为设备品牌的冗余,则将所述物联网设备信息中的冗余设备品牌输入命名实体识别模型中,得到由所述命名实体识别模型提取的新设备品牌,通过新设备品牌修正所述联网设备信息中的冗余设备品牌;
若所述异常情况为设备型号的冗余,则由正则表达式从所述物联网设备信息中的冗余设备型号中提取新设备型号,通过新设备型号修正所述联网设备信息中的冗余设备型号。
3.根据权利要求2所述的物联网设备数据集构建方法,其特征在于,所述S4还包括:
若所述异常情况为设备品牌的缺失或者通过所述命名实体识别模型未提取到新设备品牌,则根据所述物联网设备信息中不存在缺失且不存在冗余的设备型号进行网络搜索,或者根据通过所述正则表达式提取的新设备型号进行网络搜索;
获取每次进行网络搜索出现的排序在第一预设排序之前的搜索设备品牌,确定每一搜索设备品牌的出现频率,并按照对出现频率由高及低的排序,获取出现频率的排序大于第二预设排序的搜索设备品牌,作为高频设备品牌,判断高频设备品牌中是否存在出现在预设品牌库中的设备品牌;
若高频设备品牌中存在出现在预设品牌库中的设备品牌,则通过出现在所述预设品牌库中的高频设备品牌,补充所述物联网设备信息中缺失的设备品牌或者修正所述联网设备信息中的冗余设备品牌;
若高频设备品牌中不存在出现在预设品牌库中的设备品牌,则通过出现频率的排序最高的高频设备品牌,补充所述物联网设备信息中缺失的设备品牌或者修正所述联网设备信息中的冗余设备品牌。
4.根据权利要求1所述的物联网设备数据集构建方法,其特征在于,所述S5包括:
根据所述物联网设备信息中的设备详情页网址,从所述物联网设备信息的设备详情页中按照设定品牌格式提取详情页品牌,并按照设定型号格式提取详情页型号;
若提取到所述详情页品牌,则通过所述详情页品牌对修正后的物联网设备信息中的设备品牌进行在再修正,否则,不对修正后的物联网设备信息中的设备品牌进行再修正;
若提取到所述详情页型号,则通过所述详情页型号对修正后的物联网设备信息中的设备型号进行在再修正,否则,不对修正后的物联网设备信息中的设备型号进行再修正。
5.根据权利要求1所述的物联网设备数据集构建方法,其特征在于,所述S1包括:
获取待抓取设备信息的至少一个静态网站,由所述至少一个静态网站创建爬虫队列;
通过所述爬虫队列,从每一静态网站中抓取设备类型和每一设备类型对应的网址;
从每一设备类型对应的网站中抓取设备品牌和每一设备品牌对应的网址;
从每一设备品牌对应的网站中抓取设备型号和每一设备型号对应的网址,作为设备详情页网址;
生成设备信息,所述设备信息包括:任一设备类型、根据所述任一设备类型对应的网址抓取的任一设备品牌、根据所述任一设备品牌对应的网址抓取的任一设备型号和所述任一设备型号对应的设备详情页网址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011359712.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海绵枕头绿色制造工艺
- 下一篇:双极板气密性检测设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置