[发明专利]基于高频词汇的物联网流量识别与数据提取系统有效
申请号: | 201910739678.4 | 申请日: | 2019-08-12 |
公开(公告)号: | CN110457702B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 古元;蔡莎;林飞;唐威;华仲峰;王娜;毛华阳 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F16/951;H04L67/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100082 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 高频 词汇 联网 流量 识别 数据 提取 系统 | ||
基于高频词汇的物联网流量识别与数据提取系统涉及信息技术领域。本发明由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成。本发明可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。
技术领域
本发明涉及信息技术领域。
背景技术
互联网革命即将到来,工业互联网的改革也是迫在眉睫。工业互联网作为新时代的信息技术与先进制造业深度融合的新业态,是成为主要工业国应对国际制作业竞争的共同选择,也是我国从“中国制造”走向“中国织造”的必然选择。
“工业互联网”和“工业4.0”是未来工业的发展方向,他们利用工业大数据和物联网提升工业生产力。工业互联网从传统的封闭性技术和数据局域网传输进入到物联网技术的工业生产中,各种各样的传感器部署再工业生产环境中,导致传统的工业开始面对海量数据的采集的问题。工业互联网的数据的存储,数据融合能力,扩展能力,通用性和灵活性欠缺的等问题。
工业互联网的OT资产与IT应用的更好的融合。必须IT要下沉,OT要上升,从各种系统流量而来的数据分析,可是目前看,工业互联网企业传统悠久,数据格式和接口各有不同,导致数据分析比较麻烦。工业互联网OT资产数据上升,导致数据会暴露在公网中,存在的数据安全性问题,确保数据安全就需要先对工业互联网流量进行精细识别分类,这样才能让有关监管部门进行监管和防护。
目前有一种方法是直接把工业互联网传统文本流量转换成流量特征图,将传统属性内关系研究转化到,从不同角度挖掘流量特征。然而基于这种方法的缺点:不能快速高效的在海量网络流量中过滤出工业互联网产生的流量;不能自动化收集流量规则特征;不能自动更新流量规则特征库。本技术可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。
共有技术
用到TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
发明内容
鉴于现有技术的不足,本发明的基于高频词汇的物联网流量识别与数据提取系统由行业分类器、网络爬虫模块、行业文本集模块、特征词生成器、词频分类器、行业及特征词集合模块、接入流量还原器、词库匹配算法模块组成;
由行业分类器对工业互联网进行行业分类;
通过网络爬虫模块针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫模块抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集,行业文本集存储于行业文本集模块;
由特征词生成器读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;
由词频分类器将行业分类和该行业文本集的特征词组成行业及特征词集合,行业及特征词集合存储于行业及特征词集合模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910739678.4/2.html,转载请声明来源钻瓜专利网。