[发明专利]基于高频词汇的物联网流量识别与数据提取系统有效
申请号: | 201910739678.4 | 申请日: | 2019-08-12 |
公开(公告)号: | CN110457702B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 古元;蔡莎;林飞;唐威;华仲峰;王娜;毛华阳 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F16/951;H04L67/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100082 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于高频词汇的物联网流量识别与数据提取系统涉及信息技术领域。本发明由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成。本发明可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。 | ||
搜索关键词: | 基于 高频 词汇 联网 流量 识别 数据 提取 系统 | ||
【主权项】:
1.基于高频词汇的物联网流量识别与数据提取系统,其特征在于由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成;/n由行业分类器对工业互联网进行行业分类;例如:汽车行业,水电行业,车联网行业,交通信息行业等;/n通过网络爬虫针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集;/n由特征词生成器读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;/n由词频分类器读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;/n由词频分类器将行业分类和该行业文本集的特征词组成行业及特征词集合;/n由接入流量还原器对经过的网络流量进行文本还原,生成流量文本;/n由词库匹配算法读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合进行比对;当流量文本中的最长公共子序列与行业及特征词集合中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910739678.4/,转载请声明来源钻瓜专利网。