[发明专利]基于词向量和机器学习的数据溯源方法和系统有效

申请号：	201910584814.7	申请日：	2019-07-01
公开（公告）号：	CN110399485B	公开（公告）日：	2022-04-08
发明（设计）人：	丁疏横;范磊	申请（专利权）人：	上海交通大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	庄文莉
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于词向量和机器学习的数据溯源方法和系统，通过网络采集流量数据，基于流量数据进行文件特征提取，得到文本特征向量；使用机器学习对流量数据进行聚类，得到多个聚类种类，将待溯源文件与多个聚类种类进行匹配，得到待溯源文件的所属种类；在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定。本发明可扩展性强，不依赖于特定系统，不需要进行数据库改造，对数据格式没有要求，溯源稳定可靠，效率高；从网络中抓包，通过词向量提取特征向量，通过机器学习进行聚类，再通过计算余弦值进行溯源，脱离对数据库的依赖，避免了高昂的系统管理成本。
搜索关键词：	基于向量机器学习数据溯源方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于词向量和机器学习的数据溯源方法，其特征在于，包括:流量采集步骤：通过网络采集流量数据，基于流量数据进行文件特征提取，得到文本特征向量；聚类步骤：使用机器学习对流量数据进行聚类，得到多个聚类种类，将待溯源文件与多个聚类种类进行匹配，得到待溯源文件的所属种类；匹配源步骤：在待溯源文件的所属种类中，通过文本特征向量进行文本相似度计算，对待溯源文件进行溯源判定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910584814.7/，转载请声明来源钻瓜专利网。

上一篇：长文本的情感分析方法、装置、计算机设备和存储介质
下一篇：一种分类方法、装置和设备、存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于词向量和机器学习的数据溯源方法和系统有效

专利文献下载