[发明专利]一种云计算的海量文档相似检测方法有效

申请号：	201910821968.3	申请日：	2019-09-02
公开（公告）号：	CN110516212B	公开（公告）日：	2022-10-28
发明（设计）人：	王海涛;常春勤;曾艳阳;张霄宏	申请（专利权）人：	河南理工大学
主分类号：	G06F40/194	分类号：	G06F40/194;G06F16/182;G06F16/11
代理公司：	北京东方盛凡知识产权代理有限公司 11562	代理人：	贾耀淇
地址：	454003 河南***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种云计算的海量文档相似检测方法，借助于分布式文件系统和并行数据库，搭建云计算环境，然后将待检测海量文档集上传到并行数据库，语料库中文本‑术语关系集使用键值对方式保存到并行关系数据库；待检测文本经过去停用词、分词等预处理后，通过特征提取后获得其特征向量，然后与并行数据库中语料库的特征向量进行相似度计算，产生相似度值；本发明适用于海量数据集的文本去重，具有运行效率高、运行时间短的优点，解决了传统相似检测技术不能适用于海量文本数据集的缺陷。
搜索关键词：	一种计算海量文档相似检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种云计算的海量文档相似检测方法，其特征在于，包括如下步骤：/n步骤一、根据分布式文件系统和并行数据库来搭建云计算环境，然后将待检测文档集上传到云计算环境中；/n步骤二、对待检测文档集进行去停用词、分词的预处理，将不同格式的文本文件转换为格式一致的文本文件；/n步骤三、将步骤二中文本变换为一个n维词频向量，即对所述文本进行词频向量的提取，然后SimHash算法生成向量指纹，所述指纹长度为64字节，获得向量指纹后，以键值对的格式存储到序列文件中，其中文件名为键，64位向量指纹为值；/n步骤四、在待测文档中，将所有特征向量加权，将特征权重作为加权系数，然后求和，则待检测文件就采用加权和向量来表示，通过该向量与文档集呈现角的度数，来判断待测文件的相似度。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河南理工大学，未经河南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910821968.3/，转载请声明来源钻瓜专利网。

上一篇：一种Word文档转换为长图片的方法
下一篇：一种基于表格层次化建模的结构化数据生成文本方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种云计算的海量文档相似检测方法有效

专利文献下载