[发明专利]一种基于聚类的文本查重方法有效

申请号：	201610839650.4	申请日：	2016-09-21
公开（公告）号：	CN106446148B	公开（公告）日：	2019-08-09
发明（设计）人：	贾倩;王立伟;王彦静;杜俊鹏;姜悦;杨玉堃;张冶;郭大庆;池元成;张丽晔;许怡婷;康磊晶	申请（专利权）人：	中国运载火箭技术研究院
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F16/34
代理公司：	中国航天科技专利中心 11009	代理人：	范晓毅
地址：	100076 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于聚类的文本查重方法，方法步骤包括：1、数据采集处理将文本数据存储在数据库和文件服务器中，2、预处理对文本数据进行分词和特征向量提取；3、对数据库中已完成预处理的文本数据进行聚类，并计算出各类簇的中心特征向量；4、一次查重处理提取文本数据的特征向量，并与数据库中各类簇的中心向量进行比对，对于距离小于设定阈值的中心特征向量，对其类簇进行记录；5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对，对于距离小于一定阈值的特征向量，将其对应的文本数据记为重复文本数据，从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作，提升文本查重效率。
搜索关键词：	一种基于文本方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于聚类的文本查重方法，其特征在于包括以下步骤：(1)、进行数据采集处理，具体处理过程如下：(1a)、接收外部输入的新增文本数据，为所述文本数据分配编号，并对所述文本数据的预处理状态、查重状态和特征向量进行初始化；其中，预处理状态和查重状态的初值为0，特征向量的初值为空；(1b)将所述文本数据的编号、预处理状态、查重状态和特征向量存储在在数据库中建立的数据表Table_FileRecord中，并将文本数据全文存储在服务器中；(2)、在数据库中查询预处理状态为0的文本数据，并在服务器中读取相应的文本数据全文，然后通过预处理确定出所述文本数据的特征向量，并将所述特征向量写入到数据表Table_FileRecord中，然后将所述文本数据的预处理状态设置为1，其中：第i个文本数据的特征向量w_i,j为第i个文本数据全文中的第j个特征词的权重；j＝1、2、…、L_i，L_i为第i个文本数据中的特征词个数，i＝1、2、…、M；M为完成预处理的文本数据总数；(3)、如果数据库中完成预处理的文本数据总数M>1，且对(log₁₀M)²取整后得到的整数K≥2，则对M个文本数据进行聚类处理，形成K个类簇；所述K个类簇的中心向量分别为F₁、F₂、…、F_K；其中，对M个文本数据进行聚类处理形成K个类簇的具体实现过程如下：(3a)、在M个文本数据中，随机选取K个文本数据作为初始的聚类中心，即将所述K个文本数据对应的K个特征向量作为初始的中心向量；其中，将所述K个中心向量记为T₁′、T₂′、…、T′_K；将聚类中心以外的M‑K个文本数据的特征向量记为T′_K+1、T′_K+2、…、T′_M；(3b)、对M‑K个文本数据的特征向量进行聚类划分，将T′_K+1、T′_K+2、…、T′_M划分到以T₁′、T₂′、…、T′_K为中心向量的类簇中，具体划分过程如下：(3ba)、计算M‑K个文本数据的特征向量T′_K+1、T′_K+2、…、T′_M与K个中心向量T₁′、T₂′、…、T′_K之间的相似度距离；其中，第m个特征向量T′_K+m与第n个中心向量T′_n之间的相似度距离(3bb)、根据M‑K个特征向量T′_K+1、T′_K+2、…、T′_M与K个中心向量T₁′、T₂′、…、T′_K之间的相似度距离，进行聚类划分，其中：如果第m个特征向量T′_K+m与第n′个中心向量T′_n′的相似度距离S_m,n′最小，即S_m,n′＝min(S_m,1,S_m,2,…,S_m,k)，则将第m个特征向量T′_K+m划分到以T′_n′为中心向量的类簇中；m＝1、2、…、M‑K，n′＝1、2、…或K；(3bc)、分别对K个类簇内的特征向量求取平均值，并将所述平均值作为类簇的中心向量；即将第n个类簇的中心向量T_n′更新为第n个类簇内所有特征向量的平均值；(3bd)、如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离小于或等于设定的误差阈值，则判断聚类划分结束，记录K个类簇的中心向量，分别标记为F₁、F₂、…、F_K；如果更新后的类簇中心向量与更新前的类簇中心向量的相似度距离大于设定的误差阈值，则返回步骤(3ba)；(4)、在数据库中查询查重状态为0的文本数据，并在数据表Table_FileRecord读取所述文本数据的特征向量，组成查重文本向量集合T_new，即T_new＝{T₁″,T″₂,…,T″_M′}，其中，T₁″,T″₂,…,T″_M′分别查重状态为0的M′个文本数据对应的特征向量；其中M′≤M；(5)、在q＝1、2、…、M′时，重复以下步骤(5a)～(5b)，实现对集合T_new中各特征向量对应的文本数据的第一次查重处理：(5a)、在查重文本向量集合T_new中提取第q个特征向量T″_q，并建立特征向量T″_q对应的一次相似向量集合First_near_class_q；所述First_near_class_q的初值为空；(5b)、计算特征向量T″_q与K个类簇的中心向量F₁、F₂、…、F_K的相似度距离，其中：如果特征向量T″_q与第k个类簇的中心向量F_k之间的相似度距离S′_q,k≤S_{pre_set}，则将中心向量F_k写入一次相似向量集合First_near_class_q中；S_{pre_set}为设定的相似度距离阈值；S′_q,k的计算公式为(6)、在q＝1、2、…、M′时，重复以下步骤(6a)～(6d)，实现对集合T_new中各特征向量对应的文本数据的第二次查重处理，确定出集合T_new对应的文本数据的相似文本：(6a)、建立特征向量T″_q对应的二次相似向量集合Second_near_class_q；所述Second_near_class_q的初值为空；(6b)依次读取一次相似向量集合First_near_class_q中的中心向量，如果所述First_near_class_q中有Q_q个中心向量，则读取所述Q_q个中心向量对应类簇中所有的特征向量，组成特征向量集合A_q；(6c)、计算特征向量T″_q与特征向量集合A_q中每个特征向量的相似度距离，如果特征向量T″_q与所述特征向量的相似度距离小于或等于S_{pre_set}，则将所述特征向量写入二次相似向量集合Second_near_class_q；(6d)、将二次相似向量集合Second_near_class_q中各特征向量对应的文本数据，作为特征向量T″_q对应文本数据的相似文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国运载火箭技术研究院，未经中国运载火箭技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610839650.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于聚类的文本查重方法有效

专利文献下载