[发明专利]网络文章原创性判定方法在审
申请号: | 201610163870.X | 申请日: | 2016-03-21 |
公开(公告)号: | CN105786799A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 聂敏;杨磊;夏虎 | 申请(专利权)人: | 成都寻道科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平;陈靓靓 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网络文章原创性判定方法,首先对待判定文章进行分词,得到特征词条,统计特征词条的出现频率并计算Hash值,通过出现频率和Hash值计算特征词条的权值向量,将所有特征词条的权值向量累加得到文章的权值向量,对权值向量进行降维得到文章的判定向量,计算待判定文章与数据库中参考文章的判定向量的汉明距离,根据汉明距离进行原创性判定,得到是否具有原创性的结果;如果判定得到相似文章,则需要进一步精确判定:得到待判定文章与相似文章的特征词条,构建两篇文章的特征向量,通过特征向量的相似度来进行原创性判定。本发明结合文章特征词条的出现频率和Hash值来计算网络文章之间的相似度,实现更为可靠有效的文章原创性判定。 | ||
搜索关键词: | 网络 文章 原创 判定 方法 | ||
【主权项】:
一种网络文章原创性判定方法,其特征在于,包括以下步骤:S1:对待判定文章的文本进行分词处理,得到文章的特征词条;S2:对于待判定文章的特征词条,统计每个特征词条在文章中的出现频率,按照出现频率从大到小抽取前N个特征词条,第i个特征词条记为fi,对应的出现频率记为di,其中i=1,2,…,N,N根据实际需要进行设置;S3:对于每个特征词条fi,使用Hash函数计算该词条的Hash值,计算结果取M位,记为Hi=(hi1,hi2,…,hiM),其中M=2α,α≥5;S4:根据每个特征词条fi的权重di和Hash值Hi,计算特征词条的权值向量Wi=(wi1,wi2,…,wiM),其中第j个权值元素wij的计算公式为
j=1,2,…,M;S5:将N个特征词条的权值向量Wi按位累加,得到权值向量Q=(q1,q2,…,qM),其中
对权值向量Q进行降维,得到判定向量S=(s1,s2,…,sM),其具体方法为:![]()
S6:计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离;如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T1,则判定待判定文章具有原创性,判定结束;如果与一篇以上参考文章的判定向量的汉明距离在范围[T2,T1]内,则将这些参考文章作为待判定文章的相似文章,进入步骤S107;如果与一篇以上参考文章的判定向量的汉明距离小于T2,则将这些参考文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束;T1和T2是预先设置的两个汉明距离阈值,其中T2<T1;S7:对于待判定文章及其对应的相似文章,分别获取每篇文章的特征向量,获取特征向量的方法为:对文章进行分词处理,得到文章的特征词条,统计各个特征词条在文章中的出现频率,按照出现频率从大到小抽取前R个特征词条,第r个特征词条记为fr,对应的出现频率记为dr,其中r=1,2,…,R,R根据实际需要进行设置;分别计算待判定文章和每篇相似文章的相似度,相似度计算方法为:记待判定文章的特征词条集合为A,相似文章的特征词条集合为B,求取两个集合的并集C=A∪B,根据特征词条集合C构建待判定文章的特征特征向量Va=(va1,va2,…,vaK)和相似文章的特征向量Vb=(vb1,vb2,…,vbK),其中K表示特征词条集合C中的特征词条数量,vak和vbk分别表示第k个特征词条在待判定文章和相似文章中的出现频率,k=1,2,…,K;计算特征向量Va和Vb之间的相似度,该相似度即为文章间的相似度;如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T3,则将这些相似文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都寻道科技有限公司,未经成都寻道科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610163870.X/,转载请声明来源钻瓜专利网。
- 上一篇:智能移动终端、文件管理器及其文件夹显示方法
- 下一篇:数据主题获取方法及装置