[发明专利]一种内容无关的文本快速过滤方法有效

专利信息
申请号: 201610192303.7 申请日: 2016-03-30
公开(公告)号: CN105893503B 公开(公告)日: 2019-05-14
发明(设计)人: 张帆;金哲凡 申请(专利权)人: 浙江传媒学院
主分类号: G06F16/332 分类号: G06F16/332
代理公司: 杭州宇信知识产权代理事务所(普通合伙) 33231 代理人: 张宇娟;郑婷
地址: 310018 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等场合中的内容无关的文本快速过滤方法。使用分隔符将母文本A和目标文本B各自分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与文本包含的噪声正相关;在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H的量滤去,得到能值序列N与M;对M作自相似分析;在允许误差约束下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于阈值,则目标文本B被排除。使用本发明的文本快速过滤方法,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽部分噪声影响。
搜索关键词: 一种 内容 无关 文本 快速 过滤 方法
【主权项】:
1.一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符,其特征在于,包括如下步骤:S1、定义能值函数F(cpcp+1...cq)=q‑p+1,其中,ci∈S,p≤i≤q,所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H;并定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为空;S2、定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1},其中,l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列;定义L的子集L’,即L'={l'|l'=(l'1l'2...l't),l'i∈S,t≥1},令l'∈L';S3、以l对母文本A作分割,即A=(a1a2...las...atl...ax),从左至右对每一个片段(as...at)使用所述能值函数求值:n=F(as...at)=t‑s+1;如果n≤H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(n1n2...nz),z<=x;S4,以l'对目标文本B作分割,即B=(b1b2...l'bu...bvl'...by),从左至右对每一个片段(bu...bv)使用所述能值函数求值:m=F(bu...bv)=v‑u+1;如果m≤H,忽略m;如果m>H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(m1m2...mw),w<=y;S5、对所述能值序列M作自相似性分析,得到M的自相似性序列为RM=(r1r2...ri...rw),其中ri为整数且ri∈[0..w];S6、预定义能值误差上限e和累积误差上限E;取i的初值为1,g的初值为0,将能值序列M=(m1m2...mw)与N=(nini+1...ni+w‑1)从左到右按序作比较,即,当变量j从1增加至w时,对每个j:a.如果|mj‑ni+j‑1|>e,且i=z‑w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值,排除目标文本B;b.如果|mj‑ni+j‑1|>e,且i≠z‑w+1,则令i=i+j‑1‑rj,并令g=0,变量j加1后继续进行比较;c.如果|mj‑ni+j‑1|≤e,则令g=g+|mj‑ni+j‑1|;若g>E且i=z‑w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i≠z‑w+1,则令i=i+j‑1‑rj,并令g=0,变量j加1后继续进行比较;若变量j增加至w后,目标文本B仍未排除,则保留目标文本B;B是否与A匹配取决于后续的内容相似度比较。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江传媒学院,未经浙江传媒学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610192303.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top