[发明专利]一种内容无关的文本快速过滤方法有效
申请号: | 201610192303.7 | 申请日: | 2016-03-30 |
公开(公告)号: | CN105893503B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 张帆;金哲凡 | 申请(专利权)人: | 浙江传媒学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 张宇娟;郑婷 |
地址: | 310018 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机信息检索领域,具体涉及一种应用于图书馆信息检索、抄袭检测、著作权侵权检测等场合中的内容无关的文本快速过滤方法。使用分隔符将母文本A和目标文本B各自分割成系列片段,对每一文本片段使用能值函数求值,所述能值函数与文本内容无关且与文本包含的噪声正相关;在求得的母文本A和目标文本B的能值中,将小于预定义能值阈值H的量滤去,得到能值序列N与M;对M作自相似分析;在允许误差约束下将M与N作匹配比较,如果穷尽N,目标文本B与母文本A的任意一部分内容的匹配度均低于阈值,则目标文本B被排除。使用本发明的文本快速过滤方法,避免了对文本内容的分析,计算量小,过滤速度快,且可以屏蔽部分噪声影响。 | ||
搜索关键词: | 一种 内容 无关 文本 快速 过滤 方法 | ||
【主权项】:
1.一种内容无关的文本快速过滤方法,用于对含有噪音的目标文本B,当其与母文本A中的任意一部分内容匹配度低于匹配阈值时,将其快速排除,其中A=(a1a2...ai...ax),B=(b1b2...bi...by),ai∈S,bi∈S且x>y,S为出现在母文本A和目标文本B中的所有符号的集合,包括但不限于文字、字母、标点、数理记号、分段符、换行符,其特征在于,包括如下步骤:S1、定义能值函数F(cpcp+1...cq)=q‑p+1,其中,ci∈S,p≤i≤q,所述能值函数的函数值是与文本内容无关但与文本包含的噪声正相关的实数,预定义能值阈值为H;并定义能值序列N和M,所述能值序列中的元素为所述能值函数的函数值,所述能值序列N和M初始时为空;S2、定义有限集合L={l|l=(l1l2...lt),li∈S,t≥1},其中,l为在S中任意选取的分隔符和/或标点符号组成的长度大于等于1的序列;定义L的子集L’,即
L'={l'|l'=(l'1l'2...l't),l'i∈S,t≥1},令l'∈L';S3、以l对母文本A作分割,即A=(a1a2...las...atl...ax),从左至右对每一个片段(as...at)使用所述能值函数求值:n=F(as...at)=t‑s+1;如果n≤H,忽略n;如果n>H,则将n加入能值序列N的末尾;如此处理母文本A后得到能值序列N=(n1n2...nz),z<=x;S4,以l'对目标文本B作分割,即B=(b1b2...l'bu...bvl'...by),从左至右对每一个片段(bu...bv)使用所述能值函数求值:m=F(bu...bv)=v‑u+1;如果m≤H,忽略m;如果m>H,则将m加入能值序列M的末尾;如此处理目标文本B后得到能值序列M=(m1m2...mw),w<=y;S5、对所述能值序列M作自相似性分析,得到M的自相似性序列为RM=(r1r2...ri...rw),其中ri为整数且ri∈[0..w];S6、预定义能值误差上限e和累积误差上限E;取i的初值为1,g的初值为0,将能值序列M=(m1m2...mw)与N=(nini+1...ni+w‑1)从左到右按序作比较,即,当变量j从1增加至w时,对每个j:a.如果|mj‑ni+j‑1|>e,且i=z‑w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于匹配阈值,排除目标文本B;b.如果|mj‑ni+j‑1|>e,且i≠z‑w+1,则令i=i+j‑1‑rj,并令g=0,变量j加1后继续进行比较;c.如果|mj‑ni+j‑1|≤e,则令g=g+|mj‑ni+j‑1|;若g>E且i=z‑w+1,则认为目标文本B与母文本A中的任意一部分内容匹配度低于阈值,排除目标文本B;若g>E,且i≠z‑w+1,则令i=i+j‑1‑rj,并令g=0,变量j加1后继续进行比较;若变量j增加至w后,目标文本B仍未排除,则保留目标文本B;B是否与A匹配取决于后续的内容相似度比较。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江传媒学院,未经浙江传媒学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610192303.7/,转载请声明来源钻瓜专利网。
- 上一篇:引线防护装置
- 下一篇:一种新能源汽车永磁同步电机
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法