[发明专利]一种基于傅里叶变换的文档相似判别方法有效
申请号: | 201310153223.7 | 申请日: | 2013-04-27 |
公开(公告)号: | CN103324664A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 张涛;林为民;马媛媛;邓松;时坚;李伟伟;汪晨;陈亚东;周诚 | 申请(专利权)人: | 国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 傅里叶变换 文档 相似 判别 方法 | ||
技术领域
本发明属于信息检索和文本挖掘技术领域,具体涉及一种基于傅里叶变换的文档相似判别方法。
背景技术
随着人们对科学技术和社会发展的日益重视,学术领域逐渐向多元化、信息化、现代化的趋势发展。在这种形势下,人们比以往任何时候都迫切地需要高效、全面、方便的检索学术信息。另一方面,人们还要防止学术抄袭,以达到对学位论文和学术期刊进行监管和规范的目的。论文的检索和查重,最关键的就是对文本信息相似度的比较和计算,因此,文本相似度的计算广泛应用于信息检索、文本挖掘等领域,是一个非常基础而关键的问题,也一直是人们研究的热点和难点。
文本相似度计算有着比较广泛的应用,典型的应用有:
(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的网页。这些网页的数量往往很大,而且对于某一关键字检索出来的网页并没有一定的相关性,也不一定全都是用户想要检索的网页,这些都增加了用户获得有用信息的难度。如果利用文本相似度技术,在搜索过程中去掉相似度很高的重复信息,这将大大的有利于用户发现自己感兴趣的信息,提高信息检索的质量。
(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。
(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。因此,研究文本相似度的算法具有重要的实际价值。
目前,为了计算文档之间的相似度,常见的计算方法就是余弦相似度计算方法,该方法是在对文档进行特征选取后,进行文本加权,将语料变为一个空间向量模型。最后通过内积与余弦公式最终计算出文本间的相似度大小,但是该方法的最大缺点就是当语料库增大时,用向量来表示文本的难度就会增加,同时随着向量维数的增大,计算相似度的复杂度会随之增大,效率随之降低。
傅里叶变换是一种特殊的积分变换。它能将满足一定条件的某个函数表示成正弦基函数的线性组合或者积分。在不同的研究领域,傅里叶变换具有多种不同的变体形式,如连续傅里叶变换和离散傅里叶变换。傅里叶变换通过对函数的分析来达到对复杂函数的深入理解和研究。最初,傅立叶分析是作为热过程的解析分析的工具,但是其思想方法仍然具有典型的还原论和分析主义的特征。“任意”的函数通过一定的分解,都能够表示为正弦函数的线性组合的形式,而正弦函数在物理上是被充分研究而相对简单的函数类。利用这一点,傅里叶变换可通过对相对简单的事物的研究来了解复杂事物。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于傅里叶变换的文档相似判别方法,主要用于判别一个文档与文档集合中的文档是否相似,以便保证文档的安全性和合法性。该方法不仅可以在计算相似度时降低对文档表示方法的要求,而且会降低计算的复杂度,提高计算效率。
为了实现上述发明目的,本发明采取如下技术方案:
提供一种基于傅里叶变换的文档相似判别方法,所述方法包括以下步骤:
步骤1:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';
步骤2:计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';
步骤3:对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS;
步骤4:计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。
所述步骤1中,对文档集合S中的每个文档si进行划词,选取文档si的关键词,并记录每个关键词出现的次数,得到文档si的关键词序列Ksi和对应的关键词次数集合Nsi,进而合并得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司,未经国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310153223.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁控式病房物品防盗装置
- 下一篇:一种双电源