[发明专利]一种基于傅里叶变换的文档相似判别方法有效

申请号：	201310153223.7	申请日：	2013-04-27
公开（公告）号：	CN103324664A	公开（公告）日：	2013-09-25
发明（设计）人：	张涛;林为民;马媛媛;邓松;时坚;李伟伟;汪晨;陈亚东;周诚	申请（专利权）人：	国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京安博达知识产权代理有限公司 11271	代理人：	徐国文
地址：	100031 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于傅里叶变换文档相似判别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于信息检索和文本挖掘技术领域，具体涉及一种基于傅里叶变换的文档相似判别方法。

背景技术

随着人们对科学技术和社会发展的日益重视，学术领域逐渐向多元化、信息化、现代化的趋势发展。在这种形势下，人们比以往任何时候都迫切地需要高效、全面、方便的检索学术信息。另一方面，人们还要防止学术抄袭，以达到对学位论文和学术期刊进行监管和规范的目的。论文的检索和查重，最关键的就是对文本信息相似度的比较和计算，因此，文本相似度的计算广泛应用于信息检索、文本挖掘等领域，是一个非常基础而关键的问题，也一直是人们研究的热点和难点。

文本相似度计算有着比较广泛的应用，典型的应用有：

(1)信息智能检索：搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的网页。这些网页的数量往往很大，而且对于某一关键字检索出来的网页并没有一定的相关性，也不一定全都是用户想要检索的网页，这些都增加了用户获得有用信息的难度。如果利用文本相似度技术，在搜索过程中去掉相似度很高的重复信息，这将大大的有利于用户发现自己感兴趣的信息，提高信息检索的质量。

(2)自动问答系统：在这种系统中，问题是多种多样，且非常巨大的，有些问题是非常相似的，如果用人工来回答，将耗费大量的时间和人力，如果在这种系统中应用文本相似度技术，将相似度很高的问题归为一类，使系统对这类问题自动做出答复，将节省大量的时间。

(3)文本查重：在某些领域，考虑到隐私性和独创性，要求文本不能重复出现，那么应用文本相似度技术，对这类文本进行相似度的计算，就可以看出哪些文本多次出现。因此，研究文本相似度的算法具有重要的实际价值。

目前，为了计算文档之间的相似度，常见的计算方法就是余弦相似度计算方法，该方法是在对文档进行特征选取后，进行文本加权，将语料变为一个空间向量模型。最后通过内积与余弦公式最终计算出文本间的相似度大小，但是该方法的最大缺点就是当语料库增大时，用向量来表示文本的难度就会增加，同时随着向量维数的增大，计算相似度的复杂度会随之增大，效率随之降低。

傅里叶变换是一种特殊的积分变换。它能将满足一定条件的某个函数表示成正弦基函数的线性组合或者积分。在不同的研究领域，傅里叶变换具有多种不同的变体形式，如连续傅里叶变换和离散傅里叶变换。傅里叶变换通过对函数的分析来达到对复杂函数的深入理解和研究。最初，傅立叶分析是作为热过程的解析分析的工具，但是其思想方法仍然具有典型的还原论和分析主义的特征。“任意”的函数通过一定的分解，都能够表示为正弦函数的线性组合的形式，而正弦函数在物理上是被充分研究而相对简单的函数类。利用这一点，傅里叶变换可通过对相对简单的事物的研究来了解复杂事物。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于傅里叶变换的文档相似判别方法，主要用于判别一个文档与文档集合中的文档是否相似，以便保证文档的安全性和合法性。该方法不仅可以在计算相似度时降低对文档表示方法的要求，而且会降低计算的复杂度，提高计算效率。

为了实现上述发明目的，本发明采取如下技术方案：

提供一种基于傅里叶变换的文档相似判别方法，所述方法包括以下步骤：

步骤1：获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns，以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns'；

步骤2：计算关键词序列Ks和Ks'中每个关键词的权值系数，以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs'；

步骤3：对权值序列FKs和FKs'进行傅里叶变换，并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ω_S；

步骤4：计算检测文档s′和文档集合S中文档s_i之间的相似度距离D(s′,s_i)，并将其与阀值ω_S进行比较，判定检测文档s′与文档集合S是否相似。

所述步骤1中，对文档集合S中的每个文档s_i进行划词，选取文档s_i的关键词，并记录每个关键词出现的次数，得到文档s_i的关键词序列Ks_i和对应的关键词次数集合Ns_i，进而合并得到文档集合S的关键词序列Ks和对应的关键词次数集合Ns；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司，未经国家电网公司;中国电力科学研究院;江苏省电力公司信息通信分公司;江苏省电力公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310153223.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于傅里叶变换的文档相似判别方法有效

专利文献下载