[发明专利]一种基于目标文本的计算文本相似度的方法有效
申请号: | 201310105450.2 | 申请日: | 2013-03-28 |
公开(公告)号: | CN103207905A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 孔祥杰;宋秀苗;夏锋 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 关慧贞;梅洪玉 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 目标 文本 计算 相似 方法 | ||
技术领域
本发明涉及信息检索和数据挖掘领域,尤其涉及一种基于目标文本的相似度计算方法。
背景技术
随着互联网时代的到来,信息的爆炸式增长已经将人们淹没在信息的海洋中,人们再也不用担心互联网上没有自己想要的资源,但是如何才能找到这些资源成为了摆在信息检索专家面前的难题。文本相似度计算理论在信息检索和数据挖掘领域一直占据着非常重要的位置,而且在现实中也有很好的应用。
学生作业抄袭检测,使用文本相似度计算方法可以很好的发现学生作业的抄袭现象,整治不良学风。
保护知识产权,使用文本相似度计算方法检测是否含有剽窃他人研究成果的,以此来判断知识产权是否遭到侵犯。如若发现知识产权遭到剽窃等非法行为,可以对剽窃者实施必要的惩罚措施,通过这种方式更好的保护知识产权。
网页的去重,通过文本相似度计算找到近似的网页并去除。去除重复网页不仅能够提高用户搜索效率,还能为用户提供很好的搜索体验。
然而目前现有的文本相似度算法除了过于追求准确度,就是单纯的追求提高算法效率,根本没有考虑到具体的应用场景以及文本所涉及的专业领域。如果两个文本根本不属于同一专业领域,那么这两个文本就没有什么相似度可言。发明内容
本发明正是鉴于上述技术问题而提出了一种基于目标文本的文本相似度计算方法,该方法包括以下几个步骤:
(1)获取目标文本targetText和待计算相似度的文本集合D
(2)自动分词获取各文本的特征向量
(3)聚类
(4)维过滤
(5)计算相似度
步骤(1)获得目标文本和文本集合D后组成一个新的文本组合textSet,首先将所有的文本进行唯一id编号处理,目标文本可以用特定的id号区分,如目标文本id为0,其他文本按照输入的先后顺序依次编号。
步骤(2)的自动分词获取各文本的特征向量又通过以下几步完成:
(2.1)去停用词
(2.2)匹配专业关键词和常用关键词
(2.3)同义词转换
(2.4)统计各关键词在各文本中出现的频率、关键词的词性
(2.5)计算各关键词的权值,创建特征向量
该步骤主要通过调用停用词库、常见词库还有专业词库提取出文本集合textSet中各文本的特征向量。对textSet中的任一文本首先进行去停用词处理,即将和停用词库中匹配的停用词从文本中去掉,然后再进一步匹配专业词库中的专业词汇,匹配成功的专业词汇,经词频统计、同义词转换,并进一步计算出相应专业关键词的权值后存储到专业关键词向量中,常用词库和文本的匹配处理和专业词库的类似,最后我们得到文本的两个特征向量-专业关键词向量和普通关键词向量。在提取目标文本特征向量的过程中的同义词转换,可以是将英文关键词转化为相应的中文关键词。另外步骤(2.5)中关键词的权值计算公式为:ω(Ti)=α·β·TF(Ti)·IDF(Ti)
其中ω(Ti)为关键词Ti的权值,TF(Ti)=N/M,(其中N为Ti关键词在含M个关键词的文本中出现的次数),IDF(Ti)=log(D/Dw)其中D为文章总数,Dw为Ti关键词出现过的文章数。专业词汇IDF的计算以该词汇所属的专业领域的文章总数和该关键词出现在该专业领域内的文章总数。α为关键词类别决定关键词权值的一个因子,其中专业词汇>常用词汇;β为关键词词性决定关键词权值的另一因子,其中名词>形容词>副词。
步骤(3)首先为待计算文本集合创建倒排索引文件,然后以目标文本的专业词汇向量中的专业词汇为基础,搜索倒排索引文件,由于倒排索引文件中的关键词是按照关键词拼音的字母顺序排列的,本发明采用二分法查找将倒排索引文件中含有目标文本中专业词汇的文件找出来,并将区分这些文本的唯一标识id放到集合C中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310105450.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多芯片封装体
- 下一篇:坡体压力自调式多级框架梁护坡结构