[发明专利]一种基于目标文本的计算文本相似度的方法有效
申请号: | 201310105450.2 | 申请日: | 2013-03-28 |
公开(公告)号: | CN103207905A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 孔祥杰;宋秀苗;夏锋 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 关慧贞;梅洪玉 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于目标文本的计算文本相似度的方法。为了克服现有文本相似度算法单纯地考虑算法的准确率和效率,本发明结合项目实际情况综合考虑算法的准确率和效率两方面,保证在一定准确度的前提下提高算法的效率。在提高算法准确度方面,本发明充分考虑专业词汇对相似度计算的影响,采用了对不同类别的关键词加权的方式计算相似度;而在提高算法效率方面,本发明采用倒排索引聚类方法和维过滤方法。本发明既保证了文本之间的专业相关度计算的准确度,同时又兼顾了计算效率。 | ||
搜索关键词: | 一种 基于 目标 文本 计算 相似 方法 | ||
【主权项】:
一种基于目标文本的计算文本相似度的方法,其特征在于包括以下步骤: (1)获取目标文本和待计算相似度的文本集合:获得目标文本和文本集合D后组成一个新的文本组合textSet,首先将所有的文本进行唯一id编号处理,目标文本用id号区分,其他文本按照输入的先后顺序依次编号; (2)自动分词获取各文本的特征向量,包括以下步骤: (2.1)去停用词; (2.2)匹配专业关键词和常用关键词; (2.3)同义词转换; (2.4)统计各关键词在各文本中出现的频率,关键词的词性; (2.5)计算各关键词的权值,创建特征向量; 关键词的权值计算公式为:ω(Ti)=α·β·TF(Ti)·IDF(Ti) 其中ω(Ti)为关键词Ti的权值,TF(Ti)=N/M,其中N为Ti关键词在含M个关键词的文本中出现的次数,IDF(Ti)=log(D/Dw)其中D为文章总数,Dw为Ti关键词出现过的文章数;专业词汇IDF的计算以该词汇所属的专业领域的文章总数和该关键词出现在该专业领域内的文章总数;α为关键词类别决定关键词权值的一个因子,其中专业词汇>常用词汇;β为关键词词性决定关键词权值的另一因子,其中名词>形容词>副词; (3)聚类:首先为待计算文本集合创建倒排索引文件,然后以目标文本的专业词汇向量中的专业词汇为基础,搜索倒排索引文件,由于倒排索引文件中的关键词是按照关键词拼音的字母顺序排列的,采用二分法查找将倒排索引文件中含有目标文本中专业词汇的文件找出来,并将区分这些文本的唯一标识id放到集合C中; (4)维过滤:首先为目标文本和集合C中的文本建立一个共同的倒排索引文件,然后根据建立的倒排索引文件创建一个存储各文本相应的关键词权值的矩阵M;矩阵M的列数为倒排索引文件中关键词的个数加1,矩阵M的行数为集合C中文本的个数加1,矩阵的第一列存储文本的id号,矩阵的第一行存储目标文本的特征向量;把目标文本中权值为0的列全部去掉,得到一个新矩阵M′,统计其他文本去掉的列中非0的列数并保存; (5)计算相似度 。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310105450.2/,转载请声明来源钻瓜专利网。
- 上一篇:多芯片封装体
- 下一篇:坡体压力自调式多级框架梁护坡结构