[发明专利]一种文档语义相似度计算方法在审

申请号：	201410348547.0	申请日：	2014-07-21
公开（公告）号：	CN104182468A	公开（公告）日：	2014-12-03
发明（设计）人：	贾岩	申请（专利权）人：	安徽华贞信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	合肥市长远专利代理事务所(普通合伙) 34119	代理人：	程笃庆;黄乐瑜
地址：	230000 安徽省合肥市高***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档语义相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及面向文档的智能信息检索技术领域，尤其涉及一种文档语义相似度计算方法。

背景技术

语义计算是一种在用户和计算机共享的涵义和词汇的基础上编写信息内容，目标是通过这种涵义上的共享，填充语义鸿沟，使用户和计算机能够更紧密地合作，将信息系统建立在人们现实生活的基础上，从而丰富整个现实世界的涵义和价值。

基于关键字匹配的搜索引擎在判断查询与文档之间是否匹配是通过关键字的字面匹配，是二值逻辑；而基于语义搜索引擎理论上绝大部分文档都与被查询概念之间有一个非0相似度值，从对语义相似度的定义上可以发现，这种现象的存在是由于词语相似度矩阵中大部分词语之间有非零的相似度。这将对系统的存储能力带来巨大挑战，这也是一些语义计算方法不能大规模系统中应用的一个重要原因。

因此，相似度矩阵中的较小的相似度值，既没有多大意义，又对系统带来巨大的负担，需要相似的矩阵中的数据进行筛选。筛选的原则是删除值比较小的相似度值，只保留部分较大的相似度值。

发明内容

基于背景技术提出的问题，本发明提出了一种文档语义相似度计算方法，减小了文档检索工作量，提高了工作效率。

本发明提出的一种文档语义相似度计算方法，采用设定阈值的方法，分区间计算相似度，具体包括以下步骤：

A、构建一套或多套本体库；通过输入概念体系和主要描述词语构成本体库，本体库中，概念之间根据关联程度构成概念树，概念树构成概念森林；

B、计算语义相似度；利用tf-idf算法计算查询对象vQuery_m与文档vDoc_m之间的语义相似度，计算公式为，

sim(vQuerym,vDocn)=Σjtf-idf(cnj)·Σisim(cmi,cnj)]]>