[发明专利]一种文档语义相似度计算方法在审

专利信息
申请号: 201410348547.0 申请日: 2014-07-21
公开(公告)号: CN104182468A 公开(公告)日: 2014-12-03
发明(设计)人: 贾岩 申请(专利权)人: 安徽华贞信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 合肥市长远专利代理事务所(普通合伙) 34119 代理人: 程笃庆;黄乐瑜
地址: 230000 安徽省合肥市高*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种文档语义相似度计算方法,减小了文档检索工作量,提高了工作效率,其采用设定阈值的方法,分区间计算相似度,具体包括以下步骤:A、构建一套或多套本体库;通过输入概念体系和主要描述词语构成本体库,本体库中,概念之间根据关联程度构成概念树,概念树构成概念森林;B、计算语义相似度;利用tf-idf算法计算查询对象vQuerym与文档vDocm之间的语义相似度,计算公式为tf为查询对象在文档中出现的次数,idf为查询对象普遍重要性的度量,sim(cmi,cnj)为概念cmi,cnj之间的语义相似度,计算公式如下d为两个概念在概念树中的距离;c为随系统自动调节参数;p为本体中预定义的cmi,cnj之间的关联程度,默认值为1。
搜索关键词: 一种 文档 语义 相似 计算方法
【主权项】:
一种文档语义相似度计算方法,其特征在于,采用设定阈值的方法,分区间计算相似度,具体包括以下步骤:A、构建一套或多套本体库;通过输入概念体系和主要描述词语构成本体库,本体库中,概念之间根据关联程度构成概念树,概念树构成概念森林;B、计算语义相似度;利用tf‑idf算法计算查询对象vQuerym与文档vDocm之间的语义相似度,计算公式为,sim(vQuerym,vDocn)=Σjtf-idf(cnj)·Σisim(cmi,cnj)]]>tf为查询对象在文档中出现的次数,idf为查询对象普遍重要性的度量,sim(cmi,cnj)为概念cmi,cnj之间的语义相似度,计算公式如下,sim(cmi,cnj)=p·cd+c]]>d为两个概念在概念树中的距离;c为随系统自动调节参数;p为本体中预定义的cmi,cnj之间的关联程度,默认值为1;C、设定阈值,计算概念相似度;选择阈值δ,0≤δ<1,重新改写概念相似度并记为S,则,S=sim-δ1-δif sim>δ0else,(0≤δ<1)]]>sim为sim(cmi,cnj)简写;D、语义相似度计算公式变形;将概念相似度S代入tf‑idf算法,得到语义相似度计算公式,sim(vQuerym,vDocn)=Σjtf-idf(cnj)·ΣiS(cmi,cnj)=ΣiΣcnj∈SETitf-idf(cnj)·S(cmi,cnj)]]>S(cmi,cnj)为的cmi,cnj的概念相似度S,词语cmi属于vQuerym,SETi为与cmi相似度大于0的词语集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽华贞信息科技有限公司;,未经安徽华贞信息科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410348547.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top