[发明专利]基于语义的数字档案信息关联检索方法在审
申请号: | 202211047113.8 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115544225A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 冯炫;马林聪;曹豪;潘冬;苗思宇 | 申请(专利权)人: | 陕西智引科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36 |
代理公司: | 济南誉琨知识产权代理事务所(普通合伙) 37278 | 代理人: | 庞庆芳 |
地址: | 710000 陕西省西安市西咸新区沣东新城*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 数字 档案 信息 关联 检索 方法 | ||
1.一种基于语义的数字档案信息关联检索方法,其特征在于,包括以下步骤:
a、首先对档案信息资源进行数字化处理;
b、将a步骤数字化处理后的档案信息资源根据档案的事件、单位等关键元素进行元素分类,正确抽取与档案本体的相关知识和确定公认的基础词汇,并给出知识之间的语义关系构建RDF三元组;
c、对b步骤构建的RDF三元组进行同义词扩展,并将扩展之后的知识存储在对应三元组中;
d、然后根据事件主题或事件主题延伸出的节点实现不同档案信息资源之间的关键词关联匹配,形成语义知识图谱模型;
e、然后,读取用户检索时输入的关键字信息,利用d步骤创建的语义知识图谱模型通过语义分析和检索将获取到的资源进行排序并输出;
f、将最终查询到的检索结果返回给用户;
其中,所述e步骤中,语义分析和检索包括直接匹配检索和语义相似度计算匹配检索,其中,所述语义相似度计算匹配检索通过计算得到与关键字最为匹配的数据内容以及根据检索到的关键字主体查询对应的关联信息内容,整体进行相关性排序并输出,所述语义相似度计算公式为:
simS(m,n)=α*simA(m,n)+β*simC(m,n)+γ*simL(m,n)
其中,m和n为两个不同的档案,α、β、γ为取值范围在0~1之间的调节参数,simA(m,n)为档案m和n之间所包含的属性相关性,simC(m,n)为档案m和n之间的最大语义余弦距离,simL(m,n)为档案m和n之间的路径距离。
2.根据权利要求1所述的基于语义的数字档案信息关联检索方法,其特征在于,所述e步骤中,simA(m,n)的计算公式为:
其中,f(m∩n)为档案m和n之间相同属性的相似度,f(m-n)为档案m包含但档案n不包含的属性数量,f(n-m)为档案n包含但档案m不包含的属性数量。
3.根据权利要求1所述的基于语义的数字档案信息关联检索方法,其特征在于,所述e步骤中,simC(m,n)的计算公式为:
simC(m,n)=cos(m,n)。
4.根据权利要求3所述的基于语义的数字档案信息关联检索方法,其特征在于,所述simL(m,n)的计算公式为:
其中,length(m,n)为档案m跳转到档案n之间的路径距离参数,为调节参数,取值为1。
5.根据权利要求4所述的基于语义的数字档案信息关联检索方法,其特征在于,所述语义知识图谱模型还包括档案知识抽取模块以及知识存储模块,其中,所述档案知识抽取模块包括档案的原子信息元素以及档案的RDF三元组抽取。
6.根据权利要求5所述的基于语义的数字档案信息关联检索方法,其特征在于,所述知识存储模块采用Neo4j图数据库对语义知识图谱模型进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西智引科技有限公司,未经陕西智引科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211047113.8/1.html,转载请声明来源钻瓜专利网。