[发明专利]一种基于语义组件的学术知识问答方法、系统、设备及存储介质在审
申请号: | 202211018126.2 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115344714A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 任一支;李岗;王冬;袁理锋;吴国华;王秋华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F40/242;G06F40/295;G06F40/30;G06F40/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 组件 学术 知识 问答 方法 系统 设备 存储 介质 | ||
1.一种基于语义组件的学术知识问答方法,其特征在于,包括如下步骤:
S1、构建学术领域知识库
S11、获取学术领域知识数据,以学术研究者在互联网上公开的学术信息为数据源,其中公开的数据通过爬虫工具进行爬取;
S12、对获取的学术领域知识数据定义学术信息域,所述学术信息域包括“作者”域、“机构”域、“领域”域、“期刊”域和“文献”域,并应用层级的数据管理根据学术信息域构成学术领域内实体的关系语义网;
S13、构建基于资源描述框架数据模型的学术领域知识图谱,对爬取的数据进行标注处理,并以实体,关系,实体三元组的数据形式存储;
S14、构建学术领域同义词映射库;
S15、构建学术领域属性知识图谱;
S2、基于意图语义组件构建学术查询的知识图谱子图;
S3、基于约束语义组件修正知识图谱子图;
S4、答案生成。
2.根据权利要求1所述的基于语义组件的学术知识问答方法,其特征在于,所述步骤S2包括如下子步骤:
S21、对提出的学术查询问句进行预处理,包括使用同义词映射库对问句q进行标准词替换、获取其语法解析图Ggram以及语义组件gi,其中语义组件为每一个叶节点所在的路径;
S22、对问句q进行学术命名实体识别
对定义的五个学术信息域进行实体样本标注,进而实现领域内的命名实体识别,实体识别结果为实体集E=(e1,e2,e3,…,en),n为实体数量,ei为实体;
S23、对预处理后的问句和语义组件分别编码为特征向量;
S24、根据预先构建的学术领域知识图谱,找到实体集E中每个实体ei所关联的关系集R,查找结果为(r1,r2,…,rn),其中每个关系ri和实体ei都有三元组然后对关系集合R中的关系ri编码为特征向量,表示为其中d表示嵌入维度;
S25、过滤关系,进而构建学术问句的知识图谱子图;
S26、为路径设定阈值k,挑选出k个相似度最大的关系,即(s1,s2,…,sk),n1>k,保留其对应的关系(r1,r2,…,rk),然后进行下一跳的路径延伸,将关系(r1,r2,…,rk)连接的尾实体作为起点实体集进行迭代延伸,过程重复步骤S25和步骤S26,其中的关系替换为下一跳关系集中的关系rj,迭代计算n1次,即为n1跳的知识图谱子图KGsub。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211018126.2/1.html,转载请声明来源钻瓜专利网。