[发明专利]基于活动知识图谱的科学工作流图版推送方法及装置在审
申请号: | 201911258247.2 | 申请日: | 2019-12-10 |
公开(公告)号: | CN112948569A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 孙莎莎;施振生;周长兵;孙梦宇;董大忠;昌燕;马超;武瑾;芮昀 | 申请(专利权)人: | 中国石油天然气股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/36;G06F40/279 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 赵平;周永君 |
地址: | 100007 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 活动 知识 图谱 科学 工作流 图版 推送 方法 装置 | ||
1.一种基于活动知识图谱的科学工作流图版推送方法,其特征在于,包括:
获取科学工作流需求图版,所述科学工作流需求图版包括多个活动槽,所有活动槽之间具有固定结构关系,每个活动槽包括活动或者子工作流;所述活动为最小结构单元,所述子工作流包括多个具有固定结构关系的活动;
基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合;所述活动知识图谱包括多个科学工作流;
基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流,按照所述科学工作流需求图版中所有活动槽之间的固定结构关系生成科学工作流图版;
推送所述科学工作流图版。
2.根据权利要求1所述的科学工作流图版推送方法,其特征在于,还包括:
建立所述活动知识图谱。
3.根据权利要求2所述的科学工作流图版推送方法,其特征在于,所述建立所述活动知识图谱,包括:
提取预存储的科学工作流以及每个活动和子工作流作为命名实体;
抽取各命名实体之间的关系属性;
对各命名实体进行信息补充,提取各命名实体的标题和文本描述;
根据每个命名实体的标题和文本描述,将原始的科学工作流数据转换至基于实体和关系的活动知识图谱。
4.根据权利要求1所述的科学工作流图版推送方法,其特征在于,所述科学工作流包括有活动集合、子工作流集合以及边集合,所述边集合包括所有活动和子工作流的结构关系,所述基于预设的活动知识图谱,获取每个活动槽的候选活动和子工作流集合,包括:
确定所述活动知识图谱中各子工作流以及各活动的语义相关性;
获取起始点活动槽和终止点活动槽的候选活动和子工作流集合;
根据起始点活动槽和终止点活动槽的候选活动和子工作流集合,以及所述边集合依次确定其余活动槽的候选活动和子工作流集合。
5.根据权利要求4所述的科学工作流图版推送方法,其特征在于,所述确定所述活动知识图谱中各子工作流以及各活动的语义相关性,包括:
将各子工作流和各活动通过第一文档的形式表示,其中所述文档包括对应表示的子工作流或活动的名称和描述信息;
根据所述描述信息获取每个子工作流或活动的代表性单词;
将每个所述代表性单词对应添加到子工作流或活动的名称中组成一个文本片段,其中所有子工作流或活动的名称共同组成第二文档;
将所述第二文档转化为biterm主题模型的输入格式,并输入至所述biterm主题模型;
基于biterm主题模型的原理,将每种代表性单词提取为一个主题单元,并统计每个主题单元的概率;
根据每个主题单元的概率生成所述第二文档的主题比例期望;
根据困惑度、主题相似度平衡biterm主题模型的泛化能力,确定最优主题个数;
针对每种主题,计算所有活动和子工作流下产生该主题的概率平均值;
保留概率平均值不小于设定阈值的主题;其中被保留的主题所对应的所有活动和子工作流具有语义相关性。
6.根据权利要求5所述的科学工作流图版推送方法,其特征在于,所述基于语义相似度以及结构相似度从每个活动槽的候选活动和子工作流集合中选取出候选活动或者候选子工作流包括:
根据所述候选活动和子工作流集合中的元素计算结构相似度和语义相似度;
根据所述结构相似度和所述语义相似度的比重,对所述候选活动和子工作流集合中的所有活动或子工作流进行相似度排序,得到相似度从高到低的序列;
从所述序列中选取前K个活动或子工作流作为对应活动槽的候选活动或子工作流,K为大于0的正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油天然气股份有限公司,未经中国石油天然气股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911258247.2/1.html,转载请声明来源钻瓜专利网。